Ktl-icon-tai-lieu

báo cáo chuyên đề khai phá dữ liệu

Được đăng lên bởi Nguyễn Việt Anh
Số trang: 22 trang   |   Lượt xem: 2951 lần   |   Lượt tải: 5 lần
MỞ ĐẦU
Giải thuật phân chùm K-Means là một trong những giải thuật được đánh giá cao trong khai phá
dữ liệu (Data Mining). Nó được áp dụng trong các bài toán thực tế như trong lĩnh vực nhận dạng
mẫu, phân tích phân loại, xử lý ảnh...
Tuy nhiên, giải thuật K-Means cũng có nhũng hạn chế nhất định khi tập dữ liệu đầu vào và số
chiều của chúng là lớn. Từ đó, đã có những đề xuất nhằm tăng tính hiệu quả của giải thuật K-Means,
được gọi là K-Means suy rộng.
Trong phạm vi của đề tài tập chỉ trung nghiên cứu giải thuật K-Means, các vấn đề liên quan và
những cải tiến của nó trong giải thuật K-Means suy rộng. Từ đó ứng dụng cho dữ liệu trong nhận
dạng tiếng nói. Luận văn không có tham vọng giải quyết toàn bộ vấn đề nhận dạng tiếng nói mà chỉ
đưa ra cách tiếp cận mới trên cơ sở cải tiến những hạn chế của giải thuật K-Means kinh điển là sử
dụng cây KD-tree và giải thuật lọc trong nhận dạng tín hiệu. Từ đó áp dụng để nhập điểm môn học
bằng tiếng nói tiếng việt, cụ thể các điểm từ 0 đến 10.
Kết quả nghiên cứu và thực hiện nội dung đề tài được thể hiện trong luận văn với cácnội dung
chính sau: Ngoài phần Mở đầu và Kết luận, các nội dung chính được chia làm 5 chương:
Chương I: Giới thiệu thuật toán K-Means
Chương II: Các kiến thức cơ sở về thuật toán K-Means
Chương III: Nội dung thuật toán K-Means
Chương IV: Triển khai, cài đặt thuật toán K-Means
Chương V: Kết luận thuật toán K-Means

Thuật toán K-Means

1

CHƯƠNG I: GIỚI THIỆU THUẬT TOÁN K-MEANS
Thuật toán gom nhóm K-Means được phát triển bởi Là thuật toán lặp đơn giản để chia CSDL
thành k nhóm (k do người dùng chỉ định). Được phát triển bởi nhiều nhà nghiên cứu khác nhau, điển
hình là Lloyd (1957, 1982), Forgey(1965), Friedman và Rubin (1967), McQueen (1967) và sau đó là
J. A. Hartigan and M. A. Wong khoảng những năm 1975.
Thuật toán Kmeans dùng để phân loại hay nhóm các đối tượng dựa trên các thuộc tính hay các
đặc điểm riêng thành K nhóm các đối tượng.
Việc gom nhóm dựa trên nguyên tắc cực tiểu hóa tổng bình phương khoảng cách giữa dữ
liệu và trọng tâm của các nhóm tương ứng. Do đó mục đích của việc gom nhóm K-Means chính
là phân loại dữ liệu.

Hình 1 – Minh họa gom nhóm K-Means
Thuật toán K-Means clustering là một trong những giải thuật học không giám sát thông dụng
nhất trong phân nhóm dữ liệu. Với mục tiêu chia tập gồm n đối tượng của cơ sở dữ liệu thành k
vùng (k

n nguyên, dương) sao cho các đối tượng trong cùng một vùng có khoảng cách bé còn các

đối tượng khác vùng thì có khoảng cách lớn hơn nhiều.
Thuật toán K-...
Thuật toán K-Means 1
MỞ ĐẦU
Gii thut phân chùm K-Means mt trong nhng gii thuật được đánh giá cao trong khai phá
d liệu (Data Mining). được áp dng trong các bài toán thc tế như trong lĩnh vc nhn dng
mu, phân tích phân loi, x lý nh...
Tuy nhiên, gii thut K-Means cũng nhũng hạn chế nhất định khi tp d liệu đầu vào s
chiu ca chúng là ln. T đó, đã có nhng đề xut nhằm tăng tính hiệu qu ca gii thut K-Means,
được gi là K-Means suy rng.
Trong phm vi của đề tài tp ch trung nghiên cu gii thut K-Means, các vấn đề liên quan
nhng ci tiến ca trong gii thut K-Means suy rng. T đó ng dng cho d liu trong nhn
dng tiếng nói. Luận n không có tham vọng gii quyết toàn b vấn đ nhn dng tiếng nói mà ch
đưa ra cách tiếp cn mới trên sở ci tiến nhng hn chế ca gii thut K-Means kinh điển s
dng cây KD-tree gii thut lc trong nhn dng n hiu. T đó áp dụng để nhập đim môn hc
bng tiếng nói tiếng vit, c th các điểm t 0 đến 10.
Kết qu nghiên cu thc hin nội dung đề tài được th hin trong lun văn với cácni dung
chính sau: Ngoài phn M đầu và Kết lun, các nội dung chính được chia làm 5 chương:
Chương I: Gii thiu thut toán K-Means
Chương II: Các kiến thức cơ sở v thut toán K-Means
Chương III: Ni dung thut toán K-Means
Chương IV: Triển khai, cài đặt thut toán K-Means
Chương V: Kết lun thut toán K-Means
báo cáo chuyên đề khai phá dữ liệu - Trang 2
Để xem tài liệu đầy đủ. Xin vui lòng
báo cáo chuyên đề khai phá dữ liệu - Người đăng: Nguyễn Việt Anh
5 Tài liệu rất hay! Được đăng lên bởi - 1 giờ trước Đúng là cái mình đang tìm. Rất hay và bổ ích. Cảm ơn bạn!
22 Vietnamese
báo cáo chuyên đề khai phá dữ liệu 9 10 55