Ktl-icon-tai-lieu

THUẬT TOÁN KMEAN VỚI BÀI TOÁN PHÂN CỤM DỮ LIỆU

Được đăng lên bởi littlesunny93-gmail-com
Số trang: 34 trang   |   Lượt xem: 2790 lần   |   Lượt tải: 9 lần
THUẬT TOÁN K-MEAN VỚI BÀI
TOÁN PHÂN CỤM DỮ LIỆU
Danh sách nhóm:
1.Nguyễn Thị Ngọc Hà
2.Nguyễn Thị Ngọc Quỳnh
3.Trần Thị Hồng Nhung
4.Nguyễn Hữu Quang
5.Huỳnh Bá thùy Trinh LOGO

NỘI DUNG
I. PHÂN CỤM DỮ LIỆU
II. THUẬT TOÁN K-MEAN
III. GIỚI THIỆU WEKA VÀ BÀI TOÁN ỨNG DỤNG

3

I.PHÂN CỤM DỮ LIỆU
1. Định nghĩa:
Phân cụm dữ liệu (PCDL) là các qui trình tìm cách
nhóm các đối tượng đã cho vào các cụm, sao cho các
đối tượng trong cùng 1 cụm tương tự nhau và các đối
tượng khác cụm thì không tương nhau.
PCDL nhằm khám phá cấu trúc của mẫu dữ liệu để
thành lập các nhóm dữ liệu từ tập dữ liệu lớn, nó cho
phép người ta đi sâu vào phân tích và nghiên cứu cho
từng cụm dữ liệu này nhằm khám phá và tìm kiếm các
thông tin tiềm ẩn, hữu ích phục vụ cho việc ra quyết
định
4

MỤC ĐÍCH
Xác định được bản chất
của việc nhóm các đối
tượng trong 1 tập dữ liệu
không có nhãn.

Phân cụm không dựa
trên 1 tiêu chuẩn chung
nào, mà dựa vào tiêu chí
mà người dùng cung cấp
trong từng trường hợp

5

2. ỨNG DỤNG
Xác định các nhóm khách hàng tiềm năng,
Marketing phân loại và dự đoán hành vi khách hàng.

Sinh học

Phân loại động, thực vật, phân loại gen

Bảo hiểm

Nhận dạng các nhóm công ty có chính sách bảo hiểm
mô tô với chi phí đền bù trung bình cao

Địa lý

Hoạch định thành
phố

Khác

Nhận ra các vùng đất giống nhau dựa vào
CSDL quan sát trên trái đất, phân nhóm nhà…
Nhận dạng các nhóm nhà cửa theo loại nhà,
giá trị và vị trí địa lý.
Một công cụ độc lập để xem xét phân bố dữ liệu
Làm bước tiền xử lý cho các thuật toán khác

6

3.CÁC YÊU CẦU PCDL TRONG KHAI PHÁ DỮ
LIỆU
 Có khả năng mở rộng tập dữ liệu
 Khả năng làm việc với các kiểu dữ liệu khác nhau.
 Khám phá ra các cụm có hình dạng bất kì
 Khả năng làm việc với dữ liệu nhiều chiều.
 Dễ hiểu, có thể diễn dịch và khả dụng
 Khả năng làm việc với dữ liệu có chứa nhiễu ( outliers)
 Ít nhạy cảm với thứ tự các bản ghi nhập vào

7

4. PHÂN LOẠI
Phân cụm phân hoạch

Phân cụm phân cấp
Phân cụm dựa trên mật độ

Phân cụm dựa trên lưới

Phân cụm dựa trên mô hình
Phân cụm có ràng buộc
8

Phân cụm phân hoạch
 Cho một cơ sở dữ liệu D chứa n đối tượng, tạo phân
hoạch thành tập có k cụm sao cho:
 Mỗi cụm chứa ít nhất một đối tượng
 Mỗi đối tượng thuộc về một cụm duy nhất
 Cho giá trị k, tìm phân hoạch có k cụm sao cho tối ưu
hoá tiêu chuẩn phân hoạch được chọn.

 Các thuật toán tiêu biểu: K-mean, K-mediod
 Hạn chế: không điều chỉnh được lỗi.

9

Phân cụm phân cấp
 Là sắp xếp một tập dữ liệu đã cho thành một cấu
trúc có dạng hình cây,...
LOGO
THUẬT TOÁN K-MEAN VỚI BÀI
TOÁN PHÂN CỤM DỮ LIỆU
Danh sách nhóm:
1.Nguyễn Thị Ngọc Hà
2.Nguyễn Thị Ngọc Quỳnh
3.Trần Thị Hồng Nhung
4.Nguyễn Hữu Quang
5.Huỳnh Bá thùy Trinh
THUẬT TOÁN KMEAN VỚI BÀI TOÁN PHÂN CỤM DỮ LIỆU - Trang 2
Để xem tài liệu đầy đủ. Xin vui lòng
THUẬT TOÁN KMEAN VỚI BÀI TOÁN PHÂN CỤM DỮ LIỆU - Người đăng: littlesunny93-gmail-com
5 Tài liệu rất hay! Được đăng lên bởi - 1 giờ trước Đúng là cái mình đang tìm. Rất hay và bổ ích. Cảm ơn bạn!
34 Vietnamese
THUẬT TOÁN KMEAN VỚI BÀI TOÁN PHÂN CỤM DỮ LIỆU 9 10 707