Ktl-icon-tai-lieu

Tài liệu thuật toán KNN

Được đăng lên bởi da2012tt
Số trang: 3 trang   |   Lượt xem: 725 lần   |   Lượt tải: 1 lần
Thuật toán K – Láng giềng gần nhất (K-Nearest Neighbors)
I. Giới thiệu thuật toán K-Nearest Neighbors(KNN)
K-Nearest Neighbors algorithm (KNN) được sử dụng rất phổ biến trong lĩnh vực
Data Mining. KNN là phương pháp để phân lớp các đối tượng dựa vào khoảng cách gần
nhất giữa đối tượng cần xếp lớp với tất cả các đối tượng trong Training Data.
Một đối tượng được phân lớp dựa vào k láng giềng của nó. K là số nguyên dương
được xác định trước khi thực hiện thuật toán. Người ta thường dùng khoảng cách
Euclidean để tính khoảng cách giữa các đối tượng.
KNN là phương pháp truyền thống khá nổi tiếng theo hướng tiếp cận thống kê đã
được nghiên cứu trong nhiều năm qua. KNN được đánh giá là một trong những phương
pháp tốt nhất được sử dụng từ những thời kỳ đầu trong nghiên cứu về phân loại văn bản
II. Thuật toán KNN dùng trong phân lớp được mô tả như sau:
 Xác định giá trị tham số K (số láng giềng gần nhất)
 Tính khoảng cách giữa đối tượng cần phân lớp với tất cả các đối tượng trong
training data (thường sử dụng khoảng cách Euclidean, Cosine…)
 Sắp xếp khoảng cách theo thứ tự tăng dần và xác định k láng giềng gần nhất với
đối tượng cần phần lớp
 Lấy tất cả các lớp của k láng giềng gần nhất đã xác định
 Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho đối tượng.
III. Để hiểu K-NN được dùng để phân lớp thế nào ta xem minh họa dưới đây.
Trong hình dưới đây, training Data được mô tả bởi dấu (+) và dấu (-), đối tượng
cần được xác định lớp cho nó (Query point) là hình tròn đỏ. Nhiệm vụ của chúng ta là
ước lượng (hay dự đoán) lớp của Query point dựa vào việc lựa chọn số láng giềng gần
nhất với nó. Nói cách khác chúng ta muốn biết liệu Query Point sẽ được phân vào lớp (+)
hay lớp (-)

Ta thấy rằng:
1-Nearest neighbor : Kết quả là + (Query Point được xếp vào lớp dấu +)
2-Nearest neighbors : không xác định lớp cho Query Point vì số láng giềng gần
nhất với nó là 2 trong đó 1 là lớp + và 1 là lớp – (không có lớp nào có số đối tượng nhiều
hơn lớp kia)
5-Nearest neighbors : Kết quả là - (Query Point được xếp vào lớp dấu – vì trong 5
láng giềng gần nhất với nó thì có 3 đối tượng thuộc lớp - nhiều hơn lớp + chỉ có 2 đối
tượng).
IV. Quá trình phân lớp gồm các bước sau:
Xác định giá trị tham số K (số láng giềng gần nhất). Tùy vào mỗi tập huấn luyện
(số lượng mẫu trong tập huấn luyện, không gian tập mẫu có phủ hết các trường hợp…)
mà việc chọn số K sẽ ảnh hưởng đến kết quả phân lớp.
Lần lượt duyệt qua các văn bản (được đại diện bằng vector đặc trưng của văn bản)
tro...
Thuật toán K – Láng giềng gần nhất (K-Nearest Neighbors)
I. Giới thiệu thuật toán K-Nearest Neighbors(KNN)
K-Nearest Neighbors algorithm (KNN) được sử dụng rất phổ biến trong lĩnh vực
Data Mining. KNN phương pháp để phân lớp các đối tượng dựa vào khoảng cách gần
nhất giữa đối tượng cần xếp lớp với tất cả các đối tượng trong Training Data.
Một đối tượng được phân lớp dựa vào k láng giềng của nó. K là số nguyên dương
được xác định trước khi thực hiện thuật toán. Người ta thường dùng khoảng cách
Euclidean để tính khoảng cách giữa các đối tượng.
KNN phương pháp truyền thống khá nổi tiếng theo hướng tiếp cận thng đã
được nghiên cứu trong nhiều năm qua. KNN được đánh giá một trong những phương
pháp tốt nhất được sử dụng từ những thời kỳ đầu trong nghiên cứu về phân loại văn bản
II. Thuật toán KNN dùng trong phân lớp được mô tả như sau:
Xác định giá trị tham số K (số láng giềng gần nhất)
Tính khoảng cách giữa đối tượng cần phân lớp với tất cả các đối tượng trong
training data (thường sử dụng khoảng cách Euclidean, Cosine…)
Sắp xếp khoảng cách theo thứ tự tăng dần xác định k láng giềng gần nhất với
đối tượng cần phần lớp
Lấy tất cả các lớp của k láng giềng gần nhất đã xác định
Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho đối tượng.
III. Để hiểu K-NN được dùng để phân lớp thế nào ta xem minh họa dưới đây.
Trong hình dưới đây, training Data được mô tả bởi dấu (+) và dấu (-), đối tượng
cần được xác định lớp cho nó (Query point) là hình tròn đỏ. Nhiệm vụ của chúng ta là
ước lượng (hay dự đoán) lớp của Query point dựa vào việc lựa chọn số láng giềng gần
nhất với nó. Nói cách khác chúng ta muốn biết liệu Query Point sẽ được phân vào lớp (+)
hay lớp (-)
Tài liệu thuật toán KNN - Trang 2
Tài liệu thuật toán KNN - Người đăng: da2012tt
5 Tài liệu rất hay! Được đăng lên bởi - 1 giờ trước Đúng là cái mình đang tìm. Rất hay và bổ ích. Cảm ơn bạn!
3 Vietnamese
Tài liệu thuật toán KNN 9 10 504