Ktl-icon-tai-lieu

Tìm hiểu thuật toán ID3

Được đăng lên bởi hatuan93-gmail-com
Số trang: 5 trang   |   Lượt xem: 228 lần   |   Lượt tải: 0 lần
TÌM HIỂU THUẬT TOÁN ID3

I.

II.

Tổng quan ID3.
Giải thuật quy nạp cây ID3 (gọi tắt là ID3) là một giải thuật học đơn giản
nhưng tỏ ra thành công trong nhiều lĩnh vực. ID3 là một giải thuật hay vì
cách biểu diễn tri thức học được của nó, tiếp cận của nó trong việc quản lý
tính phức tạp, heuristic của nó dùng cho việc chọn lựa các khái niệm ứng
viên, và tiềm năng của nó đối với việc xử lý dữ liệu nhiễu. ID3 biểu diễn
các khái niệm (concept) ở dạng các cây quyết định (decision tree). Biểu diễn
này cho phép chúng ta xác định phân loại của một đối tượng bằng cách kiểm
tra các giá trị của nó trên một số thuộc tính nào đó.
Như vậy, nhiệm vụ của giải thuật ID3 là học cây quyết định từ một tập các ví
dụ rèn luyện (training example) hay còn gọi là dữ liệu rèn luyện (training
data). Hay nói khác hơn, giải thuật có:
Đầu vào: Một tập hợp các ví dụ. Mỗi ví dụ bao gồm các thuộc tính
mô tả một tình huống, hay một đối tượng nào đó, và một giá trị phân loại
của nó.
Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các ví dụ
trong tập dữ liệu rèn luyện, và hy vọng là phân loại đúng cho cả các ví dụ
chưa gặp trong tương lai.
Thuật toán:
Các thuật toán ID3 bắt đầu với ban đầu là các tập S như là các nút gốc. Trên
mỗi lần lặp của thuật toán, nó lặp qua tất cả các thuộc tính của tập S và tính
toán dữ liệu ngẫu nhiên entropy H(S) ( hoặc độ lợi thông tin (information
gain) IG(A)) của thuộc tính đó. Sau đó chọn các thuộc tính trong đó có dữ
liệu ngẫu nhiên nhỏ nhất (hoặc thông tin thu được lớn nhất) có giá trị. Tập S
sau đó được chia bởi thuộc tính được lựa chọn (ví dụ độ tuổi <50, 50 <= tuổi
<100, tuổi> = 100) để tạo ra các tập con của dữ liệu. Thuật toán tiếp tuc
recurse(em nghĩ là đệ quy) trên mỗi tập con. Vì rằng các thuật toán không
bao giờ được lựa chọn trước. Đệ quy trên tập con có thể dừng lại ở 1 trong
những trường hợp
Mỗi phần tử trong tập hợp con thuộc về lớp tương đương (+ hoặc -),
sau đó nút biến thành một lá và dán nhãn với các lớp trong những ví dụ.
Không có nhiều hơn nữa là các thuộc tính được lựa chọn, nhưng các
ví dụ vẫn không thuộc về cùng một lớp (một số được + và một số -), sau đó

nút là biến thành một lá và dán nhãn với các lớp học phổ biến nhất của các
ví dụ trong tập hợp con.
Không có ví dụ trong tập hợp, điều này sẽ xảy ra khi không có ví dụ
trong tập cha mẹ đã được tìm thấy để được phù hợp với một giá trị cụ thể
của thuộc tính lựa chọn, ví dụ nếu không có ví dụ với tuổi> = 100. Sau đó,
một chiếc lá được tạo ra, và được dán nhãn với các lớp học phổ ...
TÌM HIỂU THUẬT TOÁN ID3
I. Tổng quan ID3.
Giải thuật quy nạp cây ID3 (gọi tắt là ID3) là một giải thuật học đơn giản
nhưng tỏ ra thành công trong nhiều lĩnh vực. ID3 là một giải thuật hay vì
cách biểu diễn tri thức học được của nó, tiếp cận của nó trong việc quản lý
tính phức tạp, heuristic của nó dùng cho việc chọn lựa các khái niệm ứng
viên, và tiềm năng của nó đối với việc xử lý dữ liệu nhiễu. ID3 biểu diễn
các khái niệm (concept) ở dạng các cây quyết định (decision tree). Biểu diễn
này cho phép chúng ta xác định phân loại của một đối tượng bằng cách kiểm
tra các giá trị của nó trên một số thuộc tính nào đó.
Như vậy, nhiệm vụ của giải thuật ID3 là học cây quyết định từ một tập các ví
dụ rèn luyện (training example) hay còn gọi là dữ liệu rèn luyện (training
data). Hay nói khác hơn, giải thuật có:
Đầu vào: Một tập hợp các ví dụ. Mỗi ví dụ bao gồm các thuộc tính
mô tả một tình huống, hay một đối tượng nào đó, và một giá trị phân loại
của nó.
Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các ví dụ
trong tập dữ liệu rèn luyện, và hy vọng là phân loại đúng cho cả các ví dụ
chưa gặp trong tương lai.
II. Thuật toán:
Các thuật toán ID3 bắt đầu với ban đầu là các tập S như là các nút gốc. Trên
mỗi lần lặp của thuật toán, nó lặp qua tất cả các thuộc tính của tập S và tính
toán dữ liệu ngẫu nhiên entropy H(S) ( hoặc độ lợi thông tin (information
gain) IG(A)) của thuộc tính đó. Sau đó chọn các thuộc tính trong đó có dữ
liệu ngẫu nhiên nhỏ nhất (hoặc thông tin thu được lớn nhất) có giá trị. Tập S
sau đó được chia bởi thuộc tính được lựa chọn (ví dụ độ tuổi <50, 50 <= tuổi
<100, tuổi> = 100) để tạo ra các tập con của dữ liệu. Thuật toán tiếp tuc
recurse(em nghĩ là đệ quy) trên mỗi tập con. Vì rằng các thuật toán không
bao giờ được lựa chọn trước. Đệ quy trên tập con có thể dừng lại ở 1 trong
những trường hợp
Mỗi phần tử trong tập hợp con thuộc về lớp tương đương (+ hoặc -),
sau đó nút biến thành một lá và dán nhãn với các lớp trong những ví dụ.
Không có nhiều hơn nữa là các thuộc tính được lựa chọn, nhưng các
ví dụ vẫn không thuộc về cùng một lớp (một số được + và một số -), sau đó
Tìm hiểu thuật toán ID3 - Trang 2
Tìm hiểu thuật toán ID3 - Người đăng: hatuan93-gmail-com
5 Tài liệu rất hay! Được đăng lên bởi - 1 giờ trước Đúng là cái mình đang tìm. Rất hay và bổ ích. Cảm ơn bạn!
5 Vietnamese
Tìm hiểu thuật toán ID3 9 10 724