Ktl-icon-tai-lieu

Nghiên cứu, xây dựng phương pháp trích chọn đặc trưng dựa trên giải thuật phân lớp Random Forest

Được đăng lên bởi hoc-anh-van
Số trang: 7 trang   |   Lượt xem: 2118 lần   |   Lượt tải: 4 lần
Nghiên cứu, xây dựng phương pháp trích chọn
đặc trưng dựa trên giải thuật phân lớp Random
Forest
Nguyễn Cương
Trường Đại học Công nghệ
Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 05
Người hướng dẫn: TS. Nguyễn Hà Ham
Năm bảo vệ: 2010
Abstract: Luận văn trình bày một cách tổng quan về khai phá dữ liệu và chọn lựa
thuộc tính nói chung, sau đó đi sâu vào nghiên cứu giải thuật phân lớp thuộc tính
random forest. Đề xuất một phương pháp học máy dựa trên việc cải tiến giải thuật
phân lớp Random Forest nhằm tăng hiệu quả phân lớp của giải thuật. Sau cùng, luận
văn trình bày kết quả cài đặt, thử nghiệm đối với phương pháp học máy đề xuất, đưa
ra các kết quả đánh giá tính hiệu quả của giải thuật trước và sau khi cải tiến, cmột số
nhận xét, đánh giá về kết quả thực nghiệm này.
Keywords: Dữ liệu; Giải thuật phân lớp; Khai phá dữ liệu; Công nghệ thông tin
Content
Tổng quan

1.1. Phát hiện tri thức và khai phá dữ liệu
Từ thập niên 80 của thế kỷ trước với xuất hiện của máy tính và sau đó là sự phát triển
mạnh mẽ của công nghệ thông tin và truyền thông, thì nhu cầu lưu trữ dữ liệu và trao đổi
thông tin trong xã hội loài người ngày càng tăng lên mạnh mẽ. Tuy nhiên, đi cùng với lượng
dữ liệu và thông tin ngày càng khổng lồ mà chúng ta có được thì việc biến đổi những dữ liệu
sẵn có đó thành tri thức trở thành một đòi hỏi tất yếu trong đời sống hàng ngày. Từ nhu cầu
thực tế trên, đòi hỏi chúng ta phải tìm kiếm và ứng dụng các kỹ thuật nhằm “khai phá” những
thông tin hữu ích, những tri thức có ích từ những nguồn dữ liệu khồng lồ hiện có.
Phát hiện tri thức và khai phá dữ liệu (KDD) là những công việc liên quan đến việc trích,
lọc những thông tin có ích từ các nguồn dữ liệu [1]. Khai phá dữ liệu là một tập các kỹ thuật
được sử dụng một cách tự động nhằm tìm kiếm, phát hiện và đưa ra những mối quan hệ phức
tạp trong một tập dữ liệu lớn.
Khai phá dữ liệu chủ yếu tập trung vào 3 nhiệm vụ chính sau:
Giảm chiều dữ liệu: Giảm chiều dữ liệu là việc làm giảm chiều của không gian tìm kiếm
dữ liệu, giảm chi phí thu thập và lưu trữ dữ liệu, nâng cao hiệu quả của việc khai phá dữ liệu

và làm đơn giản hóa các kết quả khai phá dữ liệu. Trong nhiệm vụ làm giảm chiều dữ liệu
chúng ta cần xem xét hai khái nhiệm sau:


Trích chọn thuộc tính (Feature Extraction): Trích chọn thuộc tính là việc tìm ra một
tập thuộc tính mới từ tập thuộc tính ban đầu nhằm nâng cao hiệu suất tính toán và độ
chính xác phân lớp. Các kỹ thuật trích chọn thuộc tính thường liên quan đến các phép
biến đổi p...
Nghiên cứu, xây dựng phương pháp trích chọn
đặc trưng dựa trên giải thuật phân lớp Random
Forest
Nguyễn Cương
Trường Đại hc Công ngh
Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 05
Người hướng dẫn: TS. Nguyễn Hà Ham
m bảo vệ: 2010
Abstract: Luận văn trình bày một cách tổng quan về khai phá dữ liệu chọn lựa
thuộc tính i chung, sau đó đi sâu o nghiên cứu giải thuật phân lớp thuộc tính
random forest. Đề xuất một phương pháp học y dựa trên việc cải tiến giải thuật
phân lớp Random Forest nhằm tăng hiệu quả phân lớp của giải thuật. Sau cùng, luận
văn trình bày kết quả cài đặt, thử nghiệm đối với phương pháp học máy đề xuất, đưa
ra các kết quả đánh gtính hiệu quả của giải thuật trước sau khi cải tiến, cmt số
nhận xét, đánh giá về kết quả thực nghiệm này.
Keywords: Dữ liệu; Giải thuật phân lớp; Khai phá dữ liệu; ng nghệ thông tin
Content
Tổng quan
1.1. Phát hiện tri thức và khai phá dữ liệu
T thp niên 80 ca thế k trước vi xut hin của máy tính và sau đó là s pt trin
mnh m ca công ngh thông tin và truyn thông, thì nhu cầu lưu trữ d liệu trao đi
thông tin trong hi loài người ngày càng tăng lên mnh mẽ. Tuy nhiên, đi cùng với lượng
d liu và thông tin ngày càng khng l mà chúng ta đưc t vic biến đổi nhng d liu
sn có đó thành tri thức tr thành một đòi hi tt yếu trong đời sng hàng ngày. T nhu cu
thc tế trên, đòi hỏi chúng ta phi tìm kiếm ng dng các k thut nhm khai phá” những
thông tin hu ích, nhng tri thc có ích t nhng ngun d liu khng l hin có.
Phát hiện tri thức và khai phá dữ liệu (KDD) những ng việc liên quan đến vic trích,
lọc những thông tin ích từ các nguồn dữ liệu [1]. Khai phá dữ liệu là một tập các k thuật
được sử dụng một cách tự động nhằm tìm kiếm, phát hiện và đưa ra những mi quan hệ phức
tạp trong một tập dữ liệu lớn.
Khai phá dữ liệu chủ yếu tập trung vào 3 nhiệm vụ chính sau:
Giảm chiều dữ liệu: Giảm chiều dữ liệu vic làm giảm chiều của không gian tìm kiếm
dữ liệu, giảm chi p thu thập lưu trdữ liệu, nâng cao hiệu quả của việc khai phá dữ liu
Nghiên cứu, xây dựng phương pháp trích chọn đặc trưng dựa trên giải thuật phân lớp Random Forest - Trang 2
Để xem tài liệu đầy đủ. Xin vui lòng
Nghiên cứu, xây dựng phương pháp trích chọn đặc trưng dựa trên giải thuật phân lớp Random Forest - Người đăng: hoc-anh-van
5 Tài liệu rất hay! Được đăng lên bởi - 1 giờ trước Đúng là cái mình đang tìm. Rất hay và bổ ích. Cảm ơn bạn!
7 Vietnamese
Nghiên cứu, xây dựng phương pháp trích chọn đặc trưng dựa trên giải thuật phân lớp Random Forest 9 10 258