Ktl-icon-tai-lieu

Data mining

Được đăng lên bởi nnguyen267-gmail-com
Số trang: 78 trang   |   Lượt xem: 2613 lần   |   Lượt tải: 1 lần
Data Mining:
Concepts and Techniques
— Chapter 2 —

Jiawei Han
Department of Computer Science
University of Illinois at Urbana-Champaign

©2006 Jiawei Han and Micheline Kamber, All rights reserved
November 6, 2013

Data Mining: Concepts and Techniques

1

November 6, 2013

Data Mining: Concepts and Techniques

2

Chương 2: Tiền xử lý dữ liệu


Tại sao phải tiền xử lý dữ liệu?



Tổng hợp dữ liệu mô tả



Làm sạch dữ liệu



Tích hợp và chuyển đổi



Làm gọn dữ liệu



Rời rạc hóa và khái niệm hệ phân cấp



Tổng hợp

November 6, 2013

Data Mining: Concepts and Techniques

3

Tại sao phải tiền xử lý dữ liệu?


Dữ liệu trong thế giới thực là dữ liệu bẩn
 Chưa hoàn thiện (incomplete): thiếu giá trị
thuộc tính, thiếu các thuộc tính quan trọng,
hoặc chỉ chứa dữ liệu tổng hợp




Nhiễu: còn chứa lỗi hoặc các outlier




Ví dụ: occupation =“ ”
Ví dụ: Salary=“-10”

Không phù hợp: có sự khác biệt trong mã
hoặc tên


Ví dụ:




November 6, 2013

Age=“42” Birthday=“03/07/1997”
Was rating “1,2,3”, now rating “A, B, C”
e.g., discrepancy between duplicate records
Data Mining: Concepts and Techniques

4

Tại sao dữ liệu bẩn?


Dữ liệu chưa hoàn thiện có thể đến từ







Dữ liệu nhiễu (giá trị không đúng) có thể đến từ






Công cụ thu thập số liệu bị lỗi.
Lỗi của người hay máy tính khi nhập liệu.
Lỗi trong truyền số liệu.

Dữ liệu không phù hợp có thể đến từ





Các giá trị dữ liệu bị thiếu khi thu thập số liệu.
Sự lệch nhau về thời gian dữ liệu được thu thập và khi dữ liệu
được đưa ra phân tích.
Những vấn đề con người/phần cứng/phần mềm

Sự khác nhau của nguồn dữ liệu.
Vi phạm sự phụ thuộc về chức năng(ví dụ: thay đổi các liên kết
dữ liệu)

Các bản ghi trùng cũng cần được làm sạch

November 6, 2013

Data Mining: Concepts and Techniques

5

Tại sao tiền xử lý dữ liệu quan trọng?


Không có dữ liệu chất lượng, không có kết quả khai phá
có chất lượng!


Quyết định chất lượng phải dựa trên dữ liệu chất
lượng






Ví dụ: trùng lặp hoặc thiếu dữ liệu có thể gây ra số liệu thống
kê không chính xác hoặc thậm chí gây hiểu lầm.

Kho dữ liệu cần sự tích hợp một cách nhất quán chất
lượng dữ liệu.

Trích xuất dưa liệu, làm sạch, chuyển đổi dữ liệu là
những công việc chính trong xây dựng kho dữ liệu.

November 6, 2013

Data Mining: Concepts and Techniques

6

Độ đo đa chiều của chất lượng dữ liệu




Một số cách nhìn đa chiều được chấp nhận:
 Chính xác
 Đầy đủ
 Nhất quán
 Đúng thời điểm
 Hợp lý
 Giá trị gia tăng...
November 6, 2013
Data Mining: Concepts and Techniques
1
Data Mining:
Concepts and Techniques
— Chapter 2 —
Jiawei Han
Department of Computer Science
University of Illinois at Urbana-Champaign
www.cs.uiuc.edu/~hanj
©2006 Jiawei Han and Micheline Kamber, All rights reserved
Data mining - Trang 2
Để xem tài liệu đầy đủ. Xin vui lòng
Data mining - Người đăng: nnguyen267-gmail-com
5 Tài liệu rất hay! Được đăng lên bởi - 1 giờ trước Đúng là cái mình đang tìm. Rất hay và bổ ích. Cảm ơn bạn!
78 Vietnamese
Data mining 9 10 514