Ktl-icon-tai-lieu

Bài giảng môn học KHAI PHÁ DỮ LIỆU - TIền xử lý dữ liệu

Được đăng lên bởi nanaleu
Số trang: 66 trang   |   Lượt xem: 5257 lần   |   Lượt tải: 1 lần
Bài giảng môn học

KHAI PHÁ DỮ LIỆU

CHƯƠNG 3. TIỀN XỬ LÝ DỮ LIỆU

December 28, 2012

Khai phá dữ liệu: Chương 3

1

Tài liệu tham khảo














[HK06]
J.
Han
and
M.
Kamber
(2006).
Data Mining-Concepts and Techniques (Second Edition),
Morgan
Kaufmann. Chapter 2. Data Preprocessing
[NEM09] Robert Nisbet, John Elder, and Gary Miner (2009). Handbook of
Statistical Analysis and Data Mining, Elsevier, 6/2009. Chapter 4. Data
Understanding and Preparation; Chapter 5. Feature Selection.
[Chap05] Chapman, A. D. (2005). Principles of Data Cleaning, Report for
the Global Biodiversity Information Facility, Copenhagen
[Chap05a] Chapman, A. D. (2005a). Principles and Methods of Data
Cleaning – Primary Species and Species- Occurrence Data (version 1.0),
Report for the Global Biodiversity Information Facility, Copenhagen
[Hai02] Đoàn An Hải (2002). Learning to Map between Structured
Representations of Data, PhD Thesis, The University of Washington,
ACM 2003 Award Winners and Fellows (Doctoral Dissertation
Award).
[RD00] Erhard Rahm, Hong Hai Do (2000). Data Cleaning: Problems and
Current Approaches, IEEE Data Eng. Bull., 23(4): 3-13 (2000)
và một số tài liệu khác

December 28, 2012

2

Chapter 3: Tiền xử lý dữ liệu


Hiểu dữ liệu và chuẩn bị dữ liệu



Vai trò của tiền xử lý dữ liệu



Làm sạch dữ liệu



Tích hợp và chuyển dạng dữ liệu



Rút gọn dữ liệu



Rời rạc và sinh kiến trúc khái niệm

December 28, 2012

3

Những vấn đề cơ bản để hiểu dữ liệu


Cách thu thập được dữ liệu cần thiết để mô hình hóa:




Cách kết hợp dữ liệu tìm được từ các nguồn dữ liệu khác nhau




Data Integeation.

Mô tả dữ liệu




Data Acquisition

Data Description

Đánh giá chất lượng (sự sạch sẽ) của dữ liệu


Data Assessment

December 28, 2012

4

Thu thập dữ liệu


Cách thu thập dữ liệu cần thiết để mô hình hóa
Data Acquisition:


Trích chọn dữ liệu theo câu hỏi từ CSDL tới tập tin phẳng



Ngôn ngữ hỏi bậc cao truy nhập trực tiếp CSDL



Kết nối mức thấp để truy nhập trực tiếp CSDL


Loại bỏ ràng buộc không gian/thời gian khi di chuyển khối
lượng lớn dữ liệu



Hỗ trợ việc quản lý và bảo quản dữ liệu tập trung hóa



Rút gọn sự tăng không cần thiết của dữ liệu



December 28, 2012

Tạo điều kiện quản trị dữ liệu tốt hơn để đáp ứng mối quan
tâm đúng đắn

5

Tích hợp dữ liệu


Cách kết hợp dữ liệu tìm được từ các nguồn dữ liệu khác nhau Data
Integeation.

December 28, 2012

6

Mô tả dữ liệu


Giá trị kỳ vọng (mean)




Độ lệch chuẩn (Standard dev...
December 28, 2012
Khai phá dữ liệu: Chương 3
1
Bài giảng môn học
KHAI PHÁ DỮ LIỆU
CHƯƠNG 3. TIỀN XỬ LÝ DỮ LIỆU
Bài giảng môn học KHAI PHÁ DỮ LIỆU - TIền xử lý dữ liệu - Trang 2
Để xem tài liệu đầy đủ. Xin vui lòng
Bài giảng môn học KHAI PHÁ DỮ LIỆU - TIền xử lý dữ liệu - Người đăng: nanaleu
5 Tài liệu rất hay! Được đăng lên bởi - 1 giờ trước Đúng là cái mình đang tìm. Rất hay và bổ ích. Cảm ơn bạn!
66 Vietnamese
Bài giảng môn học KHAI PHÁ DỮ LIỆU - TIền xử lý dữ liệu 9 10 54