Ktl-icon-tai-lieu

Association Sequential Patterns

Được đăng lên bởi Duy Đầu Quắn
Số trang: 70 trang   |   Lượt xem: 1547 lần   |   Lượt tải: 1 lần
Trường Đại học Khoa học Tự nhiên
Khoa Công nghệ Thông tin

TÀI LIỆU LÝ THUYẾT KHAI THÁC WEB

Chủ đề 2

KHAI THÁC LUẬT KẾT HỢP
& MẪU TUẦN TỰ (PHẦN 1)
Giảng viên: ThS. Nguyễn Ngọc Thảo
Email: nnthao@fit.hcmus.edu.vn

free-press-release.com

HKII/2011-2012

NỘI DUNG
Khái niệm cơ bản về luật kết hợp
Thuật toán Apriori
◦ Phát sinh tập hạng mục phổ biến
◦ Xây dựng luật kết hợp từ tập phổ biến

2

3

KHAI THÁC LUẬT KẾT HỢP
Mục tiêu: tìm mọi mối quan hệ đồng xuất
hiện (kết hợp) giữa các hạng mục dữ liệu.

Source: Data Mining – Concepts and
Techniques, 2nd Ed. J. Han, M. Kamber
4

KHAI THÁC LUẬT KẾT HỢP
Là một tác vụ khai thác dữ liệu cơ bản.
◦ Sáng kiến mô hình quan trọng nhất
◦ Được cộng đồng khai thác dữ liệu và cơ sở dữ
liệu nghiên cứu rộng rãi.

Được giới thiệu lần đầu tiên bởi Agrawal et
al. vào năm 1993.
Giả sử mọi dữ liệu rời rạc, chưa có thuật
toán tốt cho dữ liệu số.

5

KHAI THÁC LUẬT KẾT HỢP
Một số thuật toán khai thác luật kết hợp
◦ Apriori (1994): tìm kiếm theo chiều rộng
◦ Partition (1995): tương tự Apriori, dùng phần
giao tập hợp để xác định giá trị support.
◦ Eclat (1997): kết hợp duyệt chiều sâu và phần
giao tidlist.
◦ FP-Growth (2000): duyệt cây phát triển mẫu theo
chiều sâu

6

ỨNG DỤNG THỰC TẾ
Phân tích dữ liệu giỏ mua hàng: ứng dụng
cơ bản của khai thác luật kết hợp.
◦ Mục tiêu: phát hiện sự liên quan giữa các món
hàng được mua trong siêu thị (cửa hàng).
◦ Ví dụ: luật Cheese → Beer [support = 10%,
confidence = 80%]
10% khách hàng mua Cheese và Beer chung
80% khách hàng hễ mua Cheese thì sẽ mua Beer cùng

7

ỨNG DỤNG KHAI THÁC LKH
Khai thác tài liệu văn bản: tìm mối quan hệ
đồng xuất hiện của các từ trong văn bản.
Sơ đồ quan hệ giữa
các từ trong văn bản

8

ỨNG DỤNG KHAI THÁC LKH
Khai thác tài liệu Web: phát hiện các mẫu
hành vi sử dụng Web.
◦ Ứng dụng: xây dựng hệ thống tư vấn khách
hàng, phân tích thiết kê Web,…
◦ Ví dụ mẫu truy cập của người dùng
60% người dùng truy cập /home/products/file1.html, sẽ
đi theo chuỗi /home ==> /home/whatsnew ==>
/home/products ==> /home/products/file1.html

9

10

THUẬT NGỮ VỀ DỮ LIỆU
I = {i1, i2,…, im}: là tập hợp các hạng mục
Giao dịch t: là tập hợp các hạng mục sao
cho t ⊆ I.
Cơ sở dữ liệu giao dịch T: tập hợp các giao
dịch T = {t1, t2,…, tn}.
CSDL T
TID
10
20
30
40
50

Transaction
{Bread, Cheese, Juice}
{Milk, Bread, Yogurt}
{Bread, Juice, Milk}
{Eggs, Bread, Cheese, Juice}
{Cheese, Juice, Milk}

I = {Bread, Cheese, Eggs, Milk,
Juice, Yogurt}
t10 = {Bread, Cheese, Juice} ⊂ I

11

DỮ LIỆU GIAO DỊCH...
Ch đ 2
Trường Đại hc Khoa hc T nhiên
Khoa Công ngh Thông tin
TÀI LIU LÝ THUYT KHAI THÁC WEB
Ging viên: ThS. Nguyn Ngc Tho
Email: nnthao@fit.hcmus.edu.vn
HKII/2011-2012
free-press-release.com
KHAI THÁC LUT KT HP
& MU TUN T (PHN 1)
Association Sequential Patterns - Trang 2
Để xem tài liệu đầy đủ. Xin vui lòng
Association Sequential Patterns - Người đăng: Duy Đầu Quắn
5 Tài liệu rất hay! Được đăng lên bởi - 1 giờ trước Đúng là cái mình đang tìm. Rất hay và bổ ích. Cảm ơn bạn!
70 Vietnamese
Association Sequential Patterns 9 10 323