Ktl-icon-tai-lieu

Information Extraction for Vietnamese Real-Estate Advertisements

Được đăng lên bởi hoc-anh-van
Số trang: 17 trang   |   Lượt xem: 1737 lần   |   Lượt tải: 2 lần
Information Extraction for Vietnamese RealEstate Advertisements
Phạm Vi Liên
Trường Đại học Công nghệ
Luận văn ThS ngành: Khoa học máy tính; Mã số: 60 48 01
Người hướng dẫn: TS. Phạm Bảo Sơn
Năm bảo vệ: 2012
Abstract: In recent years, real-estate market in Vietnam is growing rapidly which
creates a lot of information about real-estate, especially information on advertising
for buying and selling activities of real-estate development. This poses an essential
demand for building an information extraction system to help users deal with the
increasing amount of real-estate advertisements on the Internet. We propose a
rule-based approach to build an information extraction system for online realestate advertisements in Vietnamese. At the same time, we set up a process to
build an annotated corpus wich can be used in machine learning approaches at a
later stage. Our system achieve promising results with F-measures of above 90%.
Our approach is particularly suitable for under-resourced languages where an
annotated corpus of a decent size is not readily available.
Keywords: Công nghệ thông tin; Quảng cáo; Bất động sản; Khai thác thông tin

Content
Chương 1: Giới thiệu
1.1 Vấn đề và Ý tưởng:
Với sự ra đời và phát triển của Internet, ngày càng nhiều dữ liệu được gởi lên Internet và
chúng ta đang "ngập lụt" bởi chúng. Mặc dù, các công cụ tìm kiếm như Google1, Bing2,

1
2
Yahoo3,... đã được tạo ra để giúp con người tìm kiếm thông tin, nhưng chúng vẫn chưa
thật sự đáp ứng được mong đợi của người dùng. Vì vậy, các nhà nghiên cứu đã nhìn vào
các lĩnh vực như khai thác thông tin, tóm tắt văn bản, để khắc phục vấn đề quá tải thông
tin và cung cấp những thông tin hữu ích cho người sử dụng.
Rút trích thông tin là một trong những nhiệm vụ quan trọng của xử lý ngôn ngữ tự
nhiên. Ý tưởng chính của các hệ thống rút trích thông tin đó là rút trích các mẩu thông tin
từ các văn bản có cấu trúc hoặc bán cấu trúc để điền vào một mẫu có cấu trúc đã được
định nghĩa sẵn gọi là template. Rút trích thông tin đang dần xuất hiện trong nhiều lĩnh
vực như chính trị, xã hội, tài chính, bất động sản,... của nhiều ngôn ngữ khác nhau như
Anh, Pháp, Trung Quốc,… Tuy nhiên, đối với Tiếng Việt của chúng ta thì nó vẫn là một
vấn đề tương đối khá mới mẻ, đặc biệt là lĩnh vực quảng cáo nhà đất trực tuyến.

Figure 1: Dữ liệu đầu vào và kết quả đầu ra của hệ thống chúng tôi.
Trong Luận văn này, chúng tôi đề xuất một phương pháp tiếp cận dựa trên hệ luật để
xây ...
Information Extraction for Vietnamese Real-
Estate Advertisements
Phm Vi Liên
Trường Đại hc Công ngh
Lun văn ThS ngành: Khoa hc máy tính; s: 60 48 01
Người ng dn: TS. Phm Bảo Sơn
m bảo v: 2012
Abstract: In recent years, real-estate market in Vietnam is growing rapidly which
creates a lot of information about real-estate, especially information on advertising
for buying and selling activities of real-estate development. This poses an essential
demand for building an information extraction system to help users deal with the
increasing amount of real-estate advertisements on the Internet. We propose a
rule-based approach to build an information extraction system for online real-
estate advertisements in Vietnamese. At the same time, we set up a process to
build an annotated corpus wich can be used in machine learning approaches at a
later stage. Our system achieve promising results with F-measures of above 90%.
Our approach is particularly suitable for under-resourced languages where an
annotated corpus of a decent size is not readily available.
Keywords: Công ngh thông tin; Qung cáo; Bất động sn; Khai thác thông tin
Content
Chương 1: Gii thiu
1.1 Vấn đề và Ý tưởng:
Vi s ra đời và phát trin ca Internet, ngày càng nhiu d liu được gi lên Internet
chúng ta đang "ngập lt" bi chúng. Mc dù, các công c m kiếm như Google
1
, Bing
2
,
1
http://www.google.com
2
http://www.bing.com
Information Extraction for Vietnamese Real-Estate Advertisements - Trang 2
Để xem tài liệu đầy đủ. Xin vui lòng
Information Extraction for Vietnamese Real-Estate Advertisements - Người đăng: hoc-anh-van
5 Tài liệu rất hay! Được đăng lên bởi - 1 giờ trước Đúng là cái mình đang tìm. Rất hay và bổ ích. Cảm ơn bạn!
17 Vietnamese
Information Extraction for Vietnamese Real-Estate Advertisements 9 10 338