Ktl-icon-tai-lieu

Extraction of Vietnammese collocation from text corpora

Được đăng lên bởi luan-van
Số trang: 6 trang   |   Lượt xem: 1414 lần   |   Lượt tải: 0 lần
Extraction of Vietnammese collocation from
text corpora
Đỗ Thị Ngọc Quỳnh
Trường Đại học Công nghệ
Luận văn ThS ngành: Khoa học máy tính; Mã số: 60 48 01
Người hướng dẫn: TS. Lê Anh Cường
Năm bảo vệ: 2011
Abstract: Collocations have wide application in the fields of languages, compiled
a dictionary as well as the problem of natural language processing. Therefore, the
extraction of collocations in each language is really necessary, to improve the
accuracy and the nature of the application of natural language processing, as well
as help to learn a new language easier. However, in Vietnam, the study of
collocation is quite a new field. This paper focused on researching some method of
extracting collocations methods to find efficient model for the Vietnamese
collocations extraction. The mentioned methods were based on some classic
statistical methods commonly used such as frequency, t-test, chi-square, mutual
information... We also suggested some general method using linguistic measure to
increase the accuracy of the process of extraction. Input data included the data has
been through a POS-tagging and data has been parsed. By running the program
with different methods and combination of multiple methods together, comparing
the accuracy of the method, we draw out the efficient method of extracting of
Vietnamese Collocation from Text Corpora.

Keywords: Xử lý ngôn ngữ; Xử lý dữ liệu; Ngôn ngữ tự nhiên; Trí tuệ nhân tạo

Content
I. GIỚI THIỆU
Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên cũng
như biên soạn từ điển. Luận văn này tập trung vào nghiên cứu một số phương pháp trích

chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọn collcations trong
tiếng Việt. Các phương pháp được nêu ra bao gồm một số phương pháp thống kê cổ điển
thường được sử dụng, đồng thời đề xuất một số phương pháp tổng hợp nhằm tăng độ
chính xác của quá trình trích chọn. Không chỉ dừng lại ở các phương pháp, chúng tôi
cũng tiến hành nghiên cứu ảnh hưởng của việc tiền xử lý dữ liệu lên độ chính xác của
chương trình trích chọn. Dữ liệu thử nghiệm bao gồm cả dữ liệu thô, chưa qua xử lý, dữ
liệu đã được qua một bộ gán nhãn từ loại và đã được phân tích cú pháp. Thông qua việc
chạy các chương trình với đầu vào dữ liệu khác nhau, so sánh độ chính xác của các
phương pháp, chúng tôi đề xuất mô hình trích chọn hiệu quả cho tiếng Việt. Đặc biệt là
trong mô hình trích chọn cho tiếng Việt này, chúng tôi đã áp dụng thêm độ đo ngôn ngữ
để cải thiện hiệu quả...
Extraction of Vietnammese collocation from
text corpora
Đỗ Th Ngc Qunh
Trường Đại hc Công ngh
Lun văn ThS ngành: Khoa hc máy tính; Mã s: 60 48 01
Người hướng dn: TS. Lê Anh Cường
m bảo v: 2011
Abstract: Collocations have wide application in the fields of languages, compiled
a dictionary as well as the problem of natural language processing. Therefore, the
extraction of collocations in each language is really necessary, to improve the
accuracy and the nature of the application of natural language processing, as well
as help to learn a new language easier. However, in Vietnam, the study of
collocation is quite a new field. This paper focused on researching some method of
extracting collocations methods to find efficient model for the Vietnamese
collocations extraction. The mentioned methods were based on some classic
statistical methods commonly used such as frequency, t-test, chi-square, mutual
information... We also suggested some general method using linguistic measure to
increase the accuracy of the process of extraction. Input data included the data has
been through a POS-tagging and data has been parsed. By running the program
with different methods and combination of multiple methods together, comparing
the accuracy of the method, we draw out the efficient method of extracting of
Vietnamese Collocation from Text Corpora.
Keywords: Xngôn ng; X lý d liu; Ngôn ng t nhiên; Trí tu nhân to
Content
I. GIỚI THIỆU
Collocation đóng vai trò quan trng trong các ng dng x ngôn ng t nhiên cũng
như biên soạn t điển. Luận văn này tp trung vào nghiên cu mt s phương pháp trích
Extraction of Vietnammese collocation from text corpora - Trang 2
Để xem tài liệu đầy đủ. Xin vui lòng
Extraction of Vietnammese collocation from text corpora - Người đăng: luan-van
5 Tài liệu rất hay! Được đăng lên bởi - 1 giờ trước Đúng là cái mình đang tìm. Rất hay và bổ ích. Cảm ơn bạn!
6 Vietnamese
Extraction of Vietnammese collocation from text corpora 9 10 667