Ktl-icon-tai-lieu

Nghiên cứu gán nhãn từ loại cho văn bản tiếng Việt bằng phương pháp học máy không có hướng dẫn

Được đăng lên bởi luan-van
Số trang: 13 trang   |   Lượt xem: 1994 lần   |   Lượt tải: 1 lần
Nghiên cứu gán nhãn từ loại cho văn bản tiếng
Việt bằng phương pháp học máy không có
hướng dẫn
Trần Thu Trang
Trường Đại học Khoa học Tự nhiên
Luận văn ThS. ngành: Bảo đảm toán học cho máy tính và hệ thống tính toán
Mã số: 60 46 35
Người hướng dẫn: TS. Nguyễn Thị Minh Huyền
Năm bảo vệ: 2012
Abstract. Trình bày tổng quan về bài toán gán nhãn từ loại, các tiếp cận để giải
quyết bài toán gán nhãn từ loại, so sánh các tiếp cận, trình bày hiện trạng cùng các
phương pháp đã được dùng để giải quyết bài toán gán nhãn từ loại cho tiếng Việt,
khó khăn chưa khắc phục được. Trình bày các kiến thức toán học, các mô hình học
máy được sử dụng trong luận văn. Trình bày một số phương pháp học máy không có
hướng dẫn cho bài toán gán nhãn từ loại, để từ đó có thể xây dựng một quy trình giải
quyết bài toán gán nhãn từ loại tiếng Việt theo cách tiếp cận này.
Keywords. Toán tin; Gán nhãn từ loại; Văn bản tiếng Việt; Máy tính
Content
MỞ ĐẦU
Một trong các vấn đề nền tảng của ngôn ngữ tự nhiên là việc phân loại các từ thành các
lớp từ loại dựa theo thực tiễn hoạt động ngôn ngữ. Mỗi từ loại tương ứng với một lớp từ giữ
một vai trò ngữ pháp nhất định. Nói chung, mỗi từ trong một ngôn ngữ có thể gắn với nhiều
từ loại, và việc tự động “hiểu” đúng nghĩa một từ phụ thuộc vào việc nó được xác định đúng
từ loại hay không. Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ
trong phạm vi văn bản đó. Các công cụ gán nhãn (hay chú thích) từ loại cho các từ trong một
văn bản có thể thay đổi tuỳ theo quan niệm về đơn vị từ vựng và thông tin ngôn ngữ cần khai
thác trong các ứng dụng cụ thể.
Xác định từ loại chính xác cho các từ trong văn bản là vấn đề rất quan trọng trong lĩnh
vực xử lý ngôn ngữ tự nhiên. Công cụ gán nhãn từ loại có thể được ứng dụng rộng rãi trong

các hệ thống tìm kiếm thông tin, trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận
dạng tiếng nói cũng như trong các hệ thống dịch máy. Công cụ này cũng hỗ trợ cho việc phân
tích cú pháp các văn bản, góp phần giải quyết tính đa nghĩa của từ, và trợ giúp các hệ hống
rút trích thông tin hướng đến ngữ nghĩa, v.v…
Vấn đề gán nhãn từ loại của nhiều ngôn ngữ đã được giải quyết tốt bằng phương pháp
học máy có hướng dẫn, nghĩa là phải xây dựng một kho ngữ liệu huấn luyện lớn và/hoặc xây
dựng tập luật để nhận diện từ loại. Hiện nay, bài toán gán nhãn từ loại tiếng Việt cũng đã
được một số nhóm nghiên cứu và giải giải quyết cũng chủ yếu bằng phương pháp học máy có
hướng dẫn, nhưng việc xây dựng tập huấn luyện còn...
Để xem tài liệu đầy đủ. Xin vui lòng
Nghiên cứu gán nhãn từ loại cho văn bản tiếng Việt bằng phương pháp học máy không có hướng dẫn - Người đăng: luan-van
5 Tài liệu rất hay! Được đăng lên bởi - 1 giờ trước Đúng là cái mình đang tìm. Rất hay và bổ ích. Cảm ơn bạn!
13 Vietnamese
Nghiên cứu gán nhãn từ loại cho văn bản tiếng Việt bằng phương pháp học máy không có hướng dẫn 9 10 877