Ktl-icon-tai-lieu

KIM nền tảng cho “Chú thích ngữ nghĩa, lập chỉ mục, và tìm kiếm”

Được đăng lên bởi Minh Nguyen Quang
Số trang: 5 trang   |   Lượt xem: 430 lần   |   Lượt tải: 1 lần
KIM nền tảng cho “Chú thích ngữ nghĩa, lập chỉ mục, và tìm kiếm”
1. Giới thiệu
Việc thực hiện Semantic Web phụ thuộc vào sự sẵn có của số lượng lớn siêu dữ liệu cho nội dung
web, kết hợp với tri thức chính thức tương ứng về thế giới thực. Chúng tôi cho rằng Semantic Web,
ở giai đoạn phát triển hiện nay của nó, là ở trong trạng thái có nhu cầu nghiêm trọng về sinh ra siêu
dữ liệu và các lược đồ sử dụng được cụ thể, định nghĩa rõ ràng và dễ hiểu. Hôm nay chúng tôi trình
bày về một kiến trúc tổng thể cho chú thích ngữ nghĩa, lập chỉ mục, và tìm kiếm các văn bản có liên
quan đến các kho chứa ngữ nghĩa cỡ lớn. Một hệ thống để thực hiện các việc này là KIM, viết tắt
của cụm từ Knowledge and Information Management.
KIM đã tạo ra một lược đồ cụ thể cho việc chú thích ngữ nghĩa các thực thể trong thế giới thực.
Triết lý cơ bản là một chú thích ngữ nghĩa thực tế không thể không có một số ràng buộc mô hình
hóa tri thức cụ thể. Một hệ thống chú thích ngữ nghĩa như vậy nên dựa trên một mô hình đơn giản
về các lớp thực thể thế giới thực, được bổ sung thêm tri thức thể hiện mở rộng. Để đảm bảo hiệu
quả, dễ dàng chia sẻ, và sử dụng lại siêu dữ liệu, KIM đã đưa ra một ontology mức trên có khoảng
250 lớp và 100 thuộc tính. Ontology này bắt đầu với một số sự phân biệt triết học cơ bản và sau đó
đi xuống đến các loại thực thể phổ biến nhất như con người, công ty, thành phố v.v. Vì vậy nó mã
hóa được nhiều khái niệm thông thường độc lập miền và cho phép dễ dàng việc mở rộng thêm các
miền cụ thể. Trên cơ sở ontology, một cơ sở tri thức qui mô lớn về các mô tả thực thể được tự khởi
động, và tiếp tục được mở rộng và duy trì. Hiện nay, cơ sở tri thức này có qui mô trong khoảng từ
105 đến 106 mô tả.
KIM là một hệ thống rút trích thông tin được tăng cường ngữ nghĩa, cung cấp chú thích ngữ nghĩa
tự động bằng các tham khảo đến các lớp trong ontology và đến các thể hiện. Hệ thống này đã được
chạy trên một tập hợp tài liệu phát triển liên tục (hiện nay có khoảng 0.5 triệu bài viết tin tức). KIM
đã được thử nghiệm và đánh giá trong một thời gian dài. Trên cơ sở của những chú thích ngữ nghĩa,
KIM thực hiện tìm kiếm và lập chỉ mục dựa trên ngữ nghĩa. Người dùng có thể kết hợp các truy vấn
tìm kiếm thông tin truyền thống và các truy vấn tìm kiếm thông tin dựa trên ontology. Chúng tôi
cho rằng phương pháp hoàn toàn tự động quy mô lớn như vậy là rất cần thiết cho việc chuyển đổi
web chủ yếu là văn bản hiện nay thành web có ngữ nghĩa.
Nền tảng KIM cung cấp cơ sở hạ tầng thông tin và tri thức m...
KIM nền tảng cho “Chú thích ngữ nghĩa, lập chỉ mục, và tìm kiếm”
1. Giới thiệu
Việc thực hiện Semantic Web phụ thuộc vào sự sẵn có của số lượng lớn siêu dữ liệu cho nội dung
web, kết hợp với tri thức chính thức tương ứng về thế giới thực. Chúng tôi cho rằng Semantic Web,
ở giai đoạn phát triển hiện nay của nó, là ở trong trạng thái có nhu cầu nghiêm trọng về sinh ra siêu
dữ liệu và các lược đồ sử dụng được cụ thể, định nghĩa rõ ràng và dễ hiểu. Hôm nay chúng tôi trình
bày về một kiến trúc tổng thể cho chú thích ngữ nghĩa, lập chỉ mục, và tìm kiếm các văn bản có liên
quan đến các kho chứa ngữ nghĩa cỡ lớn. Một hệ thống để thực hiện các việc này là KIM, viết tắt
của cụm từ Knowledge and Information Management.
KIM đã tạo ra một lược đồ cụ thể cho việc chú thích ngữ nghĩa các thực thể trong thế giới thực.
Triết lý cơ bản là một chú thích ngữ nghĩa thực tế không thể không có một số ràng buộc mô hình
hóa tri thức cụ thể. Một hệ thống chú thích ngữ nghĩa như vậy nên dựa trên một mô hình đơn giản
về các lớp thực thể thế giới thực, được bổ sung thêm tri thức thể hiện mở rộng. Để đảm bảo hiệu
quả, dễ dàng chia sẻ, và sử dụng lại siêu dữ liệu, KIM đã đưa ra một ontology mức trên có khoảng
250 lớp và 100 thuộc tính. Ontology này bắt đầu với một số sự phân biệt triết học cơ bản và sau đó
đi xuống đến các loại thực thể phổ biến nhất như con người, công ty, thành phố v.v. Vì vậy nó mã
hóa được nhiều khái niệm thông thường độc lập miền và cho phép dễ dàng việc mở rộng thêm các
miền cụ thể. Trên cơ sở ontology, một cơ sở tri thức qui mô lớn về các mô tả thực thể được tự khởi
động, và tiếp tục được mở rộng và duy trì. Hiện nay, cơ sở tri thức này có qui mô trong khoảng từ
10
5
đến 10
6
mô tả.
KIM là một hệ thống rút trích thông tin được tăng cường ngữ nghĩa, cung cấp chú thích ngữ nghĩa
tự động bằng các tham khảo đến các lớp trong ontology và đến các thể hiện. Hệ thống này đã được
chạy trên một tập hợp tài liệu phát triển liên tục (hiện nay có khoảng 0.5 triệu bài viết tin tức). KIM
đã được thử nghiệm và đánh giá trong một thời gian dài. Trên cơ sở của những chú thích ngữ nghĩa,
KIM thực hiện tìm kiếm và lập chỉ mục dựa trên ngữ nghĩa. Người dùng có thể kết hợp các truy vấn
tìm kiếm thông tin truyền thống và các truy vấn tìm kiếm thông tin dựa trên ontology. Chúng tôi
cho rằng phương pháp hoàn toàn tự động quy mô lớn như vậy là rất cần thiết cho việc chuyển đổi
web chủ yếu là văn bản hiện nay thành web có ngữ nghĩa.
Nền tảng KIM cung cấp cơ sở hạ tầng thông tin và tri thức mới, cùng với các dịch vụ để chú thích
ngữ nghĩa tự động, lập chỉ mục, và tìm kiếm tài liệu. Nó cung cấp một cơ sở hạ tầng trưởng thành
để rút trích thông tin tùy biến và mở rộng cũng như chú thích và quản lý tài liệu dựa trên GATE2.
Để cung cấp mức độ cơ bản về hiệu suất và cho phép dễ dàng khởi động các ứng dụng, KIM được
trang bị với một ontology mức trên và một cơ sở tri thức về các thực thể chung quan trọng. Các
ontology và cơ sở tri thức liên quan được xử lý dùng công nghệ Semantic Web với các chuẩn như
kho chứa RDFS, trung gian ontology và lý luận. Theo quan điểm kỹ thuật, nền tảng này cho phép
các ứng dụng dựa trên KIM sử dụng nó để chú thích ngữ nghĩa tự động, tìm kiếm nội dung dựa trên
các hạn chế ngữ nghĩa, truy vấn và sửa đổi các ontology cơ bản và cơ sở tri thức.
2. Chú thích ngữ nghĩa
Chú thích ngữ nghĩa là việc sinh ra các siêu dữ liệu cụ thể và lược đồ sử dụng nhằm mục đích cho
phép các phương pháp truy nhập thông tin mới và mở rộng những cái hiện có. Nó dựa trên giả
thuyết rằng các thực thể có tên được đề cập trong các tài liệu tạo nên phần quan trọng về ngữ nghĩa
của các tài liệu đó. Tóm lại, ta có thể cho rằng chú thích ngữ nghĩa là ý tưởng gắn vào các thực th
trong văn bản các liên kết tới các mô tả ngữ nghĩa của chúng. Ý tưởng về loại siêu dữ liệu này là
cung cấp cả thông tin lớp và thông tin thể hiện về các thực thể được đề cập trong các văn bản. Đó là
một câu hỏi về thuật ngữ liệu các chú thích này nên được gọi là “”ngữ nghĩa”, “thực thể”, hay một
cách nào đó khác. Theo kiến thức tốt nhất của chúng tôi, không có thuật ngữ được lập cho nhiệm vụ
này, cũng như không có một ý nghĩa được lập tốt cho thuật ngữ “chú thích ngữ nghĩa”.
Các chú thích ngữ nghĩa tự động cho các ứng dụng mới: làm nổi bật, tìm kiếm và lập chỉ mục, phân
loại, sinh ra các siêu dữ liệu tiên tiến hơn, duyệt trơn tru giữa văn bản không cấu trúc và tri thức liên
quan có sẵn. Chú thích ngữ nghĩa có thể áp dụng với bất kỳ loại văn bản - các trang web, các tài liệu
thông thường (không web), các trường văn bản trong cơ sở dữ liệu, v.v. Hơn nữa, thu nhận tri thức
KIM nền tảng cho “Chú thích ngữ nghĩa, lập chỉ mục, và tìm kiếm” - Trang 2
KIM nền tảng cho “Chú thích ngữ nghĩa, lập chỉ mục, và tìm kiếm” - Người đăng: Minh Nguyen Quang
5 Tài liệu rất hay! Được đăng lên bởi - 1 giờ trước Đúng là cái mình đang tìm. Rất hay và bổ ích. Cảm ơn bạn!
5 Vietnamese
KIM nền tảng cho “Chú thích ngữ nghĩa, lập chỉ mục, và tìm kiếm” 9 10 247