Luận văn thạc sĩ: Phân loại thực thể có tên trên Wikipedia để xây dựng hệ tri thức

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

2019

79
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Giới thiệu

Bài toán phân loại thực thể có tên trên Wikipedia là một phần quan trọng trong lĩnh vực trích xuất thông tin và xây dựng hệ tri thức. Với sự phát triển mạnh mẽ của công nghệ thông tin, nhu cầu xây dựng các hệ tri thức để phục vụ cho các ứng dụng trí tuệ nhân tạo ngày càng tăng. Luận văn này giới thiệu một phương pháp hiệu quả để giải quyết bài toán này, sử dụng máy véc-tơ hỗ trợ (SVM). Đặc biệt, luận văn đã xây dựng một công cụ với độ chính xác cao, đạt trên 94%, và cung cấp một tập dữ liệu lớn gồm 10,000 thực thể được gán nhãn thủ công. Những đóng góp này không chỉ giúp xây dựng hệ tri thức tiếng Việt mà còn hỗ trợ cho các nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiêntrí tuệ nhân tạo.

II. Hệ tri thức

Hệ tri thức là một nhánh của ngành trí tuệ nhân tạo, chứa đựng tri thức về giải quyết vấn đề trong một lĩnh vực cụ thể. Hệ tri thức sử dụng một cơ sở tri thức và một công cụ suy luận để giải quyết các vấn đề phức tạp. Các hệ tri thức có thể phân loại thành nhiều loại khác nhau, như hệ chuyên gia và hệ thống dạy học thông minh. Chúng có khả năng xử lý dữ liệu phi cấu trúc và hỗ trợ ra quyết định. Việc xây dựng hệ tri thức thu hút sự quan tâm lớn từ cộng đồng nghiên cứu và các doanh nghiệp công nghệ. Tuy nhiên, các hệ tri thức tiếng Việt vẫn còn hạn chế, điều này tạo ra cơ hội cho nghiên cứu và phát triển trong lĩnh vực này.

III. Phân loại thực thể có tên trên Wikipedia

Phân loại thực thể có tên là một bài toán quan trọng trong trích xuất thông tin. Luận văn này tập trung vào việc phân loại các thực thể có tên từ dữ liệu trên Wikipedia tiếng Việt. Các thực thể được phân loại thành nhiều kiểu khác nhau như người, tổ chức, địa điểm, và sự kiện. Việc sử dụng học máy để phân loại thực thể giúp cải thiện độ chính xác và hiệu quả của hệ thống. Luận văn đã áp dụng mô hình SVM và sử dụng thư viện Sklearn để thực hiện các bài toán học máy. Kết quả cho thấy mô hình này có khả năng phân loại chính xác các thực thể, từ đó đóng góp vào việc xây dựng hệ tri thức cho tiếng Việt.

IV. Thực nghiệm

Luận văn đã tiến hành thực nghiệm với tập dữ liệu gồm 10,000 thực thể được gán nhãn thủ công. Các bước thực nghiệm bao gồm tiền xử lý dữ liệu, trích chọn đặc trưng, và đánh giá mô hình. Kết quả thực nghiệm cho thấy mô hình SVM đạt được độ chính xác cao, vượt qua các phương pháp cơ sở. Việc phân tích đóng góp của từng loại đặc trưng cũng được thực hiện để hiểu rõ hơn về hiệu quả của mô hình. Những kết quả này không chỉ chứng minh tính ưu việt của phương pháp mà còn mở ra hướng nghiên cứu mới trong việc phát triển các công cụ phân loại thực thể cho tiếng Việt.

V. Kết luận và hướng phát triển

Luận văn đã đóng góp một công cụ phân loại thực thể có tên trên Wikipedia tiếng Việt với độ chính xác cao và một bộ dữ liệu lớn. Những đóng góp này sẽ thúc đẩy quá trình xây dựng hệ tri thức tiếng Việt, đồng thời hỗ trợ cho các nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiêntrí tuệ nhân tạo. Hướng phát triển tiếp theo có thể bao gồm việc mở rộng tập dữ liệu, cải thiện mô hình phân loại, và áp dụng các phương pháp học sâu để nâng cao độ chính xác và khả năng xử lý của hệ thống.

06/02/2025
Luận văn thạc sĩ công nghệ thông tin phân loại thực thể có tên trên wikipedia để phục vụ cho bài toán xây dựng hệ tri thức
Bạn đang xem trước tài liệu : Luận văn thạc sĩ công nghệ thông tin phân loại thực thể có tên trên wikipedia để phục vụ cho bài toán xây dựng hệ tri thức

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Bài viết "Phân loại thực thể trên Wikipedia cho hệ tri thức trong công nghệ thông tin" khám phá cách phân loại các thực thể trên Wikipedia và ứng dụng của chúng trong việc xây dựng hệ tri thức. Tác giả nhấn mạnh tầm quan trọng của việc phân loại chính xác để cải thiện khả năng truy xuất thông tin và hỗ trợ các hệ thống thông minh. Độc giả sẽ nhận thấy rằng việc hiểu rõ về phân loại thực thể không chỉ giúp nâng cao hiệu quả tìm kiếm mà còn mở ra nhiều cơ hội nghiên cứu và phát triển trong lĩnh vực công nghệ thông tin.

Nếu bạn muốn tìm hiểu sâu hơn về các ứng dụng của công nghệ trong việc phân tích và khai thác dữ liệu, hãy tham khảo bài viết Luận văn thạc sĩ hcmute dự báo trên chuỗi thời gian dựa trên so trùng mẫu sử dụng nhiều độ đo, nơi bạn sẽ khám phá các phương pháp dự báo dữ liệu. Ngoài ra, bài viết Luận văn thạc sĩ hcmute tìm hiểu thuật toán phân lớp dựa trên khai phá luật kết hợp sử dụng thuật toán ant colony optimization aco sẽ cung cấp cái nhìn sâu sắc về các thuật toán phân lớp và ứng dụng của chúng trong khai thác dữ liệu. Cuối cùng, bạn có thể tìm hiểu thêm về Luận văn thạc sĩ khoa học máy tính xây dựng hệ thống khuyến nghị dựa trên graph neural network, một lĩnh vực đang phát triển mạnh mẽ trong công nghệ thông tin. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và hiểu rõ hơn về các khía cạnh khác nhau của công nghệ thông tin.