Phân loại thực thể Wikipedia cho hệ tri thức

I. Giới thiệu

Bài toán Phân loại thực thể có tên là một trong những vấn đề quan trọng trong lĩnh vực trích xuất thông tin và xây dựng hệ tri thức. Với sự phát triển mạnh mẽ của các ứng dụng trí tuệ nhân tạo, đặc biệt là các trợ lý ảo, nhu cầu xây dựng các hệ tri thức ngày càng trở nên cấp thiết. Luận văn này giới thiệu một phương pháp hiệu quả để giải quyết bài toán Phân loại thực thể có tên trên phiên bản Wikipedia tiếng Việt, sử dụng mô hình máy véc-tơ hỗ trợ (SVM). Đặc biệt, luận văn đã xây dựng một công cụ với độ chính xác cao trên 94% và cung cấp một tập dữ liệu lớn gồm 10,000 thực thể được gán nhãn thủ công. Những đóng góp này không chỉ giúp nâng cao chất lượng hệ tri thức tiếng Việt mà còn hỗ trợ cho các nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo.

II. Hệ thống kiểu của thực thể có tên

Hệ tri thức là một nhánh của ngành trí tuệ nhân tạo, chứa đựng tri thức về giải quyết vấn đề trong một lĩnh vực cụ thể. Các hệ tri thức có thể phân loại thành nhiều loại khác nhau, bao gồm hệ chuyên gia và hệ dạy học thông minh. Phân loại thực thể có tên là một phần quan trọng trong việc xây dựng hệ tri thức, giúp máy móc hiểu và phân tích ngôn ngữ tự nhiên. Các thực thể có tên như Đoàn Văn Hậu hay Đại học Quốc gia Hà Nội được phân loại thành các kiểu như người, tổ chức, địa điểm, v.v. Việc phân loại này không chỉ giúp cải thiện khả năng tìm kiếm thông tin mà còn hỗ trợ trong việc ra quyết định và nâng cao năng suất làm việc.

III. Phân loại thực thể có tên trên Wikipedia tiếng Việt

Luận văn đã tiến hành phân loại thực thể có tên trên Wikipedia tiếng Việt bằng cách sử dụng các phương pháp học máy, đặc biệt là mô hình SVM. Các đặc trưng được trích xuất từ các trang Wikipedia bao gồm cả đặc trưng có cấu trúc và phi cấu trúc. Việc sử dụng thư viện Sklearn để thực hiện các bài toán học máy đã giúp tối ưu hóa quy trình phân loại. Kết quả cho thấy mô hình đạt độ chính xác cao, chứng minh tính hiệu quả của phương pháp. Hơn nữa, luận văn cũng đã xây dựng một bộ dữ liệu lớn với 10,000 thực thể được gán nhãn thủ công, tạo điều kiện cho các nghiên cứu tiếp theo trong lĩnh vực này.

IV. Thực nghiệm và kết quả

Trong chương này, luận văn trình bày chi tiết về quy trình thực nghiệm, bao gồm việc thu thập và tiền xử lý dữ liệu từ Wikipedia. Các bước thực hiện thực nghiệm được mô tả rõ ràng, từ việc lựa chọn đặc trưng đến đánh giá kết quả. Kết quả thực nghiệm cho thấy mô hình SVM không chỉ vượt trội hơn so với phương pháp cơ sở mà còn có khả năng phân loại chính xác các thực thể có tên trong ngữ cảnh tiếng Việt. Điều này mở ra hướng đi mới cho việc phát triển các công cụ phân loại thực thể trong tương lai, đặc biệt là trong bối cảnh xây dựng hệ tri thức tiếng Việt.

Luận văn về phân loại thực thể có tên trên Wikipedia để xây dựng hệ tri thức

I. Giới thiệu

II. Hệ thống kiểu của thực thể có tên

III. Phân loại thực thể có tên trên Wikipedia tiếng Việt

IV. Thực nghiệm và kết quả

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Lưu Mạnh Hà

Người hướng dẫn: PTS. Phạm Bảo Sơn

Trường học: Trường Đại học Công nghệ - ĐHQG Hà Nội

Chuyên ngành: Công nghệ thông tin

Đề tài: Phân loại thực thể Wikipedia cho hệ tri thức

Loại tài liệu: Luận văn tốt nghiệp

Năm xuất bản: 2019

Địa điểm: Hà Nội