Luận văn thạc sĩ: Phân loại thực thể có tên trên Wikipedia để xây dựng hệ tri thức

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2019

Phí lưu trữ

30.000 VNĐ

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Phạm vi bài toán và mục tiêu nghiên cứu

1.2. Đóng góp của luận văn

1.3. Cấu trúc của luận văn

2. CHƯƠNG 2: HỆ THỐNG KIỂU CỦA THỰC THỂ CÓ TÊN

2.1. Hệ tri thức

2.2. Thực thể có tên

2.3. Kiểu của thực thể

2.4. Các hệ thống kiểu thực thể

2.5. Các hệ thống kiểu chi tiết cho Tiếng Anh

2.6. Hệ thống kiểu thực thể NERD-TS

2.7. Điểm khác biệt giữa NERD-TS với hệ thống kiểu trong bài toán NER truyền thống

3. CHƯƠNG 3: PHÂN LOẠI THỰC THỂ CÓ TÊN TRÊN WIKIPEDIA TIẾNG VIỆT

3.1. Tổng quan về học máy

3.2. Phân nhóm các thuật toán học máy dựa trên phương thức học

3.3. Mô hình SVM

3.4. Mô hình SVM với nhân tuyến tính

3.5. Phân loại đa lớp (Multiclass classification)

3.6. Bộ công cụ Sklearn

3.7. Thư viện Sklearn Linear SVC (Linear Support Vector Classification)

3.7.1. Trích chọn đặc trưng (Feature extraction)

3.7.2. Lựa chọn đặc trưng (Feature selection)

3.7.3. Kiểm định chéo (Cross-validation)

3.7.4. Tiền xử lý dữ liệu

3.7.5. Giới thiệu về VnCoreNLP

3.7.6. Phân tách từ

3.7.7. Gán nhãn từ loại (POS tagging)

3.7.8. Tập đặc trưng

4. CHƯƠNG 4: THỰC NGHIỆM

4.1. Tập dữ liệu

4.2. Tiến hành thực nghiệm

4.3. Phân tích đóng góp của từng loại đặc trưng

PHỤ LỤC 3: MÔ TẢ NỘI DUNG TỆP DỮ LIỆU SAU TIỀN XỬ LÝ

Tóm tắt

I. Giới thiệu

Bài toán phân loại thực thể có tên trên Wikipedia là một phần quan trọng trong lĩnh vực trích xuất thông tin và xây dựng hệ tri thức. Với sự phát triển mạnh mẽ của công nghệ thông tin, nhu cầu xây dựng các hệ tri thức để phục vụ cho các ứng dụng trí tuệ nhân tạo ngày càng tăng. Luận văn này giới thiệu một phương pháp hiệu quả để giải quyết bài toán này, sử dụng máy véc-tơ hỗ trợ (SVM). Đặc biệt, luận văn đã xây dựng một công cụ với độ chính xác cao, đạt trên 94%, và cung cấp một tập dữ liệu lớn gồm 10,000 thực thể được gán nhãn thủ công. Những đóng góp này không chỉ giúp xây dựng hệ tri thức tiếng Việt mà còn hỗ trợ cho các nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo.

II. Hệ tri thức

Hệ tri thức là một nhánh của ngành trí tuệ nhân tạo, chứa đựng tri thức về giải quyết vấn đề trong một lĩnh vực cụ thể. Hệ tri thức sử dụng một cơ sở tri thức và một công cụ suy luận để giải quyết các vấn đề phức tạp. Các hệ tri thức có thể phân loại thành nhiều loại khác nhau, như hệ chuyên gia và hệ thống dạy học thông minh. Chúng có khả năng xử lý dữ liệu phi cấu trúc và hỗ trợ ra quyết định. Việc xây dựng hệ tri thức thu hút sự quan tâm lớn từ cộng đồng nghiên cứu và các doanh nghiệp công nghệ. Tuy nhiên, các hệ tri thức tiếng Việt vẫn còn hạn chế, điều này tạo ra cơ hội cho nghiên cứu và phát triển trong lĩnh vực này.

III. Phân loại thực thể có tên trên Wikipedia

Phân loại thực thể có tên là một bài toán quan trọng trong trích xuất thông tin. Luận văn này tập trung vào việc phân loại các thực thể có tên từ dữ liệu trên Wikipedia tiếng Việt. Các thực thể được phân loại thành nhiều kiểu khác nhau như người, tổ chức, địa điểm, và sự kiện. Việc sử dụng học máy để phân loại thực thể giúp cải thiện độ chính xác và hiệu quả của hệ thống. Luận văn đã áp dụng mô hình SVM và sử dụng thư viện Sklearn để thực hiện các bài toán học máy. Kết quả cho thấy mô hình này có khả năng phân loại chính xác các thực thể, từ đó đóng góp vào việc xây dựng hệ tri thức cho tiếng Việt.

IV. Thực nghiệm

Luận văn đã tiến hành thực nghiệm với tập dữ liệu gồm 10,000 thực thể được gán nhãn thủ công. Các bước thực nghiệm bao gồm tiền xử lý dữ liệu, trích chọn đặc trưng, và đánh giá mô hình. Kết quả thực nghiệm cho thấy mô hình SVM đạt được độ chính xác cao, vượt qua các phương pháp cơ sở. Việc phân tích đóng góp của từng loại đặc trưng cũng được thực hiện để hiểu rõ hơn về hiệu quả của mô hình. Những kết quả này không chỉ chứng minh tính ưu việt của phương pháp mà còn mở ra hướng nghiên cứu mới trong việc phát triển các công cụ phân loại thực thể cho tiếng Việt.

V. Kết luận và hướng phát triển

Luận văn đã đóng góp một công cụ phân loại thực thể có tên trên Wikipedia tiếng Việt với độ chính xác cao và một bộ dữ liệu lớn. Những đóng góp này sẽ thúc đẩy quá trình xây dựng hệ tri thức tiếng Việt, đồng thời hỗ trợ cho các nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo. Hướng phát triển tiếp theo có thể bao gồm việc mở rộng tập dữ liệu, cải thiện mô hình phân loại, và áp dụng các phương pháp học sâu để nâng cao độ chính xác và khả năng xử lý của hệ thống.

06/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ công nghệ thông tin phân loại thực thể có tên trên wikipedia để phục vụ cho bài toán xây dựng hệ tri thức

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của trí tuệ nhân tạo và các ứng dụng trợ lý ảo như Google Assistant, Alexa, Siri, nhu cầu xây dựng hệ tri thức ngày càng trở nên cấp thiết. Wikipedia tiếng Việt hiện có khoảng 1.24 triệu bài viết với hơn 1.7 triệu thực thể, bao gồm các thực thể có tên như Đại học Quốc gia Hà Nội, Đoàn Văn Hậu, v.v. Việc phân loại chính xác các thực thể này đóng vai trò then chốt trong xây dựng hệ tri thức, phục vụ cho các ứng dụng xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo. Mục tiêu nghiên cứu của luận văn là phát triển một công cụ phân loại thực thể có tên trên Wikipedia tiếng Việt với độ chính xác cao, sử dụng phương pháp máy véc-tơ hỗ trợ (SVM). Phạm vi nghiên cứu tập trung vào dữ liệu Wikipedia tiếng Việt thu thập năm 2019, với bộ dữ liệu gồm 10,000 thực thể được gán nhãn thủ công. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác phân loại lên trên 94%, góp phần thúc đẩy xây dựng hệ tri thức tiếng Việt phong phú và hỗ trợ các ứng dụng như hỏi đáp tự động, trích xuất thông tin.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

- **Hệ tri thức (Knowledge-based system):** Là hệ thống máy tính sử dụng cơ sở tri thức và công cụ suy luận để giải quyết các vấn đề phức tạp, hỗ trợ ra quyết định và tích hợp kiến thức quy mô lớn.
- **Thực thể có tên (Named Entity):** Là các đối tượng cụ thể được biểu diễn bằng tên riêng, ví dụ như người, tổ chức, địa điểm, sự kiện, sản phẩm nghệ thuật, nhân vật hư cấu.
- **Hệ thống kiểu thực thể NERD-TS:** Hệ thống phân loại thực thể chi tiết cho tiếng Việt, bao gồm 6 kiểu chính và khoảng 100 kiểu chi tiết, giúp phân biệt rõ ràng các loại thực thể như Person, Organization, Place, Event, Creative Work, Character.
- **Máy véc-tơ hỗ trợ (Support Vector Machine - SVM):** Phương pháp học máy có giám sát, sử dụng siêu phẳng tối ưu để phân loại dữ liệu, hỗ trợ phân loại đa lớp thông qua chiến lược one-vs-one.
- **Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP):** Sử dụng công cụ VNCoreNLP để phân tách từ và gán nhãn từ loại, hỗ trợ trích chọn đặc trưng từ dữ liệu văn bản.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Dữ liệu được thu thập từ Wikipedia tiếng Việt phiên bản tháng 1/2019, gồm 10,000 bài viết được chọn ngẫu nhiên và gán nhãn thủ công theo hệ thống kiểu NERD-TS.
- **Tiền xử lý dữ liệu:** Sử dụng công cụ Wikiextractor để loại bỏ nhiễu như thẻ HTML, trang chuyển tiếp, trang mẫu; VNCoreNLP để phân tách từ và gán nhãn từ loại.
- **Trích chọn đặc trưng:** Bao gồm đặc trưng có cấu trúc (infobox properties, tiêu đề) và phi cấu trúc (thể loại, cụm danh từ quan trọng).
- **Mô hình học máy:** Áp dụng SVM với nhân tuyến tính, sử dụng thư viện Sklearn LinearSVC, thực hiện phân loại đa lớp theo chiến lược one-vs-one với 7 lớp nhãn.
- **Đánh giá mô hình:** Sử dụng kiểm định chéo phân tầng (Stratified K-fold cross-validation) với K=5 để đảm bảo phân phối đồng đều các lớp trong tập huấn luyện và kiểm tra.
- **Timeline nghiên cứu:** Thu thập và tiền xử lý dữ liệu trong 3 tháng đầu; xây dựng và huấn luyện mô hình trong 4 tháng tiếp theo; đánh giá và hoàn thiện công cụ trong 2 tháng cuối năm 2019.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- **Độ chính xác mô hình:** Công cụ phân loại thực thể đạt độ chính xác F1-score trên 94%, vượt trội so với phương pháp cơ sở (baseline) chỉ khoảng 85%.
- **Ảnh hưởng của đặc trưng:** Việc kết hợp đặc trưng có cấu trúc và phi cấu trúc giúp tăng hiệu quả phân loại lên khoảng 10% so với chỉ sử dụng một loại đặc trưng.
- **Phân loại đa lớp:** Chiến lược one-vs-one với 21 mô hình nhị phân cho 7 lớp nhãn giúp mô hình xử lý hiệu quả các lớp thực thể đa dạng.
- **Đóng góp dữ liệu:** Bộ dữ liệu 10,000 thực thể gán nhãn thủ công cung cấp nguồn tài nguyên quý giá cho nghiên cứu và phát triển các ứng dụng NLP tiếng Việt.

### Thảo luận kết quả

Kết quả cho thấy phương pháp SVM với nhân tuyến tính phù hợp và hiệu quả trong bài toán phân loại thực thể có tên trên Wikipedia tiếng Việt. Việc sử dụng đặc trưng đa dạng từ cả cấu trúc và phi cấu trúc của trang Wikipedia giúp mô hình nắm bắt được nhiều thông tin ngữ cảnh, từ đó nâng cao độ chính xác. So với các nghiên cứu trước đây sử dụng dữ liệu Dbpedia tiếng Việt với độ chính xác thấp hơn do dữ liệu hạn chế và nhiều nhiễu, nghiên cứu này đã cải thiện đáng kể nhờ tập dữ liệu lớn và công cụ tiền xử lý hiệu quả. Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác giữa các mô hình và bảng phân phối nhãn trong tập dữ liệu. Kết quả cũng mở ra hướng phát triển cho các hệ thống phân loại chi tiết hơn, hỗ trợ xây dựng hệ tri thức phong phú cho tiếng Việt.

## Đề xuất và khuyến nghị

- **Mở rộng bộ dữ liệu:** Tiếp tục thu thập và gán nhãn thêm thực thể để nâng cao độ đa dạng và độ chính xác của mô hình, đặt mục tiêu tăng số lượng thực thể lên khoảng 50,000 trong 2 năm tới.
- **Phát triển hệ thống kiểu chi tiết:** Triển khai phân loại thực thể theo hệ thống kiểu chi tiết hơn, giúp cải thiện khả năng truy vấn và khai thác thông tin trong hệ tri thức.
- **Ứng dụng học sâu:** Nghiên cứu và áp dụng các mô hình học sâu (Deep Learning) để khai thác đặc trưng ngữ nghĩa sâu hơn, kỳ vọng tăng độ chính xác trên 96% trong tương lai gần.
- **Tích hợp công cụ vào hệ sinh thái:** Đề xuất tích hợp công cụ phân loại thực thể vào các nền tảng xử lý ngôn ngữ tự nhiên và trợ lý ảo, nhằm nâng cao trải nghiệm người dùng và hiệu quả xử lý thông tin.
- **Đào tạo và chuyển giao công nghệ:** Tổ chức các khóa đào tạo, hội thảo để phổ biến công nghệ và công cụ cho các tổ chức, doanh nghiệp và cộng đồng nghiên cứu trong nước.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Trí tuệ nhân tạo:** Nghiên cứu về xử lý ngôn ngữ tự nhiên, học máy, xây dựng hệ tri thức có thể sử dụng bộ dữ liệu và công cụ tiền xử lý trong luận văn.
- **Doanh nghiệp công nghệ và phát triển phần mềm:** Các công ty phát triển trợ lý ảo, chatbot, hệ thống tìm kiếm có thể ứng dụng mô hình phân loại thực thể để nâng cao chất lượng sản phẩm.
- **Cơ quan quản lý và tổ chức giáo dục:** Sử dụng kết quả nghiên cứu để phát triển các hệ thống quản lý tri thức, thư viện số, và các ứng dụng giáo dục thông minh.
- **Cộng đồng phát triển nguồn mở và dự án mã nguồn mở:** Tham khảo để đóng góp, phát triển thêm các công cụ xử lý ngôn ngữ tiếng Việt, thúc đẩy sự phát triển chung của lĩnh vực NLP tại Việt Nam.

## Câu hỏi thường gặp

1. **Phân loại thực thể có tên là gì?**  
Phân loại thực thể có tên là quá trình xác định loại của các thực thể cụ thể trong văn bản, như người, tổ chức, địa điểm, sự kiện, nhằm phục vụ cho việc xây dựng hệ tri thức và các ứng dụng NLP.

2. **Tại sao chọn Wikipedia tiếng Việt làm nguồn dữ liệu?**  
Wikipedia là nền tảng tri thức đa ngôn ngữ lớn, có cộng đồng phát triển đông đảo, cung cấp dữ liệu phong phú và đa dạng, phù hợp để xây dựng hệ tri thức tiếng Việt với hơn 1.24 triệu bài viết.

3. **Phương pháp máy véc-tơ hỗ trợ (SVM) có ưu điểm gì?**  
SVM có khả năng phân loại hiệu quả, đặc biệt với dữ liệu có nhiều chiều, hỗ trợ phân loại đa lớp qua chiến lược one-vs-one, và có thể áp dụng nhân tuyến tính hoặc phi tuyến để phù hợp với dữ liệu.

4. **Làm thế nào để đảm bảo mô hình không bị quá khớp?**  
Sử dụng kiểm định chéo phân tầng (Stratified K-fold cross-validation) giúp đánh giá mô hình trên nhiều tập con dữ liệu khác nhau, đảm bảo tính tổng quát và tránh quá khớp.

5. **Công cụ VNCoreNLP đóng vai trò gì trong nghiên cứu?**  
VNCoreNLP hỗ trợ phân tách từ và gán nhãn từ loại cho tiếng Việt, giúp trích chọn đặc trưng chính xác từ văn bản Wikipedia, là bước tiền xử lý quan trọng để nâng cao hiệu quả mô hình học máy.

## Kết luận

- Luận văn đã phát triển thành công công cụ phân loại thực thể có tên trên Wikipedia tiếng Việt với độ chính xác trên 94%.  
- Bộ dữ liệu 10,000 thực thể gán nhãn thủ công là tài nguyên quý giá cho nghiên cứu và ứng dụng NLP tiếng Việt.  
- Phương pháp SVM với nhân tuyến tính và chiến lược phân loại one-vs-one được chứng minh hiệu quả trong bài toán phân loại đa lớp.  
- Kết quả nghiên cứu góp phần thúc đẩy xây dựng hệ tri thức tiếng Việt phong phú, hỗ trợ các ứng dụng trí tuệ nhân tạo và xử lý ngôn ngữ tự nhiên.  
- Đề xuất mở rộng dữ liệu, phát triển hệ thống kiểu chi tiết và ứng dụng học sâu là hướng nghiên cứu tiếp theo nhằm nâng cao chất lượng và phạm vi ứng dụng.  

Hãy bắt đầu áp dụng các giải pháp này để nâng cao hiệu quả xây dựng hệ tri thức và phát triển các ứng dụng trí tuệ nhân tạo tại Việt Nam.

Bài viết "Phân loại thực thể trên Wikipedia cho hệ tri thức trong công nghệ thông tin" khám phá cách phân loại các thực thể trên Wikipedia và ứng dụng của chúng trong việc xây dựng hệ tri thức. Tác giả nhấn mạnh tầm quan trọng của việc phân loại chính xác để cải thiện khả năng truy xuất thông tin và hỗ trợ các hệ thống thông minh. Độc giả sẽ nhận thấy rằng việc hiểu rõ về phân loại thực thể không chỉ giúp nâng cao hiệu quả tìm kiếm mà còn mở ra nhiều cơ hội nghiên cứu và phát triển trong lĩnh vực công nghệ thông tin.

Nếu bạn muốn tìm hiểu sâu hơn về các ứng dụng của công nghệ trong việc phân tích và khai thác dữ liệu, hãy tham khảo bài viết Luận văn thạc sĩ hcmute dự báo trên chuỗi thời gian dựa trên so trùng mẫu sử dụng nhiều độ đo, nơi bạn sẽ khám phá các phương pháp dự báo dữ liệu. Ngoài ra, bài viết Luận văn thạc sĩ hcmute tìm hiểu thuật toán phân lớp dựa trên khai phá luật kết hợp sử dụng thuật toán ant colony optimization aco sẽ cung cấp cái nhìn sâu sắc về các thuật toán phân lớp và ứng dụng của chúng trong khai thác dữ liệu. Cuối cùng, bạn có thể tìm hiểu thêm về Luận văn thạc sĩ khoa học máy tính xây dựng hệ thống khuyến nghị dựa trên graph neural network, một lĩnh vực đang phát triển mạnh mẽ trong công nghệ thông tin. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và hiểu rõ hơn về các khía cạnh khác nhau của công nghệ thông tin.

#Luận văn Thạc sĩ

#công nghệ thông tin

#trí tuệ nhân tạo

#khai thác thông tin

#dữ liệu mở

#phân loại thực thể

Chủ đề

Khoa học Dữ liệu

Trí tuệ nhân tạo và học máy

Nghiên cứu và phát triển trong lĩnh vực thông tin

Công nghệ thông tin và hệ tri thức