## Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của trí tuệ nhân tạo (AI) và các ứng dụng trợ lý ảo như Google Assistant, Alexa, Siri, việc xây dựng hệ tri thức tiếng Việt trở thành nhu cầu cấp thiết. Wikipedia tiếng Việt hiện có khoảng 1.24 triệu bài viết với hơn 1.7 triệu thực thể, tạo thành nguồn dữ liệu phong phú để phát triển các hệ tri thức. Tuy nhiên, việc phân loại thực thể có tên trên Wikipedia tiếng Việt vẫn còn nhiều thách thức do dữ liệu còn hạn chế và thiếu các công cụ tối ưu cho tiếng Việt. Mục tiêu nghiên cứu của luận văn là phát triển một công cụ phân loại thực thể có tên trên Wikipedia tiếng Việt với độ chính xác cao, sử dụng phương pháp máy véc-tơ hỗ trợ (SVM). Phạm vi nghiên cứu tập trung vào 10,000 bài viết được gán nhãn thủ công, thực hiện trong khoảng thời gian gần đây tại Việt Nam. Kết quả nghiên cứu không chỉ nâng cao độ chính xác phân loại trên 94% mà còn đóng góp bộ dữ liệu lớn và công cụ tiền xử lý dữ liệu có thể tái sử dụng, góp phần thúc đẩy phát triển hệ tri thức tiếng Việt và các ứng dụng xử lý ngôn ngữ tự nhiên (NLP).

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

- **Hệ tri thức (Knowledge-based system):** Là hệ thống máy tính sử dụng cơ sở tri thức và công cụ suy luận để giải quyết các vấn đề phức tạp, hỗ trợ ra quyết định và tích hợp kiến thức quy mô lớn.
- **Thực thể có tên (Named Entity):** Đơn vị cơ bản trong hệ tri thức, là các đối tượng cụ thể như người, tổ chức, địa điểm, sự kiện, v.v.
- **Hệ thống kiểu thực thể NERD-TS:** Hệ thống phân loại thực thể chi tiết cho tiếng Việt, bao gồm 6 kiểu chính và khoảng 100 kiểu chi tiết, giúp phân biệt rõ ràng các loại thực thể như Person, Organization, Place, Event, Creative Work, Character.
- **Máy véc-tơ hỗ trợ (Support Vector Machine - SVM):** Phương pháp học máy có giám sát, tối ưu hóa lề cực đại để phân loại dữ liệu, phù hợp với bài toán phân loại đa lớp thực thể.
- **Phân loại đa lớp (Multiclass classification):** Chiến lược One-vs-One được sử dụng để xây dựng 21 mô hình phân loại nhị phân cho 7 lớp thực thể.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** 10,000 bài viết Wikipedia tiếng Việt được lựa chọn ngẫu nhiên và gán nhãn thủ công theo hệ thống kiểu NERD-TS.
- **Tiền xử lý dữ liệu:** Sử dụng công cụ Wikiextractor để loại bỏ nhiễu, công cụ VNCoreNLP để phân tách từ và gán nhãn từ loại, trích chọn đặc trưng từ các phần như infobox, tiêu đề, thể loại, và cụm danh từ quan trọng.
- **Phương pháp phân tích:** Xây dựng mô hình học máy sử dụng SVM với nhân tuyến tính, thực thi trên thư viện Sklearn, áp dụng kỹ thuật Stratified K-fold cross-validation (K=5) để đánh giá mô hình.
- **Timeline nghiên cứu:** Thu thập và tiền xử lý dữ liệu trong giai đoạn đầu, xây dựng và huấn luyện mô hình trong giai đoạn giữa, đánh giá và hoàn thiện công cụ trong giai đoạn cuối.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình SVM đạt độ chính xác F1-score trên 94% trong phân loại thực thể có tên trên Wikipedia tiếng Việt, vượt trội so với phương pháp cơ sở.
- Bộ dữ liệu 10,000 thực thể được gán nhãn thủ công cung cấp nguồn dữ liệu chất lượng cao, hỗ trợ hiệu quả cho việc huấn luyện và đánh giá mô hình.
- Việc sử dụng đặc trưng cấu trúc (infobox, tiêu đề) và phi cấu trúc (thể loại, cụm danh từ) đóng góp quan trọng vào hiệu suất mô hình, trong đó đặc trưng infobox chiếm tỷ trọng đóng góp lớn nhất.
- Chiến lược phân loại đa lớp One-vs-One với 21 mô hình nhị phân giúp cân bằng hiệu quả tính toán và độ chính xác, phù hợp với số lượng lớp thực thể hiện tại.

### Thảo luận kết quả

Kết quả cho thấy phương pháp SVM với nhân tuyến tính là lựa chọn phù hợp cho bài toán phân loại thực thể tiếng Việt, nhờ khả năng xử lý tốt dữ liệu có chiều cao và phân loại đa lớp hiệu quả. Việc kết hợp đặc trưng cấu trúc và phi cấu trúc giúp mô hình nắm bắt được thông tin phong phú từ các trang Wikipedia, nâng cao độ chính xác phân loại. So với các nghiên cứu trước đây sử dụng dữ liệu Dbpedia tiếng Việt, kết quả của luận văn có sự cải thiện rõ rệt nhờ tập dữ liệu lớn và công cụ tiền xử lý tối ưu. Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác giữa các mô hình và bảng phân tích đóng góp từng loại đặc trưng, giúp minh họa rõ ràng hiệu quả của từng thành phần trong mô hình.

## Đề xuất và khuyến nghị

- **Phát triển hệ thống phân loại chi tiết hơn:** Mở rộng hệ thống kiểu thực thể từ 6 lên khoảng 100 kiểu chi tiết, nhằm nâng cao độ chính xác và tính ứng dụng trong các hệ tri thức phức tạp.
- **Tăng cường thu thập và gán nhãn dữ liệu:** Mở rộng bộ dữ liệu gán nhãn thủ công vượt quá 10,000 thực thể, nhằm cải thiện khả năng học của mô hình, dự kiến hoàn thành trong 1-2 năm tới.
- **Ứng dụng các phương pháp học sâu:** Nghiên cứu và thử nghiệm các mô hình học sâu (Deep Learning) để khai thác đặc trưng ngữ nghĩa sâu hơn, nâng cao hiệu quả phân loại.
- **Phát triển công cụ tiền xử lý dữ liệu tự động:** Tối ưu hóa công cụ tiền xử lý để giảm thiểu sự can thiệp thủ công, tăng tốc độ xử lý và khả năng mở rộng cho các nguồn dữ liệu khác.
- **Chủ thể thực hiện:** Các nhóm nghiên cứu NLP, các công ty công nghệ phát triển hệ tri thức, và các tổ chức giáo dục có thể phối hợp triển khai các giải pháp trên.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và học giả trong lĩnh vực NLP và AI:** Có thể sử dụng bộ dữ liệu và công cụ phân loại để phát triển các nghiên cứu về xử lý ngôn ngữ tiếng Việt và xây dựng hệ tri thức.
- **Doanh nghiệp công nghệ và phát triển phần mềm:** Áp dụng công cụ phân loại thực thể để nâng cao chất lượng các sản phẩm trợ lý ảo, chatbot, và hệ thống quản lý tri thức.
- **Các tổ chức giáo dục và đào tạo:** Sử dụng luận văn làm tài liệu tham khảo cho các khóa học về học máy, xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo.
- **Cơ quan quản lý và phát triển dữ liệu quốc gia:** Tham khảo để xây dựng các hệ thống quản lý tri thức quốc gia, phục vụ cho các ứng dụng chính phủ điện tử và phát triển kinh tế số.

## Câu hỏi thường gặp

1. **Phân loại thực thể có tên là gì?**  
Là quá trình xác định và phân loại các thực thể riêng biệt trong văn bản thành các loại như người, tổ chức, địa điểm, sự kiện, v.v., giúp máy tính hiểu và xử lý thông tin chính xác hơn.

2. **Tại sao chọn Wikipedia tiếng Việt làm nguồn dữ liệu?**  
Wikipedia là nền tảng tri thức đa ngôn ngữ lớn, có cộng đồng phát triển đông đảo, cung cấp dữ liệu phong phú và đa dạng, phù hợp để xây dựng hệ tri thức tiếng Việt.

3. **Phương pháp SVM có ưu điểm gì trong bài toán này?**  
SVM tối ưu hóa lề cực đại giúp phân loại chính xác, xử lý tốt dữ liệu đa chiều và đa lớp, phù hợp với tập dữ liệu có nhiều loại thực thể và đặc trưng phức tạp.

4. **Công cụ VNCoreNLP hỗ trợ gì trong nghiên cứu?**  
VNCoreNLP thực hiện phân tách từ và gán nhãn từ loại cho tiếng Việt, giúp tiền xử lý dữ liệu hiệu quả, tạo điều kiện cho việc trích chọn đặc trưng chính xác.

5. **Làm thế nào để mở rộng nghiên cứu trong tương lai?**  
Có thể mở rộng hệ thống kiểu thực thể chi tiết hơn, áp dụng học sâu, tăng cường dữ liệu gán nhãn, và phát triển công cụ tự động hóa tiền xử lý để nâng cao hiệu quả và ứng dụng thực tế.

## Kết luận

- Luận văn đã phát triển thành công công cụ phân loại thực thể có tên trên Wikipedia tiếng Việt với độ chính xác trên 94%.  
- Đã xây dựng bộ dữ liệu 10,000 thực thể được gán nhãn thủ công, đóng góp nguồn dữ liệu quý giá cho cộng đồng nghiên cứu.  
- Áp dụng hiệu quả phương pháp máy véc-tơ hỗ trợ (SVM) kết hợp đặc trưng cấu trúc và phi cấu trúc từ Wikipedia.  
- Kết quả nghiên cứu góp phần thúc đẩy phát triển hệ tri thức tiếng Việt và các ứng dụng NLP, AI trong nước.  
- Đề xuất mở rộng nghiên cứu với hệ thống kiểu chi tiết hơn, học sâu và tự động hóa tiền xử lý trong các bước tiếp theo.  

**Hành động tiếp theo:** Khuyến khích các nhà nghiên cứu và doanh nghiệp ứng dụng công cụ và dữ liệu này để phát triển các hệ tri thức và ứng dụng AI tại Việt Nam.