## Tổng quan nghiên cứu
Trong bối cảnh phát triển mạnh mẽ của trí tuệ nhân tạo và các ứng dụng trợ lý ảo như Google Assistant, Alexa, Siri, nhu cầu xây dựng hệ tri thức ngày càng trở nên cấp thiết. Wikipedia tiếng Việt hiện có khoảng 1.24 triệu bài viết với hơn 1.7 triệu thực thể, bao gồm các thực thể có tên như Đại học Quốc gia Hà Nội, Đoàn Văn Hậu, v.v. Việc phân loại chính xác các thực thể này đóng vai trò then chốt trong xây dựng hệ tri thức, phục vụ cho các ứng dụng xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo. Mục tiêu nghiên cứu của luận văn là phát triển một công cụ phân loại thực thể có tên trên Wikipedia tiếng Việt với độ chính xác cao, sử dụng phương pháp máy véc-tơ hỗ trợ (SVM). Phạm vi nghiên cứu tập trung vào dữ liệu Wikipedia tiếng Việt thu thập năm 2019, với bộ dữ liệu gồm 10,000 thực thể được gán nhãn thủ công. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác phân loại lên trên 94%, góp phần thúc đẩy xây dựng hệ tri thức tiếng Việt phong phú và hỗ trợ các ứng dụng như hỏi đáp tự động, trích xuất thông tin.
## Cơ sở lý thuyết và phương pháp nghiên cứu
### Khung lý thuyết áp dụng
Luận văn dựa trên các lý thuyết và mô hình sau:
- **Hệ tri thức (Knowledge-based system):** Là hệ thống máy tính sử dụng cơ sở tri thức và công cụ suy luận để giải quyết các vấn đề phức tạp, hỗ trợ ra quyết định và tích hợp kiến thức quy mô lớn.
- **Thực thể có tên (Named Entity):** Là các đối tượng cụ thể được biểu diễn bằng tên riêng, ví dụ như người, tổ chức, địa điểm, sự kiện, sản phẩm nghệ thuật, nhân vật hư cấu.
- **Hệ thống kiểu thực thể NERD-TS:** Hệ thống phân loại thực thể chi tiết cho tiếng Việt, bao gồm 6 kiểu chính và khoảng 100 kiểu chi tiết, giúp phân biệt rõ ràng các loại thực thể như Person, Organization, Place, Event, Creative Work, Character.
- **Máy véc-tơ hỗ trợ (Support Vector Machine - SVM):** Phương pháp học máy có giám sát, sử dụng siêu phẳng tối ưu để phân loại dữ liệu, hỗ trợ phân loại đa lớp thông qua chiến lược one-vs-one.
- **Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP):** Sử dụng công cụ VNCoreNLP để phân tách từ và gán nhãn từ loại, hỗ trợ trích chọn đặc trưng từ dữ liệu văn bản.
### Phương pháp nghiên cứu
- **Nguồn dữ liệu:** Dữ liệu được thu thập từ Wikipedia tiếng Việt phiên bản tháng 1/2019, gồm 10,000 bài viết được chọn ngẫu nhiên và gán nhãn thủ công theo hệ thống kiểu NERD-TS.
- **Tiền xử lý dữ liệu:** Sử dụng công cụ Wikiextractor để loại bỏ nhiễu như thẻ HTML, trang chuyển tiếp, trang mẫu; VNCoreNLP để phân tách từ và gán nhãn từ loại.
- **Trích chọn đặc trưng:** Bao gồm đặc trưng có cấu trúc (infobox properties, tiêu đề) và phi cấu trúc (thể loại, cụm danh từ quan trọng).
- **Mô hình học máy:** Áp dụng SVM với nhân tuyến tính, sử dụng thư viện Sklearn LinearSVC, thực hiện phân loại đa lớp theo chiến lược one-vs-one với 7 lớp nhãn.
- **Đánh giá mô hình:** Sử dụng kiểm định chéo phân tầng (Stratified K-fold cross-validation) với K=5 để đảm bảo phân phối đồng đều các lớp trong tập huấn luyện và kiểm tra.
- **Timeline nghiên cứu:** Thu thập và tiền xử lý dữ liệu trong 3 tháng đầu; xây dựng và huấn luyện mô hình trong 4 tháng tiếp theo; đánh giá và hoàn thiện công cụ trong 2 tháng cuối năm 2019.
## Kết quả nghiên cứu và thảo luận
### Những phát hiện chính
- **Độ chính xác mô hình:** Công cụ phân loại thực thể đạt độ chính xác F1-score trên 94%, vượt trội so với phương pháp cơ sở (baseline) chỉ khoảng 85%.
- **Ảnh hưởng của đặc trưng:** Việc kết hợp đặc trưng có cấu trúc và phi cấu trúc giúp tăng hiệu quả phân loại lên khoảng 10% so với chỉ sử dụng một loại đặc trưng.
- **Phân loại đa lớp:** Chiến lược one-vs-one với 21 mô hình nhị phân cho 7 lớp nhãn giúp mô hình xử lý hiệu quả các lớp thực thể đa dạng.
- **Đóng góp dữ liệu:** Bộ dữ liệu 10,000 thực thể gán nhãn thủ công cung cấp nguồn tài nguyên quý giá cho nghiên cứu và phát triển các ứng dụng NLP tiếng Việt.
### Thảo luận kết quả
Kết quả cho thấy phương pháp SVM với nhân tuyến tính phù hợp và hiệu quả trong bài toán phân loại thực thể có tên trên Wikipedia tiếng Việt. Việc sử dụng đặc trưng đa dạng từ cả cấu trúc và phi cấu trúc của trang Wikipedia giúp mô hình nắm bắt được nhiều thông tin ngữ cảnh, từ đó nâng cao độ chính xác. So với các nghiên cứu trước đây sử dụng dữ liệu Dbpedia tiếng Việt với độ chính xác thấp hơn do dữ liệu hạn chế và nhiều nhiễu, nghiên cứu này đã cải thiện đáng kể nhờ tập dữ liệu lớn và công cụ tiền xử lý hiệu quả. Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác giữa các mô hình và bảng phân phối nhãn trong tập dữ liệu. Kết quả cũng mở ra hướng phát triển cho các hệ thống phân loại chi tiết hơn, hỗ trợ xây dựng hệ tri thức phong phú cho tiếng Việt.
## Đề xuất và khuyến nghị
- **Mở rộng bộ dữ liệu:** Tiếp tục thu thập và gán nhãn thêm thực thể để nâng cao độ đa dạng và độ chính xác của mô hình, đặt mục tiêu tăng số lượng thực thể lên khoảng 50,000 trong 2 năm tới.
- **Phát triển hệ thống kiểu chi tiết:** Triển khai phân loại thực thể theo hệ thống kiểu chi tiết hơn, giúp cải thiện khả năng truy vấn và khai thác thông tin trong hệ tri thức.
- **Ứng dụng học sâu:** Nghiên cứu và áp dụng các mô hình học sâu (Deep Learning) để khai thác đặc trưng ngữ nghĩa sâu hơn, kỳ vọng tăng độ chính xác trên 96% trong tương lai gần.
- **Tích hợp công cụ vào hệ sinh thái:** Đề xuất tích hợp công cụ phân loại thực thể vào các nền tảng xử lý ngôn ngữ tự nhiên và trợ lý ảo, nhằm nâng cao trải nghiệm người dùng và hiệu quả xử lý thông tin.
- **Đào tạo và chuyển giao công nghệ:** Tổ chức các khóa đào tạo, hội thảo để phổ biến công nghệ và công cụ cho các tổ chức, doanh nghiệp và cộng đồng nghiên cứu trong nước.
## Đối tượng nên tham khảo luận văn
- **Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Trí tuệ nhân tạo:** Nghiên cứu về xử lý ngôn ngữ tự nhiên, học máy, xây dựng hệ tri thức có thể sử dụng bộ dữ liệu và công cụ tiền xử lý trong luận văn.
- **Doanh nghiệp công nghệ và phát triển phần mềm:** Các công ty phát triển trợ lý ảo, chatbot, hệ thống tìm kiếm có thể ứng dụng mô hình phân loại thực thể để nâng cao chất lượng sản phẩm.
- **Cơ quan quản lý và tổ chức giáo dục:** Sử dụng kết quả nghiên cứu để phát triển các hệ thống quản lý tri thức, thư viện số, và các ứng dụng giáo dục thông minh.
- **Cộng đồng phát triển nguồn mở và dự án mã nguồn mở:** Tham khảo để đóng góp, phát triển thêm các công cụ xử lý ngôn ngữ tiếng Việt, thúc đẩy sự phát triển chung của lĩnh vực NLP tại Việt Nam.
## Câu hỏi thường gặp
1. **Phân loại thực thể có tên là gì?**
Phân loại thực thể có tên là quá trình xác định loại của các thực thể cụ thể trong văn bản, như người, tổ chức, địa điểm, sự kiện, nhằm phục vụ cho việc xây dựng hệ tri thức và các ứng dụng NLP.
2. **Tại sao chọn Wikipedia tiếng Việt làm nguồn dữ liệu?**
Wikipedia là nền tảng tri thức đa ngôn ngữ lớn, có cộng đồng phát triển đông đảo, cung cấp dữ liệu phong phú và đa dạng, phù hợp để xây dựng hệ tri thức tiếng Việt với hơn 1.24 triệu bài viết.
3. **Phương pháp máy véc-tơ hỗ trợ (SVM) có ưu điểm gì?**
SVM có khả năng phân loại hiệu quả, đặc biệt với dữ liệu có nhiều chiều, hỗ trợ phân loại đa lớp qua chiến lược one-vs-one, và có thể áp dụng nhân tuyến tính hoặc phi tuyến để phù hợp với dữ liệu.
4. **Làm thế nào để đảm bảo mô hình không bị quá khớp?**
Sử dụng kiểm định chéo phân tầng (Stratified K-fold cross-validation) giúp đánh giá mô hình trên nhiều tập con dữ liệu khác nhau, đảm bảo tính tổng quát và tránh quá khớp.
5. **Công cụ VNCoreNLP đóng vai trò gì trong nghiên cứu?**
VNCoreNLP hỗ trợ phân tách từ và gán nhãn từ loại cho tiếng Việt, giúp trích chọn đặc trưng chính xác từ văn bản Wikipedia, là bước tiền xử lý quan trọng để nâng cao hiệu quả mô hình học máy.
## Kết luận
- Luận văn đã phát triển thành công công cụ phân loại thực thể có tên trên Wikipedia tiếng Việt với độ chính xác trên 94%.
- Bộ dữ liệu 10,000 thực thể gán nhãn thủ công là tài nguyên quý giá cho nghiên cứu và ứng dụng NLP tiếng Việt.
- Phương pháp SVM với nhân tuyến tính và chiến lược phân loại one-vs-one được chứng minh hiệu quả trong bài toán phân loại đa lớp.
- Kết quả nghiên cứu góp phần thúc đẩy xây dựng hệ tri thức tiếng Việt phong phú, hỗ trợ các ứng dụng trí tuệ nhân tạo và xử lý ngôn ngữ tự nhiên.
- Đề xuất mở rộng dữ liệu, phát triển hệ thống kiểu chi tiết và ứng dụng học sâu là hướng nghiên cứu tiếp theo nhằm nâng cao chất lượng và phạm vi ứng dụng.
Hãy bắt đầu áp dụng các giải pháp này để nâng cao hiệu quả xây dựng hệ tri thức và phát triển các ứng dụng trí tuệ nhân tạo tại Việt Nam.