## Tổng quan nghiên cứu
Phân loại thực thể có tên là một bài toán trọng yếu trong lĩnh vực trích xuất thông tin và xây dựng hệ tri thức, đặc biệt trong bối cảnh phát triển mạnh mẽ của các ứng dụng trí tuệ nhân tạo như trợ lý ảo Google Assistant, Alexa, Siri. Với hơn 1.24 triệu bài viết và khoảng 1.7 triệu thực thể trên Wikipedia tiếng Việt, nhu cầu xây dựng hệ tri thức tiếng Việt ngày càng cấp thiết. Bài toán phân loại thực thể có tên nhằm phân loại các thực thể như người (Person), tổ chức (Organization), địa điểm (Place), sự kiện (Event) và các kiểu chi tiết hơn, phục vụ cho việc xây dựng hệ tri thức chính xác và phong phú.
Mục tiêu nghiên cứu là phát triển một công cụ phân loại thực thể có tên trên Wikipedia tiếng Việt với độ chính xác cao, sử dụng phương pháp máy véc-tơ hỗ trợ (SVM). Nghiên cứu tập trung vào việc thu thập và tiền xử lý dữ liệu từ Wikipedia tiếng Việt, xây dựng bộ dữ liệu gồm 10,000 thực thể được gán nhãn thủ công, trích chọn đặc trưng từ các trang Wikipedia, và áp dụng mô hình học máy để phân loại thực thể. Phạm vi nghiên cứu bao gồm dữ liệu Wikipedia tiếng Việt cập nhật đến tháng 1/2019, với trọng tâm là sáu kiểu thực thể phổ biến nhất theo hệ thống kiểu NERD-TS.
Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác phân loại thực thể lên trên 94%, góp phần đẩy nhanh quá trình xây dựng hệ tri thức tiếng Việt, hỗ trợ các ứng dụng xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo như hỏi đáp tự động, tổng hợp và trích xuất thông tin.
## Cơ sở lý thuyết và phương pháp nghiên cứu
### Khung lý thuyết áp dụng
- **Hệ tri thức (Knowledge-based system):** Là hệ thống máy tính sử dụng cơ sở tri thức và công cụ suy luận để giải quyết các vấn đề phức tạp, hỗ trợ ra quyết định và tạo ra kiến thức mới. Dữ liệu được biểu diễn dưới dạng knowledge graph, trong đó các nút là thực thể có tên và các cạnh thể hiện mối quan hệ giữa chúng.
- **Thực thể có tên (Named Entity):** Là các đối tượng cụ thể được biểu diễn bằng tên riêng, ví dụ như người, tổ chức, địa điểm. Việc phân loại thực thể có tên giúp loại bỏ sự nhập nhằng ngôn ngữ và nâng cao khả năng hiểu ngôn ngữ tự nhiên của máy.
- **Hệ thống kiểu thực thể NERD-TS:** Hệ thống kiểu chi tiết cho tiếng Việt, phân loại thực thể thành sáu nhóm chính gồm Person, Organization, Place, Event, Creative Work, Character, với hơn 100 kiểu chi tiết, giúp tăng tính chính xác và cụ thể trong xây dựng hệ tri thức.
- **Máy véc-tơ hỗ trợ (Support Vector Machine - SVM):** Phương pháp học máy có giám sát, sử dụng siêu phẳng tối ưu để phân loại dữ liệu. SVM hỗ trợ phân loại đa lớp thông qua chiến lược one-vs-one, phù hợp với bài toán phân loại thực thể đa dạng kiểu.
- **Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP):** Công cụ VNCoreNLP được sử dụng để phân tách từ và gán nhãn từ loại, hỗ trợ trích chọn đặc trưng từ dữ liệu văn bản Wikipedia.
### Phương pháp nghiên cứu
- **Nguồn dữ liệu:** Dữ liệu được thu thập từ Wikipedia tiếng Việt, phiên bản cập nhật tháng 1/2019, với khoảng 1.24 triệu bài viết. Từ đó, lựa chọn ngẫu nhiên 10,000 bài viết để gán nhãn thủ công các thực thể có tên theo hệ thống kiểu NERD-TS.
- **Tiền xử lý dữ liệu:** Sử dụng công cụ Wikiextractor để loại bỏ nhiễu như thẻ HTML, trang chuyển tiếp, trang mẫu. Công cụ Java được phát triển để trích xuất các đặc trưng cấu trúc (infobox, tiêu đề) và phi cấu trúc (thể loại, cụm danh từ). VNCoreNLP hỗ trợ phân tách từ và gán nhãn từ loại.
- **Trích chọn và lựa chọn đặc trưng:** Áp dụng kỹ thuật trích chọn đặc trưng 1-gram, 2-gram, 3-gram từ văn bản, sử dụng DictVectorizer để mã hóa one-hot các đặc trưng phân loại. Lựa chọn đặc trưng dựa trên phương pháp loại bỏ đặc trưng có phương sai thấp và lựa chọn đơn biến nhằm tăng hiệu quả mô hình.
- **Mô hình học máy:** Sử dụng mô hình SVM với nhân tuyến tính, triển khai trên thư viện Sklearn, áp dụng chiến lược phân loại đa lớp one-vs-one với 21 mô hình nhị phân. Kiểm định chéo phân tầng Stratified K-Fold (K=5) được sử dụng để đánh giá mô hình, đảm bảo phân phối đồng đều các lớp trong tập huấn luyện và kiểm tra.
- **Timeline nghiên cứu:** Thu thập và tiền xử lý dữ liệu trong 3 tháng đầu, xây dựng và huấn luyện mô hình trong 4 tháng tiếp theo, đánh giá và hoàn thiện công cụ trong 2 tháng cuối năm 2019.
## Kết quả nghiên cứu và thảo luận
### Những phát hiện chính
- **Độ chính xác mô hình:** Mô hình SVM đạt độ chính xác F1-score trên 94% trong phân loại thực thể có tên trên Wikipedia tiếng Việt, vượt trội so với phương pháp cơ sở (baseline) chỉ đạt khoảng 85%.
- **Đóng góp của đặc trưng:** Đặc trưng cấu trúc như infobox và tiêu đề đóng góp khoảng 40% vào hiệu quả mô hình, trong khi đặc trưng phi cấu trúc như thể loại và cụm danh từ chiếm khoảng 35%. Việc loại bỏ từng loại đặc trưng làm giảm hiệu suất từ 3-7%.
- **Phân loại theo kiểu thực thể:** Kiểu Person và Organization có độ chính xác cao nhất, lần lượt đạt 96% và 95%, trong khi kiểu Creative Work và Event có độ chính xác thấp hơn, khoảng 90%, do tính đa dạng và phức tạp của dữ liệu.
- **Hiệu quả kiểm định chéo:** Kiểm định chéo phân tầng 5-fold cho thấy sự ổn định của mô hình với độ lệch chuẩn dưới 1.5% cho các chỉ số chính, chứng tỏ mô hình không bị quá khớp và có khả năng tổng quát tốt.
### Thảo luận kết quả
Kết quả cho thấy việc kết hợp đặc trưng cấu trúc và phi cấu trúc từ Wikipedia tiếng Việt là yếu tố then chốt giúp nâng cao độ chính xác phân loại thực thể. So với các nghiên cứu trước đây sử dụng dữ liệu Dbpedia tiếng Việt với độ chính xác thấp hơn 80%, nghiên cứu này đã cải thiện đáng kể nhờ tập dữ liệu lớn và công cụ tiền xử lý hiệu quả.
Việc áp dụng mô hình SVM với nhân tuyến tính và chiến lược one-vs-one phù hợp với bài toán đa lớp, giúp xử lý hiệu quả các kiểu thực thể đa dạng. Kết quả phân loại các kiểu Person và Organization tốt hơn do dữ liệu phong phú và đặc trưng rõ ràng hơn, trong khi các kiểu Creative Work và Event cần thêm dữ liệu và đặc trưng chi tiết hơn để cải thiện.
Dữ liệu có thể được trình bày qua biểu đồ cột thể hiện độ chính xác theo từng kiểu thực thể và bảng so sánh kết quả với phương pháp baseline, giúp minh họa rõ ràng hiệu quả của mô hình đề xuất.
## Đề xuất và khuyến nghị
- **Mở rộng bộ dữ liệu gán nhãn:** Tăng số lượng thực thể được gán nhãn thủ công lên khoảng 20,000 để cải thiện độ chính xác và khả năng tổng quát của mô hình, thực hiện trong vòng 12 tháng tới bởi nhóm nghiên cứu và cộng tác viên.
- **Phát triển hệ thống kiểu chi tiết hơn:** Áp dụng hệ thống kiểu chi tiết hơn của NERD-TS với hơn 100 kiểu con để nâng cao độ chính xác phân loại, đặc biệt cho các thực thể phức tạp như Creative Work và Event, triển khai trong 18 tháng.
- **Ứng dụng học sâu:** Thử nghiệm các mô hình học sâu (Deep Learning) như mạng nơ-ron tích chập (CNN) hoặc Transformer để khai thác đặc trưng ngữ cảnh sâu hơn, dự kiến thực hiện trong 24 tháng tới.
- **Tích hợp công cụ vào hệ tri thức:** Phát triển API và giao diện người dùng để tích hợp công cụ phân loại thực thể vào các hệ tri thức tiếng Việt hiện có, nhằm hỗ trợ các ứng dụng như hỏi đáp tự động, dự kiến hoàn thành trong 6 tháng.
## Đối tượng nên tham khảo luận văn
- **Nhà nghiên cứu và học giả trong lĩnh vực xử lý ngôn ngữ tự nhiên:** Có thể sử dụng bộ dữ liệu và công cụ tiền xử lý để phát triển các nghiên cứu về nhận dạng thực thể và xây dựng hệ tri thức.
- **Doanh nghiệp công nghệ và phát triển AI:** Áp dụng mô hình phân loại thực thể để nâng cao chất lượng trợ lý ảo, chatbot, và các ứng dụng trí tuệ nhân tạo phục vụ khách hàng.
- **Các tổ chức xây dựng hệ tri thức và dữ liệu lớn:** Sử dụng công cụ để tự động hóa việc phân loại thực thể, tăng tốc quá trình xây dựng và cập nhật hệ tri thức tiếng Việt.
- **Sinh viên và học viên cao học:** Tham khảo phương pháp nghiên cứu, quy trình tiền xử lý dữ liệu và ứng dụng học máy trong bài toán thực tế, làm nền tảng cho các đề tài nghiên cứu tiếp theo.
## Câu hỏi thường gặp
1. **Phân loại thực thể có tên là gì và tại sao quan trọng?**
Phân loại thực thể có tên là quá trình xác định loại của các thực thể như người, tổ chức, địa điểm trong văn bản. Nó quan trọng vì giúp máy hiểu và xử lý ngôn ngữ tự nhiên chính xác hơn, phục vụ cho các ứng dụng như hỏi đáp và xây dựng hệ tri thức.
2. **Tại sao chọn Wikipedia tiếng Việt làm nguồn dữ liệu?**
Wikipedia tiếng Việt là nguồn dữ liệu phong phú, đa dạng và có cấu trúc thông tin hữu ích như infobox, tiêu đề, thể loại, giúp trích chọn đặc trưng hiệu quả cho mô hình học máy.
3. **Phương pháp máy véc-tơ hỗ trợ (SVM) có ưu điểm gì trong bài toán này?**
SVM có khả năng phân loại chính xác, đặc biệt với dữ liệu đa lớp khi sử dụng chiến lược one-vs-one. Nó cũng xử lý tốt dữ liệu có chiều cao và có thể áp dụng nhân tuyến tính hoặc phi tuyến tính.
4. **Làm thế nào để đảm bảo mô hình không bị quá khớp?**
Sử dụng kiểm định chéo phân tầng Stratified K-Fold giúp đánh giá mô hình trên nhiều tập con dữ liệu khác nhau, đảm bảo tính ổn định và khả năng tổng quát của mô hình.
5. **Công cụ VNCoreNLP đóng vai trò gì trong nghiên cứu?**
VNCoreNLP hỗ trợ phân tách từ và gán nhãn từ loại cho tiếng Việt, giúp trích chọn đặc trưng ngôn ngữ chính xác, từ đó nâng cao hiệu quả mô hình phân loại thực thể.
## Kết luận
- Đã xây dựng thành công công cụ phân loại thực thể có tên trên Wikipedia tiếng Việt với độ chính xác F1-score trên 94%.
- Phát triển bộ dữ liệu 10,000 thực thể được gán nhãn thủ công, đóng góp giá trị cho cộng đồng nghiên cứu.
- Áp dụng hiệu quả mô hình SVM với nhân tuyến tính và chiến lược phân loại đa lớp one-vs-one.
- Công cụ tiền xử lý dữ liệu và trích chọn đặc trưng có thể tái sử dụng cho các nghiên cứu và ứng dụng liên quan.
- Đề xuất mở rộng nghiên cứu với hệ thống kiểu chi tiết hơn và ứng dụng học sâu để nâng cao hiệu quả trong tương lai.
**Hành động tiếp theo:** Khuyến khích các nhà nghiên cứu và doanh nghiệp ứng dụng công cụ này để phát triển hệ tri thức tiếng Việt, đồng thời tiếp tục mở rộng và hoàn thiện mô hình nhằm đáp ứng nhu cầu ngày càng cao của thị trường và khoa học.