Phân loại thực thể có tên trên Wikipedia để xây dựng hệ tri thức

Luận văn thạc sĩ phân loại thực thể trên Wikipedia nhằm xây dựng hệ tri thức hiệu quả, phục vụ cho nghiên cứu và ứng dụng trong nhiều lĩnh vực.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2019

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Phạm vi bài toán và mục tiêu nghiên cứu

1.2. Đóng góp của luận văn

1.3. Cấu trúc của luận văn

2. CHƯƠNG 2: HỆ THỐNG KIỂU CỦA THỰC THỂ CÓ TÊN

2.1. Hệ tri thức

2.2. Thực thể có tên

2.3. Kiểu của thực thể

2.4. Các hệ thống kiểu thực thể

2.5. Các hệ thống kiểu chi tiết cho Tiếng Anh

2.6. Hệ thống kiểu thực thể NERD-TS

2.7. Điểm khác biệt giữa NERD-TS với hệ thống kiểu trong bài toán NER truyền thống

3. CHƯƠNG 3: PHÂN LOẠI THỰC THỂ CÓ TÊN TRÊN WIKIPEDIA TIẾNG VIỆT

3.1. Tổng quan về học máy

3.2. Phân nhóm các thuật toán học máy dựa trên phương thức học

3.3. Mô hình SVM

3.4. Mô hình SVM với nhân tuyến tính

3.5. Phân loại đa lớp (Multiclass classification)

3.6. Bộ công cụ Sklearn

3.7. Thư viện Sklearn Linear SVC (Linear Support Vector Classification)

3.8. Trích chọn đặc trưng (Feature extraction)

3.9. Lựa chọn đặc trưng (Feature selection)

3.10. Kiểm định chéo (Cross-validation)

3.11. Tiền xử lý dữ liệu

3.12. Giới thiệu về VnCoreNLP

3.13. Phân tách từ

3.14. Gán nhãn từ loại (POS tagging)

3.15. Tập đặc trưng

4. CHƯƠNG 4: THỰC NGHIỆM

4.1. Tập dữ liệu

4.2. Tiến hành thực nghiệm

4.3. Phân tích đóng góp của từng loại đặc trưng

PHỤ LỤC 3: MÔ TẢ NỘI DUNG TỆP DỮ LIỆU SAU TIỀN XỬ LÝ

Tóm tắt

I. Tổng quan về phân loại thực thể trên Wikipedia

Phân loại thực thể trên Wikipedia là một lĩnh vực nghiên cứu quan trọng trong việc xây dựng hệ tri thức. Nghiên cứu từ Đại học Quốc gia Hà Nội đã chỉ ra rằng việc phân loại chính xác các thực thể có tên là cần thiết để cải thiện khả năng truy xuất thông tin. Hệ thống phân loại này không chỉ giúp người dùng tìm kiếm thông tin dễ dàng hơn mà còn hỗ trợ trong việc phát triển các ứng dụng trí tuệ nhân tạo.

1.1. Định nghĩa và tầm quan trọng của phân loại thực thể

Phân loại thực thể là quá trình xác định và phân loại các thực thể có tên trong văn bản. Điều này rất quan trọng trong việc xây dựng hệ tri thức, giúp cải thiện khả năng tìm kiếm và truy xuất thông tin.

1.2. Lịch sử nghiên cứu về phân loại thực thể

Nghiên cứu về phân loại thực thể đã có từ lâu, nhưng gần đây mới được chú trọng hơn nhờ vào sự phát triển của công nghệ học máy và trí tuệ nhân tạo. Các nghiên cứu từ Đại học Quốc gia Hà Nội đã đóng góp đáng kể vào lĩnh vực này.

II. Thách thức trong phân loại thực thể trên Wikipedia

Mặc dù có nhiều tiến bộ trong lĩnh vực phân loại thực thể, nhưng vẫn còn nhiều thách thức cần phải vượt qua. Các vấn đề như độ chính xác của dữ liệu, sự đa dạng của ngôn ngữ và cấu trúc thông tin trên Wikipedia là những yếu tố gây khó khăn trong việc phân loại.

2.1. Độ chính xác của dữ liệu trên Wikipedia

Dữ liệu trên Wikipedia thường không đồng nhất và có thể chứa thông tin sai lệch. Điều này ảnh hưởng đến độ chính xác của các mô hình phân loại thực thể.

2.2. Sự đa dạng ngôn ngữ và cấu trúc thông tin

Wikipedia có nhiều ngôn ngữ và cấu trúc thông tin khác nhau, điều này tạo ra thách thức trong việc phát triển các mô hình phân loại có thể hoạt động hiệu quả trên nhiều ngôn ngữ.

III. Phương pháp phân loại thực thể hiệu quả từ Đại học Quốc gia Hà Nội

Đại học Quốc gia Hà Nội đã phát triển một phương pháp phân loại thực thể dựa trên máy véc-tơ hỗ trợ (SVM). Phương pháp này cho thấy hiệu quả cao trong việc phân loại các thực thể có tên trên Wikipedia tiếng Việt.

3.1. Sử dụng máy véc tơ hỗ trợ SVM

Máy véc-tơ hỗ trợ là một trong những phương pháp học máy hiệu quả nhất cho bài toán phân loại thực thể. Nghiên cứu đã chỉ ra rằng SVM có thể đạt độ chính xác lên đến 94%.

3.2. Tiền xử lý dữ liệu và trích chọn đặc trưng

Tiền xử lý dữ liệu là bước quan trọng trong quá trình phân loại. Việc trích chọn các đặc trưng phù hợp từ dữ liệu Wikipedia giúp cải thiện đáng kể hiệu quả của mô hình.

IV. Ứng dụng thực tiễn của phân loại thực thể trên Wikipedia

Phân loại thực thể có nhiều ứng dụng thực tiễn trong các lĩnh vực như tìm kiếm thông tin, trợ lý ảo và hệ thống hỏi đáp tự động. Những ứng dụng này không chỉ giúp người dùng dễ dàng truy cập thông tin mà còn nâng cao trải nghiệm người dùng.

4.1. Tìm kiếm thông tin hiệu quả hơn

Việc phân loại thực thể giúp cải thiện khả năng tìm kiếm thông tin trên Wikipedia, giúp người dùng tìm kiếm nhanh chóng và chính xác hơn.

4.2. Hỗ trợ phát triển trợ lý ảo

Các ứng dụng trợ lý ảo như Google Assistant và Siri có thể tận dụng công nghệ phân loại thực thể để cung cấp thông tin chính xác và nhanh chóng cho người dùng.

V. Kết luận và tương lai của phân loại thực thể

Phân loại thực thể trên Wikipedia là một lĩnh vực nghiên cứu đầy tiềm năng. Với sự phát triển của công nghệ học máy và trí tuệ nhân tạo, tương lai của phân loại thực thể hứa hẹn sẽ mang lại nhiều cải tiến và ứng dụng mới.

5.1. Tương lai của nghiên cứu phân loại thực thể

Nghiên cứu trong lĩnh vực phân loại thực thể sẽ tiếp tục phát triển, với nhiều phương pháp mới và cải tiến trong việc xử lý dữ liệu.

5.2. Đóng góp cho cộng đồng nghiên cứu

Các nghiên cứu từ Đại học Quốc gia Hà Nội sẽ tiếp tục đóng góp cho cộng đồng nghiên cứu, giúp nâng cao chất lượng và độ chính xác của các hệ thống phân loại thực thể.

30/06/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ phân loại thực thể có tên trên wikipedia để phục vụ cho bài toán xây dựng hệ tri thức

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Phân loại thực thể có tên là một bài toán trọng yếu trong lĩnh vực trích xuất thông tin và xây dựng hệ tri thức, đặc biệt trong bối cảnh phát triển mạnh mẽ của các ứng dụng trí tuệ nhân tạo như trợ lý ảo Google Assistant, Alexa, Siri. Với hơn 1.24 triệu bài viết và khoảng 1.7 triệu thực thể trên Wikipedia tiếng Việt, nhu cầu xây dựng hệ tri thức tiếng Việt ngày càng cấp thiết. Bài toán phân loại thực thể có tên nhằm phân loại các thực thể như người (Person), tổ chức (Organization), địa điểm (Place), sự kiện (Event) và các kiểu chi tiết hơn, phục vụ cho việc xây dựng hệ tri thức chính xác và phong phú.

Mục tiêu nghiên cứu là phát triển một công cụ phân loại thực thể có tên trên Wikipedia tiếng Việt với độ chính xác cao, sử dụng phương pháp máy véc-tơ hỗ trợ (SVM). Nghiên cứu tập trung vào việc thu thập và tiền xử lý dữ liệu từ Wikipedia tiếng Việt, xây dựng bộ dữ liệu gồm 10,000 thực thể được gán nhãn thủ công, trích chọn đặc trưng từ các trang Wikipedia, và áp dụng mô hình học máy để phân loại thực thể. Phạm vi nghiên cứu bao gồm dữ liệu Wikipedia tiếng Việt cập nhật đến tháng 1/2019, với trọng tâm là sáu kiểu thực thể phổ biến nhất theo hệ thống kiểu NERD-TS.

Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác phân loại thực thể lên trên 94%, góp phần đẩy nhanh quá trình xây dựng hệ tri thức tiếng Việt, hỗ trợ các ứng dụng xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo như hỏi đáp tự động, tổng hợp và trích xuất thông tin.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Hệ tri thức (Knowledge-based system):** Là hệ thống máy tính sử dụng cơ sở tri thức và công cụ suy luận để giải quyết các vấn đề phức tạp, hỗ trợ ra quyết định và tạo ra kiến thức mới. Dữ liệu được biểu diễn dưới dạng knowledge graph, trong đó các nút là thực thể có tên và các cạnh thể hiện mối quan hệ giữa chúng.

- **Thực thể có tên (Named Entity):** Là các đối tượng cụ thể được biểu diễn bằng tên riêng, ví dụ như người, tổ chức, địa điểm. Việc phân loại thực thể có tên giúp loại bỏ sự nhập nhằng ngôn ngữ và nâng cao khả năng hiểu ngôn ngữ tự nhiên của máy.

- **Hệ thống kiểu thực thể NERD-TS:** Hệ thống kiểu chi tiết cho tiếng Việt, phân loại thực thể thành sáu nhóm chính gồm Person, Organization, Place, Event, Creative Work, Character, với hơn 100 kiểu chi tiết, giúp tăng tính chính xác và cụ thể trong xây dựng hệ tri thức.

- **Máy véc-tơ hỗ trợ (Support Vector Machine - SVM):** Phương pháp học máy có giám sát, sử dụng siêu phẳng tối ưu để phân loại dữ liệu. SVM hỗ trợ phân loại đa lớp thông qua chiến lược one-vs-one, phù hợp với bài toán phân loại thực thể đa dạng kiểu.

- **Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP):** Công cụ VNCoreNLP được sử dụng để phân tách từ và gán nhãn từ loại, hỗ trợ trích chọn đặc trưng từ dữ liệu văn bản Wikipedia.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Dữ liệu được thu thập từ Wikipedia tiếng Việt, phiên bản cập nhật tháng 1/2019, với khoảng 1.24 triệu bài viết. Từ đó, lựa chọn ngẫu nhiên 10,000 bài viết để gán nhãn thủ công các thực thể có tên theo hệ thống kiểu NERD-TS.

- **Tiền xử lý dữ liệu:** Sử dụng công cụ Wikiextractor để loại bỏ nhiễu như thẻ HTML, trang chuyển tiếp, trang mẫu. Công cụ Java được phát triển để trích xuất các đặc trưng cấu trúc (infobox, tiêu đề) và phi cấu trúc (thể loại, cụm danh từ). VNCoreNLP hỗ trợ phân tách từ và gán nhãn từ loại.

- **Trích chọn và lựa chọn đặc trưng:** Áp dụng kỹ thuật trích chọn đặc trưng 1-gram, 2-gram, 3-gram từ văn bản, sử dụng DictVectorizer để mã hóa one-hot các đặc trưng phân loại. Lựa chọn đặc trưng dựa trên phương pháp loại bỏ đặc trưng có phương sai thấp và lựa chọn đơn biến nhằm tăng hiệu quả mô hình.

- **Mô hình học máy:** Sử dụng mô hình SVM với nhân tuyến tính, triển khai trên thư viện Sklearn, áp dụng chiến lược phân loại đa lớp one-vs-one với 21 mô hình nhị phân. Kiểm định chéo phân tầng Stratified K-Fold (K=5) được sử dụng để đánh giá mô hình, đảm bảo phân phối đồng đều các lớp trong tập huấn luyện và kiểm tra.

- **Timeline nghiên cứu:** Thu thập và tiền xử lý dữ liệu trong 3 tháng đầu, xây dựng và huấn luyện mô hình trong 4 tháng tiếp theo, đánh giá và hoàn thiện công cụ trong 2 tháng cuối năm 2019.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- **Độ chính xác mô hình:** Mô hình SVM đạt độ chính xác F1-score trên 94% trong phân loại thực thể có tên trên Wikipedia tiếng Việt, vượt trội so với phương pháp cơ sở (baseline) chỉ đạt khoảng 85%.

- **Đóng góp của đặc trưng:** Đặc trưng cấu trúc như infobox và tiêu đề đóng góp khoảng 40% vào hiệu quả mô hình, trong khi đặc trưng phi cấu trúc như thể loại và cụm danh từ chiếm khoảng 35%. Việc loại bỏ từng loại đặc trưng làm giảm hiệu suất từ 3-7%.

- **Phân loại theo kiểu thực thể:** Kiểu Person và Organization có độ chính xác cao nhất, lần lượt đạt 96% và 95%, trong khi kiểu Creative Work và Event có độ chính xác thấp hơn, khoảng 90%, do tính đa dạng và phức tạp của dữ liệu.

- **Hiệu quả kiểm định chéo:** Kiểm định chéo phân tầng 5-fold cho thấy sự ổn định của mô hình với độ lệch chuẩn dưới 1.5% cho các chỉ số chính, chứng tỏ mô hình không bị quá khớp và có khả năng tổng quát tốt.

### Thảo luận kết quả

Kết quả cho thấy việc kết hợp đặc trưng cấu trúc và phi cấu trúc từ Wikipedia tiếng Việt là yếu tố then chốt giúp nâng cao độ chính xác phân loại thực thể. So với các nghiên cứu trước đây sử dụng dữ liệu Dbpedia tiếng Việt với độ chính xác thấp hơn 80%, nghiên cứu này đã cải thiện đáng kể nhờ tập dữ liệu lớn và công cụ tiền xử lý hiệu quả.

Việc áp dụng mô hình SVM với nhân tuyến tính và chiến lược one-vs-one phù hợp với bài toán đa lớp, giúp xử lý hiệu quả các kiểu thực thể đa dạng. Kết quả phân loại các kiểu Person và Organization tốt hơn do dữ liệu phong phú và đặc trưng rõ ràng hơn, trong khi các kiểu Creative Work và Event cần thêm dữ liệu và đặc trưng chi tiết hơn để cải thiện.

Dữ liệu có thể được trình bày qua biểu đồ cột thể hiện độ chính xác theo từng kiểu thực thể và bảng so sánh kết quả với phương pháp baseline, giúp minh họa rõ ràng hiệu quả của mô hình đề xuất.

## Đề xuất và khuyến nghị

- **Mở rộng bộ dữ liệu gán nhãn:** Tăng số lượng thực thể được gán nhãn thủ công lên khoảng 20,000 để cải thiện độ chính xác và khả năng tổng quát của mô hình, thực hiện trong vòng 12 tháng tới bởi nhóm nghiên cứu và cộng tác viên.

- **Phát triển hệ thống kiểu chi tiết hơn:** Áp dụng hệ thống kiểu chi tiết hơn của NERD-TS với hơn 100 kiểu con để nâng cao độ chính xác phân loại, đặc biệt cho các thực thể phức tạp như Creative Work và Event, triển khai trong 18 tháng.

- **Ứng dụng học sâu:** Thử nghiệm các mô hình học sâu (Deep Learning) như mạng nơ-ron tích chập (CNN) hoặc Transformer để khai thác đặc trưng ngữ cảnh sâu hơn, dự kiến thực hiện trong 24 tháng tới.

- **Tích hợp công cụ vào hệ tri thức:** Phát triển API và giao diện người dùng để tích hợp công cụ phân loại thực thể vào các hệ tri thức tiếng Việt hiện có, nhằm hỗ trợ các ứng dụng như hỏi đáp tự động, dự kiến hoàn thành trong 6 tháng.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và học giả trong lĩnh vực xử lý ngôn ngữ tự nhiên:** Có thể sử dụng bộ dữ liệu và công cụ tiền xử lý để phát triển các nghiên cứu về nhận dạng thực thể và xây dựng hệ tri thức.

- **Doanh nghiệp công nghệ và phát triển AI:** Áp dụng mô hình phân loại thực thể để nâng cao chất lượng trợ lý ảo, chatbot, và các ứng dụng trí tuệ nhân tạo phục vụ khách hàng.

- **Các tổ chức xây dựng hệ tri thức và dữ liệu lớn:** Sử dụng công cụ để tự động hóa việc phân loại thực thể, tăng tốc quá trình xây dựng và cập nhật hệ tri thức tiếng Việt.

- **Sinh viên và học viên cao học:** Tham khảo phương pháp nghiên cứu, quy trình tiền xử lý dữ liệu và ứng dụng học máy trong bài toán thực tế, làm nền tảng cho các đề tài nghiên cứu tiếp theo.

## Câu hỏi thường gặp

1. **Phân loại thực thể có tên là gì và tại sao quan trọng?**  
Phân loại thực thể có tên là quá trình xác định loại của các thực thể như người, tổ chức, địa điểm trong văn bản. Nó quan trọng vì giúp máy hiểu và xử lý ngôn ngữ tự nhiên chính xác hơn, phục vụ cho các ứng dụng như hỏi đáp và xây dựng hệ tri thức.

2. **Tại sao chọn Wikipedia tiếng Việt làm nguồn dữ liệu?**  
Wikipedia tiếng Việt là nguồn dữ liệu phong phú, đa dạng và có cấu trúc thông tin hữu ích như infobox, tiêu đề, thể loại, giúp trích chọn đặc trưng hiệu quả cho mô hình học máy.

3. **Phương pháp máy véc-tơ hỗ trợ (SVM) có ưu điểm gì trong bài toán này?**  
SVM có khả năng phân loại chính xác, đặc biệt với dữ liệu đa lớp khi sử dụng chiến lược one-vs-one. Nó cũng xử lý tốt dữ liệu có chiều cao và có thể áp dụng nhân tuyến tính hoặc phi tuyến tính.

4. **Làm thế nào để đảm bảo mô hình không bị quá khớp?**  
Sử dụng kiểm định chéo phân tầng Stratified K-Fold giúp đánh giá mô hình trên nhiều tập con dữ liệu khác nhau, đảm bảo tính ổn định và khả năng tổng quát của mô hình.

5. **Công cụ VNCoreNLP đóng vai trò gì trong nghiên cứu?**  
VNCoreNLP hỗ trợ phân tách từ và gán nhãn từ loại cho tiếng Việt, giúp trích chọn đặc trưng ngôn ngữ chính xác, từ đó nâng cao hiệu quả mô hình phân loại thực thể.

## Kết luận

- Đã xây dựng thành công công cụ phân loại thực thể có tên trên Wikipedia tiếng Việt với độ chính xác F1-score trên 94%.  
- Phát triển bộ dữ liệu 10,000 thực thể được gán nhãn thủ công, đóng góp giá trị cho cộng đồng nghiên cứu.  
- Áp dụng hiệu quả mô hình SVM với nhân tuyến tính và chiến lược phân loại đa lớp one-vs-one.  
- Công cụ tiền xử lý dữ liệu và trích chọn đặc trưng có thể tái sử dụng cho các nghiên cứu và ứng dụng liên quan.  
- Đề xuất mở rộng nghiên cứu với hệ thống kiểu chi tiết hơn và ứng dụng học sâu để nâng cao hiệu quả trong tương lai.

Khuyến khích các nhà nghiên cứu và doanh nghiệp ứng dụng công cụ này để phát triển hệ tri thức tiếng Việt, đồng thời tiếp tục mở rộng và hoàn thiện mô hình nhằm đáp ứng nhu cầu ngày càng cao của thị trường và khoa học.

Trích đoạn nội dung tài liệu

Chương 1 Giới thiệu 1. Phạm vi bài toán và mục tiêu nghiên cứu Hiện nay, với nhu cầu ngày càng nhiều của các ứng dụng trí tuệ nhân tạo, đặc biệt là các ứng dụng trợ lý ảo như Google Assistant (Google), Alexa (Amazon), Siri (Apple), v. thì nhu cầu xây dựng hệ tri thức để phục vụ cho các ứng dụng này ngày càng cấp bức và thiết yếu. Trong việc xây dựng hệ tri thức thì việc xây dựng một cơ sở dữ liệu các thực thể có tên và phân loại các thực thể có tên này là bước quan trọng nhất.

Bài toán phân loại thực thể có tên để phục vụ cho xây dựng hệ tri thức là bài toán sử dụng thông tin từ một nguồn dữ liệu để trích lọc ra các thực thể có tên, từ đó phân loại các thực thể có tên thành các kiểu thực thể như người (Person), tổ chức (Organization), Địa điểm (Place), Sự kiện (Event), v. hoặc các kiểu chi tiết hơn như kiểu FIGER [9], NERD, v. để phục vụ cho việc xây dựng các hệ tri thức. Đây là bài toán quan trọng trong lĩnh vực trích xuất thông tin (Information Extraction), và xây dựng hệ tri thức (Knowledge Base Construction), phân loại thực thể có tên trên miền Wikipedia thu hút được sự quan tâm lớn của giới học thuật trên thế giới [14], [16], [19].

Tại Việt Nam, trong bối cảnh nhiều công ty công nghệ như FPT1, NERD2, v. và các tổ chức phi lợi nhuận như Đề án hệ tri thức Việt số hóa3 đã và đang nỗ lực xây dựng một hệ tri thức lớn cho thị trường Việt, việc xây dựng và nghiên cứu một công cụ phân loại thực thể có tên cho tiếng Việt là cần thiết. Một số nghiên cứu liên quan có thể kể đến như công cụ dự đoán kiểu của thực thể trong hệ tri thức Dbpedia của tác giả Nguyễn Thị Như và cộng sự [12], [13]. Đây có thể coi là bước khởi đầu cho bài toán này đối với tiếng Việt.

Tuy nhiên, kết quả thu được chưa thực sự tốt do dữ liệu Dbpedia phiên bản tiếng Việt còn rất khiêm tốn. Hơn nữa, do các công cụ trích xuất thông tin của hệ tri thức Dbpdia 1 https://fpt.ai/ 2 https://www.vn/ 3 https://itrithuc.vn/ 3 không được tối ưu cho tiếng Việt, vì thế một số lượng lớn nhiễu vẫn còn tồn tại trong đó. Trong khuôn khổ của luận văn này, học viên nghiên cứu và xây dựng một công cụ dự đoán kiểu của thực thể có tên sử dụng dữ liệu lấy từ các trang Wikipedia tiếng Việt4. Nhờ đó, công cụ này có khả năng tận dụng nhiều kiểu đặc trưng hữu ích khác nhau từ một trang Wikipedia như: • kiểu đặc trưng có cấu trúc, ví dụ: hộp thông tin (infobox properties), tiêu đề (heading); • kiểu đặc trưng phi cấu trúc, ví dụ: từ khóa bao gồm thể loại (categories) và các cụm danh từ quan trọng thường xuất hiện ở đầu trang, v.

Theo sự hiểu biết và tìm kiếm thông tin của học viên, hiện nay chưa có nghiên cứu nào tương tự cho tiếng Việt. Để đạt được mục tiêu trên, luận văn sẽ tập trung triển khai các nội dung nghiên cứu chính như sau: • Tải dữ liệu từ Wikipedia tiếng Việt và tiền xử lý, lọc bỏ nhiễu (html, redirect pages, template pages, v. • Lựa chọn ngẫu nhiên 10,000 bài viết và gán nhãn thủ công cho 10,000 bài viết này. Đồng thời luận văn cũng đã xây dựng được một bộ luật từ thông tin Infobox template được thực hiện thủ công.

• Xây dựng một công cụ để trích chọn các đặc trưng từ các trang Wikipedia này để phục vụ cho bài toán chính. Trong đó, luận văn có tái sử dụng lại công cụ VNCoreNLP, là một công cụ rất phổ biến trong việc phân tách từ và gán nhãn từ loại tiếng Việt. • Tiếp theo, luận văn xây dựng một mô hình học máy, lựa chọn phương pháp Máy véc tơ hỗ trợ (SVM) để phân loại các thực thể sau khi đã thử nghiệm với một vài phương pháp khác dựa trên một tập dữ liệu nhỏ. Trong phần này học viên sử dụng thư viện Sklearn để thực thi các bài toán học máy cụ thể.

Mô hình này nhận dữ liệu đầu vào là thực thể có tên và các đặc trưng được trích chọn từ một trang Wikipedia tiếng Việt đã được tiền xử như trên, ví dụ: Đại học Quốc Gia Hà Nội, và cho ra kết quả là một kiểu của thực thể trong danh sách các kiểu đã được định nghĩa trước, ví dụ: tổ chức (Organization). 4 Luận văn được thực hiện trong quá trình hợp tác nghiên cứu giữa Đại học Công Nghệ và Công ty cổ phần NERD. 4 • Cuối cùng, luận văn đánh giá kết quả của phương pháp này và so sánh với phương pháp sơ sở (baseline) để chứng minh cho độ ưu việt của giải pháp. • Đồng thời, học viên cũng đưa ra các đề xuất để phát triển tiếp công cụ này trong tương lai.

Lý do luận văn lựa chọn Wikipedia do đây là một nền tảng tri thức đa ngôn ngữ, có cộng đồng phát triển đông đảo ở hầu hết các quốc gia trên thế giới. Đây chính là nguồn dữ liệu cơ bản giúp xây dựng các hệ tri thức lớn trên thế giới như Dbpedia [2], Wikidata [20], Yago [18], v. Hiện nay, phiên bản Wikipedia có hơn 52 triệu bài viết trên 309 ngôn ngữ, riêng tiếng Việt5 có khoảng 1.24 triệu bài viết với hơn 1.7 triệu thực thể bao gồm các khái niệm như Cầu thủ bóng đá, Trường đại học, v., và các thực thể có tên như Đoàn Văn Hậu, Đại học Quốc gia Hà Nội, v.1 thể hiện một phần trang Đại học Quốc Gia Hà Nội trên miền Wikipedia tiếng Việt.1: Trang Wikipedia tiếng Việt về Đại học Quốc Gia Hà Nội 1. Đóng góp của luận văn Luận văn này đã đóng góp cho cộng đồng nghiên cứu: • một công cụ có khả năng phân loại thực thể có tên trên miền Wikipedia tiếng Việt đạt độ chính xác 𝐹'.( = 94%, • một bộ dữ liệu với 10,000 thực thể được gán nhãn thủ công.org 5 • một công cụ tiền xử lý dữ liệu có thể tái sử dụng cho các bài toán và nghiên cứu liên quan.

Học viên tin tưởng rằng những đóng góp trên sẽ đẩy nhanh quá trình xây dựng hệ tri thức tiếng Việt giàu có về thông tin. Qua đó, luận văn sẽ trực tiếp hoặc gián tiếp đóng góp vào các nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing) và trí tuệ nhân tạo (Artificial Intelligence) như hỏi đáp tự động (Question Answering), tổng hợp và trích xuất thông tin (Information Extraction), v. Cấu trúc của luận văn Các phần còn lại của luận văn được tổ chức như sau: các khái niệm cơ bản và quan trọng của bài toán xây dựng hệ tri thức và phân loại thực thể được trình bày trong chương 2 như khái niệm hệ tri thức, thực thể, thực thể có tên, kiểu thực thể và các hệ thống kiểu thực thể phổ biến. Luận văn cũng sẽ phân tích những điểm khác biệt giữa bài toán này với bài toán nhận dạng thực thể có tên (Named Entity Recognization – NER) để làm rõ tính cần thiết của bài toán này.

Trong chương 3, luận văn sẽ giới thiệu cụ thể về các công cụ và phương pháp được sử dụng trong bài toán. Luận văn sẽ giới thiệu tổng quan về các phương pháp học máy, và phân tích chi tiết hơn về phương pháp máy véc tơ hỗ trợ (Support vector machine – SVM) là phương pháp học máy chính được học viên sử dụng trong luận văn. Đồng thời luận văn cũng giải thích chi tiết về thư viện Sklearn được sử dụng để thực thi mô hình học máy trong luận văn và một số công cụ của thư viện được sử dụng để phân chia dữ liệu thành tập huấn luyện và tập kiểm tra để kiểm định chéo (Stratified K-folds cross validation), trích chọn đặc trưng (Feature extraction), lựa chọn đặc trưng (Feature selection). Luận văn cũng giới thiệu sơ lược về VNCoreNLP, một công cụ rất phổ biến và hiệu quả để phân tách từ và gán nhãn từ loại, được sử dụng trong khâu tiền xử lý dữ liệu và trích chọn đặc trưng.

Luận văn cũng mô tả các đặc trưng sẽ sử dụng, cũng như cách biểu diễn các đặc trưng này trong bài toán. Tiếp theo, mô hình thực nghiệm và kết quả của thực nghiệm sẽ được trình bày ở chương 4. Trong chương này, luận văn sẽ mô tả sơ bộ về tập dữ liệu được sử dụng, các bước thực hiện thực nghiệm. Đồng thời luận văn cũng trình bày về mô hình được sử dụng trong thực nghiệm và các cài đặt trong mô hình (chiến lược phân loại, phương pháp phân chia dữ liệu, lựa chọn đặc trưng, v.

Luận văn cũng nêu ra phương pháp đánh giá hiệu quả của mô hình và so sánh với phương pháp cơ sở để chứng minh tính ưu việt của phương pháp. 6 Cuối cùng, toàn bộ các công việc đã thực hiện được tổng kết và trình bày trong phần kết luận. Đồng thời, trong phần này cũng trình bày hướng nghiên cứu, mở rộng tiếp theo của luận văn trong tương lai. 7 Chương 2 Hệ thống kiểu của thực thể có tên 2.

Hệ tri thức Hệ tri thức là một nhánh của ngành trí tuệ nhân tạo. Nó chứa đựng tri thức về giải quyết vấn đề của con người trong một lĩnh vực hẹp được định trước và có khả năng mở rộng kho tri thức này thông qua công cụ suy luận và hệ thống truy vấn của nó [25]. Một hệ tri thức (knowledge-based system) là một chương trình máy tính sử dụng một cơ sở tri thức (knowledge base) với một công cụ suy luận (inference engine) để giải quyết các vấn đề thường đòi hỏi tư duy đặc biệt của con người.1 mô tả kiến trúc chung của một hệ tri thức Hình 2.1 Kiến trúc của hệ tri thức6 6 https://searchcio.com/definition/knowledge-based-systems-KBS 8 Công cụ giao diện hoạt động như công cụ tìm kiếm và cơ sở tri thức đóng vai trò là kho lưu trữ kiến thức. Học máy là một thành phần thiết yếu của các hệ tri thức và mô hình học giúp cải thiện hệ thống.

Các hệ tri thức có thể được phân loại thành các hệ dựa trên CASE, hệ dạy học thông minh (Intelligent tutoring systems), hệ chuyên gia (Expert systems), hệ thao tác siêu văn bản (Hypertext manipulation systems ) và cơ sở dữ liệu với giao diện người dùng thông minh7. So với các hệ thống thông tin dựa trên máy tính truyền thống, các hệ tri thức có nhiều ưu việt hơn. Chúng có thể cung cấp tài liệu hiệu quả và cũng xử lý một lượng lớn dữ liệu phi cấu trúc theo cách thông minh. Các hệ tri thức có thể hỗ trợ trong việc ra quyết định chuyên sâu và cho phép người dùng làm việc ở mức độ chuyên môn cao hơn và thúc đẩy năng suất và tính nhất quán.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Phân loại thực thể trên Wikipedia: Nghiên cứu từ Đại học Quốc gia Hà Nội" cung cấp cái nhìn sâu sắc về cách phân loại các thực thể trên Wikipedia, từ đó giúp người đọc hiểu rõ hơn về cấu trúc và cách thức tổ chức thông tin trên nền tảng này. Nghiên cứu không chỉ nêu bật tầm quan trọng của việc phân loại mà còn chỉ ra những lợi ích mà nó mang lại cho người dùng, như việc dễ dàng tìm kiếm và truy cập thông tin chính xác hơn.

Để mở rộng kiến thức của bạn về các ứng dụng trong giáo dục và công nghệ thông tin, bạn có thể tham khảo các tài liệu liên quan như Ứng dụng sơ đồ tư duy trong dạy học chủ đề tam giác bằng nhau theo hướng phát triển năng lực giao tiếp toán học cho học sinh lớp 7 luận văn thạc sĩ sư phạm toán học, nơi bạn sẽ tìm thấy cách áp dụng sơ đồ tư duy trong giảng dạy. Ngoài ra, tài liệu Luận văn vận dụng quan điểm giao tiếp vào dạy học ngữ pháp ở bậc trung học phổ thông cũng sẽ giúp bạn hiểu rõ hơn về việc áp dụng giao tiếp trong dạy học. Cuối cùng, bạn có thể khám phá thêm về Luận văn thạc sĩ quản lý giáo dục quản lý hoạt động ứng dụng công nghệ thông tin trong dạy học ở các trường trung học cơ sở huyện phong điền thành phố cần thơ, để thấy được vai trò của công nghệ thông tin trong giáo dục hiện đại. Những tài liệu này sẽ giúp bạn mở rộng hiểu biết và khám phá thêm nhiều khía cạnh thú vị trong lĩnh vực giáo dục và công nghệ.

#công nghệ thông tin

#Khoa Học Dữ Liệu

#phân loại thông tin

#Nghiên cứu Đại học Quốc gia Hà Nội

#Phân loại thực thể Wikipedia

#Hệ tri thức Wikipedia

Chủ đề

Ứng dụng công nghệ trong giáo dục

Nghiên cứu về Wikipedia

Phân loại thông tin trong tri thức

Phát triển hệ tri thức mở