Tổng quan nghiên cứu
Đồ thị tri thức (Knowledge Graph) là một cấu trúc dữ liệu biểu diễn các thực thể và mối quan hệ giữa chúng dưới dạng đồ thị có hướng, được ứng dụng rộng rãi trong nhiều lĩnh vực như trí tuệ nhân tạo, tìm kiếm thông tin, phân loại dữ liệu và phát hiện kiến thức mới. Theo ước tính, các đồ thị tri thức nổi bật như Probase chứa 1,68 tỷ trang web và 2,7 triệu khái niệm, trong khi YAGO và DBpedia cũng là những cơ sở tri thức toàn diện được sử dụng rộng rãi. Tuy nhiên, các nghiên cứu về đồ thị tri thức theo miền, đặc biệt là xây dựng đồ thị tri thức tiếng Việt, vẫn còn hạn chế.
Luận văn này tập trung phát triển phương pháp xây dựng đồ thị tri thức theo miền dựa trên nguồn dữ liệu Wikipedia tiếng Việt, với phạm vi nghiên cứu tập trung vào lĩnh vực hành chính - địa lý Việt Nam. Mục tiêu chính là đề xuất mô hình xây dựng đồ thị tri thức theo miền, triển khai xây dựng và đánh giá hiệu quả đồ thị tri thức thu được. Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao khả năng hiểu và xử lý tri thức tự động cho ngôn ngữ tiếng Việt, góp phần phát triển các ứng dụng trí tuệ nhân tạo và xử lý ngôn ngữ tự nhiên trong nước.
Phạm vi nghiên cứu bao gồm việc thu thập, trích xuất, xử lý và chuẩn hóa dữ liệu từ Wikipedia tiếng Việt, áp dụng các kỹ thuật xử lý ngôn ngữ tự nhiên và mô hình nhúng đồ thị tri thức để biểu diễn và đánh giá chất lượng đồ thị. Thời gian nghiên cứu tập trung vào dữ liệu cập nhật đến năm 2023, với phạm vi địa lý là toàn bộ 63 tỉnh thành Việt Nam và các đơn vị hành chính cấp huyện liên quan.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên các lý thuyết và mô hình sau:
Đồ thị tri thức (Knowledge Graph - KG): Được định nghĩa là tập hợp các thực thể (E), các mối quan hệ (R) và các sự thật (F) dưới dạng bộ ba (h, r, t), trong đó h và t là các thực thể, r là mối quan hệ giữa chúng. KG được biểu diễn dưới dạng đồ thị có hướng G = (V, E), với V là tập các nút (thực thể) và E là tập các cạnh (mối quan hệ).
Đồ thị tri thức theo miền (Domain Knowledge Graph): Là đồ thị tri thức tập trung vào một lĩnh vực cụ thể, với các thực thể và mối quan hệ được khái niệm hóa và thiết kế phù hợp với ngữ cảnh chuyên ngành, ví dụ như y tế, tài chính, giáo dục, khoa học kỹ thuật.
Mô hình nhúng TransE: Mô hình nhúng đồ thị tri thức dựa trên ý tưởng tịnh tiến véc-tơ, biểu diễn thực thể và quan hệ trong không gian véc-tơ sao cho h + r ≈ t. Hàm chấm điểm được định nghĩa bằng khoảng cách chuẩn ℓ1 hoặc ℓ2 giữa h + r và t, giúp học được biểu diễn véc-tơ hiệu quả cho các thực thể và quan hệ.
Xử lý ngôn ngữ tự nhiên (NLP) cho tiếng Việt: Sử dụng các công cụ như VNCoreNLP và Vi_spacy để phân tích cú pháp, tách từ, phân loại từ loại, trích xuất thực thể và quan hệ từ dữ liệu phi cấu trúc trên Wikipedia tiếng Việt.
Các khái niệm chính bao gồm: thực thể (entity), mối quan hệ (relation), bộ ba (triple), nhãn từ loại (POS tags), trích xuất thông tin (information extraction), biểu diễn đồ thị (graph representation).
Phương pháp nghiên cứu
Nguồn dữ liệu: Dữ liệu chính được thu thập từ Wikipedia tiếng Việt, tập trung vào các bài viết liên quan đến hành chính - địa lý Việt Nam, bao gồm 63 tỉnh thành và các đơn vị hành chính cấp huyện. Tổng số bài viết trích xuất là khoảng 2732 bài, với dữ liệu phi cấu trúc và cấu trúc dạng bảng.
Phương pháp thu thập và tiền xử lý: Sử dụng API Wikipedia để truy xuất dữ liệu, kết hợp thư viện Beautiful Soup để trích xuất thông tin cấu trúc dạng bảng (infobox). Dữ liệu phi cấu trúc được giới hạn trong ba đoạn văn đầu tiên của mỗi bài viết để đảm bảo tính liên quan.
Phương pháp trích xuất thực thể và quan hệ: Áp dụng kỹ thuật xử lý ngôn ngữ tự nhiên với VNCoreNLP để phân tích cú pháp, tách từ và phân loại từ loại. Sử dụng tập quy tắc (rule-based) dựa trên nhãn từ loại để xác định thực thể và quan hệ trong câu, từ đó trích xuất các bộ ba (h, r, t).
Biểu diễn đồ thị: Sử dụng thư viện NetworkX trên Python để xây dựng và trực quan hóa đồ thị tri thức có hướng, trong đó các nút là thực thể và các cạnh là quan hệ.
Mô hình nhúng: Áp dụng mô hình TransE để biểu diễn véc-tơ các thực thể và quan hệ, phục vụ cho việc tinh chỉnh và đánh giá đồ thị.
Timeline nghiên cứu: Quá trình thu thập và xử lý dữ liệu kéo dài khoảng 327 phút cho 2732 bài viết, tương đương trung bình 7,2 giây/bài. Các bước xây dựng, trích xuất, biểu diễn và đánh giá được thực hiện liên tục trong giai đoạn nghiên cứu năm 2022-2023.
Phương pháp đánh giá: Đánh giá chất lượng đồ thị tri thức dựa trên các tiêu chí độ chính xác, tính đầy đủ, tính nhất quán và tính kịp thời. So sánh dữ liệu trích xuất với số liệu chính thức từ Tổng cục Thống kê Việt Nam để kiểm chứng độ chính xác.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Quy mô đồ thị tri thức xây dựng: Từ 2732 bài viết Wikipedia tiếng Việt, thu thập được tổng cộng 29.143 bộ ba (h, r, t), trong đó 21.432 bộ ba từ dữ liệu dạng bảng và 7.711 bộ ba từ phân tích ngôn ngữ tự nhiên. Số lượng thực thể khác nhau là 11.601 và số quan hệ khác nhau là 492.
Hiệu quả trích xuất thông tin: Tỷ lệ trích xuất thông tin về dân số, diện tích và mật độ dân số của các đơn vị hành chính cấp huyện đạt khoảng 97% - 98% so với số liệu chính thức của Tổng cục Thống kê. Cụ thể, trong 705 đơn vị hành chính cấp huyện, đồ thị tri thức thu thập được thông tin dân số của 693 huyện, diện tích 691 huyện và mật độ dân số 685 huyện, với độ chính xác gần như tuyệt đối.
Thời gian xử lý: Trung bình mỗi bài viết được xử lý trong 7,2 giây, tổng thời gian xử lý toàn bộ dữ liệu là 327 phút trên máy tính cá nhân cấu hình Intel Core i5-1135G7 2.4GHz.
Chất lượng dữ liệu: Qua đánh giá, có khoảng 210 bộ ba không có ý nghĩa hoặc bị lỗi do trích xuất sai, được loại bỏ để nâng cao chất lượng đồ thị. Một số thông tin bị sai lệch do quy tắc trích xuất đơn giản, ví dụ như quan hệ "nằm về phía tây" thay vì "nằm về phía tây bắc".
Thảo luận kết quả
Kết quả cho thấy phương pháp xây dựng đồ thị tri thức theo miền dựa trên dữ liệu Wikipedia tiếng Việt là khả thi và hiệu quả, đặc biệt trong lĩnh vực hành chính - địa lý Việt Nam. Việc sử dụng kết hợp dữ liệu cấu trúc (bảng infobox) và dữ liệu phi cấu trúc (đoạn văn) giúp tăng độ bao phủ và tính đầy đủ của đồ thị.
Tuy nhiên, việc trích xuất thông tin từ dữ liệu phi cấu trúc còn gặp nhiều hạn chế do quy tắc trích xuất đơn giản và khó xử lý các câu phức tạp hoặc câu ghép chứa nhiều bộ ba. So với các nghiên cứu quốc tế sử dụng các mô hình học sâu phức tạp hơn, phương pháp rule-based trong luận văn có ưu điểm về tính đơn giản và dễ triển khai nhưng hạn chế về độ chính xác và khả năng mở rộng.
Việc áp dụng mô hình nhúng TransE giúp biểu diễn véc-tơ các thực thể và quan hệ, hỗ trợ cho việc tinh chỉnh và phân loại thông tin trong đồ thị, đồng thời tạo điều kiện cho các ứng dụng học máy tiếp theo như dự đoán liên kết hay phân cụm.
Dữ liệu so sánh với số liệu của Tổng cục Thống kê cho thấy độ chính xác cao, minh chứng cho tính khả thi của phương pháp. Tuy nhiên, tính đầy đủ của đồ thị còn phụ thuộc vào chất lượng và độ phong phú của nguồn dữ liệu Wikipedia, cũng như khả năng mở rộng danh sách tiêu đề và các quy tắc trích xuất.
Biểu đồ thể hiện số lượng bộ ba trích xuất được theo từng nguồn (dạng bảng và phi cấu trúc) và tỷ lệ chính xác so với số liệu thống kê sẽ giúp minh họa rõ ràng hơn hiệu quả của phương pháp.
Đề xuất và khuyến nghị
Mở rộng và hoàn thiện tập quy tắc trích xuất: Cần xây dựng và cập nhật liên tục các quy tắc xác định thực thể và quan hệ để tăng độ chính xác và bao phủ thông tin, đặc biệt là xử lý các câu phức tạp và câu ghép. Chủ thể thực hiện: nhóm nghiên cứu NLP, thời gian: 6-12 tháng.
Áp dụng các mô hình học sâu cho trích xuất thông tin: Nghiên cứu và triển khai các mô hình học máy tiên tiến như mạng nơ-ron hồi quy (RNN), Transformer để cải thiện khả năng trích xuất bộ ba từ dữ liệu phi cấu trúc. Chủ thể thực hiện: nhóm AI và NLP, thời gian: 12-18 tháng.
Tăng cường thu thập dữ liệu và mở rộng phạm vi: Mở rộng danh sách tiêu đề đầu vào, tăng độ sâu đường dẫn liên kết để bao phủ nhiều bài viết hơn, đồng thời cập nhật dữ liệu thường xuyên để đảm bảo tính kịp thời. Chủ thể thực hiện: nhóm thu thập dữ liệu, thời gian: liên tục.
Phát triển công cụ đánh giá tự động: Xây dựng hệ thống đánh giá chất lượng đồ thị tri thức tự động dựa trên các tiêu chí độ chính xác, tính đầy đủ, tính nhất quán và tính kịp thời, kết hợp phản hồi người dùng để cải thiện liên tục. Chủ thể thực hiện: nhóm phát triển phần mềm, thời gian: 6 tháng.
Triển khai ứng dụng thực tế: Áp dụng đồ thị tri thức xây dựng được vào các ứng dụng như hệ thống hỗ trợ tìm kiếm thông tin, chatbot, phân tích dữ liệu địa lý để đánh giá hiệu quả và thu thập phản hồi. Chủ thể thực hiện: các tổ chức, doanh nghiệp công nghệ, thời gian: 12 tháng.
Đối tượng nên tham khảo luận văn
Nhà nghiên cứu và sinh viên ngành Toán Tin, Khoa học Máy tính: Luận văn cung cấp phương pháp và mô hình xây dựng đồ thị tri thức theo miền, đặc biệt là ứng dụng xử lý ngôn ngữ tự nhiên tiếng Việt, giúp phát triển nghiên cứu sâu hơn trong lĩnh vực này.
Chuyên gia phát triển ứng dụng trí tuệ nhân tạo và xử lý ngôn ngữ tự nhiên: Các kỹ thuật trích xuất thông tin, mô hình nhúng và biểu diễn đồ thị trong luận văn là tài liệu tham khảo hữu ích để phát triển các hệ thống AI, chatbot, và ứng dụng tìm kiếm thông minh.
Cơ quan quản lý dữ liệu và phát triển chính phủ điện tử: Đồ thị tri thức theo miền về hành chính - địa lý có thể hỗ trợ quản lý thông tin, phân tích dữ liệu địa phương, phục vụ xây dựng các nền tảng chính phủ số và dịch vụ công trực tuyến.
Doanh nghiệp công nghệ và phát triển phần mềm: Các công ty phát triển phần mềm quản lý dữ liệu, hệ thống thông tin địa lý (GIS), hoặc các nền tảng học tập trực tuyến có thể ứng dụng phương pháp xây dựng đồ thị tri thức để nâng cao chất lượng sản phẩm và dịch vụ.
Câu hỏi thường gặp
Đồ thị tri thức theo miền là gì và khác gì so với đồ thị tri thức tổng quát?
Đồ thị tri thức theo miền tập trung vào một lĩnh vực cụ thể với các thực thể và mối quan hệ được thiết kế phù hợp với ngữ cảnh chuyên ngành, trong khi đồ thị tri thức tổng quát bao phủ nhiều lĩnh vực khác nhau nhưng thiếu chiều sâu và chi tiết chuyên ngành.Tại sao Wikipedia được chọn làm nguồn dữ liệu chính?
Wikipedia là nguồn dữ liệu miễn phí, đa ngôn ngữ, có lượng thông tin phong phú và được cập nhật liên tục. Ngoài ra, Wikipedia có cấu trúc dữ liệu dạng bảng (infobox) và liên kết nội bộ giúp dễ dàng trích xuất và xây dựng đồ thị tri thức.Phương pháp trích xuất thông tin sử dụng trong nghiên cứu là gì?
Luận văn sử dụng phương pháp kết hợp rule-based dựa trên nhãn từ loại phân loại bởi VNCoreNLP để trích xuất các bộ ba thực thể - quan hệ - thực thể từ dữ liệu phi cấu trúc, kết hợp trích xuất trực tiếp từ dữ liệu cấu trúc dạng bảng.Mô hình nhúng TransE có vai trò gì trong nghiên cứu?
TransE biểu diễn các thực thể và quan hệ dưới dạng véc-tơ trong không gian liên tục, giúp giữ được mối quan hệ hình học giữa các thực thể, hỗ trợ cho việc tinh chỉnh, phân loại và dự đoán liên kết trong đồ thị tri thức.Độ chính xác của đồ thị tri thức xây dựng được như thế nào?
Theo đánh giá so sánh với số liệu của Tổng cục Thống kê Việt Nam, tỷ lệ thông tin về dân số, diện tích và mật độ dân số trích xuất được đạt khoảng 97% - 98%, cho thấy độ chính xác cao, đặc biệt với dữ liệu dạng bảng được gán nhãn.
Kết luận
- Đã đề xuất và triển khai thành công phương pháp xây dựng đồ thị tri thức theo miền dựa trên nguồn dữ liệu Wikipedia tiếng Việt, tập trung vào lĩnh vực hành chính - địa lý Việt Nam.
- Thu thập và xử lý dữ liệu từ 2732 bài viết, trích xuất hơn 29.000 bộ ba thực thể - quan hệ - thực thể với độ chính xác cao so với số liệu thống kê chính thức.
- Áp dụng mô hình nhúng TransE và kỹ thuật xử lý ngôn ngữ tự nhiên VNCoreNLP để nâng cao hiệu quả trích xuất và biểu diễn đồ thị.
- Nhận diện các hạn chế về quy tắc trích xuất và tính đầy đủ dữ liệu, đề xuất các giải pháp mở rộng và cải tiến trong tương lai.
- Khuyến nghị tiếp tục phát triển các mô hình học sâu, mở rộng phạm vi dữ liệu và ứng dụng đồ thị tri thức vào các hệ thống thực tế nhằm nâng cao giá trị sử dụng.
Hành động tiếp theo: Triển khai các giải pháp đề xuất, mở rộng nghiên cứu sang các lĩnh vực khác và phát triển ứng dụng thực tế dựa trên đồ thị tri thức xây dựng được để thúc đẩy nghiên cứu và ứng dụng trí tuệ nhân tạo tại Việt Nam.