Dự Đoán Liên Kết Trên Đồ Thị Tri Thức Sử Dụng Nhúng Dịch Chuyển Và Mạng Tích Chập

Luận án tiến sĩ phân tích máy tính dự đoán liên kết trên đồ thị tri thức sử dụng nhúng dịch chuyển và mạng tích chập, xây dựng cơ sở lý luận, kiểm chứng thực nghiệm, đóng góp tri

Trường đại học

Đại học Quốc gia Thành phố Hồ Chí Minh

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

2024

267

Phí lưu trữ

55 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: GIỚI THIỆU VỀ DỰ ĐOÁN LIÊN KẾT TRÊN ĐỒ THỊ TRI THỨC

1.1. Dự đoán liên kết và ứng dụng thực tiễn

1.2. Các thách thức đặt ra

1.3. Động lực nghiên cứu

1.4. Mục tiêu và phạm vi nghiên cứu

1.5. Hướng tiếp cận

1.6. Các đóng góp chính của luận án

1.7. Tập dữ liệu và độ đo hiệu suất mô hình

1.8. Bố cục trình bày luận án

2. CHƯƠNG 2: KIẾN TRÚC MÔ HÌNH DỰ ĐOÁN LIÊN KẾT

2.1. Vectơ nhúng

2.2. Hàm tính điểm

2.3. Chiến lược phát sinh mẫu âm

2.4. Hàm mất mát và bộ tối ưu hóa

2.5. Các loại quan hệ trong đồ thị tri thức

3. CHƯƠNG 3: TỔNG QUAN CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

3.1. Các phương pháp suy luận liên kết

3.1.1. Các mô hình tịnh tiến

3.1.2. Các mô hình xoay

3.1.3. Các mô hình đối xứng

4. CHƯƠNG 4: MÔ HÌNH PHÁT SINH TRỌNG SỐ VÀ XÁC ĐỊNH QUAN HỆ DỰA TRÊN MẠNG HYPERNETWORK

4.1. Tìm kiếm trọng số với mạng HyperNetwork

4.2. Mô hình ConvHyper

4.3. Tích hợp HyperNetwork

4.4. Huấn luyện mô hình

4.5. Phân tích độ phức tạp của mô hình ConvHyper

4.6. Thiết lập môi trường và siêu tham số

4.7. Kết quả và phân tích

4.8. Ảnh hưởng của các siêu tham số

4.9. Thực nghiệm loại bỏ

5. CHƯƠNG 5: MÔ HÌNH NHÚNG SỬ DỤNG PHÉP CHIẾU VÀ XOAY TRÊN CÁC SIÊU PHẲNG QUAN HỆ

5.1. Mô hình RotatPRH

5.2. Chiếu thực thể vào siêu phẳng quan hệ

5.3. Kiến trúc mô hình

5.4. Phân tích độ phức tạp của mô hình RotatPRH

5.5. Cấu hình thí nghiệm và các tham số

5.6. Kết quả và thảo luận

5.7. Ảnh hưởng của các siêu tham số

6. CHƯƠNG 6: MÔ HÌNH NHÚNG ĐỒ THỊ VỚI NHÓM TRỰC GIAO TRONG KHÔNG GIAN QUATERNION

6.1. Mô hình Rotate4D

6.2. Kiến trúc tổng quan

6.3. Huấn luyện mô hình

6.4. Khả năng dự đoán trên các loại quan hệ

6.5. Liên hệ đến mô hình Rotate3D

6.6. Phân tích độ phức tạp của mô hình Rotate4D

6.7. Các mô hình so sánh

6.8. Kết quả thực nghiệm và thảo luận

6.9. Phân tích bộ tối ưu và quá trình hội tụ

6.10. Ảnh hưởng của các siêu tham số

7. CHƯƠNG 7: MÔ HÌNH XOAY QUAN HỆ TRONG MẠNG NƠ- RON TÍCH CHẬP PHỨC

7.1. Khai thác thông tin cục bộ bằng toán tử tích chập

7.2. Biến đổi xoay với thông tin cục bộ

7.3. Khả năng dự đoán trên các loại quan hệ

7.4. ConvRot như mô hình tổng quát của RotatE và TransE

7.5. Huấn luyện mô hình

7.6. Đánh giá độ phức tạp của mô hình ConvRot

7.7. Thiết lập thực nghiệm

7.8. Các mô hình so sánh

7.9. Kết quả thực nghiệm và thảo luận

7.10. Phân tích hội tụ

7.11. Ảnh hưởng của các siêu tham số

DANH MỤC CÔNG TRÌNH CỦA NGHIÊN CỨU SINH

TÀI LIỆU THAM KHẢO

PHỤ LỤC

Tóm tắt

I. Tổng Quan Về Dự Đoán Liên Kết Trên Đồ Thị Tri Thức

Bài toán dự đoán liên kết trên đồ thị tri thức là một lĩnh vực nghiên cứu quan trọng, đặc biệt khi đồ thị tri thức ngày càng được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau. Mục tiêu chính là dự đoán các mối quan hệ (liên kết) còn thiếu hoặc chưa được khám phá giữa các thực thể trong đồ thị tri thức. Các thuật toán dự đoán liên kết đóng vai trò quan trọng trong việc hoàn thiện và mở rộng đồ thị tri thức, giúp cải thiện hiệu suất của các ứng dụng như hệ thống gợi ý, tìm kiếm ngữ nghĩa và trả lời câu hỏi. Google đã giới thiệu đồ thị tri thức vào năm 2012, khẳng định công cụ tìm kiếm trở nên thông minh hơn 1000 lần. Tuy nhiên, do dữ liệu được thu thập từ nhiều nguồn, đồ thị tri thức thường chứa thông tin không chính xác, nhiễu và mâu thuẫn. Do đó, knowledge graph completion bằng link prediction là rất quan trọng.

1.1. Ứng Dụng Thực Tế Của Dự Đoán Liên Kết trong KG

Dự đoán liên kết không chỉ là một bài toán học thuật mà còn có nhiều ứng dụng thực tế quan trọng. Ví dụ, trong lĩnh vực y sinh, nó có thể được sử dụng để dự đoán tương tác thuốc-thuốc hoặc protein-protein. Trong thương mại điện tử, nó có thể giúp gợi ý sản phẩm cho người dùng dựa trên lịch sử mua hàng và thông tin về sản phẩm. Các hệ thống trả lời câu hỏi cũng sử dụng knowledge graph reasoning để suy luận và tìm ra câu trả lời chính xác. Luận án của Lê Ngọc Thành tập trung vào việc cải thiện độ chính xác trong dự đoán liên kết trên đồ thị tri thức, một mục tiêu có ý nghĩa thực tiễn lớn.

1.2. Các Loại Mối Quan Hệ trong Đồ Thị Tri Thức

Đồ thị tri thức không chỉ đơn giản là tập hợp các thực thể và mối quan hệ. Các mối quan hệ này có thể có nhiều loại khác nhau, ví dụ như quan hệ một-một, một-nhiều, nhiều-nhiều, và quan hệ phân cấp. Việc hiểu rõ các loại quan hệ này là rất quan trọng để xây dựng các mô hình dự đoán liên kết hiệu quả. Các mô hình cần phải có khả năng nắm bắt được các đặc trưng khác nhau của từng loại quan hệ để đưa ra dự đoán chính xác. Theo luận án, các loại quan hệ có thể được xem xét trên tính kinh nghiệm và tính ánh xạ, ảnh hưởng trực tiếp đến thiết kế thuật toán dự đoán liên kết.

II. Thách Thức Hạn Chế Của Các Phương Pháp Hiện Tại

Mặc dù có nhiều tiến bộ trong lĩnh vực dự đoán liên kết, vẫn còn nhiều thách thức cần vượt qua. Một trong những thách thức lớn nhất là tính đa dạng và phức tạp trong liên kết. Các semantic relationships trong đồ thị tri thức thường rất phức tạp và khó nắm bắt. Ngoài ra, kích thước của bộ dữ liệu đồ thị tri thức thường rất lớn, đòi hỏi các link prediction algorithms phải có khả năng xử lý dữ liệu hiệu quả. Dữ liệu động, thay đổi theo thời gian, cũng là một vấn đề cần được quan tâm. Các phương pháp dựa trên mạng tích chập và knowledge graph embedding có tiềm năng giải quyết các thách thức này, nhưng vẫn cần được nghiên cứu và phát triển thêm.

2.1. Vấn Đề Kích Thước Dữ Liệu Lớn trong Đồ Thị Tri Thức

Một trong những khó khăn lớn nhất khi làm việc với đồ thị tri thức là kích thước dữ liệu khổng lồ. Các bộ dữ liệu đồ thị tri thức như DBpedia, YAGO, và Freebase chứa hàng triệu thực thể và hàng tỷ mối quan hệ. Việc xử lý và phân tích dữ liệu lớn này đòi hỏi các thuật toán dự đoán liên kết phải có khả năng mở rộng tốt. Các phương pháp graph representation learning và graph neural networks (GNN) đang được nghiên cứu để giải quyết vấn đề này.

2.2. Xử Lý Dữ Liệu Động và Thông Tin Thay Đổi Theo Thời Gian

Đồ thị tri thức không phải là tĩnh mà liên tục được cập nhật và thay đổi theo thời gian. Các mối quan hệ mới được thêm vào, các mối quan hệ cũ bị xóa bỏ, và các thuộc tính của thực thể thay đổi. Việc dự đoán liên kết trong môi trường dữ liệu động là một thách thức lớn, đòi hỏi các mô hình phải có khả năng thích ứng nhanh chóng với những thay đổi này. Cần phát triển các phương pháp relational learning và machine learning trên đồ thị có thể xử lý dữ liệu động một cách hiệu quả.

III. Phương Pháp Dự Đoán Liên Kết Dựa Trên Mạng Tích Chập GCN

Mạng tích chập (Convolutional Neural Networks - CNNs) đã chứng minh hiệu quả trong nhiều bài toán, và gần đây được áp dụng thành công trong dự đoán liên kết trên đồ thị tri thức. Các Graph Convolutional Networks (GCN) là một loại CNN đặc biệt được thiết kế để làm việc với dữ liệu đồ thị. GCN có khả năng học các node embedding và edge embedding bằng cách tích hợp thông tin từ các lân cận của một nút. Dự đoán liên kết dựa trên GCN thường bao gồm việc sử dụng các biểu diễn đồ thị tri thức học được để tính toán điểm số cho các cặp thực thể tiềm năng, từ đó dự đoán xem có tồn tại mối quan hệ giữa chúng hay không. Luận án của Lê Ngọc Thành đề xuất nhiều cải tiến cho phương pháp này.

3.1. Kiến Trúc GCN và Cách Tích Hợp Thông Tin Lân Cận

Kiến trúc của một GCN bao gồm nhiều lớp tích chập, mỗi lớp thực hiện việc tích hợp thông tin từ các nút lân cận. Trong mỗi lớp, mỗi nút sẽ nhận thông tin từ các nút lân cận của nó, sau đó kết hợp thông tin này với thông tin của chính nó để tạo ra một node embedding mới. Quá trình này được lặp lại qua nhiều lớp, cho phép GCN học được các biểu diễn đồ thị tri thức phức tạp và nắm bắt được các mối quan hệ giữa các thực thể. Các bộ lọc (filters) đóng vai trò quan trọng trong việc khai thác tương tác giữa thực thể và quan hệ.

3.2. Các Hàm Tính Điểm Chiến Lược Phát Sinh Mẫu Âm Trong GCN

Sau khi học được các node embedding, một hàm tính điểm được sử dụng để đánh giá khả năng tồn tại của một mối quan hệ giữa hai thực thể. Hàm tính điểm thường dựa trên khoảng cách hoặc độ tương đồng giữa các node embedding của hai thực thể. Để huấn luyện GCN, cần sử dụng các mẫu âm (negative samples), là các cặp thực thể không có mối quan hệ. Chiến lược phát sinh mẫu âm có ảnh hưởng lớn đến hiệu suất của thuật toán dự đoán liên kết. Các chiến lược phổ biến bao gồm random sampling và adversarial sampling. Phương pháp triplet classification cũng được sử dụng.

IV. Cải Tiến Mô Hình Dự Đoán HyperNetwork Không Gian Quaternion

Luận án của Lê Ngọc Thành đề xuất một số cải tiến cho các mô hình dự đoán liên kết. Một trong những cải tiến là sử dụng mạng HyperNetwork để tạo ra các bộ lọc tốt hơn cho quá trình khai thác tương tác giữa thực thể và quan hệ. Mạng HyperNetwork giúp tăng khả năng nắm bắt thông tin và giảm thời gian huấn luyện. Một cải tiến khác là khai thác không gian Quaternion và lý thuyết nhóm để biểu diễn và xử lý các mối quan hệ phức tạp. Không gian Quaternion cho phép mô hình hóa các phép xoay và biến đổi một cách hiệu quả, giúp cải thiện độ chính xác của mô hình dự đoán liên kết.

4.1. Sử Dụng Mạng HyperNetwork Để Tối Ưu Bộ Lọc Trong Mạng Tích Chập

Mạng HyperNetwork được sử dụng để tạo ra các bộ lọc xác định quan hệ, giúp tăng khả năng nắm bắt tương tác giữa các thực thể. Thay vì sử dụng các bộ lọc cố định, HyperNetwork tạo ra các bộ lọc động dựa trên thông tin về quan hệ. Điều này cho phép mô hình thích ứng tốt hơn với các loại quan hệ khác nhau và cải thiện hiệu suất dự đoán liên kết. HyperNetwork cũng được dùng để tạo bộ trọng số, giúp giảm thời gian tìm kiếm trọng số và tăng độ sâu của mạng.

4.2. Khai Thác Không Gian Quaternion Để Biểu Diễn Mối Quan Hệ Phức Tạp

Không gian Quaternion là một mở rộng của không gian số phức, cho phép biểu diễn các phép xoay và biến đổi trong không gian 4D. Luận án khai thác không gian Quaternion để biểu diễn các mối quan hệ phức tạp, đặc biệt là các quan hệ phân cấp. Việc sử dụng không gian Quaternion giúp mô hình hóa các phép xoay kép và xoay đẳng hướng một cách hiệu quả, từ đó cải thiện khả năng dự đoán liên kết. Các nhóm trực giao được sử dụng để đảm bảo tính đúng đắn trong việc biểu diễn các phép xoay.

V. Đánh Giá Kết Quả Thực Nghiệm Các Mô Hình Dự Đoán Liên Kết

Luận án đã tiến hành đánh giá các mô hình dự đoán liên kết được đề xuất trên các bộ dữ liệu đồ thị tri thức tiêu chuẩn. Các kết quả thực nghiệm cho thấy rằng các mô hình cải tiến có hiệu suất tốt hơn so với các mô hình cơ sở. Ví dụ, mô hình ConvHyper cải thiện hiệu suất từ 0.5% trên các tập dữ liệu chuẩn. Mô hình RotatPRH tăng hiệu suất từ 1.4% đến 2% trên bộ dữ liệu không bị rò rỉ kiểm tra. Mô hình Rotate4D cải thiện đến 12% trên quan hệ phân cấp. Mô hình ConvRot giúp cải thiện đến 7% so với các công trình trước đây. Những kết quả này chứng minh tính hiệu quả của các phương pháp được đề xuất trong luận án.

5.1. Thiết Lập Môi Trường Thực Nghiệm Siêu Tham Số Cho Mô Hình

Để đảm bảo tính khách quan và có thể so sánh được, các mô hình được đánh giá trên các bộ dữ liệu đồ thị tri thức tiêu chuẩn như WN18RR, FB15k-237, và YAGO3-10. Các siêu tham số của mô hình (ví dụ, kích thước embedding, tốc độ học, số lớp tích chập) được điều chỉnh để đạt được hiệu suất tốt nhất. Các độ đo hiệu suất phổ biến như Hits@K, MRR (Mean Reciprocal Rank) và AUC (Area Under the Curve) được sử dụng để đánh giá các mô hình. Các mô hình so sánh được lựa chọn dựa trên tính liên quan và hiệu suất đã được chứng minh trong các nghiên cứu trước đây.

5.2. Phân Tích Ảnh Hưởng Của Các Siêu Tham Số Đến Hiệu Suất

Luận án cũng phân tích ảnh hưởng của các siêu tham số đến hiệu suất của các mô hình. Ví dụ, kích thước embedding có ảnh hưởng lớn đến khả năng biểu diễn của mô hình. Tốc độ học ảnh hưởng đến tốc độ hội tụ và khả năng tìm kiếm nghiệm tối ưu. Số lớp tích chập ảnh hưởng đến khả năng tích hợp thông tin từ các lân cận xa. Việc điều chỉnh các siêu tham số một cách cẩn thận là rất quan trọng để đạt được hiệu suất tốt nhất. Thử nghiệm loại bỏ (ablation study) cũng được thực hiện để đánh giá đóng góp của từng thành phần trong mô hình.

VI. Kết Luận Hướng Nghiên Cứu Tiềm Năng Trong Tương Lai

Luận án của Lê Ngọc Thành đã đóng góp vào lĩnh vực dự đoán liên kết trên đồ thị tri thức bằng cách đề xuất một số phương pháp cải tiến dựa trên mạng tích chập và knowledge graph embedding. Các phương pháp này đã chứng minh hiệu quả trên các bộ dữ liệu tiêu chuẩn và mở ra những hướng nghiên cứu tiềm năng trong tương lai. Các hướng nghiên cứu tiềm năng bao gồm việc phát triển các mô hình có khả năng xử lý dữ liệu động, khai thác tối đa các tính chất trong không gian đa tạp, cung cấp giải thích cho các mô hình và kết quả dự đoán, và tối ưu hóa hiệu suất để xử lý dữ liệu lớn một cách hiệu quả.

6.1. Ứng Dụng Thực Tế Triển Vọng Phát Triển Của Mô Hình

Các mô hình được đề xuất trong luận án có tiềm năng ứng dụng thực tế trong nhiều lĩnh vực, từ việc cải thiện dữ liệu trong đồ thị tri thức đến phát triển hệ thống gợi ý và phân tích tương tác giữa các phần tử trong hợp chất. Một số ứng dụng bước đầu đã triển khai nền tảng lý thuyết và kiến trúc của các mô hình này gồm hệ thống Chatbot tiếng Việt sử dụng truy vấn dựa trên bản nhúng đồ thị và hệ thống phát hiện thuốc trong đơn thuốc. Việc triển khai trên các dạng đồ thị có yếu tố thời gian là một hướng đi tiềm năng.

6.2. Các Vấn Đề Còn Bỏ Ngỏ Hướng Nghiên Cứu Tiếp Theo

Vẫn còn nhiều thách thức cần giải quyết để ứng dụng các mô hình dự đoán liên kết một cách khả thi hơn trong thực tế. Các vấn đề này bao gồm việc triển khai mô hình trên các dạng đồ thị có yếu tố thời gian, khai thác tối đa các tính chất trong không gian đa tạp, cung cấp giải thích cho các mô hình và kết quả dự đoán trong mạng nơ-ron, cùng với việc tối ưu hóa hiệu suất để xử lý dữ liệu đồ thị lớn một cách hiệu quả. Nghiên cứu về knowledge graph reasoning và semantic relationships vẫn còn nhiều tiềm năng.

28/05/2025

Bạn đang xem trước tài liệu:

Luận án tiến sĩ khoa học máy tính dự đoán liên kết trên đồ thị tri thức sử dụng nhúng dịch chuyển và mạng tích chập

Tải đầy đủ

Trích đoạn nội dung tài liệu

CHƯƠNG 1. GIỚI THIỆU Chương này cung cấp một cái nhìn tổng quan về bài toán dự đoán trong đồ thị tri thức, cùng với ý nghĩa khoa học và ứng dụng thực tiễn của bài toán. Song song đó, luận án cũng đánh giá các thách thức cần được giải quyết và cơ hội cho sự cải tiến. Kế tiếp, luận án xác định rõ các mục tiêu cụ thê của nghiên cứu và phạm vi, đồng thời giới thiệu cách tiếp cận được lựa chọn.

Phần tiếp theo của chương trình bày những đóng góp chính của luận án, nêu bật những đề xuất và kết quả mà công trình nghiên cứu này đem lại. Chương kết thúc bằng cách mô tả bố cục tổng thé của luận án, cung. cấp cách thức tô chức và phát triển các ý tưởng chính qua các phần khác nhau.1 Dự đoán liên kết và ứng dụng thực tiễn Đồ thị tri thức (Knowledge Graph — KG) lần đầu được dé cập vào năm 1973 [1] nhưng chưa thu hút sự chú ý rộng rãi từ giới khoa học cho đến năm 2012, khi Google thông báo việc tích hợp KG vào công cụ tìm kiếm của mình [2]. Sau đó, một loạt các công ty lớn bao gồm Facebook [3], Amazon [4], Microsoft [3] và Uber [5] đã thông báo việc ứng dụng KG vào hệ thống cơ sở dữ liệu của họ.

Trong hơn một thập kỷ, nhiều nghiên cứu sâu rộng đã được công bồ về các khía cạnh khác nhau của KG, gop phần đáng kể vào sự phát triển của hướng nghiên cứu này. Hơn nữa, nhiều dự án quy mô lớn đã được triên khai sử dụng các cơ sở tri thức mở dé xây dựng KG; ví dụ dang chú ý bao gồm Wikidata [6], Freebase [7], DBpedia [8], và YAGO [9]. Trong KG, các nút đại diện cho các thực thể, trong khi các liên kết đại diện cho mối quan hệ giữa các thực thé. KG có thể được biéu diễn theo nhiều cách, nhưng phổ biến nhất là dưới dạng bộ ba và bộ bón.

Mỗi bộ ba có dạng (/hực thé đâu, quan hệ, thực thể cuối), có nghĩa là thực thé đầu được liên kết với thực thé cuối thông qua một quan hệ cụ thé. Trong khi đó, bộ bốn được bé sung thêm chiều thời gian dé mô tả đồ thi tri thức thời gian (temporal knowledge graph).1 minh họa một đồ thị tri thức thé hiện các bộ ba như (HCMUS, located_in, HCM_City), (Washington, city oƒ, USA). Các cạnh nét liền, màu đen biểu diễn cho các sự kiện tồn tại đã được lưu trữ trong dữ liệu và các cạnh nét đứt, màu đỏ đại diện cho các sự kiện tồn tại nhưng chưa được ghi nhận trong cơ sở dit liệu. Vì KG có kha năng mô hình hóa dữ liệu cầu trúc hiệu quả hơn so với các phương pháp truyền thống như các bảng trong cơ sở dữ liệu nên nó được áp dụng trong nhiều lĩnh vực như hệ thống gợi ý, tìm kiếm ngữ nghĩa, và hệ thông trả lời câu hỏi [10-12].

a Tri thức đã biết Seattle }---universiy of USA —————> Trì thức chưa biết iocated_in củy_sŸ } } HCMUS }—university_«-® Hình 1.1: Ví dụ đồ thị tri thức biểu diễn thông tin một số địa điểm địa lý Một vấn dé mà KG gặp phải là chúng được xây dựng từ nhiều nguồn thông tin, bao gồm các nguồn dit liệu mở. Do đó, KG thường gặp phải các vấn đề như thông tin không chính xác, nhiễu và mâu thuẫn. Trên Freebase, gần 3/4 số lượng thực thé thiếu thông tin cơ bản như nơi sinh, 99% không có dữ liệu về dân tộc, và 95% không có. thông tin về cha mẹ của họ [13, 14].

Trong khi đó, 6 DBpedia, hơn 66% các nhà khoa học không có mô tả chỉ tiết [15]. Tính đến năm 2020, 6% các thực thé của Wikidata không có loại và 80% loại có ít hơn 10 thực thé được kết nói đến [16]. Một số dữ liệu chỉ ra rằng, trong các cơ sở dữ liệu tri thức lớn hiện nay, tỷ lệ thiếu sót của các mối quan hệ cơ bản thường xuyên vượt quá 70%, và tỷ lệ này càng cao hơn nữa đối với các mối quan hệ ít phổ biến [17]. Điều này không chỉ xuất phát từ nguyên nhân của quá trình thủ công trong việc xây dựng KG, mà còn xuất phát từ việc sử dụng các nguồn dữ liệu không đồng nhất và phức tạp, như mạng cộng tác, kho ngữ liệu văn bản, nguồn web, và nguồn tài liệu cấu trúc/bán cấu trúc như JSON, XML, CSV.

Những phương pháp thủ công hoặc bán tự động thường dẫn đến sự không đầy đủ trong đữ liệu ban đầu, chứa nhiều mục trùng lặp và thông tin sai lệch. Đây chính là một trong những đặc tính phổ biến của các tập dữ liệu KG hiện nay. Dé giải quyết vấn đề này, cộng đồng nghiên cứu đã đề xuất bài toán hiệu chỉnh đồ thị tri thức (Knowledge Graph Refinement — KGR). Mô hình học KG Ứng dụng KG (Upstream Tasks) (Downstream Tasks) Dự đoán liên kết Hệ thống gợi ý Phân lớp thực thể, rot hộ Hệ thống hỏi" đáp Co sở dữ liệu KG Phát hiện lỗi Phát hiện bắt thường.2: Bài toán hiệu chỉnh đồ thị tri thức và các ứng dụng của chúng KGR tập trung vào quá trình bổ sung tri thức còn thiếu và xác định thông tin sai lệch trong KG thông qua các phương pháp tự động.

Từ đó, cộng đồng nghiên cứu hình thành hai nhánh bài toán chính, gồm hoàn thiện đồ thị (Knowledge Graph Completion - KGC) và phát hiện lỗi (error detection). Trong KGC, bài toán cũng chia thành các nhiệm vụ khác nhau như gán nhãn đỉnh, cạnh, dự đoán liên kết.2 tóm tắt các bài toán và ứng dụng của KGR. Trong phạm vi nghiên cứu, luận án tập trung vào nhiệm vụ dự đoán liên kết. Dự đoán liên kết là quá trình xác định các liên kết còn thiếu giữa các thực thể trong đồ thị.

Vi dụ, trong Hình 1.1, các bộ ba như (HCM City, city_of, Vietnam), (Seattle, university_of, USA) là các bộ ba có thể được dự đoán dựa trên các sự kiện tồn tại trong KG. Một điểm đáng chú ý gần đây là có sự kết hợp giữa lĩnh vực thị giác máy tính và KG. Các nhà nghiên cứu trong thị giác máy tính bắt đầu quan tâm đến dạng cấu trúc này nhằm hỗ trợ cho quá trình nắm bắt được bối cảnh, hiểu thông tin ảnh cho máy tinh, cũng như khai thác các thông tin tiềm ẩn khác dựa trên các mối tương quan giữa các đối tượng [18]. Từ đó, mở ra các ứng dụng tự động như truy vấn thông tin, suy luận, phân tích dữ liệu trên tập ảnh.3 mô tả quá trình dự đoán mối liên kết giữa các đối tượng dựa trên KG.

Đầu tiên, ảnh được qua mô-đun để trích xuất các đối tượng có trong ảnh. Giả sử, một số mối tương quan được trích xuất nhưng một số không được thể hiện. Các mối tương quan này được biéu diễn dưới đạng bộ ba và có thể kết hợp với cơ sở dữ liệu KG được xây dựng trước đó. Các mô hình dự đoán được áp dụng dé tìm thêm mối quan hệ giữa các đối tượng.

Trong vi dụ, bộ ba (woman, wear, shoes) và (woman, feed, horse) có thé được sinh ra từ mô hình.3: Các thông tin thị giác được thể hiện dưới dang đồ thị tri thức đê dự đoán các tương tác tiêm ân của các đôi tượng có trong anh Ngoài hoàn thiện đồ thị, bài toán dự đoán liên kết trên KG còn có nhiều ứng dụng thực tiễn khác như gợi ý khóa học bằng cách đề xuất liên kết giữa người học và khóa học mới [19], hay dự đoán dịch bệnh lây lan dựa trên lịch sử tiếp xúc giữa các đối tượng [20]. Dự đoán liên kết enzyme [21], phát hiện tội phạm [22], tương tác protein-protein [23] cũng là các ứng dụng quan trọng của bài toán này. Qua đó, ta có thể thấy tầm quan trọng cũng như khả năng ứng dụng khi xây dựng thành công mô hình dự đoán với hiệu suất cao.2 Các thách thức đặt ra 1.1 Tính đa dạng và phức tạp trong liên kết Dự đoán liên kết trên KG đối mặt với thách thức đáng kể từ tính đa dạng và phức tạp của các liên kết. Trong KG, mỗi liên kết biểu điễn một mối quan hệ cụ thể giữa các thực thể, và sự phức tạp xuất hiện do đa dạng của các loại quan hệ và sự tương tác phức tạp giữa chúng.

Một thực thể có thé có nhiều mối quan hệ khác nhau với nhiều thực thể khác, thậm chí giữa một cặp thực thể cũng có thể tổn tại nhiều quan hệ khác nhau, từ đó tạo ra một mạng lưới phức tạp. Thông tin ngữ nghĩa trên từng quan hệ có sự xác định hướng và đôi khi tồn tại nhập nhằng trong ngữ nghĩa. Như trong Hình 1.4, cùng một cặp brother_of(.)= --, nhưng có thể cho kết quả khác nhau. Trường hợp đầu, (Charles_III, brother_of, Edward) kết hợp với (Edware, parent_of, James) cho kết quả (Charles_III, uncle_of, James).

Tuy nhiên, trong trường hợp sau, (Charles HH, parent_ William) và (William, brother_of, Harry) lại cho kết quả (Charles_III, parent_of, Harry). brother oF "¬ rent_of Hoàng từ Edward “`. James “T baưent øf,. 'Vua Charles I re parent_of brother_of x Hoang tử Harry william ‘Than vương xứ Wales Hình 1.4: Vi dụ minh họa sự thay đổi ý nghĩa khi thứ tự của các mối quan hệ được thay đổi Ngoài ra, trong nghiên cứu học thuật, các đồ thị tri thức thường được chuẩn hóa và cấu trúc lại đê tránh vấn đề không nhất quán và thiếu chuẩn mực.

Tuy nhiên, hầu hết các đồ thị tri thức thực tế thường có chất lượng thấp do tổng hợp từ nhiều nguồn và không có các tiêu chí cụ thể để kiểm soát chất lượng. Điều này dẫn đến các mô hình chạy tốt trên đữ liệu thực nghiệm nhưng lại cho kết quả thấp khi áp dụng vào dữ liệu thực tế không kiểm soát. Nhiều nỗ lực gần đây như [24-27] nhằm giải quyết vấn đề này nhưng vẫn chưa có được sự hoàn thiện và hiệu quả cao.2 Kích thước dữ liệu lớn Dữ liệu KG thường chứa hàng triệu thực thể và liên kết, và quy mô này không ngừng tăng lên. Tập DBpedia [28] chứa 538 triệu bộ ba từ 4.8 triệu thực thê và 2,813 quan hệ khác nhau.

Tập Freebase [7] với 2.4 tỷ bộ ba đến từ 50 triệu thực thể và 37,781 quan hệ khác nhau. Tập Freebase này sau đó được Google phát triển lên thành 18 tỷ bộ ba cho 570 triệu thực thể [29]. Khi so sánh với các bộ đữ liệu chuẩn được tiến hành trong các thực nghiệm thì các bộ dữ liệu trên lớn hơn rất nhiều lần. Điều này đặt ra yêu cầu cho các mô hình về khả năng xử lý và phân tích dữ liệu một cách nhanh chóng và hiệu quả.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tóm tắt bài viết "Dự Đoán Liên Kết Trên Đồ Thị Tri Thức Sử Dụng Mạng Tích Chập"

Bài viết này tập trung vào việc sử dụng mạng tích chập (Convolutional Neural Networks - CNNs) để dự đoán các liên kết còn thiếu hoặc tiềm năng trong đồ thị tri thức. Đây là một lĩnh vực quan trọng vì đồ thị tri thức thường không đầy đủ và việc dự đoán liên kết có thể giúp mở rộng và hoàn thiện chúng, từ đó cải thiện hiệu suất của các ứng dụng dựa trên đồ thị tri thức như tìm kiếm thông tin, trả lời câu hỏi và suy luận. Lợi ích chính của việc sử dụng CNNs là khả năng tự động học các đặc trưng phức tạp từ cấu trúc đồ thị, giúp dự đoán liên kết chính xác hơn so với các phương pháp truyền thống.

Nếu bạn quan tâm đến việc xây dựng đồ thị tri thức, bạn có thể tìm hiểu thêm về Phương pháp xây dựng đồ thị tri thức theo miền dựa trên nguồn dữ liệu từ wikipedia bằng cách nhấp vào liên kết: Phương pháp xây dựng đồ thị tri thức theo miền dựa trên nguồn dữ liệu từ wikipedia. Ngoài ra, nếu bạn muốn tìm hiểu về các ứng dụng khác của dự đoán trong lĩnh vực sinh học, bạn có thể xem Luận văn các phương pháp dự đoán khả năng ức chế bệnh dựa trên các biểu diễn khác nhau của rna và ứng dụng tại: Luận văn các phương pháp dự đoán khả năng ức chế bệnh dựa trên các biểu diễn khác nhau của rna và ứng dụng. Cuối cùng, để hiểu rõ hơn về các bài toán dự đoán trong mạng lưới, bạn có thể tham khảo Luận văn đánh giá dung lượng manet theo số nút và độ linh động của nút: Luận văn đánh giá dung lượng manet theo số nút và độ linh động của nút.

#Phân tích dữ liệu