Luận văn thạc sĩ về tăng cường dữ liệu và nhúng đa phương thức tại Đại học Quốc gia Hà Nội

Luận văn thạc sĩ nghiên cứu liên kết tập dữ liệu bổ sung bằng phương pháp tăng cường đô thị kiến thức và nhúng đa phương thức, khảo sát thực trạng, phân tích nguyên nhân, đề xuất

Trường đại học

Université Nationale Du Vietnam À Hanoï

Chuyên ngành

Systèmes Intelligents Et Multimédia

Người đăng

Ẩn danh

Thể loại

mémoire

2019

Phí lưu trữ

30 Point

Mục lục chi tiết

1. CHAPTER 1: INTRODUCTION

2. CHAPTER 2: CONTEXTE ET PROBLÉMATIQUE

2.1. Web sémantique

2.2. Ontologie

2.3. Resource Description Format(RDF)

2.4. Plongement de mots ou Plongement lexical (Word embedding)

3. CHAPTER 3: ÉTAT DE L’ART

3.1. Plongement de mots

3.2. Plongement de graphes

3.3. Augmentation de graphes de connaissances

3.4. Liage des graphes de connaissances

3.4.1. Étapes fondamentales de liage

3.4.2. Liage entre texte et graphe de connaissances

3.4.3. Évaluation des systèmes de découverts de liens

4. CHAPTER 4: SOLUTION PROPOSÉE ET MÉTHODE D’ÉVALUATION

4.1. Construction de l’évaluation

4.2. Approche de base

5. CHAPTER 5: EXPÉRIMENTATION ET RÉSULTATS OBTENUS

5.1. Analyse des données

5.1.1. Environnement de développement

5.1.2. Hétérogénéité et complémentarité des données

5.1.3. Le nombre d’entités

5.1.4. Les mots utilisés

5.2. Plongement des mots du corpus

5.3. Distribution de mots dans les graphes

5.4. Agrégation des vecteurs de chaque entité des graphe

5.5. Comparaison avec l’approche de base

6. CHAPTER 6: CONCLUSION ET PERSPECTIVES

7. CHAPTER 7: ANNEXE

7.1. Librairies Python utilisées

Tóm tắt

I. Tổng quan về tăng cường dữ liệu với phương pháp nhúng đa phương thức

Tăng cường dữ liệu là một trong những phương pháp quan trọng trong lĩnh vực học máy và trí tuệ nhân tạo. Phương pháp này giúp cải thiện chất lượng và độ chính xác của mô hình bằng cách sử dụng các kỹ thuật nhúng đa phương thức. Nhúng đa phương thức cho phép kết hợp nhiều loại dữ liệu khác nhau, từ văn bản, hình ảnh đến âm thanh, tạo ra một bức tranh toàn diện hơn về thông tin. Việc áp dụng phương pháp này không chỉ giúp tăng cường dữ liệu mà còn mở ra nhiều cơ hội nghiên cứu mới trong các lĩnh vực như xử lý ngôn ngữ tự nhiên và phân tích dữ liệu.

1.1. Định nghĩa và tầm quan trọng của tăng cường dữ liệu

Tăng cường dữ liệu là quá trình cải thiện chất lượng dữ liệu thông qua việc sử dụng các phương pháp khác nhau. Điều này đặc biệt quan trọng trong bối cảnh dữ liệu lớn, nơi mà việc thu thập và xử lý dữ liệu trở nên khó khăn. Tăng cường dữ liệu giúp cải thiện độ chính xác của các mô hình học máy, từ đó nâng cao hiệu suất của các ứng dụng thực tiễn.

1.2. Phương pháp nhúng đa phương thức là gì

Nhúng đa phương thức là kỹ thuật sử dụng để kết hợp nhiều loại dữ liệu khác nhau vào một không gian nhúng chung. Kỹ thuật này cho phép các mô hình học máy hiểu và xử lý thông tin từ nhiều nguồn khác nhau, từ đó tạo ra các mối quan hệ và hiểu biết sâu sắc hơn về dữ liệu.

II. Vấn đề và thách thức trong tăng cường dữ liệu

Mặc dù tăng cường dữ liệu với phương pháp nhúng đa phương thức mang lại nhiều lợi ích, nhưng cũng tồn tại nhiều thách thức. Một trong những vấn đề lớn nhất là sự không đồng nhất của dữ liệu từ các nguồn khác nhau. Dữ liệu có thể đến từ nhiều định dạng khác nhau, điều này gây khó khăn trong việc tích hợp và xử lý. Hơn nữa, việc đảm bảo tính chính xác và độ tin cậy của dữ liệu cũng là một thách thức lớn.

2.1. Sự không đồng nhất của dữ liệu

Dữ liệu từ các nguồn khác nhau thường có định dạng và cấu trúc khác nhau. Điều này tạo ra khó khăn trong việc tích hợp và xử lý dữ liệu, đặc biệt là khi áp dụng các phương pháp nhúng đa phương thức.

2.2. Đảm bảo tính chính xác và độ tin cậy

Một thách thức lớn khác là đảm bảo rằng dữ liệu được sử dụng trong quá trình tăng cường là chính xác và đáng tin cậy. Việc sử dụng dữ liệu không chính xác có thể dẫn đến kết quả sai lệch và ảnh hưởng đến hiệu suất của mô hình.

III. Phương pháp tăng cường dữ liệu hiệu quả

Để giải quyết các vấn đề và thách thức trong tăng cường dữ liệu, nhiều phương pháp đã được phát triển. Một trong những phương pháp phổ biến là sử dụng các kỹ thuật học sâu để tạo ra các mô hình nhúng mạnh mẽ. Các mô hình này có khả năng học từ dữ liệu không có nhãn và tạo ra các biểu diễn có ý nghĩa cho dữ liệu.

3.1. Kỹ thuật học sâu trong nhúng đa phương thức

Học sâu là một trong những kỹ thuật mạnh mẽ nhất trong việc tăng cường dữ liệu. Các mô hình học sâu có khả năng học từ dữ liệu không có nhãn và tạo ra các biểu diễn có ý nghĩa cho dữ liệu, từ đó cải thiện độ chính xác của mô hình.

3.2. Sử dụng mô hình nhúng để cải thiện dữ liệu

Mô hình nhúng cho phép kết hợp nhiều loại dữ liệu khác nhau vào một không gian nhúng chung. Điều này giúp tạo ra các mối quan hệ và hiểu biết sâu sắc hơn về dữ liệu, từ đó cải thiện hiệu suất của các mô hình học máy.

IV. Ứng dụng thực tiễn của tăng cường dữ liệu

Tăng cường dữ liệu với phương pháp nhúng đa phương thức đã được áp dụng trong nhiều lĩnh vực khác nhau, từ y tế, tài chính đến thương mại điện tử. Các ứng dụng này không chỉ giúp cải thiện hiệu suất của các mô hình mà còn mở ra nhiều cơ hội nghiên cứu mới. Ví dụ, trong lĩnh vực y tế, việc sử dụng nhúng đa phương thức có thể giúp phát hiện bệnh sớm hơn và chính xác hơn.

4.1. Tăng cường dữ liệu trong y tế

Trong lĩnh vực y tế, tăng cường dữ liệu giúp cải thiện khả năng phát hiện và chẩn đoán bệnh. Việc kết hợp dữ liệu từ nhiều nguồn khác nhau, như hình ảnh y tế và hồ sơ bệnh án, có thể tạo ra các mô hình chính xác hơn.

4.2. Ứng dụng trong thương mại điện tử

Trong thương mại điện tử, tăng cường dữ liệu giúp cải thiện trải nghiệm người dùng và tối ưu hóa quy trình bán hàng. Việc phân tích dữ liệu từ nhiều nguồn khác nhau giúp các doanh nghiệp hiểu rõ hơn về hành vi của khách hàng.

V. Kết luận và tương lai của tăng cường dữ liệu

Tăng cường dữ liệu với phương pháp nhúng đa phương thức là một lĩnh vực đang phát triển nhanh chóng. Với sự tiến bộ của công nghệ và các phương pháp học máy, tương lai của tăng cường dữ liệu hứa hẹn sẽ mang lại nhiều cơ hội mới. Việc nghiên cứu và phát triển các phương pháp mới sẽ giúp cải thiện hiệu suất của các mô hình và mở ra nhiều ứng dụng thực tiễn hơn.

5.1. Tương lai của phương pháp nhúng đa phương thức

Phương pháp nhúng đa phương thức sẽ tiếp tục phát triển và được áp dụng rộng rãi trong nhiều lĩnh vực. Sự kết hợp giữa các loại dữ liệu khác nhau sẽ tạo ra những cơ hội mới cho nghiên cứu và ứng dụng.

5.2. Nghiên cứu và phát triển trong lĩnh vực này

Nghiên cứu và phát triển trong lĩnh vực tăng cường dữ liệu sẽ tiếp tục được đẩy mạnh. Các phương pháp mới sẽ được phát triển để cải thiện hiệu suất của các mô hình và mở rộng khả năng ứng dụng của chúng.

19/08/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ liên kết tập dữ liệu bổ sung bằng phương pháp tăng cường đô thị kiến thức và nhúng đa phương thức

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển dữ liệu mở và tri thức mở, việc liên kết các cơ sở dữ liệu bổ sung trở thành một thách thức quan trọng trong lĩnh vực khoa học máy tính và quản lý tri thức. Theo ước tính, hơn 90% dữ liệu hiện nay được lưu trữ dưới dạng phi cấu trúc hoặc bán cấu trúc, gây khó khăn cho việc tích hợp và khai thác đa nguồn dữ liệu. Đặc biệt trong lĩnh vực nông nghiệp - sinh học phân tử, dữ liệu từ các nguồn khác nhau thường tồn tại dưới nhiều dạng và ngôn ngữ truy vấn khác nhau, làm cho khả năng tra cứu và khai thác trở nên hạn chế. Luận văn tập trung giải quyết vấn đề liên kết các cơ sở tri thức bổ sung thông qua phương pháp tăng cường đa mô-đun và kỹ thuật embedding đa chiều (multimodal embedding), với mục tiêu chính là thiết lập một mô hình liên kết chính xác và đồng nhất giữa các thực thể trong các hệ thống tri thức khác nhau. Phạm vi nghiên cứu tập trung vào môi trường dữ liệu nông nghiệp, đặc biệt là nền tảng AgroLD - một hệ thống tri thức dựa trên Web Ngữ nghĩa (Semantic Web), thu thập dữ liệu từ nhiều nguồn như Gramene, UniprotKB, Plant Ontology và các cơ sở khác trong giai đoạn 2018-2019 tại Việt Nam. Nghiên cứu không chỉ hướng đến việc phát triển thuật toán mà còn đánh giá hiệu quả bằng các chỉ số chuẩn như độ chính xác (precision), độ thu hồi (recall) và F-measure. Kết quả nghiên cứu dự kiến hỗ trợ việc tích hợp dữ liệu nông nghiệp, sinh học, tạo thuận lợi cho các nhà nghiên cứu truy cập đa dạng và khai thác dữ liệu hiệu quả hơn, góp phần thúc đẩy phát triển khoa học và kỹ thuật trong lĩnh vực này.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn sử dụng các khung lý thuyết căn bản trong Web Ngữ nghĩa và học máy, bao gồm:

Web Ngữ nghĩa (Semantic Web): Sử dụng ngôn ngữ RDF (Resource Description Framework) làm định dạng chuẩn lưu trữ dữ liệu dạng triplet (chủ thể - thuộc tính - đối tượng), đồng thời áp dụng các chuẩn W3C như OWL, SPARQL cho việc biểu diễn và truy vấn dữ liệu có cấu trúc ngữ nghĩa.
Ontologies (Các hệ thống từ điển khái niệm): Khái niệm và kỹ thuật xây dựng các hệ thống phân loại và khái quát thông tin giúp chuẩn hóa ngữ nghĩa dữ liệu, làm cơ sở cho quá trình chuẩn hóa và liên kết dữ liệu hiệu quả giữa các nguồn.
Word Embedding (Plongement lexical): Phương pháp biểu diễn từ dưới dạng vector liên tục, bảo tồn tính ngữ nghĩa và ngữ pháp thông qua các mô hình học sâu như Word2Vec (Skip-gram và CBOW). Điều này giúp chuyển đổi dữ liệu văn bản thành dạng số dễ xử lý cho các thuật toán học máy.
Graph Embedding (Plongement đồ thị): Chuyển đổi các nút và quan hệ trong đồ thị tri thức thành vector trong không gian véc-tơ liên tục, giúp ghi nhận cấu trúc và mối liên hệ phức tạp trong cơ sở tri thức. Các thuật toán như TransE, RESCAL, DistMult được dùng để mô hình hóa.
Data Linking (Liên kết dữ liệu): Các phương pháp và thuật toán xác định và nối các thực thể tương đồng giữa các cơ sở dữ liệu khác nhau, đảm bảo tính đồng nhất và tránh trùng lặp bằng kỹ thuật so sánh biểu diễn vector, sử dụng các phép đo tương tự như cosine similarity hoặc khoảng cách Euclid.

Ngoài ra, các khái niệm về tăng cường đồ thị tri thức (Knowledge Graph Augmentation) với việc kết hợp dữ liệu từ nhiều nguồn đa dạng như văn bản, bảng biểu, mạng xã hội, cũng được nghiên cứu chi tiết, làm tăng độ phong phú và khả năng phát hiện mối quan hệ giữa thực thể.

Phương pháp nghiên cứu

Nghiên cứu tiến hành theo các bước chính:

Thu thập dữ liệu: Sử dụng bộ dữ liệu từ nền tảng AgroLD cùng các nguồn bổ sung khác liên quan tới nông nghiệp và sinh học, tổng cộng khoảng vài chục nghìn thực thể với đa dạng thuộc tính. Song song đó, lựa chọn và chuẩn hóa corpus văn bản chuyên ngành phục vụ cho bước tăng cường tri thức.
Phân tích và xử lý dữ liệu: Tiến hành tiền xử lý dữ liệu bao gồm lọc từ vựng, loại bỏ stopwords, chuẩn hóa nhãn (label), trích xuất các đặc trưng từ RDF triplets và văn bản.
Mô hình embedding: Áp dụng mô hình Word2Vec với kiến trúc Skip-gram để tạo vector biểu diễn từ khóa từ văn bản bổ sung, song song với kỹ thuật TransE cho embedding đồ thị tri thức. Sau đó, tiến hành gán trọng số TF-IDF để đánh giá tầm quan trọng của từ trong từng thực thể.
Tăng cường và tổng hợp: Kết hợp vector embedding từ văn bản và đồ thị tri thức để xây dựng vector đại diện cho từng thực thể trong đồ thị. Tổng hợp thông tin được thực hiện theo mô hình trọng số nhằm gia tăng khả năng mô tả và phân biệt các thực thể có tính bổ trợ cao.
Đánh giá và so sánh: Cỡ mẫu sử dụng khoảng vài trăm đến vài nghìn cặp thực thể để đánh giá, sử dụng phương pháp chọn mẫu ngẫu nhiên có kiểm soát từ cấu trúc dữ liệu hiện tại. Áp dụng các chỉ số Precision, Recall, F-measure để đo lường hiệu quả. So sánh với phương pháp cơ sở (baseline) dựa trên kỹ thuật Bag-of-Words để chứng minh tính ưu việt của giải pháp đề xuất.
Thời gian thực hiện: Quá trình nghiên cứu và phát triển kéo dài trong năm 2019 với các giai đoạn khảo sát lý thuyết, xây dựng hệ thống, thử nghiệm và phân tích kết quả liên tục trong 12 tháng.

Phương pháp trên đảm bảo tính khoa học, khả năng nhân rộng và ứng dụng trong thực tế quản lý dữ liệu nông nghiệp và sinh học phân tử.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả tăng cường đồ thị tri thức bằng embedding đa mô-đun: Việc kết hợp embedding văn bản (Word2Vec Skip-gram) với embedding đồ thị (TransE) giúp mô hình nâng cao chất lượng biểu diễn thực thể, từ đó cải thiện khả năng liên kết chính xác các thực thể tương đồng. Kết quả cho thấy độ chính xác trung bình đạt 85%, so với chỉ 72% ở phương pháp dùng Bag-of-Words truyền thống; recall cũng tăng từ 68% lên khoảng 80%, cho thấy việc tăng cường dữ liệu có tác động tích cực trong việc tìm kiếm các cặp thực thể tương ứng.
Tác động của phương pháp trọng số TF-IDF trong tổng hợp vector: Việc áp dụng phương pháp TF-IDF để cân nhắc mức độ quan trọng của các từ trong đặc trưng thực thể đã giúp làm giảm tỷ lệ nhầm lẫn giữa các thực thể có tên tương tự nhưng thuộc lĩnh vực khác nhau. Điều này thể hiện qua việc tăng F-measure từ 74% (không sử dụng TF-IDF) lên hơn 82%, minh chứng cho vai trò thiết yếu của việc đánh giá trọng số từ ngữ khi kết hợp trực tiếp dữ liệu văn bản vào đồ thị tri thức.
Ảnh hưởng kích thước vector và cửa sổ ngữ cảnh tới kết quả embedding: Các thử nghiệm với kích thước vector embedding lần lượt là 100, 200 và 300, cùng các kích thước cửa sổ ngữ cảnh 2-5 từ cho thấy, mô hình với vector 200 chiều và cửa sổ ngữ cảnh 3 từ đạt hiệu suất tốt nhất với độ chính xác và recall cao hơn khoảng 5-7% so với các cấu hình còn lại. Thống kê này chứng tỏ sự cân bằng giữa quá mức khái quát và tập trung thông tin trong mô hình embedding đóng vai trò quan trọng.
So sánh phương pháp đề xuất với baseline: Khi so sánh trực tiếp với phương pháp cơ sở dựa trên kỹ thuật Bag-of-Words với phép đo tương tự cosine similarity, phương pháp đề xuất cho thấy mức cải thiện khoảng 15% trên cả ba chỉ số Precision, Recall, và F-measure. Đây là một kết quả đáng chú ý trong việc nâng cao khả năng liên kết dữ liệu trên các cơ sở tri thức có tính chất bổ sung và đa dạng.

Thảo luận kết quả

Nguyên nhân chính giúp phương pháp đề xuất vượt trội nằm ở khả năng biểu diễn sâu sắc và toàn diện hơn các thực thể nhờ kết hợp hiệu quả giữa ngữ nghĩa từ văn bản và cấu trúc đồ thị tri thức. Việc sử dụng Word2Vec với kiến trúc Skip-gram đã giúp dự đoán từ trong ngữ cảnh rộng hơn, từ đó cung cấp các vector từ phong phú, đa chiều, phản ánh đúng quan hệ ngữ nghĩa phức tạp. Sử dụng TF-IDF làm trọng số trong tổng hợp từ vector là bước đột phá giúp làm nổi bật các đặc trưng quan trọng và loại bỏ nhiễu, giảm thiểu tác động của các từ phổ biến nhưng ít giá trị phân biệt.

So với một nghiên cứu gần đây trong lĩnh vực liên kết dữ liệu mở (Linked Open Data) cho lĩnh vực y sinh, kết quả này tương đồng và thậm chí vượt trội do sự tập trung vào việc xử lý dữ liệu đa mô-đun và tăng cường độ chính xác bằng trọng số phù hợp. Bảng số liệu so sánh rõ ràng giữa phương pháp đề xuất và baseline hỗ trợ cho việc minh họa trực quan về hiệu quả của nghiên cứu. Biểu đồ Precision-Recall có thể được trình bày để minh họa sự cải thiện rõ rệt trong ngưỡng quyết định khác nhau của thuật toán.

Ngoài ra, việc áp dụng kỹ thuật embedding không chỉ giúp kết nối hiệu quả các thực thể trong cùng một miền mà còn mở rộng khả năng xử lý các nguồn dữ liệu ngoài lề như văn bản mô tả và dữ liệu truyền thông xã hội, góp phần làm phong phú hệ thống tri thức, từ đó mở ra nhiều hướng nghiên cứu tiếp theo.

Đề xuất và khuyến nghị

Triển khai hệ thống tự động tăng cường và liên kết dữ liệu đa mô-đun trong môi trường AgroLD: Khuyến nghị xây dựng và tích hợp giải pháp tự động khai thác, gán trọng số và embedding định kỳ nhằm duy trì và cập nhật độ chính xác của cơ sở dữ liệu. Thời gian thực hiện trong vòng 12 tháng, đơn vị chủ trì là nhóm phát triển nền tảng AgroLD và các đối tác nghiên cứu.
Phát triển mô-đun lựa chọn và điều chỉnh tham số embedding thông minh: Sử dụng các thuật toán học máy để tự động xác định kích thước vector embedding, cửa sổ ngữ cảnh và trọng số TF-IDF phù hợp với đặc thù dữ liệu theo từng lĩnh vực. Mục tiêu gia tăng ít nhất 5% hiệu quả trên các chỉ số đánh giá. Thời gian hoàn thiện dự kiến 6-8 tháng, thực hiện bởi nhóm nghiên cứu AI và NLP.
Mở rộng mô hình tăng cường dữ liệu tích hợp thêm các loại dữ liệu đa phương tiện (hình ảnh, video, âm thanh): Triển khai các kỹ thuật embedding đa mô-đun nâng cao nhằm khai thác thông tin từ dữ liệu phi văn bản bổ sung. Đây là một hướng nghiên cứu mở, cần đầu tư kỹ thuật và nhân lực từ 18-24 tháng, do các phòng thí nghiệm công nghệ đa phương tiện đảm nhiệm.
Phát triển giao diện và công cụ truy vấn thân thiện sử dụng ngôn ngữ tự nhiên và đa dạng hóa phương thức truy cập (REST API, SPARQL endpoints): Tăng cường khả năng sử dụng và mở rộng đối tượng người dùng, đặc biệt là các nhà nghiên cứu không chuyên về công nghệ. Thời gian triển khai 6-12 tháng, do bộ phận phát triển phần mềm đảm nhiệm.

Các đề xuất trên nhằm mục tiêu nâng cao hiệu quả sử dụng dữ liệu, thúc đẩy việc hợp tác liên ngành và đóng góp cho sự phát triển bền vững của hệ sinh thái dữ liệu khoa học tại Việt Nam và quốc tế.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và chuyên gia công nghệ thông tin trong lĩnh vực Web Ngữ nghĩa và trí tuệ nhân tạo: Luận văn cung cấp kiến thức nền tảng về embedding đa mô-đun và phương pháp tăng cường dữ liệu cho các hệ thống tri thức, hỗ trợ phát triển các ứng dụng mới như hệ thống hỏi đáp hay khai phá tri thức mở.
Nhà khoa học nông nghiệp và sinh học phân tử: Dữ liệu và phương pháp luận giúp các nhà nghiên cứu dễ dàng kết nối, truy cập các nguồn dữ liệu đa dạng nhằm nâng cao khả năng phân tích, dự đoán và đưa ra quyết định chính xác hơn trong nghiên cứu cây trồng và sinh học.
Quản lý dự án và đơn vị phát triển nền tảng dữ liệu mở: Luận văn đề xuất các giải pháp thực tế để tích hợp và nâng cấp hệ thống cơ sở dữ liệu phức tạp, từ đó giúp tối ưu hóa hoạt động quản lý thông tin, chuẩn hóa dữ liệu và nâng cao đa dạng nguồn thông tin sẵn có.
Sinh viên và học viên cao học, nghiên cứu sinh ngành khoa học máy tính và dữ liệu lớn: Đây là tài liệu tham khảo thực tiễn cho việc học tập và nghiên cứu về embedding, liên kết dữ liệu và ứng dụng học máy trên đồ thị tri thức, góp phần phục vụ cho các đề tài luận án và công trình khoa học tương lai.

Việc tiếp cận luận văn sẽ giúp các nhóm đối tượng trên có cái nhìn toàn diện về cách ứng dụng kỹ thuật hiện đại trong việc tổ chức và khai thác dữ liệu đa nguồn, tối ưu hóa quy trình nghiên cứu và phát triển.

Câu hỏi thường gặp

Embedding đa mô-đun là gì và tại sao nó quan trọng trong liên kết dữ liệu?
Embedding đa mô-đun là kỹ thuật biểu diễn dữ liệu từ nhiều nguồn khác nhau (văn bản, đồ thị, hình ảnh) dưới dạng vector trong cùng một không gian để khai thác chung. Điều này giúp máy tính hiểu và so sánh các thực thể có tính chất khác biệt, nâng cao khả năng liên kết chính xác dữ liệu từ các nguồn bổ sung.
Phương pháp TF-IDF được áp dụng như thế nào trong luận văn?
TF-IDF được sử dụng làm trọng số để đánh giá mức độ quan trọng của các từ xuất hiện trong dữ liệu văn bản liên quan đến từng thực thể trong đồ thị tri thức. Việc này giúp nâng cao chất lượng biểu diễn vector thực thể, giảm thiểu ảnh hưởng từ các từ phổ biến nhưng không mang nhiều ý nghĩa phân biệt.
Kích thước vector và cửa sổ ngữ cảnh ảnh hưởng thế nào đến hiệu năng mô hình?
Kích thước vector lớn hơn giúp mô hình lưu giữ nhiều thông tin ngữ nghĩa hơn, tuy nhiên sẽ tốn tài nguyên và có thể quá khái quát. Cửa sổ ngữ cảnh kích thước vừa phải (3-5 từ) giúp cân bằng giữa nắm bắt ngữ cảnh từ khóa và giảm nhiễu không cần thiết, như đã thể hiện trong kết quả thí nghiệm.
Phương pháp đề xuất này có thể áp dụng cho các lĩnh vực khác ngoài nông nghiệp?
Có, nguyên lý và thuật toán embedding đa mô-đun cùng tăng cường đồ thị tri thức được thiết kế ngôn ngữ trung lập và có thể mở rộng cho các lĩnh vực như y tế, giáo dục, hoặc dữ liệu chính phủ, miễn sao có đủ dữ liệu văn bản và đồ thị liên quan.
Làm sao để đánh giá độ chính xác của liên kết thực thể trong nghiên cứu?
Luận văn sử dụng các chỉ số chuẩn trong khai phá dữ liệu như Precision (độ chính xác), Recall (độ thu hồi) và F-measure nhằm đánh giá tổng thể hiệu quả của thuật toán liên kết dựa trên tập kiểm tra được gán nhãn thủ công (ground truth), giúp định lượng mức độ phù hợp và khả năng phát hiện đúng các liên kết.

Kết luận

Phương pháp đề xuất kết hợp embedding văn bản và đồ thị tri thức, cùng kỹ thuật tính trọng số TF-IDF, hiệu quả trong việc tăng cường khả năng liên kết các cơ sở dữ liệu bổ sung.
Kích thước vector embedding 200 chiều và cửa sổ ngữ cảnh 3 từ được xác định là cấu hình tối ưu về hiệu năng và tài nguyên.
Thuật toán mới đạt độ chính xác và độ thu hồi vượt trội khoảng 15% so với phương pháp truyền thống dựa trên Bag-of-Words.
Giải pháp minh chứng tính khả thi và mở rộng được áp dụng trong nền tảng AgroLD phục vụ nghiên cứu nông nghiệp và sinh học phân tử.
Hướng nghiên cứu tiếp theo tập trung mở rộng dữ liệu đa mô-đun tích hợp hình ảnh, video, cải tiến thuật toán tự động chọn tham số và phát triển giao diện truy vấn thân thiện.

Công trình nghiên cứu đặt nền tảng để phát triển các hệ thống tri thức đa nguồn chuẩn hóa, đồng thời kêu gọi sự hợp tác nghiên cứu và ứng dụng thực tế từ các đơn vị liên quan. Để tiếp cận và ứng dụng giải pháp, mời liên hệ và trao đổi trực tiếp với nhóm tác giả hoặc đơn vị phát triển nền tảng dữ liệu.

Trích đoạn nội dung tài liệu

UNIVERSITÉ NATIONALE DU VIETNAM À HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL SONFACK SOUNCHIO Serge LIAGE DES JEUX DE DONNÉES COMPLÉMENTAIRES A L’AIDE DE MÉTHODES D’AUGMENTATION DES GRAPHES DE CONNAISSANCES ET PLONGEMENT MULTIMODALS MEMOIRE DE FIN D’ETUDE DE MASTER EN INFORMATIQUE HANOÏ-2019 TIEU LUAN MOI download : skknchat@gmail.com UNIVERSITÉ NATIONALE DU VIETNAM À HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL SONFACK SOUNCHIO Serge LIAGE DES JEUX DE DONNÉES COMPLÉMENTAIRES A L’AIDE DE MÉTHODES D’AUGMENTATION DES GRAPHES DE CONNAISSANCES ET PLONGEMENT MULTIMODALS spécialité: Systèmes Intelligents et Multimédia (SIM) Code: Programme pilote MEMOIRE DE FIN D’ETUDE DE MASTER EN INFORMATIQUE Sous la direction de : • PhD, enseignant chercheur au LIRMM, Kontantin TODOROV • PhD, chargé de recheche à IRD Hanoi, Pierre LARMANDE HANOÏ-2019 TIEU LUAN MOI download : skknchat@gmail.com ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée. LI CAM ÐOAN Tôi cam đoan đây là công trình nghiên cu ca riêng tôi. Các s liu, kt qu nêu trong Lun văn là trung thc và cha tng đc ai công b trong bt k công trình nào khác.

Các thông tin trích dn trong Lun văn đã đc ch rõ ngun gc SONFACK SOUNCHIO Serge 1 TIEU LUAN MOI download : skknchat@gmail.com SONFACK SOUNCHIO Serge LIAGE DES JEUX DE DONNÉES COMPLÉMENTAIRES A L’AIDE DE MÉTHODES D’AUGMENTATION DES GRAPHES DE CONNAISSANCES ET PLONGEMENT MULTIMODALS LIÊN KT TRÒ CHI D LIU B SUNG S DNG CÁC PHNG PHÁP S DNG CÁC HÌNH NH KIN THC VÀ ÐA NĂNG DIVING spécialité: Systèmes Intelligents et Multimédia (SIM) Code: Programme pilote MEMOIRE DE FIN D’ETUDE DE MASTER EN INFORMATIQUE Sous la direction de : • PhD, enseignant chercheur au LIRMM, Kontantin TODOROV • PhD, chargé de recheche à IRD Hanoi, Pièrre LARMANDE HANOÏ-2019 TIEU LUAN MOI download : skknchat@gmail.com REMERCIEMENTS Pour les efforts consentis dans la réalisation de ce mémoire, j’exprime mes très vives reconnaissances à l’endroit de : • Konstantin Todorov et Pierre Larmande pour leur encadrement et conseil durant ce stage. • Laurence Albar, Christine Tranchant-Dubreuil de m’avoir bien accueillir et faciliter mon insertion au laboratoire IRD • Fati Chen, Mehdi Mirzapour du LIRMM pour les nombreux pauses café effectués, débats instructifs et toujours dans la bonne humeur Mes remerciements vont également à l’endroit de notre très cher institut de formation, l’Institut de la Francophonie pour l’Innovation (IFI). Je remercie tout particulièrement le corps enseignant pour la qualité de la formation reçue et le personnel administratif pour la chaleureuse collaboration Cette année de Master Recherche n’était pas facile nécessitant beaucoup d’efforts. A cet effet je remercie ma famille pour le soutient moral, qu’elle m’a apporter durant tout ce parcours.

i TIEU LUAN MOI download : skknchat@gmail.com LIST OF FIGURES 2.1 Exemple de base de connaissances .2 Exemple de triplet .3 Exemple de plongement de mots dans un espace de deux dimensions .4 Plongement de graphe .5 Exemple de liage .6 Logo de AgroLD .7 La base de connaissances AgroLD .1 Représentation des mots dans un espace à 2 dimensions .2 Architectures de CBOW et Skip-gram Efficient Estimation of Word Rep- resentations in Vector Space, Tomas Mikolov et al.3 Régularité sémantique: Linguistic Regularities in Continuous Space Word Representations, Tomas Mikolov et al.4 Extraction des triplets des tables: Annotating and searching web tables using entities, types and relationships, Limaye et al.1 Plongement du corpus .2 Génération de poids TF-IDF .3 Agrégation des vecteurs .4 Workflow de méthode .5 représentation de l’évaluation .6 Importance des mots sur les tf-idf .7 Exemple de modèle sac à mots .8 Workflow de approche de base. 38 ii TIEU LUAN MOI download : skknchat@gmail.4 comparaison de du nombre d’entités .5 comparaison des mots utilisés .6 Visualization of corpus embeddings .7 Extracting properties information from graphs .8 TF-IDF des bases de mots des graphes de connaissances .9 Comparaison de l’approche de base et la solution proposée. 47 iii TIEU LUAN MOI download : skknchat@gmail.com LIST OF TABLES 2.1 Classification des modèles de plongements lexicaux .1 Nombre de possibilité pour le choix de modèle de plongement du corpus .2 Nombre de possibilité pour le choix de modèle de plongement et le poids à utiliser pour .3 Nombre de possibilité pour le choix de modèle de plongement et le choix de la propriété description des graphes de connaissances. 36 iv TIEU LUAN MOI download : skknchat@gmail.com GLOSSAIRES ET ACRONYMES AgroLD Agronomic Linked Data (AgroLD) C’est le projet créé pour mettre en place un portail pour bioinformaticien et aux experts du domaine pour exploiter les modèles de données homogènes en vue de générer efficacement des hypothèses de recherche.

BOW Bag Of Words. CBOW Continuous Bag Of Words. IRD Institut de recherche pour le développement. LIRMM Laboratoire d’Informatique, de Robotique et de Microélectronique de Mont- pellier.

NLP Natural Language Processing. OBO Open Biological and Biomedical Ontology. OWL Web Ontology Language. RDF Resource Description Framework.

SPARQL SPARQL Protocol and RDF Query Language. URI Uniform Resource Identifier. W3C Le World Wide Web Consortium, abrégé par le sigle W3C, est un organisme de standardisation à but non lucratif, fondé en octobre 1994 chargé de promouvoir la compatibilité des technologies du World Wide Web telles que HTML5, HTML, XHTML, XML, RDF, SPARQL,. v TIEU LUAN MOI download : skknchat@gmail.com WEB World Wide Web.

XML eXternded Markup Language. vi TIEU LUAN MOI download : skknchat@gmail.com Résumé Ce rapport présente les travaux réalisés durant le stage de Master sur la problématique de liage des bases de connaissances et dont la solution devrait inclure l’enrichissement multimodal des dites bases et faire usage de techniques de plongement de mots. Dans la première partie du rapport nous analysons le sujet à fin de comprendre les termes et concepts liés au sujet et dégager le problème principal. A cet effet, les termes Web sé- mantique, ontologie, RDF, plongement de mots, plongement de graphe, liage de données ont été définis, suivis par la présentation de la plate-forme AgroLD et le problème visé.

A la suite de cette analyse du sujet, nous exposons les différentes recherches liées aux liages de bases de connaissances et leurs enrichissements de façon générale, des méthodes d’augmentations des graphes de connaissances ainsi que les techniques de plongement de mots et de graphes. Ces outils et méthodes nous permettrons d’apporter une solution au problème posé. Après cette étape qui constitue notre état de l’art, nous proposons une méthode menant à une solution du problème soumis à notre étude et nous montrons par la suite comment nous avons implémentés la méthode. Cette implémentation est suivie par une expérimentation et une évaluation.

En ce qui concerne l’évaluation, nous l’avons fait en deux partie; l’une avec les métriques comme la précision, le rappel et le F-mesure et l’autre par comparaison à une méthode de base, utilisant les techniques similaires. Pour terminer, le document présente des perspectives qui peuvent non seulement améliorer les résultats obtenus mais aussi ouvrir d’autre champs de recherche. Mots clés: Données Ouvertes et Liées, Liage de Données, Enrichissement de Données, Plongement de mots, Extration de Connaissances, AgroLD vii TIEU LUAN MOI download : skknchat@gmail.com Abstract This report presents the work done during my Master’s internship on the problem of knowledge graph linkage and whose solution should include the multi-modal enrichment of these graphs and also make use of word embedding techniques. In first, we analyze the topic in order to understand the terms and concepts related to it and to identify the main problem.

For this purpose, the terms like semantic Web, ontology, RDF, word embedding, graph embedding, graph linkage were defined, followed by the presentation of the AgroLD platform and the problem we addressed. After this analysis, we expose research papers on knowledge-based systems and knowledge- based enrichments in whole, as well as graphs embedding techniques. These tools and methods will help us to build a solution to the problem we intended to solve. After these, we propose a method to solve the problem and we show later how we imple- mented the method.

This implementation is followed by experimentation and evaluation. As far as evaluation is concerned, we did it in two parts; one with metrics such as pre- cision, recall and F-measure and the other by comparison with a baseline using similar techniques. Finally, the document presents perspectives that may not only improve the results ob- tained but also open other research fields. Key words:Linked Open Data, Data Linking, Knowledge Base Augmentation, Knowl- edge Extraction, Words Embedding, AgroLD viii TIEU LUAN MOI download : skknchat@gmail.com CONTENTS 1 Introduction 1 2 Contexte et problématique 3 2.3 Resource Description Format(RDF) .4 Plongement de mots ou Plongement lexical (Word embedding) .5 Plongement de graphe .6 Liage de données.

11 3 État de l’art 13 3.1 Plongement de mots .2 Plongement de graphes .2 Augmentation de graphes de connaissances .3 Liage des graphes de connaissances .1 Étapes fondamentales de liage .2 Liage entre texte et graphe de connaissances .3 Évaluation des systèmes de découverts de liens. 27 4 Solution proposée et méthode d’évaluation 29 4. 34 ix TIEU LUAN MOI download : skknchat@gmail.2 Construction de l’évaluation .4 Approche de base. 37 5 Expérimentation et résultats obtenus 39 5.1 Analyse des données .1 Environnement de développement .2 Hétérogénéité et complémentarité des données .3 Le nombre d’entités .4 Les mots utilisés .1 Plongement des mots du corpus .2 Distribution de mots dans les graphes .3 Agrégation des vecteurs de chaque entité des graphe .4 Comparaison avec l’approche de base.

47 6 Conclusion et perspectives 48 7 Annexe 50 7.1 Librairies Python utilisées. 50 x TIEU LUAN MOI download : skknchat@gmail.com CHAPTER 1 INTRODUCTION Dans l’article de Agronomic Linked Data (AgroLD): A knowledge-based system to enable integrative biology in agronomy de Venkatesan et al. [31], l’agronomie est présentée comme un domaine de recherche pluridisciplinaire qui inclue la biologie moléculaire végétale, la physiologie et l’agro-écologie, donc l’objectif vise à améliorer la production végétale et à étudier l’impact environnemental sur les cultures. En d’autre terme, l’agronomie se trouve au centre de plusieurs disciplines scientifiques bien distinctes.

Ces disciplines qui contribuent à celle-ci existent de façon indépendantes et chacune dis- pose de sa base de connaissances, souvent sous un format différent des autres et accessible avec un langage de requêtes différent des autres. Par conséquent les données et connais- sances de ces disciplines complémentaires se trouvent éparpillés, difficiles d’accès par tous, peu exploitables et parfois avec des doublons. Par ailleurs le liage des bases de connaissances, qui permet d’inter-connecter celles-ci et de favoriser leur uniformisation ou standardisation en terme de format d’échange grâce au web sémantique seraient d’une importance capitale pour les chercheurs de chaque discipline et ceux de l’agronomie en particulier, car cette interconnexion leur permettra d’accéder aux différentes données par le biais d’un même protocole et langages de requête simplifié. Toutes choses qui contribuera non seulement à la mutualisation des connais- sances, mais aussi au développement de nouvelles connaissances et par conséquent de faire avancer les sciences et l’agronomie en particulier.

De ce fait, la problématique sur laquelle nous travaillerons consistera à trouver une méth- ode de liage des bases de connaissances complémentaires sur les entités qui renvoient à la même réalité en fessant usage de l’augmentation de ces bases de connaissances avec d’autres types de données comme du texte et du plongement des mots. En d’autres ter- mes, nous devons trouver un moyen d’enrichir les graphes de connaissances avec d’autres types de données et les interconnecter au travers des nœuds qui sont similaires en utilisant 1 TIEU LUAN MOI download : skknchat@gmail.com une transformation des graphes de connaissances en vecteurs. Dans la suite de ce document, nous avons une partie contexte qui présente l’environnement dans le quel nous nous trouvons ainsi que le problème que nous avons à résoudre. Par la suite nous avons une partie solution et une partie expérimentation.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ