UNIVERSITÉ NATIONALE DU VIETNAM À HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL SONFACK SOUNCHIO Serge LIAGE DES JEUX DE DONNÉES COMPLÉMENTAIRES A L’AIDE DE MÉTHODES D’AUGMENTATION DES GRAPHES DE CONNAISSANCES ET PLONGEMENT MULTIMODALS MEMOIRE DE FIN D’ETUDE DE MASTER EN INFORMATIQUE HANOÏ-2019 TIEU LUAN MOI download : skknchat@gmail.com UNIVERSITÉ NATIONALE DU VIETNAM À HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL SONFACK SOUNCHIO Serge LIAGE DES JEUX DE DONNÉES COMPLÉMENTAIRES A L’AIDE DE MÉTHODES D’AUGMENTATION DES GRAPHES DE CONNAISSANCES ET PLONGEMENT MULTIMODALS spécialité: Systèmes Intelligents et Multimédia (SIM) Code: Programme pilote MEMOIRE DE FIN D’ETUDE DE MASTER EN INFORMATIQUE Sous la direction de : • PhD, enseignant chercheur au LIRMM, Kontantin TODOROV • PhD, chargé de recheche à IRD Hanoi, Pierre LARMANDE HANOÏ-2019 TIEU LUAN MOI download : skknchat@gmail.com ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée. LI CAM ÐOAN Tôi cam đoan đây là công trình nghiên cu ca riêng tôi. Các s liu, kt qu nêu trong Lun văn là trung thc và cha tng đc ai công b trong bt k công trình nào khác.
Các thông tin trích dn trong Lun văn đã đc ch rõ ngun gc SONFACK SOUNCHIO Serge 1 TIEU LUAN MOI download : skknchat@gmail.com SONFACK SOUNCHIO Serge LIAGE DES JEUX DE DONNÉES COMPLÉMENTAIRES A L’AIDE DE MÉTHODES D’AUGMENTATION DES GRAPHES DE CONNAISSANCES ET PLONGEMENT MULTIMODALS LIÊN KT TRÒ CHI D LIU B SUNG S DNG CÁC PHNG PHÁP S DNG CÁC HÌNH NH KIN THC VÀ ÐA NĂNG DIVING spécialité: Systèmes Intelligents et Multimédia (SIM) Code: Programme pilote MEMOIRE DE FIN D’ETUDE DE MASTER EN INFORMATIQUE Sous la direction de : • PhD, enseignant chercheur au LIRMM, Kontantin TODOROV • PhD, chargé de recheche à IRD Hanoi, Pièrre LARMANDE HANOÏ-2019 TIEU LUAN MOI download : skknchat@gmail.com REMERCIEMENTS Pour les efforts consentis dans la réalisation de ce mémoire, j’exprime mes très vives reconnaissances à l’endroit de : • Konstantin Todorov et Pierre Larmande pour leur encadrement et conseil durant ce stage. • Laurence Albar, Christine Tranchant-Dubreuil de m’avoir bien accueillir et faciliter mon insertion au laboratoire IRD • Fati Chen, Mehdi Mirzapour du LIRMM pour les nombreux pauses café effectués, débats instructifs et toujours dans la bonne humeur Mes remerciements vont également à l’endroit de notre très cher institut de formation, l’Institut de la Francophonie pour l’Innovation (IFI). Je remercie tout particulièrement le corps enseignant pour la qualité de la formation reçue et le personnel administratif pour la chaleureuse collaboration Cette année de Master Recherche n’était pas facile nécessitant beaucoup d’efforts. A cet effet je remercie ma famille pour le soutient moral, qu’elle m’a apporter durant tout ce parcours.
i TIEU LUAN MOI download : skknchat@gmail.com LIST OF FIGURES 2.1 Exemple de base de connaissances .2 Exemple de triplet .3 Exemple de plongement de mots dans un espace de deux dimensions .4 Plongement de graphe .5 Exemple de liage .6 Logo de AgroLD .7 La base de connaissances AgroLD .1 Représentation des mots dans un espace à 2 dimensions .2 Architectures de CBOW et Skip-gram Efficient Estimation of Word Rep- resentations in Vector Space, Tomas Mikolov et al.3 Régularité sémantique: Linguistic Regularities in Continuous Space Word Representations, Tomas Mikolov et al.4 Extraction des triplets des tables: Annotating and searching web tables using entities, types and relationships, Limaye et al.1 Plongement du corpus .2 Génération de poids TF-IDF .3 Agrégation des vecteurs .4 Workflow de méthode .5 représentation de l’évaluation .6 Importance des mots sur les tf-idf .7 Exemple de modèle sac à mots .8 Workflow de approche de base. 38 ii TIEU LUAN MOI download : skknchat@gmail.4 comparaison de du nombre d’entités .5 comparaison des mots utilisés .6 Visualization of corpus embeddings .7 Extracting properties information from graphs .8 TF-IDF des bases de mots des graphes de connaissances .9 Comparaison de l’approche de base et la solution proposée. 47 iii TIEU LUAN MOI download : skknchat@gmail.com LIST OF TABLES 2.1 Classification des modèles de plongements lexicaux .1 Nombre de possibilité pour le choix de modèle de plongement du corpus .2 Nombre de possibilité pour le choix de modèle de plongement et le poids à utiliser pour .3 Nombre de possibilité pour le choix de modèle de plongement et le choix de la propriété description des graphes de connaissances. 36 iv TIEU LUAN MOI download : skknchat@gmail.com GLOSSAIRES ET ACRONYMES AgroLD Agronomic Linked Data (AgroLD) C’est le projet créé pour mettre en place un portail pour bioinformaticien et aux experts du domaine pour exploiter les modèles de données homogènes en vue de générer efficacement des hypothèses de recherche.
BOW Bag Of Words. CBOW Continuous Bag Of Words. IRD Institut de recherche pour le développement. LIRMM Laboratoire d’Informatique, de Robotique et de Microélectronique de Mont- pellier.
NLP Natural Language Processing. OBO Open Biological and Biomedical Ontology. OWL Web Ontology Language. RDF Resource Description Framework.
SPARQL SPARQL Protocol and RDF Query Language. URI Uniform Resource Identifier. W3C Le World Wide Web Consortium, abrégé par le sigle W3C, est un organisme de standardisation à but non lucratif, fondé en octobre 1994 chargé de promouvoir la compatibilité des technologies du World Wide Web telles que HTML5, HTML, XHTML, XML, RDF, SPARQL,. v TIEU LUAN MOI download : skknchat@gmail.com WEB World Wide Web.
XML eXternded Markup Language. vi TIEU LUAN MOI download : skknchat@gmail.com Résumé Ce rapport présente les travaux réalisés durant le stage de Master sur la problématique de liage des bases de connaissances et dont la solution devrait inclure l’enrichissement multimodal des dites bases et faire usage de techniques de plongement de mots. Dans la première partie du rapport nous analysons le sujet à fin de comprendre les termes et concepts liés au sujet et dégager le problème principal. A cet effet, les termes Web sé- mantique, ontologie, RDF, plongement de mots, plongement de graphe, liage de données ont été définis, suivis par la présentation de la plate-forme AgroLD et le problème visé.
A la suite de cette analyse du sujet, nous exposons les différentes recherches liées aux liages de bases de connaissances et leurs enrichissements de façon générale, des méthodes d’augmentations des graphes de connaissances ainsi que les techniques de plongement de mots et de graphes. Ces outils et méthodes nous permettrons d’apporter une solution au problème posé. Après cette étape qui constitue notre état de l’art, nous proposons une méthode menant à une solution du problème soumis à notre étude et nous montrons par la suite comment nous avons implémentés la méthode. Cette implémentation est suivie par une expérimentation et une évaluation.
En ce qui concerne l’évaluation, nous l’avons fait en deux partie; l’une avec les métriques comme la précision, le rappel et le F-mesure et l’autre par comparaison à une méthode de base, utilisant les techniques similaires. Pour terminer, le document présente des perspectives qui peuvent non seulement améliorer les résultats obtenus mais aussi ouvrir d’autre champs de recherche. Mots clés: Données Ouvertes et Liées, Liage de Données, Enrichissement de Données, Plongement de mots, Extration de Connaissances, AgroLD vii TIEU LUAN MOI download : skknchat@gmail.com Abstract This report presents the work done during my Master’s internship on the problem of knowledge graph linkage and whose solution should include the multi-modal enrichment of these graphs and also make use of word embedding techniques. In first, we analyze the topic in order to understand the terms and concepts related to it and to identify the main problem.
For this purpose, the terms like semantic Web, ontology, RDF, word embedding, graph embedding, graph linkage were defined, followed by the presentation of the AgroLD platform and the problem we addressed. After this analysis, we expose research papers on knowledge-based systems and knowledge- based enrichments in whole, as well as graphs embedding techniques. These tools and methods will help us to build a solution to the problem we intended to solve. After these, we propose a method to solve the problem and we show later how we imple- mented the method.
This implementation is followed by experimentation and evaluation. As far as evaluation is concerned, we did it in two parts; one with metrics such as pre- cision, recall and F-measure and the other by comparison with a baseline using similar techniques. Finally, the document presents perspectives that may not only improve the results ob- tained but also open other research fields. Key words:Linked Open Data, Data Linking, Knowledge Base Augmentation, Knowl- edge Extraction, Words Embedding, AgroLD viii TIEU LUAN MOI download : skknchat@gmail.com CONTENTS 1 Introduction 1 2 Contexte et problématique 3 2.3 Resource Description Format(RDF) .4 Plongement de mots ou Plongement lexical (Word embedding) .5 Plongement de graphe .6 Liage de données.
11 3 État de l’art 13 3.1 Plongement de mots .2 Plongement de graphes .2 Augmentation de graphes de connaissances .3 Liage des graphes de connaissances .1 Étapes fondamentales de liage .2 Liage entre texte et graphe de connaissances .3 Évaluation des systèmes de découverts de liens. 27 4 Solution proposée et méthode d’évaluation 29 4. 34 ix TIEU LUAN MOI download : skknchat@gmail.2 Construction de l’évaluation .4 Approche de base. 37 5 Expérimentation et résultats obtenus 39 5.1 Analyse des données .1 Environnement de développement .2 Hétérogénéité et complémentarité des données .3 Le nombre d’entités .4 Les mots utilisés .1 Plongement des mots du corpus .2 Distribution de mots dans les graphes .3 Agrégation des vecteurs de chaque entité des graphe .4 Comparaison avec l’approche de base.
47 6 Conclusion et perspectives 48 7 Annexe 50 7.1 Librairies Python utilisées. 50 x TIEU LUAN MOI download : skknchat@gmail.com CHAPTER 1 INTRODUCTION Dans l’article de Agronomic Linked Data (AgroLD): A knowledge-based system to enable integrative biology in agronomy de Venkatesan et al. [31], l’agronomie est présentée comme un domaine de recherche pluridisciplinaire qui inclue la biologie moléculaire végétale, la physiologie et l’agro-écologie, donc l’objectif vise à améliorer la production végétale et à étudier l’impact environnemental sur les cultures. En d’autre terme, l’agronomie se trouve au centre de plusieurs disciplines scientifiques bien distinctes.
Ces disciplines qui contribuent à celle-ci existent de façon indépendantes et chacune dis- pose de sa base de connaissances, souvent sous un format différent des autres et accessible avec un langage de requêtes différent des autres. Par conséquent les données et connais- sances de ces disciplines complémentaires se trouvent éparpillés, difficiles d’accès par tous, peu exploitables et parfois avec des doublons. Par ailleurs le liage des bases de connaissances, qui permet d’inter-connecter celles-ci et de favoriser leur uniformisation ou standardisation en terme de format d’échange grâce au web sémantique seraient d’une importance capitale pour les chercheurs de chaque discipline et ceux de l’agronomie en particulier, car cette interconnexion leur permettra d’accéder aux différentes données par le biais d’un même protocole et langages de requête simplifié. Toutes choses qui contribuera non seulement à la mutualisation des connais- sances, mais aussi au développement de nouvelles connaissances et par conséquent de faire avancer les sciences et l’agronomie en particulier.
De ce fait, la problématique sur laquelle nous travaillerons consistera à trouver une méth- ode de liage des bases de connaissances complémentaires sur les entités qui renvoient à la même réalité en fessant usage de l’augmentation de ces bases de connaissances avec d’autres types de données comme du texte et du plongement des mots. En d’autres ter- mes, nous devons trouver un moyen d’enrichir les graphes de connaissances avec d’autres types de données et les interconnecter au travers des nœuds qui sont similaires en utilisant 1 TIEU LUAN MOI download : skknchat@gmail.com une transformation des graphes de connaissances en vecteurs. Dans la suite de ce document, nous avons une partie contexte qui présente l’environnement dans le quel nous nous trouvons ainsi que le problème que nous avons à résoudre. Par la suite nous avons une partie solution et une partie expérimentation.