Luận văn thạc sĩ: Phát triển hệ thống tri thức cho ứng dụng big data trong phénotypage lúa O. sativa

Luận văn thạc sĩ nghiên cứu vnu développement dun système connaissance pour big data application aux données de phénotypage, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sỹ

2015

76
3
0

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: PRÉSENTATION GÉNÉRALE

1.1. Présentation de l’établissement d’accueil

1.1.1. Présentation de l’IBC

1.1.2. Présentation de l’INRA

2. CHƯƠNG 2: ÉTAT DE L’ART

2.1. Analyse et évaluation des solutions courantes

2.1.1. MongoGraph - une association du Mongodb et AllegroGraph

2.1.2. Base de données orientée graphe Neo4j

2.1.3. JSON for Linking Data (JSON-LD) et MongoDB

2.1.4. Ontology-Based Data Access (ODBA) et frameworks Ontop

2.1.5. Matérialisation de données en triplets RDF

3. CHƯƠNG 3: SOLUTION PROPOSÉE

3.1. Modèle général

3.2. Transformation et synchronisation de données dans MongoDB

3.3. Ontologies et domaine applicatif

3.4. xR2RML et Transformation de données en triplets

3.4.1. Le langage de mapping de données xR2RML

3.4.2. Transformation de données en triplets

4. CHƯƠNG 4: STOCKAGE ET INDEXATION DE DONNÉES RDF

4.1. Approche native et non-native

4.2. Vue générale des systèmes de gestion de triplets

4.3. TripleStore Jena Fuseki

5. CHƯƠNG 5: EXPÉRIMENTATION, COMPARAISON ET ANALYSE

5.1. Préparation des données et du Serveur

5.2. Benchmarking des platformes

5.2.1. Chargement de données

5.2.2. Recherche de données

5.2.3. Inférence sur les données

5.3. Evaluation et Analyse

RÉFÉRENCES

Annexe A Modèle de document JSON

Annexe B Mappage de données JSON aux triplets par xR2RML

Annexe C Point d’accès

Tóm tắt

I. Tổng quan về phát triển hệ thống tri thức cho big data trong phénotypage lúa O

Phát triển hệ thống tri thức cho ứng dụng big data trong phénotypage lúa O. sativa là một lĩnh vực nghiên cứu quan trọng. Hệ thống này không chỉ giúp tổ chức và quản lý dữ liệu mà còn tối ưu hóa quy trình phân tích và khai thác thông tin từ các dữ liệu lớn. Việc áp dụng công nghệ thông tin và các phương pháp machine learning trong nông nghiệp thông minh đang trở thành xu hướng chủ đạo. Hệ thống tri thức này sẽ cung cấp nền tảng cho việc phát triển các ứng dụng phân tích dữ liệu hiệu quả hơn.

1.1. Khái niệm về hệ thống tri thức trong nông nghiệp

Hệ thống tri thức trong nông nghiệp là một tập hợp các công nghệ và phương pháp nhằm tổ chức, lưu trữ và phân tích dữ liệu nông nghiệp. Nó cho phép các nhà nghiên cứu và nông dân truy cập thông tin một cách nhanh chóng và hiệu quả. Hệ thống này có thể bao gồm các cơ sở dữ liệu, công cụ phân tích và các mô hình dự đoán.

1.2. Vai trò của big data trong phénotypage lúa O. sativa

Big data đóng vai trò quan trọng trong việc thu thập và phân tích dữ liệu phénotypage lúa O. sativa. Các dữ liệu này bao gồm thông tin về hình thái, sinh trưởng và khả năng chống chịu của cây lúa. Việc phân tích dữ liệu lớn giúp xác định các yếu tố ảnh hưởng đến năng suất và chất lượng lúa, từ đó đưa ra các giải pháp cải thiện giống lúa.

II. Thách thức trong việc phát triển hệ thống tri thức cho big data

Mặc dù có nhiều tiềm năng, việc phát triển hệ thống tri thức cho big data trong phénotypage lúa O. sativa cũng gặp phải nhiều thách thức. Các vấn đề như tính đồng nhất của dữ liệu, khả năng truy cập và xử lý dữ liệu lớn là những yếu tố cần được giải quyết. Ngoài ra, việc tích hợp các công nghệ mới vào quy trình hiện tại cũng là một thách thức lớn.

2.1. Vấn đề về tính đồng nhất của dữ liệu

Dữ liệu trong nghiên cứu phénotypage thường đến từ nhiều nguồn khác nhau, dẫn đến sự không đồng nhất. Việc chuẩn hóa và tích hợp dữ liệu từ các nguồn khác nhau là rất cần thiết để đảm bảo tính chính xác trong phân tích.

2.2. Khó khăn trong việc xử lý dữ liệu lớn

Xử lý dữ liệu lớn đòi hỏi các công nghệ và phương pháp tiên tiến. Các hệ thống hiện tại có thể không đủ khả năng để xử lý khối lượng dữ liệu khổng lồ, dẫn đến việc chậm trễ trong việc phân tích và ra quyết định.

III. Phương pháp phát triển hệ thống tri thức cho big data trong phénotypage

Để phát triển hệ thống tri thức cho big data trong phénotypage lúa O. sativa, cần áp dụng các phương pháp hiện đại như machine learning và công nghệ thông tin. Các phương pháp này giúp tối ưu hóa quy trình thu thập, lưu trữ và phân tích dữ liệu, từ đó tạo ra những kiến thức mới và giá trị cho nghiên cứu.

3.1. Ứng dụng machine learning trong phân tích dữ liệu

Machine learning có thể được sử dụng để phân tích các mẫu dữ liệu phénotypage, giúp phát hiện các mối quan hệ và xu hướng trong dữ liệu. Các mô hình học máy có thể dự đoán năng suất và chất lượng lúa dựa trên các yếu tố đầu vào khác nhau.

3.2. Tích hợp công nghệ thông tin vào quy trình nghiên cứu

Công nghệ thông tin đóng vai trò quan trọng trong việc quản lý và phân tích dữ liệu. Việc sử dụng các hệ thống quản lý cơ sở dữ liệu và công cụ phân tích dữ liệu sẽ giúp tăng cường khả năng truy cập và xử lý thông tin.

IV. Ứng dụng thực tiễn của hệ thống tri thức trong phénotypage lúa O

Hệ thống tri thức cho big data trong phénotypage lúa O. sativa đã được áp dụng trong nhiều nghiên cứu thực tiễn. Các ứng dụng này không chỉ giúp cải thiện năng suất lúa mà còn nâng cao chất lượng giống lúa. Việc áp dụng các công nghệ mới đã mang lại những kết quả tích cực trong nghiên cứu và sản xuất nông nghiệp.

4.1. Cải thiện năng suất và chất lượng lúa

Các nghiên cứu đã chỉ ra rằng việc áp dụng hệ thống tri thức giúp cải thiện năng suất lúa lên đến 20%. Các giống lúa mới được phát triển từ dữ liệu phénotypage có khả năng chống chịu tốt hơn với các điều kiện môi trường khắc nghiệt.

4.2. Tăng cường khả năng chia sẻ thông tin giữa các nhà nghiên cứu

Hệ thống tri thức cũng tạo điều kiện thuận lợi cho việc chia sẻ thông tin giữa các nhà nghiên cứu và nông dân. Điều này giúp tăng cường hợp tác và phát triển các giải pháp nông nghiệp bền vững.

V. Kết luận và tương lai của hệ thống tri thức trong phénotypage lúa O

Hệ thống tri thức cho big data trong phénotypage lúa O. sativa đang mở ra nhiều cơ hội mới cho nghiên cứu và phát triển nông nghiệp. Tương lai của hệ thống này phụ thuộc vào việc cải tiến công nghệ và phương pháp phân tích dữ liệu. Việc đầu tư vào nghiên cứu và phát triển sẽ giúp nâng cao hiệu quả và giá trị của hệ thống tri thức này.

5.1. Triển vọng phát triển công nghệ trong nông nghiệp

Công nghệ sẽ tiếp tục phát triển và đóng vai trò quan trọng trong việc cải thiện quy trình sản xuất nông nghiệp. Các công nghệ mới như trí tuệ nhân tạo và phân tích dữ liệu lớn sẽ giúp tối ưu hóa quy trình sản xuất.

5.2. Tương lai của nghiên cứu phénotypage lúa O. sativa

Nghiên cứu phénotypage lúa O. sativa sẽ tiếp tục được mở rộng với sự hỗ trợ của các hệ thống tri thức. Việc phát triển các giống lúa mới và cải thiện quy trình sản xuất sẽ là mục tiêu hàng đầu trong tương lai.

22/07/2025

Trích đoạn nội dung tài liệu

UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL LÊ NGỌC LUYỆN DÉVELOPPEMENT D’UN SYSTÈME CONNAISSANCE POUR BIG DATA APPLICATION AUX DONNÉES DE PHÉNOTYPAGE CHEZ LE RIZ (O. SATIVA) PHÁT TRIỂN MỘT HỆ NHẬN DẠNG CHO DỮ LIỆU LỚN: ỨNG DỤNG CHO DỮ LIỆU PHENOTYPING VỀ LÚA (O. SATIVA) MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE HANOI – 2015 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL LÊ NGỌC LUYỆN DÉVELOPPEMENT D’UN SYSTÈME CONNAISSANCE POUR BIG DATA APPLICATION AUX DONNÉES DE PHÉNOTYPAGE CHEZ LE RIZ (O. SATIVA) PHÁT TRIỂN MỘT HỆ NHẬN DẠNG CHO DỮ LIỆU LỚN: ỨNG DỤNG CHO DỮ LIỆU PHENOTYPING VỀ LÚA (O.

SATIVA) Spécialité: Systèmes intelligents et Multimédia Code: Programme pilote MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE Sous la direction de: Ingénieur IRD, responsable de l’AXE Intégration de données de l’Institut de Biologie Computationnelle, Dr. Pierre LARMANDE Ingénieur INRA, Mme. Anne TIREAU HANOI – 2015 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée.

LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc. Fait à Hanoı̈, le 20 octobre 2015 Hà nội, Ngày 20 tháng 10 năm 2015 Lê Ngọc Luyện i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Remerciements Je tiens à remercier dans un premier temps, toute l’équipe pédagogique de l’Institut Francophone International (IFI) de Hanoı̈ et les intervenants professionnels responsable de la formation en master de recherche en informatique, pour avoir assuré la partie théorique de celle-ci.

Je tiens à exprimer toute ma reconnaissance à M. Pierre LARMANDE qui est chercheur à l’IRD et Reponsbale de l’axe de données de l’Institut de Biologie Computationnelle, Mme. Anne TIREAU qui est ingénieur à l’INRA Montpellier SupAgro dans l’UMR MISTEA, pour leur encardrement sans faille, le suivi qu’ils ont apporté à mon stage, leurs conseils, les nombreuses discussions que nous avons pu avoir tout au long de la réalisation de ce stage, aussi pour l’inspiration et pour le temps qui’ils ont bien voulu me consacrer. Je souhaite remercie la famille de Pierre LARMANDE et la famille François PHAN pour leurs aides chaleureuses pendant mon séjour de six mois en France.

Je tiens à remercie également Mlle Caroline BENOIST secrétaire du LIRMM, et Mlle NGUYEN Thi Van Tu, secrétaire de l’IFI pour ses aides à plusieurs reprises. Depuis mes premiers jours dans cet institut, j’ai reçu beaucoup d’aides, de conseils et d’encourage- ments de mes amis, en particulier ceux de la promotion 18. Tout cela m’a permis de murir chaque jour. Je les remercie et je ne pourrais jamais oublier les souvenirs gais et tristes que j’ai passé avec eux durant ces deux ans à l’IFI.

Je voudrais aussi remercier aussi les confrères de l’Université de Da Lat où je suis en train de travailler, qui m’ont donné les meilleures conditions pour que je puisse bien passer ma scolarité à l’IFI. Enfin, j’adresse mes plus sincères remerciements à mes parents, mes frères qui m’a toujours soutenue et encouragée dans les moments les plus difficiles de ma scolarité à l’IFI. Merci à tous et à toutes LE Ngoc Luyen Da Lat - Viet Nam, automne 2015 ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Résumé Depuis quelques années, le déluge de données dans plusieurs domaines de la recherche scientifique soulève des défis dans le traitement et l’exploitation des données. La recherche dans le domaine bioinforma- tique n’est pas épargnée par ce phénomène.

Ce mémoire présente des approches pour résoudre le problème de données volumineuses stockées dans des entrepôts NoSQL en y associant la capacité de recherche sémantique sur les données dans un contexte de recherche agronomique. Ces approches sémantiques permettent d’aider à enrichir les données issues d’expériences grâce aux moteurs d’inférence générant de nouvelles connaissances. Nous pouvons résumer ces deux approches d’une part avec la réécriture de requêtes et d’autre part avec la matérialisation de données en triplets RDF. Un état de l’art nous a permis d’identifier et d’évaluer les différentes méthodes se rapportant aux approches mentionnées.

En pratique, seule l’approche de matérialisation de données a été choisie pour continuer à travailler. Les données triplets obtenues étant volumineuses, nous avons réalisé un benchmark sur différents systèmes de gestion de base de données de triplets afin de pouvoir comparer les avantages et les inconvénients de chacun et de choisir le meilleur système pour notre étude de cas. Mot-clés : Base de connaissance, Ontologie, Raisonnement, Inférence, SPARQL, xR2RML, Bench- mark, NoSql, BigData, TripleStore iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Abstract In the recent years, the data deluge in many areas of scientific research brings challenges in the treat- ment and improvement of farm data. Research in bioinformatics field does not outside this trend.

This thesis presents some approaches aiming to solve the big Data problem by combining the increase in se- mantic search capacity on existing data in the plant research laboratories. This helps us to strengthen user experiments on the data obtained in this research by the engine automatic inference of new knowledge. To achieve this, each approach has different characteristics and using different platforms. Nevertheless, we can summarize it in two main directions : the transformation of query or Re-write requests and data transformation to triples.

In reality, we can solve the problem from origin of increasing capacity on seman- tic data with triplets. Thus, the triplets to data transformation direction is chosen to continue working in the practical part. However, the synchronization data in the same format is required before processing the triplets because our current data are heterogeneous. The data obtained for triplets are larger that regular triplestore could manage.

So we evaluate some of them thus we can compare the benefits and drawbacks of each and choose the best system for our problem. Keyworks : Knowledge base, Ontology, Reasoning, Inference, SPARQL, xR2RML, Benchmark, NoSQL, Big Data, Triplestore iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Table des matières Remerciements ii Résumé iii Abstract iv Table des matières v Liste d’abréviations vii Table des figures viii Liste des tableaux x INTRODUCTION 1 Chapitre 1 Présentation Générale 2 1.1 Présentation de l’établissement d’accueil .1 Présentation de l’Institut de Biologie Computationelle (IBC) .2 Présentation de l’Institut National de la Recherche Agronomique (INRA) .2 Description du stage .4 Contexte du sujet .1 Contexte de données massives .2 Contexte de recherche sémantique. 7 Chapitre 2 État de l’art 11 2.2 Analyse et évaluation des solutions courantes .1 MongoGraph - une association du Mongodb et AllegroGraph .2 Base de données orientée graphe Neo4j .3 JSON for Linking Data (JSON-LD) et MongoDB .4 Ontology-Based Data Access (ODBA) et frameworks Ontop .5 Matérialisation de données en triplets RDF. 22 Chapitre 3 Solution proposée 23 v LUAN VAN CHAT LUONG download : add luanvanchat@agmail.2 Modèle général .3 Transformation et synchronisation de données dans MongoDB .4 Ontologies et domaine applicatif .5 xR2RML et Transformation de données en triplets .1 Le langage de mapping de données xR2RML .2 Transformation de données en triplets.

30 Chapitre 4 Stockage et Indexation de données RDF 31 4.2 Approche native et non-native .3 Vue générale des systèmes de gestion de triplets .4 TripleStore Jena Fuseki. 40 Chapitre 5 Expérimentation, Comparaison et Analyse 42 5.1 Préparation des données et du Serveur .2 Benchmarking des platformes .1 Chargement de données .2 Recherche de données .3 Inférence sur les données .3 Evaluation et Analyse. 51 CONCLUSION 53 RÉFÉRENCES 55 Annexe A Modèle de document JSON A.1 Annexe B Mappage de données JSON aux triplets par xR2RML B.5 Annexe C Point d’accès C.8 vi LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Liste d’abréviations API Application Programming Interface CRUD Create, Read, Update, Delete D2R Database To RDF DFS Distributed files system DL Logiques de Description IBC Institut de Biologie Computationelle INRA Institut National de la Recherche Agronomique JSON Javascript Object Notation JSON-LD JSON for Linking Data NoSQL Not Only SQL ODBA Ontology-Based Data Access OWL Web Ontology Language OWL 2 RL Web Ontology Rule Language R2RML Relational Databases to RDF Mapping Language RDF Resource Description Framework RDFS Resource Description Framework Schema RML RDF Mapping Language SPARQL Protocol and RDF Query Langage SQL Structured Query Language W3C World Wide Web Consortium xR2RML Relational and Non-Relational Databases to RDF Mapping Language vii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Liste des figures 1.1 L’architecture du web sémantique .2 L’exemple d’un triplet Resource Description Framework (RDF).3 L’exemple d’une requête Protocol and RDF Query Langage (SPARQL).1 Le modèle de composants dans un système MongoGraph .2 Les données présentées dans cet exemple .3 Une requête SPARQL associée à une requête de MongoDB .4 La graphe de données dans Neo4j .5 Les commandes pour créer un graphe simple .6 Les triplets sont stockées dans MongoDB sous la forme de JSON-LD .7 Le modèle de composants dans un système d’association de MongoDB et JSON-LD – Create, Read, Update, Delete (CRUD) .8 Le processus de requête dans le système d’ODBA .9 La comparaison des approches des raisonnements dans une application .10 L’architecture du système avec l’association de MongoDB et le modèle d’ODBA .11 Les deux tables et sa relation .12 Les informations définies pour le mapping .13 Les données RDF après de la transformation .1 Le modèle général du système .2 Le modèle JSON créé à partir des bases d’imageries .3 L’ontologie de l’annotation d’images .4 Un exemple de données dans MongoDB .5 Le triplet généré .6 Le mapping de xR2RML .7 Le modèle général du système .1 La classificaiton des types de système de stockage RDF .2 Les composants dans l’architecture de Sesame .3 L’architecture principale de 4Store .4 L’architecture générale de Virtuoso .5 Les composants dans l’architecture de Jena .6 Les composants dans l’architecture de GraphDB .7 L’interface du système d’interaction avec les données RDF. 39 viii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.1 La comparaison du temps de chargement sur différents TripleStores .2 L’exemple de requête numéro 1 .3 L’evaluation de la requête numéro 1 sous forme de courbe graphique .4 L’exemple de requêtes numéro 2 .5 L’evaluation de la requête numéro 2 sous forme de courbe graphique .6 L’exemple de requête numéro 3 .7 L’evaluation de la requête numéro 3 sous forme de courbe graphique .8 L’exemple de troisième requêtes .9 L’evaluation de la requête numéro 4 sous forme de courbe graphique .10 Les relations inférées sur l’ontologie dans le premier exemple .11 La requête du première exemple d’inférence .12 Le temps d’exécution de la première inférence sous forme de graphique .13 Les relations inférées sur l’ontologie dans le deuxième exemple d’inférence .14 L’exemple de la deuxième inférence .15 Le temps d’exécution de la deuxième inférence sous forme de graphique.

50 ix LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Liste des tableaux 1.1 La liste des types et des système de gestion de base de données dans Not Only SQL (NoSQL) 7 4.1 Les TripleStores et le type de stockage supporté .2 Les encodages spéciaux .3 Les comparaison de certaines fonctionnalités des différents TripleStores .1 La configuration du serveur expérimental .2 La comparaison du temps de chargement sur différents TripleStores en millisecondes .3 L’evaluation de la requête numéro 1 (temps en millisecondes) .4 L’evaluation de la requête numéro 2 (temps en millisecondes) .5 L’evaluation de la requête numéro 3 (temps en millisecondes) .6 L’evaluation de la requête numéro 4 (temps en millisecondes) .7 L’evaluation de la première inférence (temps en millisecondes) .8 L’evaluation de la deuxième inférence (temps en millisecondes) .1 Les exemples de point d’accès de TripleStore .

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ