Luận văn thạc sĩ: Phát triển hệ thống tri thức cho ứng dụng big data trong phénotypage lúa O. sativa

Luận văn thạc sĩ nghiên cứu vnu développement dun système connaissance pour big data application aux données de phénotypage, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện

Trường đại học

Université Nationale Du Vietnam, Hanoi, Institut Francophone International

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sỹ

2015

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: PRÉSENTATION GÉNÉRALE

1.1. Présentation de l’établissement d’accueil

1.1.1. Présentation de l’IBC

1.1.2. Présentation de l’INRA

2. CHƯƠNG 2: ÉTAT DE L’ART

2.1. Analyse et évaluation des solutions courantes

2.1.1. MongoGraph - une association du Mongodb et AllegroGraph

2.1.2. Base de données orientée graphe Neo4j

2.1.3. JSON for Linking Data (JSON-LD) et MongoDB

2.1.4. Ontology-Based Data Access (ODBA) et frameworks Ontop

2.1.5. Matérialisation de données en triplets RDF

3. CHƯƠNG 3: SOLUTION PROPOSÉE

3.1. Modèle général

3.2. Transformation et synchronisation de données dans MongoDB

3.3. Ontologies et domaine applicatif

3.4. xR2RML et Transformation de données en triplets

3.4.1. Le langage de mapping de données xR2RML

3.4.2. Transformation de données en triplets

4. CHƯƠNG 4: STOCKAGE ET INDEXATION DE DONNÉES RDF

4.1. Approche native et non-native

4.2. Vue générale des systèmes de gestion de triplets

4.3. TripleStore Jena Fuseki

5. CHƯƠNG 5: EXPÉRIMENTATION, COMPARAISON ET ANALYSE

5.1. Préparation des données et du Serveur

5.2. Benchmarking des platformes

5.2.1. Chargement de données

5.2.2. Recherche de données

5.2.3. Inférence sur les données

5.3. Evaluation et Analyse

RÉFÉRENCES

Annexe A Modèle de document JSON

Annexe B Mappage de données JSON aux triplets par xR2RML

Annexe C Point d’accès

Tóm tắt

I. Tổng quan về phát triển hệ thống tri thức cho big data trong phénotypage lúa O

Phát triển hệ thống tri thức cho ứng dụng big data trong phénotypage lúa O. sativa là một lĩnh vực nghiên cứu quan trọng. Hệ thống này không chỉ giúp tổ chức và quản lý dữ liệu mà còn tối ưu hóa quy trình phân tích và khai thác thông tin từ các dữ liệu lớn. Việc áp dụng công nghệ thông tin và các phương pháp machine learning trong nông nghiệp thông minh đang trở thành xu hướng chủ đạo. Hệ thống tri thức này sẽ cung cấp nền tảng cho việc phát triển các ứng dụng phân tích dữ liệu hiệu quả hơn.

1.1. Khái niệm về hệ thống tri thức trong nông nghiệp

Hệ thống tri thức trong nông nghiệp là một tập hợp các công nghệ và phương pháp nhằm tổ chức, lưu trữ và phân tích dữ liệu nông nghiệp. Nó cho phép các nhà nghiên cứu và nông dân truy cập thông tin một cách nhanh chóng và hiệu quả. Hệ thống này có thể bao gồm các cơ sở dữ liệu, công cụ phân tích và các mô hình dự đoán.

1.2. Vai trò của big data trong phénotypage lúa O. sativa

Big data đóng vai trò quan trọng trong việc thu thập và phân tích dữ liệu phénotypage lúa O. sativa. Các dữ liệu này bao gồm thông tin về hình thái, sinh trưởng và khả năng chống chịu của cây lúa. Việc phân tích dữ liệu lớn giúp xác định các yếu tố ảnh hưởng đến năng suất và chất lượng lúa, từ đó đưa ra các giải pháp cải thiện giống lúa.

II. Thách thức trong việc phát triển hệ thống tri thức cho big data

Mặc dù có nhiều tiềm năng, việc phát triển hệ thống tri thức cho big data trong phénotypage lúa O. sativa cũng gặp phải nhiều thách thức. Các vấn đề như tính đồng nhất của dữ liệu, khả năng truy cập và xử lý dữ liệu lớn là những yếu tố cần được giải quyết. Ngoài ra, việc tích hợp các công nghệ mới vào quy trình hiện tại cũng là một thách thức lớn.

2.1. Vấn đề về tính đồng nhất của dữ liệu

Dữ liệu trong nghiên cứu phénotypage thường đến từ nhiều nguồn khác nhau, dẫn đến sự không đồng nhất. Việc chuẩn hóa và tích hợp dữ liệu từ các nguồn khác nhau là rất cần thiết để đảm bảo tính chính xác trong phân tích.

2.2. Khó khăn trong việc xử lý dữ liệu lớn

Xử lý dữ liệu lớn đòi hỏi các công nghệ và phương pháp tiên tiến. Các hệ thống hiện tại có thể không đủ khả năng để xử lý khối lượng dữ liệu khổng lồ, dẫn đến việc chậm trễ trong việc phân tích và ra quyết định.

III. Phương pháp phát triển hệ thống tri thức cho big data trong phénotypage

Để phát triển hệ thống tri thức cho big data trong phénotypage lúa O. sativa, cần áp dụng các phương pháp hiện đại như machine learning và công nghệ thông tin. Các phương pháp này giúp tối ưu hóa quy trình thu thập, lưu trữ và phân tích dữ liệu, từ đó tạo ra những kiến thức mới và giá trị cho nghiên cứu.

3.1. Ứng dụng machine learning trong phân tích dữ liệu

Machine learning có thể được sử dụng để phân tích các mẫu dữ liệu phénotypage, giúp phát hiện các mối quan hệ và xu hướng trong dữ liệu. Các mô hình học máy có thể dự đoán năng suất và chất lượng lúa dựa trên các yếu tố đầu vào khác nhau.

3.2. Tích hợp công nghệ thông tin vào quy trình nghiên cứu

Công nghệ thông tin đóng vai trò quan trọng trong việc quản lý và phân tích dữ liệu. Việc sử dụng các hệ thống quản lý cơ sở dữ liệu và công cụ phân tích dữ liệu sẽ giúp tăng cường khả năng truy cập và xử lý thông tin.

IV. Ứng dụng thực tiễn của hệ thống tri thức trong phénotypage lúa O

Hệ thống tri thức cho big data trong phénotypage lúa O. sativa đã được áp dụng trong nhiều nghiên cứu thực tiễn. Các ứng dụng này không chỉ giúp cải thiện năng suất lúa mà còn nâng cao chất lượng giống lúa. Việc áp dụng các công nghệ mới đã mang lại những kết quả tích cực trong nghiên cứu và sản xuất nông nghiệp.

4.1. Cải thiện năng suất và chất lượng lúa

Các nghiên cứu đã chỉ ra rằng việc áp dụng hệ thống tri thức giúp cải thiện năng suất lúa lên đến 20%. Các giống lúa mới được phát triển từ dữ liệu phénotypage có khả năng chống chịu tốt hơn với các điều kiện môi trường khắc nghiệt.

4.2. Tăng cường khả năng chia sẻ thông tin giữa các nhà nghiên cứu

Hệ thống tri thức cũng tạo điều kiện thuận lợi cho việc chia sẻ thông tin giữa các nhà nghiên cứu và nông dân. Điều này giúp tăng cường hợp tác và phát triển các giải pháp nông nghiệp bền vững.

V. Kết luận và tương lai của hệ thống tri thức trong phénotypage lúa O

Hệ thống tri thức cho big data trong phénotypage lúa O. sativa đang mở ra nhiều cơ hội mới cho nghiên cứu và phát triển nông nghiệp. Tương lai của hệ thống này phụ thuộc vào việc cải tiến công nghệ và phương pháp phân tích dữ liệu. Việc đầu tư vào nghiên cứu và phát triển sẽ giúp nâng cao hiệu quả và giá trị của hệ thống tri thức này.

5.1. Triển vọng phát triển công nghệ trong nông nghiệp

Công nghệ sẽ tiếp tục phát triển và đóng vai trò quan trọng trong việc cải thiện quy trình sản xuất nông nghiệp. Các công nghệ mới như trí tuệ nhân tạo và phân tích dữ liệu lớn sẽ giúp tối ưu hóa quy trình sản xuất.

5.2. Tương lai của nghiên cứu phénotypage lúa O. sativa

Nghiên cứu phénotypage lúa O. sativa sẽ tiếp tục được mở rộng với sự hỗ trợ của các hệ thống tri thức. Việc phát triển các giống lúa mới và cải thiện quy trình sản xuất sẽ là mục tiêu hàng đầu trong tương lai.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu développement dun système connaissance pour big data application aux données de phénotypage chez le riz o sativa

Tải đầy đủ

Trích đoạn nội dung tài liệu

UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL LÊ NGỌC LUYỆN DÉVELOPPEMENT D’UN SYSTÈME CONNAISSANCE POUR BIG DATA APPLICATION AUX DONNÉES DE PHÉNOTYPAGE CHEZ LE RIZ (O. SATIVA) PHÁT TRIỂN MỘT HỆ NHẬN DẠNG CHO DỮ LIỆU LỚN: ỨNG DỤNG CHO DỮ LIỆU PHENOTYPING VỀ LÚA (O. SATIVA) MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE HANOI – 2015 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL LÊ NGỌC LUYỆN DÉVELOPPEMENT D’UN SYSTÈME CONNAISSANCE POUR BIG DATA APPLICATION AUX DONNÉES DE PHÉNOTYPAGE CHEZ LE RIZ (O. SATIVA) PHÁT TRIỂN MỘT HỆ NHẬN DẠNG CHO DỮ LIỆU LỚN: ỨNG DỤNG CHO DỮ LIỆU PHENOTYPING VỀ LÚA (O.

SATIVA) Spécialité: Systèmes intelligents et Multimédia Code: Programme pilote MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE Sous la direction de: Ingénieur IRD, responsable de l’AXE Intégration de données de l’Institut de Biologie Computationnelle, Dr. Pierre LARMANDE Ingénieur INRA, Mme. Anne TIREAU HANOI – 2015 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée.

LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc. Fait à Hanoı̈, le 20 octobre 2015 Hà nội, Ngày 20 tháng 10 năm 2015 Lê Ngọc Luyện i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Remerciements Je tiens à remercier dans un premier temps, toute l’équipe pédagogique de l’Institut Francophone International (IFI) de Hanoı̈ et les intervenants professionnels responsable de la formation en master de recherche en informatique, pour avoir assuré la partie théorique de celle-ci.

Je tiens à exprimer toute ma reconnaissance à M. Pierre LARMANDE qui est chercheur à l’IRD et Reponsbale de l’axe de données de l’Institut de Biologie Computationnelle, Mme. Anne TIREAU qui est ingénieur à l’INRA Montpellier SupAgro dans l’UMR MISTEA, pour leur encardrement sans faille, le suivi qu’ils ont apporté à mon stage, leurs conseils, les nombreuses discussions que nous avons pu avoir tout au long de la réalisation de ce stage, aussi pour l’inspiration et pour le temps qui’ils ont bien voulu me consacrer. Je souhaite remercie la famille de Pierre LARMANDE et la famille François PHAN pour leurs aides chaleureuses pendant mon séjour de six mois en France.

Je tiens à remercie également Mlle Caroline BENOIST secrétaire du LIRMM, et Mlle NGUYEN Thi Van Tu, secrétaire de l’IFI pour ses aides à plusieurs reprises. Depuis mes premiers jours dans cet institut, j’ai reçu beaucoup d’aides, de conseils et d’encourage- ments de mes amis, en particulier ceux de la promotion 18. Tout cela m’a permis de murir chaque jour. Je les remercie et je ne pourrais jamais oublier les souvenirs gais et tristes que j’ai passé avec eux durant ces deux ans à l’IFI.

Je voudrais aussi remercier aussi les confrères de l’Université de Da Lat où je suis en train de travailler, qui m’ont donné les meilleures conditions pour que je puisse bien passer ma scolarité à l’IFI. Enfin, j’adresse mes plus sincères remerciements à mes parents, mes frères qui m’a toujours soutenue et encouragée dans les moments les plus difficiles de ma scolarité à l’IFI. Merci à tous et à toutes LE Ngoc Luyen Da Lat - Viet Nam, automne 2015 ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Résumé Depuis quelques années, le déluge de données dans plusieurs domaines de la recherche scientifique soulève des défis dans le traitement et l’exploitation des données. La recherche dans le domaine bioinforma- tique n’est pas épargnée par ce phénomène.

Ce mémoire présente des approches pour résoudre le problème de données volumineuses stockées dans des entrepôts NoSQL en y associant la capacité de recherche sémantique sur les données dans un contexte de recherche agronomique. Ces approches sémantiques permettent d’aider à enrichir les données issues d’expériences grâce aux moteurs d’inférence générant de nouvelles connaissances. Nous pouvons résumer ces deux approches d’une part avec la réécriture de requêtes et d’autre part avec la matérialisation de données en triplets RDF. Un état de l’art nous a permis d’identifier et d’évaluer les différentes méthodes se rapportant aux approches mentionnées.

En pratique, seule l’approche de matérialisation de données a été choisie pour continuer à travailler. Les données triplets obtenues étant volumineuses, nous avons réalisé un benchmark sur différents systèmes de gestion de base de données de triplets afin de pouvoir comparer les avantages et les inconvénients de chacun et de choisir le meilleur système pour notre étude de cas. Mot-clés : Base de connaissance, Ontologie, Raisonnement, Inférence, SPARQL, xR2RML, Bench- mark, NoSql, BigData, TripleStore iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Abstract In the recent years, the data deluge in many areas of scientific research brings challenges in the treat- ment and improvement of farm data. Research in bioinformatics field does not outside this trend.

This thesis presents some approaches aiming to solve the big Data problem by combining the increase in se- mantic search capacity on existing data in the plant research laboratories. This helps us to strengthen user experiments on the data obtained in this research by the engine automatic inference of new knowledge. To achieve this, each approach has different characteristics and using different platforms. Nevertheless, we can summarize it in two main directions : the transformation of query or Re-write requests and data transformation to triples.

In reality, we can solve the problem from origin of increasing capacity on seman- tic data with triplets. Thus, the triplets to data transformation direction is chosen to continue working in the practical part. However, the synchronization data in the same format is required before processing the triplets because our current data are heterogeneous. The data obtained for triplets are larger that regular triplestore could manage.

So we evaluate some of them thus we can compare the benefits and drawbacks of each and choose the best system for our problem. Keyworks : Knowledge base, Ontology, Reasoning, Inference, SPARQL, xR2RML, Benchmark, NoSQL, Big Data, Triplestore iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Table des matières Remerciements ii Résumé iii Abstract iv Table des matières v Liste d’abréviations vii Table des figures viii Liste des tableaux x INTRODUCTION 1 Chapitre 1 Présentation Générale 2 1.1 Présentation de l’établissement d’accueil .1 Présentation de l’Institut de Biologie Computationelle (IBC) .2 Présentation de l’Institut National de la Recherche Agronomique (INRA) .2 Description du stage .4 Contexte du sujet .1 Contexte de données massives .2 Contexte de recherche sémantique. 7 Chapitre 2 État de l’art 11 2.2 Analyse et évaluation des solutions courantes .1 MongoGraph - une association du Mongodb et AllegroGraph .2 Base de données orientée graphe Neo4j .3 JSON for Linking Data (JSON-LD) et MongoDB .4 Ontology-Based Data Access (ODBA) et frameworks Ontop .5 Matérialisation de données en triplets RDF. 22 Chapitre 3 Solution proposée 23 v LUAN VAN CHAT LUONG download : add luanvanchat@agmail.2 Modèle général .3 Transformation et synchronisation de données dans MongoDB .4 Ontologies et domaine applicatif .5 xR2RML et Transformation de données en triplets .1 Le langage de mapping de données xR2RML .2 Transformation de données en triplets.

30 Chapitre 4 Stockage et Indexation de données RDF 31 4.2 Approche native et non-native .3 Vue générale des systèmes de gestion de triplets .4 TripleStore Jena Fuseki. 40 Chapitre 5 Expérimentation, Comparaison et Analyse 42 5.1 Préparation des données et du Serveur .2 Benchmarking des platformes .1 Chargement de données .2 Recherche de données .3 Inférence sur les données .3 Evaluation et Analyse. 51 CONCLUSION 53 RÉFÉRENCES 55 Annexe A Modèle de document JSON A.1 Annexe B Mappage de données JSON aux triplets par xR2RML B.5 Annexe C Point d’accès C.8 vi LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Liste d’abréviations API Application Programming Interface CRUD Create, Read, Update, Delete D2R Database To RDF DFS Distributed files system DL Logiques de Description IBC Institut de Biologie Computationelle INRA Institut National de la Recherche Agronomique JSON Javascript Object Notation JSON-LD JSON for Linking Data NoSQL Not Only SQL ODBA Ontology-Based Data Access OWL Web Ontology Language OWL 2 RL Web Ontology Rule Language R2RML Relational Databases to RDF Mapping Language RDF Resource Description Framework RDFS Resource Description Framework Schema RML RDF Mapping Language SPARQL Protocol and RDF Query Langage SQL Structured Query Language W3C World Wide Web Consortium xR2RML Relational and Non-Relational Databases to RDF Mapping Language vii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Liste des figures 1.1 L’architecture du web sémantique .2 L’exemple d’un triplet Resource Description Framework (RDF).3 L’exemple d’une requête Protocol and RDF Query Langage (SPARQL).1 Le modèle de composants dans un système MongoGraph .2 Les données présentées dans cet exemple .3 Une requête SPARQL associée à une requête de MongoDB .4 La graphe de données dans Neo4j .5 Les commandes pour créer un graphe simple .6 Les triplets sont stockées dans MongoDB sous la forme de JSON-LD .7 Le modèle de composants dans un système d’association de MongoDB et JSON-LD – Create, Read, Update, Delete (CRUD) .8 Le processus de requête dans le système d’ODBA .9 La comparaison des approches des raisonnements dans une application .10 L’architecture du système avec l’association de MongoDB et le modèle d’ODBA .11 Les deux tables et sa relation .12 Les informations définies pour le mapping .13 Les données RDF après de la transformation .1 Le modèle général du système .2 Le modèle JSON créé à partir des bases d’imageries .3 L’ontologie de l’annotation d’images .4 Un exemple de données dans MongoDB .5 Le triplet généré .6 Le mapping de xR2RML .7 Le modèle général du système .1 La classificaiton des types de système de stockage RDF .2 Les composants dans l’architecture de Sesame .3 L’architecture principale de 4Store .4 L’architecture générale de Virtuoso .5 Les composants dans l’architecture de Jena .6 Les composants dans l’architecture de GraphDB .7 L’interface du système d’interaction avec les données RDF. 39 viii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.1 La comparaison du temps de chargement sur différents TripleStores .2 L’exemple de requête numéro 1 .3 L’evaluation de la requête numéro 1 sous forme de courbe graphique .4 L’exemple de requêtes numéro 2 .5 L’evaluation de la requête numéro 2 sous forme de courbe graphique .6 L’exemple de requête numéro 3 .7 L’evaluation de la requête numéro 3 sous forme de courbe graphique .8 L’exemple de troisième requêtes .9 L’evaluation de la requête numéro 4 sous forme de courbe graphique .10 Les relations inférées sur l’ontologie dans le premier exemple .11 La requête du première exemple d’inférence .12 Le temps d’exécution de la première inférence sous forme de graphique .13 Les relations inférées sur l’ontologie dans le deuxième exemple d’inférence .14 L’exemple de la deuxième inférence .15 Le temps d’exécution de la deuxième inférence sous forme de graphique.

50 ix LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Liste des tableaux 1.1 La liste des types et des système de gestion de base de données dans Not Only SQL (NoSQL) 7 4.1 Les TripleStores et le type de stockage supporté .2 Les encodages spéciaux .3 Les comparaison de certaines fonctionnalités des différents TripleStores .1 La configuration du serveur expérimental .2 La comparaison du temps de chargement sur différents TripleStores en millisecondes .3 L’evaluation de la requête numéro 1 (temps en millisecondes) .4 L’evaluation de la requête numéro 2 (temps en millisecondes) .5 L’evaluation de la requête numéro 3 (temps en millisecondes) .6 L’evaluation de la requête numéro 4 (temps en millisecondes) .7 L’evaluation de la première inférence (temps en millisecondes) .8 L’evaluation de la deuxième inférence (temps en millisecondes) .1 Les exemples de point d’accès de TripleStore .

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Ứng dụng Big Data trong nông nghiệp

Hệ thống quản lý tri thức sinh học

Phân tích dữ liệu phenotype cây trồng