UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL HOÀNG YẾN INDEXATION DE DONNÉES POUR L´ARCHÉOLOGIE ĐÁNH CHỈ MỤC DỮ LIỆU CHO KHẢO CỔ HỌC MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE HANOI – 2016 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL HOÀNG YẾN INDEXATION DE DONNÉES POUR L´ARCHÉOLOGIE ĐÁNH CHỈ MỤC DỮ LIỆU CHO KHẢO CỔ HỌC Spécialité: Réseaux et Systèmes Communicants (RSC) Code: Programme pilot HANOI - 2016 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée. LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc. Fait à Hanoi, le 25 octobre 2016 Hà Nội, Ngày 25 tháng 10 năm 2016 HOÀNG Yến LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Sommaire Remerciements . iv Liste des abréviations .2 Contexte et Cadre d’étude.4 Objectifs de stage .1 Système informatique en archéologie .2 Terminologies en archéologie .3 Le type de données .5 Base de données d’un système informatique de l'archéologie . 8 Indexation de données .1 Stockage des données .2 Indexation de données .3 Organisation des index .4 Index de document .5 Indexation spatial et R-Trees . 25 Proposition de modèle . 25 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.1 Outils de projet.2 Architecture de fonctions .3 Relation de données dans la base de données .2 Sécurité des données .3 Représentation de données.4 Recherche par les champs .5 Recherche plein-textes .6 Index inversé de la recherche plein-texte (FTS) .8 Indexation de fichier .9 Accès et indexation du type données géométriques .10 Organisation des Hyperliens .11 Indexation des données de fichier PDF .1 Implémentation l’index dans le SQLite .2 Indexation sur une petite table .3 Indexation sur une grande table .4 B-Trees dans SQLite . 53 Conclusion et perspectives . 58 Perspectives et limitations. 60 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Remerciements Je tiens à remercier toutes les personnes qui ont participé à la réussite de mon stage, l’équipe pédagogique de L'Institut Francophone International (IFI), l’Université Nationale du Vietnam à Hanoi, monsieur Nguyễn Hồng Quang et monsieur Hồ Tường Vinh. Je voudrais remercier le professeur Nguyễn Quý Đạo qui m'a beaucoup aidé dans ma recherche de stage. Je voudrais remercier monsieur Marc Daniel, professeur, LSIS UMR 7296 qui m'a beaucoup aidé à obtenir le visa français, m'a permis de postuler et m’a donné l’occasion de faire le stage en France. Je tiens à remercier monsieur Romain Raffin, maître de Conférences Informatique, LSIS UMR 7296 qui, en tant que tuteur, m’a encadrée et s'est toujours montré à l'écoute et très disponible tout au long de la réalisation de ce projet. Grâce aussi à sa confiance, j'ai pu accomplir mes missions. Enfin, je souhaiterais remercier toutes les personnes : ma famille, mes amis de l’IUT IFI qui m'ont toujours soutenu et encouragé au cours de la réalisation de ce mémoire. ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Résumé Les données dans l’archéologie sont généralement trop volumineuses en mémoire. Le problème est d’accéder aux données, de trouver rapidement des données liées à une application client / serveur d'archéologie. L'architecture client-serveur est une solution bien connue pour l'accès de plusieurs utilisateurs à un seul serveur. Il nous permet de travailler en ligne. Aujourd'hui, nous pouvons afficher des documents, des artefacts, des statues ou marcher dans un ancien bâtiment avec la combinaison du modèle client/serveur et des données dans un système informatique d’archéologie. Dans ce document, nous étudions l'indexation des données d'archéologie. Le but de l’indexation est l’organisation des données pour l’accès rapide aux objets en réduisant l’espace de recherche. Des données d'archéologie sont des images, des documents, des maillages en trois-dimensions 3D et sont sauvegardées sur la base de données ou dans un dossier sur un serveur. Nous avons fait une étude théorique et pratique sur la méthode d’indexation de données où nous allons nous concentrer sur l’index hiérarchique, l’index B-trees et l’indexation de recherche plein-texte (FTS). Les données ont été recherchées par le soutien du réseau. En plus, nous étudions également l'organisation et l’indexation de données hors ligne par PDF dans le côté du client. ______________________________________________________________________________________ Mots-clés : stockage des données, indexation des données pour l'archéologie, maillage 3D, modèle client-serveur, B-trees index, R-trees index, recherche plein-texte, 3D en archéologie, données géométriques, SQLite, NodeJS. iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Abstract The data in archeology generally occupies a large space in memory. The problem is how to access data quickly to find data in a model client / server. The client-server architecture is a well-known solution for the access of multiple users to a single server. It allows us to work online. Today, we can see documents, artifacts, statues or walking in an old building with the combination of the client / server model and data in an informatics system of archaeology. In this paper, we study about indexing for archaeological data. The goal of indexing is accessing quickly to objects by reducing space of searching. Archaeological data are images, documents, three-dimensional objects 3D, and keywords that are stored on a folder or database of sever. We did a theoretical and practical study on the data indexing method where we will concentrate on the hierarchical index, the B-trees index, and the full-text search indexing (FTS). Data are searched by the support of network. In addition, we also studied the organization and indexing offline par PDF in the client side. ______________________________________________________________________________________ Keywords : data storage, indexing data for archeology, 3D mesh, client-server model, full text search, index B-trees, R-trees index, 3D archeology, geometrical data, SQLite, NodeJS. iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Liste des abréviations 2D Two Dimensional 3D Three Dimensional API Application Programming Interface B-trees balanced tree CSV Comma Separated Values format (Data file) DB Data base Doc Document FTS Full text search Id Identification HTML HyperText Markup Language Node.js Node JavaScript JADE Java Agent Development Environment JSON Javascript Object Notation ODT OpenOffice OS Operator System PDF Portable Document Format SQLite Sqlite Database File R-trees rectangle tree SQL Structured Query Language WKT Well-Known Text v LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chapitre 1 Introduction Générale 1.1 Introduction Nous allons montrer une partie du projet Eloquenzior réalisé dans mon stage dans ce document. Le stage a contribuée au projet d’archéologie Eloquenzior sur les interfaces, la fonction d’affichage, management, la recherche et l’organisation des données d’archéologie sur les nouvelles techniques de developpement Web, Express, Jade, Node.Js, Sqlite…Dans ce mémoire, nous allons montrer les méthodes d’indexation de données, la recherche par l’index inversé pour la fonction de la recherche plein-texte et l’affichage et l'organisation des données textuelle, des documents, des images, des objets 3D, également l’indexation de données hors ligne par PDF dans le côté du client. Tout au long de ce mémoire, nous organisons ce rapport en six sections. Dans le chapitre 1, nous allons représenter l’introduction générale, le contexte, le problématique, l’objectif de stage. Après, dans le chapitre 2, nous allons introduire les concepts de l’archéologie et des données archéologiques. Dans le chapitre 3, nous allons montrer le stockage des données, les concepts et la méthode d’indexation de données. Suite, nous allons présenter la proposition du modèle dans le chapitre 4. Dans le chapitre 5, l’implémentation de l’application, les outils utilisés serons démontrés. Dans le chapitre 6, nous allons faire l’expérimentation d’indexation, l’analyse et l’évaluation des méthodes également. Enfin, nous allons conclure le rapport et montrer des perspectives.2 Contexte et Cadre d’étude Le stage est effectué dans le cadre du projet Eloquenzior (projet AMIDEX d'Aix-Marseille Université) de LSIS UMR 7296 (Laboratoire des Sciences de l’Information et des Système Marseille, France). Eloquenzior est un projet du patrimoine numérique. Le projet est dans un projet plus large d’analyse du décor sculpté du site de Delphes en Grèce. Le projet est axé sur l'étude de deux anciens monuments pour leur importance historique : la Tholos à Delphes (Grèce), le Temple Attis à Zama Regia (Tunisie). Le partenaire du projet est le Centre Camille Jullian (Histoire et archéologie de la Méditerranée et de l'Afrique du Nord, de la protohistoire à la fin de l'Antiquité, UMR 7299 - AMU / CNRS / 1 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MCC), Aix-en-Provence, France. Le projet Eloquenzior, soutenu et financé par l'Université d'Aix-Marseille (AMIDEX Fondation), vise à promouvoir une réflexion interdisciplinaire, l'extraction et l'analyse des informations contenues dans les formulaires numérisés qui peuvent laisser émerger de nouveaux mécanismes d'analyse d'objets du patrimoine, de l'exploration de nouvelles méthodes de mesure propriétés géométriques, et la traduction ces propriétés en «signatures» morphologiques. En outre, l'analyse détaillée des formes peut se permettre d'aller jusqu'à l'analyse de la façon dont elles ont été produites, et ainsi les classer selon les différentes écoles. Elle pourrait également aider à permettre la reconnaissance de nombreux fragments non identifiés, qui pourraient être appariés par leurs signatures morphologiques et technologiques. En effet, afin de limiter, au moins initialement, les observations et les descriptions dont l'interprétation peut bénéficier sont une accumulation importante de théories (vocabulaire contrôlé). L'équipe effectuera des expériences sur deux objets d'avant-garde historique, riche en informations, avec un patrimoine symbolique fort et particulièrement approprié pour les reconstructions 3D virtuelles, aussi bien pour les scientifiques que pour le grand public. Le projet regroupe des scientifiques de l'informatique graphique, de l'archéologie et de la numérisation tri-dimensionnelle. Le sujet proposé est donc un point de départ qui pourra s’élargir au fur et à mesure des résultats obtenus.3 Problématique Dans le domaine de la base de données, il est important de stocker les données en agençant pour y accéder rapidement. Des données volumineuses occupent beaucoup de mémoire pour les stocker. L’objet de notre recherche est l’indexation des données pour l’archéologie. L’indexation est une façon d’organisation des données pour accéder aux informations rapidement. Les documents sont stockés dans un dossier sur le serveur et une partie des informations des documents sont stockées dans des bases de données, par l’intermédiaire de laquelle on peut accéder au contenu des collections documentaires. Deux problèmes fondamentaux peuvent être retirés de l’analyse des traitements des données dans notre étude : l’indexation, puis leur recherche. L’accès au contenu des documents, des images et données trois dimensions (3D) nécessite en effet une indexation. D’un autre côté, dans le système de l’informatique, un problème est la sauvegarde des documents et des informations pour éviter la perte des données. On doit définir des liens entre des informations. 2 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Une information perdue peut provoquer plusieurs autres informations inaccessibles. Le système doit gérer des relations, des règles, des rôles qui permettent d’organiser les connaissances exploitées. Des données peuvent être stockées dans plusieurs endroits dans des fichiers ou des bases de données sur des clients ou un serveur. Cela permet à l'utilisateur d’accéder facilement et rapidement aux données. Un modèle client/serveur permet à l’utilisateur d’accéder aux données en ligne. Le stockage dans un serveur en ligne permet de partager et mettre à jour des données rapidement. Un utilisateur peut explorer des artefacts et des patrimoines à la maison. Mais des archéologues ne peuvent pas rester dans le bureau tous les jours. Ils peuvent aller à la recherche des artefacts dans un lieu éloigné comme le désert africain où manque l’internet. Alors, on étude une façon de sauvegarder des données dans un répertoire sur l’ordinateur de client pour la recherche hors ligne. Des données dans les fichiers hors ligne sont organisées et soutenues par un index pour rechercher rapidement.
Đánh Chỉ Mục Dữ Liệu Cho Khảo Cổ Học: Luận Văn Thạc Sĩ Tại VNU
Luận văn thạc sĩ nghiên cứu vnu indexation de données pour larchéologie đánh chỉ mục dữ liệu cho khảo cổ học luận văn ths, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải
2016
Phí lưu trữ
30 PointMục lục chi tiết
Tóm tắt
I. Tổng Quan Về Đánh Chỉ Mục Dữ Liệu Trong Khảo Cổ Học
Đánh chỉ mục dữ liệu trong khảo cổ học là một lĩnh vực quan trọng, giúp tổ chức và truy cập thông tin một cách hiệu quả. Luận văn thạc sĩ tại VNU đã nghiên cứu sâu về vấn đề này, nhấn mạnh tầm quan trọng của việc sử dụng công nghệ thông tin trong việc quản lý dữ liệu khảo cổ. Việc đánh chỉ mục không chỉ giúp tiết kiệm thời gian mà còn nâng cao độ chính xác trong việc tìm kiếm thông tin.
1.1. Khái Niệm Về Đánh Chỉ Mục Dữ Liệu Khảo Cổ Học
Đánh chỉ mục dữ liệu là quá trình tổ chức thông tin để dễ dàng truy cập. Trong khảo cổ học, điều này bao gồm việc phân loại và lưu trữ các tài liệu, hình ảnh và dữ liệu 3D. Việc này giúp các nhà nghiên cứu nhanh chóng tìm kiếm và phân tích thông tin cần thiết.
1.2. Tầm Quan Trọng Của Đánh Chỉ Mục Trong Nghiên Cứu Khảo Cổ
Đánh chỉ mục dữ liệu giúp cải thiện khả năng truy cập thông tin, từ đó hỗ trợ các nhà khảo cổ trong việc phân tích và đưa ra kết luận chính xác hơn. Nó cũng giúp bảo tồn các tài liệu quý giá cho các thế hệ sau.
II. Vấn Đề Và Thách Thức Trong Đánh Chỉ Mục Dữ Liệu Khảo Cổ Học
Mặc dù đánh chỉ mục dữ liệu mang lại nhiều lợi ích, nhưng cũng tồn tại nhiều thách thức. Các nhà nghiên cứu thường gặp khó khăn trong việc tổ chức dữ liệu khổng lồ và đa dạng. Việc thiếu các tiêu chuẩn chung trong đánh chỉ mục cũng gây khó khăn trong việc chia sẻ thông tin giữa các tổ chức.
2.1. Khó Khăn Trong Việc Tổ Chức Dữ Liệu Khổng Lồ
Dữ liệu khảo cổ học thường rất phong phú và đa dạng, từ tài liệu văn bản đến hình ảnh và dữ liệu 3D. Việc tổ chức và lưu trữ chúng một cách hiệu quả là một thách thức lớn.
2.2. Thiếu Tiêu Chuẩn Chung Trong Đánh Chỉ Mục
Sự thiếu hụt các tiêu chuẩn chung trong đánh chỉ mục dữ liệu khảo cổ học dẫn đến khó khăn trong việc chia sẻ và truy cập thông tin giữa các nhà nghiên cứu và tổ chức khác nhau.
III. Phương Pháp Đánh Chỉ Mục Dữ Liệu Khảo Cổ Học Hiệu Quả
Để giải quyết các vấn đề trong đánh chỉ mục dữ liệu, nhiều phương pháp đã được đề xuất. Các phương pháp này bao gồm việc sử dụng các công nghệ mới như B-trees và R-trees để tổ chức dữ liệu, cũng như áp dụng các kỹ thuật tìm kiếm toàn văn để nâng cao khả năng truy cập thông tin.
3.1. Sử Dụng B trees Trong Đánh Chỉ Mục
B-trees là một cấu trúc dữ liệu hiệu quả cho việc lưu trữ và truy cập dữ liệu lớn. Chúng cho phép thực hiện các thao tác tìm kiếm, chèn và xóa một cách nhanh chóng, rất phù hợp cho việc đánh chỉ mục dữ liệu khảo cổ học.
3.2. Kỹ Thuật Tìm Kiếm Toàn Văn
Kỹ thuật tìm kiếm toàn văn giúp người dùng tìm kiếm thông tin trong các tài liệu lớn một cách nhanh chóng và chính xác. Việc áp dụng kỹ thuật này trong khảo cổ học có thể cải thiện đáng kể khả năng truy cập dữ liệu.
IV. Ứng Dụng Thực Tiễn Của Đánh Chỉ Mục Dữ Liệu Khảo Cổ Học
Đánh chỉ mục dữ liệu không chỉ là lý thuyết mà còn có nhiều ứng dụng thực tiễn trong khảo cổ học. Các nhà nghiên cứu có thể sử dụng các hệ thống đánh chỉ mục để truy cập nhanh chóng vào các tài liệu và dữ liệu khảo cổ, từ đó hỗ trợ cho các nghiên cứu và phân tích sâu hơn.
4.1. Hệ Thống Quản Lý Dữ Liệu Khảo Cổ
Hệ thống quản lý dữ liệu khảo cổ học giúp tổ chức và lưu trữ thông tin một cách hiệu quả. Nó cho phép các nhà nghiên cứu dễ dàng truy cập và chia sẻ dữ liệu với nhau.
4.2. Nâng Cao Hiệu Quả Nghiên Cứu Khảo Cổ
Việc áp dụng các phương pháp đánh chỉ mục hiện đại giúp nâng cao hiệu quả nghiên cứu khảo cổ, từ việc tìm kiếm thông tin đến phân tích dữ liệu.
V. Kết Luận Và Tương Lai Của Đánh Chỉ Mục Dữ Liệu Khảo Cổ Học
Đánh chỉ mục dữ liệu trong khảo cổ học là một lĩnh vực đang phát triển mạnh mẽ. Với sự tiến bộ của công nghệ thông tin, các phương pháp đánh chỉ mục ngày càng trở nên hiệu quả hơn. Tương lai của lĩnh vực này hứa hẹn sẽ mang lại nhiều cơ hội mới cho các nhà nghiên cứu.
5.1. Xu Hướng Phát Triển Công Nghệ Trong Đánh Chỉ Mục
Công nghệ thông tin đang phát triển nhanh chóng, mở ra nhiều cơ hội mới cho việc cải thiện các phương pháp đánh chỉ mục dữ liệu trong khảo cổ học.
5.2. Tương Lai Của Nghiên Cứu Khảo Cổ Học
Nghiên cứu khảo cổ học sẽ tiếp tục phát triển với sự hỗ trợ của các công nghệ mới, giúp các nhà nghiên cứu có thể tiếp cận và phân tích dữ liệu một cách hiệu quả hơn.
TÀI LIỆU LIÊN QUAN
Bạn đang xem trước tài liệu:
Luận văn thạc sĩ vnu indexation de données pour larchéologie đánh chỉ mục dữ liệu cho khảo cổ học luận văn ths truyền dữ liệu và mạng máy tính chương trình đào tạo thí điểm
THÔNG TIN CHI TIẾT
Tác giả: Hoàng Yến
Người hướng dẫn: Nguyễn Hồng Quang
Trường học: Université Nationale du Vietnam, Hanoi Institut Francophone International
Chuyên ngành: Informatique
Đề tài: Đánh Chỉ Mục Dữ Liệu Cho Khảo Cổ Học
Loại tài liệu: Luận văn thạc sĩ
Năm xuất bản: 2016
Địa điểm: Hanoi
Trích đoạn nội dung tài liệu
Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ