Luận văn thạc sĩ về Fouille de Graphes và Phân loại Graphes: Ứng dụng trong Symbol Spotting

Luận văn thạc sĩ nghiên cứu vnu fouille de graphes et classification de graphes application au symbol spotting, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện pháp hoàn thiện

Trường đại học

Université de la rochelle

Chuyên ngành

Informatique, Image et Interaction

Người đăng

Ẩn danh

Thể loại

Mémoire de fin d’étude

2009

57
2
0

Phí lưu trữ

30 Point

Mục lục chi tiết

1. Introduction

1.1. Objectif et contribution du stage

1.2. Environnement de stage

1.3. Plan du document

2. Définition de graphe

2.1. Correspondance de Graphe

2.2. Graphe de distance

3. Etat de l'art

3.1. Les méthodes de construction de graphe

3.2. Les methodes de mise en correspondances des graphes

3.3. Récaputulation des méthodes

4. Une méthode de mise en correspondance de graphes fondée sur l’assignement de sous-graphes

4.1. Définition : Décomposition en sous-graphes

4.2. La correspondance de sous-graphes

4.3. Le coût de fonction (c) pour la correspondance des signatures

4.4. Sous graphe de longueur ι

4.5. Construction de matrice de coûts

5. Représentation de l’information contenue dans une image

5.1. Constitution de l'ensemble des nœuds

5.2. Extraction des composantes connexes

5.3. Étiquetage des composantes connexes

5.3.1. Extraction de caractéristiques

5.3.2. Statistique de la forme

5.3.3. Classification non supervisée des caractéristiques morphologiques

5.4. Organisation de l’information : Construction d’un Graphe de voisinage

5.4.1. Relations d'Allen bidimensionnelles

5.4.2. Intervalle basé sur les distances entre deux régions

6. Test en classification

6.1. Bases de tests

6.1.1. Pour la classification

6.1.2. Pour le Symbol Spotting

6.2. Test en classification

Tóm tắt

I. Tổng quan về Nghiên cứu Fouille de Graphes và Phân loại Graphes

Nghiên cứu về Fouille de GraphesPhân loại Graphes trong ứng dụng Symbol Spotting đang trở thành một lĩnh vực quan trọng trong khoa học máy tính. Các phương pháp này giúp nhận diện và phân loại các biểu tượng trong tài liệu hình ảnh. Việc áp dụng các kỹ thuật này không chỉ giúp cải thiện độ chính xác mà còn tăng tốc độ xử lý thông tin.

1.1. Định nghĩa và vai trò của Fouille de Graphes

Fouille de Graphes là quá trình khai thác thông tin từ các cấu trúc đồ thị. Nó cho phép phân tích mối quan hệ giữa các thành phần trong đồ thị, từ đó rút ra các mẫu và quy luật. Vai trò của nó trong Symbol Spotting là rất quan trọng, giúp xác định vị trí và loại biểu tượng trong tài liệu.

1.2. Tầm quan trọng của Phân loại Graphes trong Symbol Spotting

Phân loại Graphes giúp phân loại các biểu tượng dựa trên các đặc điểm hình học và cấu trúc của chúng. Kỹ thuật này cho phép nhận diện chính xác các biểu tượng trong các tài liệu phức tạp, từ đó nâng cao hiệu quả của các hệ thống nhận diện tự động.

II. Vấn đề và Thách thức trong Nghiên cứu Symbol Spotting

Mặc dù có nhiều tiến bộ trong lĩnh vực Fouille de Graphes, vẫn tồn tại nhiều thách thức trong việc áp dụng chúng vào Symbol Spotting. Các vấn đề như độ phức tạp của đồ thị, sự biến đổi của biểu tượng và độ chính xác trong việc nhận diện vẫn cần được giải quyết.

2.1. Độ phức tạp của đồ thị trong nhận diện biểu tượng

Đồ thị có thể trở nên rất phức tạp với nhiều nút và cạnh, điều này làm cho việc phân tích và nhận diện trở nên khó khăn. Cần có các phương pháp tối ưu hóa để giảm thiểu độ phức tạp này.

2.2. Sự biến đổi của biểu tượng và ảnh hưởng đến độ chính xác

Biểu tượng có thể thay đổi hình dạng và kích thước trong các tài liệu khác nhau. Điều này ảnh hưởng đến khả năng nhận diện chính xác. Cần phát triển các thuật toán mạnh mẽ để xử lý các biến đổi này.

III. Phương pháp Nghiên cứu và Giải pháp cho Symbol Spotting

Để giải quyết các thách thức trong Fouille de Graphes, nhiều phương pháp đã được đề xuất. Các phương pháp này bao gồm việc sử dụng Machine Learning và các thuật toán tối ưu hóa để cải thiện độ chính xác và hiệu suất.

3.1. Sử dụng Machine Learning trong Phân loại Graphes

Machine Learning cung cấp các công cụ mạnh mẽ để phân tích và phân loại các biểu tượng. Các mô hình học sâu có thể học từ dữ liệu lớn và cải thiện độ chính xác của việc nhận diện.

3.2. Các thuật toán tối ưu hóa trong Fouille de Graphes

Các thuật toán tối ưu hóa như K-NN và các phương pháp dự đoán khác có thể được áp dụng để cải thiện hiệu suất của hệ thống nhận diện. Việc tối ưu hóa các tham số trong thuật toán cũng rất quan trọng.

IV. Ứng dụng thực tiễn của Fouille de Graphes trong Symbol Spotting

Nghiên cứu về Fouille de Graphes đã dẫn đến nhiều ứng dụng thực tiễn trong lĩnh vực nhận diện biểu tượng. Các ứng dụng này không chỉ giới hạn trong tài liệu mà còn mở rộng ra nhiều lĩnh vực khác như y tế, giáo dục và thương mại.

4.1. Ứng dụng trong lĩnh vực y tế

Trong y tế, việc nhận diện các biểu tượng trong tài liệu y khoa có thể giúp cải thiện quy trình chẩn đoán và điều trị. Các hệ thống tự động có thể giúp bác sĩ tiết kiệm thời gian và nâng cao độ chính xác.

4.2. Ứng dụng trong giáo dục và thương mại

Trong giáo dục, việc nhận diện biểu tượng trong sách giáo khoa có thể hỗ trợ học sinh trong việc học tập. Trong thương mại, nhận diện biểu tượng trên bao bì sản phẩm có thể giúp cải thiện trải nghiệm khách hàng.

V. Kết luận và Tương lai của Nghiên cứu Fouille de Graphes

Nghiên cứu về Fouille de GraphesPhân loại Graphes trong ứng dụng Symbol Spotting đang trên đà phát triển mạnh mẽ. Tương lai của lĩnh vực này hứa hẹn sẽ mang lại nhiều cải tiến và ứng dụng mới, đặc biệt là trong bối cảnh công nghệ ngày càng phát triển.

5.1. Xu hướng phát triển trong nghiên cứu

Các xu hướng mới trong nghiên cứu như trí tuệ nhân tạo và học máy sẽ tiếp tục thúc đẩy sự phát triển của Fouille de Graphes. Việc áp dụng các công nghệ mới sẽ giúp cải thiện độ chính xác và hiệu suất.

5.2. Tương lai của Symbol Spotting

Tương lai của Symbol Spotting sẽ phụ thuộc vào khả năng phát triển các thuật toán mạnh mẽ và hiệu quả hơn. Các nghiên cứu tiếp theo sẽ cần tập trung vào việc cải thiện độ chính xác và khả năng xử lý của các hệ thống nhận diện.

22/07/2025

Trích đoạn nội dung tài liệu

Mémoire de fin d’étude Fouille de graphes et Classification de graphes Application au "Symbol Spotting" Réalisé par : Nguyen Quoc Toan Responsable du stage : Jean-Marc Ogier Jean-Christophe Burie Romain Raveaux Ce stage a été réalisé au département Pascal de Laboratoire Informatique, Image et Interaction, Université de la Rochelle La Rochelle, France, Novembre 2009 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Table des matières 1 Introduction.2 Objectif et contribution du stage.3 Environnement de stage.4 Plan du document.1 Définition de graphe.2 Correspondance de Graphe.3 Graphe de distance.2 Distance entre signatures de graphe «graph probing ». 17 3 Etat de l'art.1 Les méthodes de construction de graphe .2 Les methodes de mise en correspondances des graphes.3 Récaputulation des méthodes. 24 4 Une méthode de mise en correspondance de graphes fondée sur l’assignement de sous- graphes.1 Définition : Décomposition en sous-graphes.2 La correspondance de sous-graphes.3 Le coût de fonction (c) pour la correspondance des signatures.4 Sous graphe de longueur ι.5 Construction de matrice de coûts. 28 5 Représentation de l’information contenue dans une image.1 Constitution de l'ensemble des nœuds.2 Extraction des composantes connexes.3 Étiquetage des composantes connexes.1 Extraction de caractéristiques .2 Statistique de la forme .3 Classification non supervisée des caractéristiques morphologiques.4 Organisation de l’information : Construction d’un Graphe de voisinage.1 Relations d'Allen bidimensionnelles.2 Intervalle basé sur les distances entre deux régions.1 Test en classification.2 Bases de tests.1 Pour la classification.2 Pour le Symbol Spotting.1 Test en classification.

54 NGUYEN Quoc Toan – Promotion 13 Page 2 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com REMERCIEMENTS Je voudrais tout d'abord remercier professeur Jean-Marc Ogier, Jean-Christophe Burie, mes responsables de stage, de m'avoir accueillie au sein de l’équipe du projet ALPAGE du Laboratoire L3i (Laboratoire Informatique, Image et Interaction) de l’Université de la Rochelle et de m’a donné l’environnement de travail très chaleureuse pendant toute la durée du stage. Je remercie également Romain Raveaux pour ses conseils, son explication très clairement des nouveaux concepts, ses aides, ses commentaires et ses discussions qui ont fait progresser mon travail. Je lui suis reconnaissant d’avoir toujours été disponible et agréable. Je voudrais remercier tout le personnel du laboratoire L3I et particulièrement l’équipe du projet ALPAGE pour leur accueil chaleureux.

Je voudrais aussi adresser mes sincères remerciements à tous les professeurs de l’IFI pour leurs enseignements et les cours intéressants qu’ils m’ont donné pendant mes études au niveau master. Finalement, je voudrais remercier ma famille, mes parents et mes amis qui sont toujours près de moi et m’ont apporté le courage dans les moments difficiles de ma scolarité à l’IFI. NGUYEN Quoc Toan – Promotion 13 Page 3 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Résumé Reconnaissance des symboles est un domaine de recherche visant le développement d'algorithmes et de techniques et il y a une nombreuse méthode de reconnaissance de graphiques ont été développées pour la reconnaissance des symboles graphiques. Le problème « Symbole Spotting » est comme la localisation d'un ensemble de régions d'intérêt d'un document image, qui sont susceptibles de contenir une instance d'un certain symbole demandé sans le reconnaître explicitement.

Nous présentons donc dans ce mémoire un processus d’extraction et d’organisation de l’information contenue dans une image afin de la structurer sous forme d’un graphe pour tenir compte de la spécificité que contiennent les documents techniques. Chaque nœud du graphe représente une composante connexe dans l’image de document, ces nœuds sont étiquetés automatiquement par l’algorithme de clustering « k-Mean ». Ce dernier utilise des descripteurs de formes extraits des composantes connexes. La relation entre deux composantes connexes est matérialisée dans un graphe de « voisinage » par un arc étiqueté automatiquement en utilisant les relations d'Allen bidimensionnelles ou la distance entre composantes connexes.

Nous proposons une méthode de mise en correspondance de graphes fondée sur l’assignement de sous-graphes de longueur l. Nous proposons aussi une définition de sous- graphe de longueur l. Le problème de reconnaissance des symboles devient donc de trouver les sous-graphes les plus similaires au graphe symbole donné en requête. Nous extrayons le graphe de plan en des sous-graphes de longueur l.

Le résultat de notre application est ensemble de sous-graphes isomorphisme que la distance entre les sous-graphes et le graphe de symbole est inférieur une valeur seuil. Afin d’évaluer la classification de graphes, nous utilisons un classifieur de type K-NN pour évaluer la performance de notre méthode de mise en correspondance de graphes fondée sur l’assignement de sous-graphes. NGUYEN Quoc Toan – Promotion 13 Page 4 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Abstract Symbol Recognition is a research area for the development of algorithms and techniques, a lot of method of graphics recognition are developed for the recognition of graphic symbols. The problem "Symbol Spotting" aims to find the locations of a set of regions interest in a document image, which may contain an instance of a symbol without explicitly recognize.

We therefore present in this paper a process for extracting and organizing information in an image to the structure of a graph for the specificity technical documents. Each graph node is a connected component. These nodes are labeled automatically by the clustering algorithm "k-means”. We extract the connected components using shape descriptors.

We use the family of graph "Neighborhood based on k nearest neighbors" to build edges and they are automatically labeled by the Bi-dimensional Allen Algebra or the distance between regions. We propose a method for mapping graph-based assignment of subgraphs of length l. We also propose a definition of subgraph of length l. The symbols recognition problem is like to find subgraphs which are the nearest similar to the graph of symbol.

We extract the graph of technical documents in many subgraphs of length l. The recognition task consists of finding all subgraphs isomorphism which the distance between sub-graphs and symbol graphs is less than a certain threshold. To test the classification of graphs based on graph prototypes, we use a K-NN classifier in order to evaluate our method for mapping graph-based assignment of subgraphs of length l by the rate of recognition. NGUYEN Quoc Toan – Promotion 13 Page 5 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Liste des figures Figure 1: La distance entre signatures de graphe GP, (a) les graphes non orienté, sans étiquetage, (b) les graphes orientés, sans étiquetage, (c) les graphes étiquetés, orientés.16 Figure 2: La distance entre deux graphes selon ED et GP, (a) les graphes non orienté, sans étiquetage, (b) les graphes orientés, sans étiquetage, (c) les graphes étiquetés, orientés.17 Figure 3 : Graphiques attribués relationnelle, chaque nœud est comme une ligne segmentée, un arcs établis la relation d’adjection entre deux segmentations (source[14]).

19 Figure 4: Chaque nœud est une région fermée. L’arc lie deux régions adjacentes (source[32]) .19 Figure 5: Graphe transaction, source [33].20 Figure 6: vectorisation de quadrilatères, source [45]. 20 Figure 7: La zone influence de quadrilatère et le graphe correspondant, source [45]. 21 Figure 8: exemple de construction d’un graphe basé sur les relations topologique, source [35] .21 Figure 9: La décomposition en sous-graphes.

p1, p2, p3, p4 est des sous-graphes d’extractions de longueur 1 qui associés à chaque nœuds du graphe G. 25 Figure 10: à partir deux graphes G1, G2 (a), on extrait des sous-graphes de longueur 1 (a), (b). Le graphe bipartite complet Gem obtenu par P1 et P2.28 Figure 12: un exemple de la correspondance de graphe, (a), (b) les sous-graphes d’extraction de longueur 1, (c) la correspondance de sous-graphe selon distance d’édition (ED). 30 Figure 13: Analyse des composantes connexes.

31 Figure 14: Mesure de l'élongation, comme le ratio de la longueur-largeur. 33 Figure 15:Graphe des k plus proches voisins (a) les composantes connexes, (b) k=2, (c) k=134 Figure 16: Jeu restreint de relations d'Allen.35 Figure 17: (a) deux composantes connesxes, (b) détermination du système de coordonnées lié aux. 35 Figure 18: L’image à gauche : représentation de la distance entre deux composantes connexes, d-max = 39. Le graphe droit obtenu par n = 10 (n est le nombre d’intervalles).

36 Figure 19: La vérité terrain pour un plan. 41 Figure 20: Les exemples de lettres A, M, K et Z: l'origine et la déformation des niveaux faible, moyen et élevé (de gauche à droite). 42 Figure 21 : Illustration du composant d’une molécule. 43 Figure 22:la comparaison le temps de calcul sur PMDED et PMDGP.

45 Figure 23: La courbe de précision, rappel selon la méthode Hu_Dist. 47 Figure 24: La courbe de précision, rappel selon la méthode Hu_ Allen.48 Figure 25: La courbe de précision, rappel selon la méthode Shape_Allen.49 Figure 26: La courbe de précision, rappel selon la méthode Shape_Dist. 50 Figure 27: Les meilleurs courbes de chaque méthode d'étiquetage. 51 NGUYEN Quoc Toan – Promotion 13 Page 6 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Liste des tableaux Table 1: Matrice des coûts de G1, G2.13 Table 2: étape 1 : réduction des lignes.

13 Table 3: étape 2 : réductions des colonnes.13 Table 4: étape 3 : déterminer le nombre minimal de lignes sur les lignes, colonnes pour couvrir tous les zéros.14 Table 5: étape 4 : Trouver la cellule de valeur minimum non-couverte par une ligne. 14 Table 6: étape 4 : recaler la valeur pour les cellules basées sur cette valeur minimum .14 Table 7: étape 4 : déterminer le nombre minimal de lignes.14 Table 8: étape 5 : déterminer la solution optimale.15 Table 9: le coût minimal de G1, G2.15 Table 10 : La matrice de coûts entre deux graphes G1, G2. 29 Table 11: Résumé des données de graphes des caractéristiques.43 Table 12: Les taux de reconnaissance pour deux méthode PMDED et PMDGP. 45 Table 13: La valeur moyenne de précision, rappel selon la méthode Hu_Dist.

46 Table 14 : La valeur moyenne de précision, rappel selon la méthode Hu_Allen. 47 Table 15: La valeur moyenne de précision, rappel selon la méthode Shape_Allen. 48 Table 16: La valeur moyenne de précision, rappel selon la méthode Shape_Dist.49 Table 17: La comparaison des méthodes d'étiquetage des noeuds, des arcs.50 Table 18: Comparaison nos résultats avec les résultats de Marçal [51]. 51 NGUYEN Quoc Toan – Promotion 13 Page 7 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.1 Problématique Reconnaissance de symbole est une des applications importantes dans le domaine de la reconnaissance de formes qui est appliqué dans plusieurs domaines comme l'architecture, la cartographie, l'électronique, la mécanique etc.

En raison des types de documents graphiques sont trop large, chacune d’entre eux possèdent un ensemble caractéristique de symboles propres, il n'est pas facile de trouver une définition précise d'un symbole. Dans une manière très générale, un symbole peut être défini comme une entité graphique avec un sens particulier dans le contexte d'un domaine d'application spécifique. Il y a un grand nombre d'approches ont été proposées pour la reconnaissance des symboles. Chacune d’entres elles possèdent des propriétés qui lui sont propres et ne peut s’appliquer qu’à certains contextes, réunissant certaines conditions.

Dans notre cas, nous utilisons la méthode basées sur le graphe pour représenter les images de documents techniques et de symbole demandé en des graphes. Chaque nœud du graphe représente une composante connexe dans l’image de document. La relation entre deux composantes connexes est matérialisée dans un graphe de « voisinage ». Le problème de la reconnaissance de symbole est tourné en une question d’isomorphisme de sous graphe, afin de trouver les sous-graphes qui correspondent à des symboles graphiques.2 Objectif et contribution du stage L'objectif de stage est dans un premier temps d'étudier le problème de la correspondance de graphes « Graph Matching », les mesures de calculer la distance entre deux graphes.

Et puis, nous proposons une méthode de mise en correspondance de graphes fondée sur l’assignement de sous-graphes de longueur l. Ensuite nous construisons un protocole de test en classifications basé sur les prototypes de graphes en utilisant la méthode K plus proche voisins (K-NN) basé sur notre méthode de mise en correspondance de graphes.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ