UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONIE INTERNATIONAL LÊ THỊ THÙY TRANG DÉVELOPPEMENT D’UN PROTOTYPE DE LABORATOIRE SUR LE MARQUAGE DE DOCUMENTS TEXTUELS ET TEXTURÉS EN VUE D’EMPÊCHE LA FRAUDE DES DIPLÔMES DE L’UNIVERSITÉ DE LA ROCHELLE PHÁT TRIỂN MỘT SẢN PHẨM THỬ NGHIỆM NHẰM ĐÁNH DẤU CÁC VĂN BẢN ĐỂ NGĂN CHẶN SỰ GIAN LẬN CÁC VĂN BẰNG CỦA ĐH LA ROCHELLE MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE HANOI – 2018 TIEU LUAN MOI download : skknchat@gmail.com UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONIE INTERNATIONAL LÊ THỊ THÙY TRANG DÉVELOPPEMENT D’UN PROTOTYPE DE LABORATOIRE SUR LE MARQUAGE DE DOCUMENTS TEXTUELS ET TEXTURÉS EN VUE D’EMPÊCHE LA FRAUDE DES DIPLÔMES DE L’UNIVERSITÉ DE LA ROCHELLE PHÁT TRIỂN MỘT SẢN PHẨM THỬ NGHIỆM NHẰM ĐÁNH DẤU CÁC VĂN BẢN ĐỂ NGĂN CHẶN SỰ GIAN LẬN CÁC VĂN BẰNG CỦA ĐH LA ROCHELLE Spécialité: Systèmes intelligents et Multimédia Code: Programme pilote MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE Sous la direction de: Dr. Mickaël COUSTATY HANOI – 2018 TIEU LUAN MOI download : skknchat@gmail.com ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée. LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc. Signature de l’étudiant Lê Thị Thùy Trang TIEU LUAN MOI download : skknchat@gmail.com 1 Table de matière REMERCIEMENTS. 3 Table des figures et tableaux.
4 Tableau des acronymes. 6 Chapitre 1 : PRÉSENTATION GENÉRALE .1 Présentation de l’établissement d’accueil .1 Présentation de l’Université de La Rochelle – organisme d’accueil .2 Présentation du laboratoire L3i – lieu de travail .3 Présentation du projet SeAD .2 Contexte du sujet. 10 Chapitre 2 – DESCRIPTION DES MODELES GENERATIFS.1 Les variations de l’auto-encodeur (AE) .1 Auto-encodeur vanille et Auto-encodeur multicouches .1 L’architecture de l’auto-encodeur .2 La fonction de perte .2 Auto-encodeur sparse (SPAE) .3 Auto-encodeur contractif (CAE) .4 Auto-encodeur convolution (convolutional auto-encodeur -convAE) 19 2.5 Dé-bruitage auto-encodeur (de-noising auto-encodeur – de- noisingAE) .6 Auto-encodeur variationnel (VAE) .7 Auto-encodeur variationnel conditionnel (CVAE) .2 Les variations de générative réseau contradictoire (GAN) .1 Générative réseau contradictoire (Generative adversarial network - GAN) .1 L’architecture de GAN.2 Le processus d’apprentissage .3 La fonction de perte .2 Générative réseau contradictoire conditionnel (Conditional Generative Adversarial Networks – CGAN) .3 Profond convolutif générative réseau contradictoire (Deep Convolutional Generative Adversarial Networks – DCGAN). 27 TIEU LUAN MOI download : skknchat@gmail.4 Wasserstein générative réseau contradictoire (Wasserstein generative adversarial networks – WGAN) .5 Auto-encodeur contradictoire (Adversarial auto-encoder – AAE).
29 Chapitre 3 – PROTOCOLE EXPRÉRIMENTAL.1 Les base de données .1 La base MNIST .2 La base BALI .2 Le protocole expérimental .3 Brève description de la technique de reconnaissance .1 Le système de reconnaissance pour la base MNIST .2 Le système de reconnaissance pour la base BALI. 49 Chapitre 4 – RÉSULTATS ET DISCUSSIONS .1 Les résultats obtenus .2 Discussions sur les résultats obtenus. 50 Chapitre 5 – CONCLUSION ET PERSPECTIVE. 59 TIEU LUAN MOI download : skknchat@gmail.com 3 REMERCIEMENTS Je tiens tout d’abord à remercier tous les professeurs de l’Institut Francophone International (IFI).
Je souhaite exprimer ma sincère gratitude à vous qui avez pris le temps de m’aider au cours de ces trois années et de m’avoir accompagné dans la maîtrise de mes connaissances. Je tiens à exprimer toute ma reconnaissance à mon responsable du stage Mickaël COUSTATY. Je voudrais le remercier pour son encadrement scientifique, mais également pour sa gentillesse, son talent et sa création. Il était toujours disponible pour me soutenir normalement, scientifiquement ainsi qu’administrativement.
Je voudrais également remercier chaleureusement Tanmoy MONDAL pour ses conseils et ses discussions, ses explications, et sa gentillesse. Cela faisait vraiment un grand plaisir de travailler avec lui pendant ces cinq mois. Je remercie également toute l’équipe Image et Contenus ainsi que le laboratoire L3i pour leur accueil et leur aide pendant mon stage, notamment pour m’avoir fait profiter d’un bureau et d’un ordinateur ainsi que de toutes les infrastructures associées du L3i. Je tiens en outre à remercier Région Nouvelle Aquitaine & Européen Union qui, au travers du projet SeAD (contrat No ANR-13-BS02-0004), dans le programme opérationnel FEDER/FSE 2014-2020 a financé ce stage et sans qui rien n’aurait été matériellement possible.
Je désire remercier Made Windu Antara Kesiman pour m’avoir fourni le jeu de données BALI et pour son aide concernant les techniques de reconnaissance de caractères. Je voudrais exprimer mes sincères remerciements aux Vietnamiens dans le laboratoire L3i qui m’a beaucoup aidé pendant mon séjour à La Rochelle. Je tiens à remercier tous les employés ainsi que les secrétaires de l’IFI, pour leur aide à plusieurs reprises. Finalement, j’adresse un grand merci à toute ma famille et mes amis pour leur soutien et leur énorme encouragement au long de la réalisation de ce mémoire.
A tous ces intervenants, je présente mes remerciements, mon respect et ma gratitude. TIEU LUAN MOI download : skknchat@gmail.com 4 Table des figures et tableaux Figure 2-1: Structure générale d’un auto-encodeur. 14 Figure 2-2: Auto-encodeur vanille. 15 Figure 2-3: La couche de un-pooling.
20 Figure 2-4: Le graphique de calcul de la fonction de coût pour un dé-bruitage auto-encodeur. 21 Figure 2-5: L’architecture de GAN. 24 Figure 2-6 : Le générateur à DCGAN. 27 Figure 2-7 : L’architecture de l’auto-encodeur contradictoire.
31 Figure 3-1: Extrait de la base d'images MNIST. 33 Figure 3-2: Extrait de la base d'images BALI. 34 Figure 3-3: Extrait de la base d'images BALI après la chaîne de traitement. 35 Figure 3-4: Les images générées par divers modèles.
39 Figure 3-5 : Les classes de la base BALI qui donnent des bons résultats générés par l’auto-encodeur. 40 Figure 3-6 : Les classes de la base BALI qui donnent des bons résultats générés par le CAE. 41 Figure 3-7 : Les classes de la base BALI qui donent des bons résultats générés par le SPAE. 42 Figure 3-8 : Les classes de la base BALI qui donent des mauvais résultats générés par l’auto-encodeur.
43 Figure 3-9 : Les classes de la base BALI qui donent des mauvais résultats générés par le CAE. 44 Figure 3-10 : Les classes de la base BALI qui donent des mauvais résultats générés par le SPAE. 45 Figure 3-11: Le cas de deux classes : DI et I qui contiennts des images de caractères presque identiques. 46 Figure 3-12 : Le cas de deux classes : KA et KATEDONG qui contiennts des images de caractères presque identiques.
47 Figure 3-13 : Le cas de deux classes : TU et U qui contiennts des images de caractères presque identiques. 48 Tableau 4-1: Précision sur les images générées / originales. 50 TIEU LUAN MOI download : skknchat@gmail.com 5 Tableau des acronymes AAE Adversarial auto-encoder AE Auto-encoder CAE Contractive auto-encoder CGAN Conditional generative adversarial network CNN Convolutional neural network convAE Convolutional auto-encoder CVAE Conditional variational auto-encoder DCGAN Deep convolutional generative adversarial network DGM Deep generative network GAN Generative adversarial network KL Kullback-Leibler MSE Mean Squared Error PCA Principal Component Analysis SPAE Sparse auto-encoder VAE Variational auto-encoder WGAN Wassertein generative adversarial network TIEU LUAN MOI download : skknchat@gmail.com 6 INTRODUCTION À nos jours, le problème de la sécurisation de diplômes a pris beaucoup d’ampleur. En particulier, des besoins ont émergé dans le domaine de la sécurisation des diplômes auquel s’intéressent aujourd’hui un certain nombre d’acteurs car l’enjeu est de taille.
Il s’agit de protéger la réputation des établissements ainsi que d’améliorer l’insertion professionnelle de leurs étudiants. Il devient de plus en plus difficile pour les établissements d’assurer la protection de leurs diplômes, particulièrement à une époque où de plus en plus de modes de transfert d'informations sont disponibles. De nombreux mécanismes de sécurités des contenus (stéganographie) ont été proposés : QR code apposé sur les contenus, marquage des documents à base de nanoparticules, coffre-fort numérique, watermarking. Bien que ces mécanismes aient pu répondre à un ensemble d’exigences de sécurité, ils demeurent uniquement efficaces dans un contexte spécifique lié aux hypothèses et aux exigences restrictives qui ont été émises lors de la conception.
Parmi les méthodes pour sécuriser des contenus, il existe des méthodes visible et invisible. Pour les méthodes invisibles, l'idée est de cacher de l'information dans celle présente dans les documents comme celle proposée par le L3i et la société SOOD. En outre, l’explosion de l'apprentissage en profondeur, en particulier les modèles génératifs profonds (qui connais en anglais avec le nom : Deep Generative Modeles - DGM) qui offrent un nouveau potentiel pour les techniques de dissimulation de l'information. Dans le cadre du projet SeAD, nous aimerions donc appliquer le modèle génératif profond pour construire le prototype des diplômes de l’Université de La Rochelle.
Plus spécifiquement, après avoir identifié la zone importante, le modèle génératif est utilisé pour encoder des messages en fonction de cette zone détectée. C’est pourquoi, dans le cadre du projet SeAD, le travail de stage consiste à étudier les nouvelles méthodes de génération de caractères qui permettent d'encoder de l'information (via des caractères déformés) via des réseaux de neurones profonds. Dans le cadre de ce stage, une évaluation de la performance des douze modèles génératifs profonds différents des deux catégories des modèles : Auto-encodeur (AE) et Générative réseau contradictoire (qui connait en anglais : Generative Adversarial Network - GAN) sur deux ensembles de données manuscrites (MNIST et BALI) est proposée. Cette évaluation nous permet non seulement à trouver le modèle génératif parmi les douze modèles qui correspond le mieux aux caractères d’écritures, TIEU LUAN MOI download : skknchat@gmail.com 7 mais encore à mettre en évidence les avantages et les inconvénients de chaque modèle.
À partir de ces remarques sur ces modèles, nous pourrons proposer à l’avenir un modèle génératif qui fonctionnera efficacement avec des caractères manuscrits sur des diplômes de l’Université de La Rochelle Le mémoire est structuré en cinq grandes parties suivantes : Chapitre 1 – Présentation générale. Ce chapitre présente brièvement l’environnement du stage, le contexte du sujet et la description générale de l’objectif du stage, le domaine de recherche et le cadre du sujet. Chapitre 2 – Description des modèles génératifs. Dans ce chapitre, nous représentons les idées principales douze modèles génératifs de deux types de modèles : Auto-encoder (AE) et Generative Adversarial Network (GAN).
Chapitre 3 – Protocole expérimental. Dans le cadre de ce chapitre, on parlera des ensembles des données pour évaluer les modèles génératifs. Ensuite, le protocole expérimental sera présenté. Enfin, nous montrerons la technique de reconnaissance des images.
Chapitre 4 – Résultats et discussions. Ce chapitre consacre à présenter des résultats obtenus et des discussions sur ces résultats. Chapitre 5 – Conclusion et Perspective. Il s’agira de faire la conclusion et de présenter les perspectives du sujet.
TIEU LUAN MOI download : skknchat@gmail.com 8 Chapitre 1 : PRÉSENTATION GENÉRALE 1.1 Présentation de l’établissement d’accueil 1.1 Présentation de l’Université de La Rochelle – organisme d’accueil L’université de La Rochelle (ULR) est une université française pluridisciplinaire, située à La Rochelle. Fondée en 1993 dans le cadre des universités nouvelles, son campus est situé dans le quartier des Minimes à La Rochelle, en Charente – Maritime. Second pôle universitaire de l’académie de Poitiers, elle est membre de la Communauté d’université et établissements d’Aquitaine et a accédé aux “compétences élargies” en janvier 2009. L’université est spécialisée dans les problématiques de l’environnement littoral et du développement durable.