UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL MUNDUKU MUNDUKU DEO EXPLICABILITÉ DANS LES SYSTÈMES MULTIMODAUX (SOUS-TITRAGE D’IMAGES) GIẢI THÍCH TRONG CÁC HỆ THỐNG ĐA PHƯƠNG TIỆN (CHÚ THÍCH HÌNH ẢNH) MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE HANOÏ – 2024 UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL MUNDUKU MUNDUKU DEO EXPLICABILITÉ DANS LES SYSTÈMES MULTIMODAUX (SOUS-TITRAGE D’IMAGES) GIẢI THÍCH TRONG CÁC HỆ THỐNG ĐA PHƯƠNG TIỆN (CHÚ THÍCH HÌNH ẢNH) MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE Spécialité : Systèmes Intelligents et Multimédia Code : 8480201.02 Sous la direction de : Anais Halftermeyer, Maı̂tre de conférences, HDR, Université d’Orléans Co-encadré par : Sofiane Elguendouze, Docteur (PhD), Université d’Orléans HANOÏ – 2024 ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée. LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc.
MUNDUKU MUNDUKU DEO Remerciements Nous remercions tout d’abord le créateur de l’univers visible et invisible, Dieu Tout- Puissant, à travers son Fils, notre Seigneur Jésus-Christ, pour la grâce et le soutien constants tout au long de cette période de formation. Ce travail est le fruit de nombreux sacrifices, d’efforts dévoués, et du soutien moral et matériel de nombreuses personnes, auxquelles nous exprimons notre sincère reconnaissance. Nous adressons notre profonde gratitude à nos encadrants, Mme Anais Halftermeyer et M. Sofiane Elguendouze, pour leur accompagnement exceptionnel, leur bienveillance et leurs conseils avisés.
Leur expertise et leur soutien constant au sein du Laboratoire d’Informatique Fondamentale d’Orléans (LIFO) ont été essentiels à la réalisation de ce projet, rattaché à l’équipe Contraintes et Apprentissage (CA). Ce cadre de recherche a été pour nous une source d’inspiration et de réflexion stimulante. Nous tenons également à exprimer notre gratitude aux membres de l’équipe de re- cherche du LIFO pour leur accueil chaleureux et leur professionnalisme tout au long de notre parcours. Nos remerciements vont également au corps enseignant de l’Institut Francophone In- ternational (IFI) pour la qualité de leur formation et leur engagement, dont l’impact a permis des progrès significatifs.
Enfin, nous adressons nos remerciements à l’administration de l’IFI pour son soutien et son accueil chaleureux lors de notre arrivée au Vietnam, ainsi qu’aux autorités de la Faculté des Sciences de l’Université de Kinshasa pour leur soutien. À tous ceux qui, de près ou de loin, ont contribué à la réussite de ce travail, nous exprimons notre reconnaissance. Leurs encouragements et leur soutien inestimable ont été une source constante de motivation et d’inspiration. Résumé L’intelligence artificielle (IA), et plus particulièrement les techniques d’apprentissage profond, ont permis des avancées significatives dans le développement de modèles com- plexes, notamment pour le sous-titrage et le légendage d’images.
Cependant, ces modèles sont souvent perçus comme des “boı̂tes noires” en raison de leur manque de transparence, soulevant ainsi des préoccupations quant à l’explicabilité de leurs décisions. Un aspect clé de ces systèmes réside dans la saillance des objets, qui désigne l’importance attribuée aux éléments d’une image lors de la génération de sa légende. Cette étude explore l’influence de la localisation des objets sur leur saillance visuelle dans le cadre de la génération de légendes. Par une approche explicative heuristique, il est démontré que la position d’un objet inséré dans une scène impacte sa visibilité, indépendamment de ses caractéristiques telles que la taille ou la couleur.
Un protocole expérimental, basé sur la division des images en zones définies, permet d’analyser la saillance en fonction de la position spéci- fique des objets. Les résultats montrent que certaines régions, comme le Centre, renforcent la saillance des objets, tandis que les zones situées au Sud la diminuent. En clarifiant ces mécanismes, ce travail vise à renforcer l’explicabilité et l’interprétabilité des modèles de sous-titrage d’images, contribuant ainsi à une plus grande confiance des utilisateurs dans ces systèmes. Plusieurs pistes de recherche non explorées sont identifiées, notamment la saillance relative basée sur la distance entre les objets.
Mots-clés : Saillance visuelle, génération de légendes d’images, explicabilité heuris- tique, protocole expérimental, interprétabilité. Abstract Artificial intelligence (AI), particularly deep learning techniques, has enabled signi- ficant advances in the development of complex models, especially for image captioning and description. However, these models are often perceived as “black boxes” due to their lack of transparency, raising concerns about the explainability of their decisions. A key aspect of these systems lies in object salience, which refers to the importance attributed to elements within an image during caption generation.
This study explores the influence of object location on their visual salience in the context of caption generation. Through a heuristic explanatory approach, it is demonstrated that the position of an object inserted into a scene significantly impacts its visibility, regardless of its characteristics such as size or color. An experimental protocol, based on the division of images into defined zones, enables the analysis of salience based on the specific position of objects. Results show that certain regions, such as the Center, enhance object salience, while areas located in the South tend to reduce it.
By clarifying these mechanisms, this work aims to strengthen the explainability and interpretability of image captioning models, thus contributing to grea- ter user confidence in these systems. Several unexplored research avenues are identified, including relative salience based on the distance between objects. Keywords : Visual salience, image caption generation, heuristic explainability, expe- rimental protocol, interpretability. Table des matières 0.5 Subdivision du travail.
3 1 Présentation de l’organisme d’accueil 5 1.1 Laboratoire d’Informatique Fondamentale d’Orléans (LIFO) .4 Membres du LIFO .4 Contexte Organisationnel du Stage .5 Conclusion du Chapitre. 8 2 État de l’art et cadre théorique 10 2.1 Explicabilité en Intelligence Artificielle (XAI) .2 Explicabilité et Interprétabilité .3 Revue des Méthodes XAI .4 Débat dans la littérature : les méthodes agnostiques vs spécifiques 15 2.5 Méthodes post-hocs et Ante-hoc .7 Rôle dans les approches basées sur des observations immenses .2 Génération automatique de légendes .3 Approches de sous-titrage .3 Le processus de génération de légendes .1 Collecte et Traitement des Données .2 Extraction de Caractéristiques .3 Conception et Entraı̂nement du Modèle de Légende .1 Saillance et génération de légendes .2 Définition Opérationnelle de la Saillance .3 Synthèse des Travaux .5 Positionnement de notre travail dans l’état de l’art .6 Conclusion du chapitre .1 Phase de Préparation des Données .3 Générateur d’images composites/Algorithme de localisation .3 phase de description d’images .1 Extraction des caracteristiques .2 Modèle de sous-titrage d’image .4 Conclusion du Chapitre. 47 4 Expérimentations et analyse des résultats 48 4.2 Présentation des résultats .1 Interprétation des résultats .2 Interprétation des graphiques – Influence de l’insertion d’objets se- lon la région .3 Évaluation des résultats .4 Conclusion du Chapitre. 59 ii Table des figures 1.2 Localisation Geographique de Lifo (Université d’Orléans, 2024b) .3 organigramme de Lifo .1 Flux d’un Modèle de Machine Learning (Tjoa and Guan, 2020) .2 représentation de légende des images .1 Pipeline du Protocole Proposé .2 Catégorie d’images de fond sélectionnées avant filtrage .3 Répartition des catégories d’objets de fond après les 3 filtres .5 Répartition des zones dans une grille 3x3 .6 Quelques illustrations des objets de fond et de leur emplacement.7 Quelques illustrations des detection des objects de fond .8 illustration de la sortie de l’algorithme de localisation /generateur d’image synthetique .9 Illustration de Légendes Générées par le Modèle de Sous-Titrage d’Image .10 illustration du cas (1-1) : Objet de fond et objet inséré tous deux saillants 46 4.1 Total des insertions de tous les objets confondus dans les images de fond par region/position .2 Répartition des cas de figures.3 Répartition groupée de cas de figures.4 illustration de cas de figure 0-0.5 pipline pour l’evaluation.6 Répartition de cas de figure grouper d’evaluation.7 Description des Scénarios de Saillance.
59 iii Liste des acronymes LIFO Laboratoire d’Informatique Fondamentale d’Orléans INSA Institut National des Sciences Appliquées CA Contraintes et Apprentissage XAI EXplainable Artificial Intelligence AI Artificial Intelligence CNN Convolutional Neural Network RCNN Region-based Convolutional Neural Network LSTM Long Short-Term Memory RNN Recurrent Neural Network BLEU Bilingual Evaluation Understudy METEOR Metric for Evaluation of Translation with Explicit ORdering ROUGE Recall-Oriented Understudy for Gisting Evaluation ViT Vision Transformer CPTR Caption Transformer GRU Gated Recurrent Unit SHAP SHapley Additive exPlanations LIME Local Interpretable Model-agnostic Explanations MS COCO Microsoft Common Objects in Context ROC Receiver Operating Characteristic NLP Natural Language Processing ML Machine Learning iv Liste des tableaux 3.1 Fréquence des objets dans MS COCO .2 Tableau des co-occurrences d’objets dans les images .1 Total des insertions .2 Répartition des valeurs par cas de figure dans chaques regions .3 Nombre total d’insertions par région pour le cas d’evaluation .4 Répartition des valeurs par cas de figure dans chaque région .1 Contexte Les progrès rapides réalisés dans le domaine de l’intelligence artificielle (IA), et plus particulièrement dans les techniques d’apprentissage profond, ont permis le développe- ment de modèles de plus en plus complexes et performants. Ces systèmes, bien que ef- ficaces, sont souvent considérés comme des “boı̂tes noires” en raison de leur manque de transparence, rendant difficile la compréhension de leur fonctionnement interne. Cette opacité suscite des préoccupations croissantes, notamment en matière d’explicabilité, car il devient essentiel de pouvoir expliquer et justifier les décisions prises par ces modèles. Ce besoin d’explicabilité est d’autant plus pressant dans les systèmes multimodaux, qui intègrent des données provenant de plusieurs modalités, comme l’image et le texte.
Les modèles de sous-titrage d’images, qui combinent des réseaux neuronaux profonds pour analyser des scènes visuelles et générer des descriptions textuelles, illustrent parfai- tement cette complexité croissante. Ces modèles transforment les informations visuelles en représentations latentes complexes, encapsulant des caractéristiques importantes des objets et des scènes. Bien que ces représentations soient cruciales pour l’efficacité du système, elles sont souvent difficiles à interpréter, ce qui complique la compréhension des mécanismes internes qui guident les décisions du modèle. Par conséquent, l’explicabilité de ces systèmes devient un enjeu majeur, particulièrement pour des tâches aussi com- plexe que le sous-titrage d’images, où l’interaction entre vision et langage doit être bien comprise.
Un aspect central dans l’analyse des scènes visuelles est la saillance des objets, qui fait référence à l’importance relative qu’un modèle accorde aux différents objets présents dans une image pour la génération des mots constituant les légendes.La manière dont les modèles identifient et priorisent ces objets saillants a un impact direct sur la qualité des légendes générés. Toutefois, les mécanismes qui sous-tendent la saillance visuelle de- meurent en grande partie méconnus, en particulier lorsqu’il s’agit de comprendre comment la position influence leur perception par le modèle. Dans un tel contexte, il devient essentiel de mieux comprendre les mécanismes régissant la saillance visuelle dans les systèmes de sous-titrage d’images. Le but est non seulement d’améliorer les performances de ces systèmes, mais également de rendre leurs décisions plus transparentes et compréhensibles pour les utilisateurs.
Ceci pourrait par exemple aider à prévoir et corriger les éventuelles erreurs, et par conséquent renforcer la confiance des utilisateurs, notamment dans des domaines applicatifs critiques.2 Problématique Dans les systèmes multimodaux basés sur l’apprentissage profond, tels que ceux utilisés pour le sous-titrage d’images, l’un des défis majeurs réside dans l’opacité des processus de décision. Bien que ces systèmes soient capables de générer des descriptions textuelles cohérentes à partir de scènes visuelles, il est souvent difficile de comprendre comment ils attribuent de l’importance à certains objets plutôt qu’à d’autres dans une image. Ce manque de transparence soulève des préoccupations en matière d’explicabilité, car les utilisateurs doivent pouvoir interpréter et justifier les résultats produits par ces modèles. L’aspect central considéré dans cette problématique est la saillance visuelle, qui dé- termine l’importance accordée par le modèle à différents objets dans une scène visuelle lors de la génération des descriptions.