Giải thích trong hệ thống đa phương tiện: Chú thích hình ảnh (Đề tài Thạc sĩ)

Giải thích khả năng trong hệ thống đa phương thức: Phụ đề hình ảnh. Tìm hiểu cách hệ thống AI tạo phụ đề cho ảnh và tầm quan trọng của việc giải thích quá trình này.

Chuyên ngành

Informatique

Người đăng

Ẩn danh

Thể loại

Mémoire De Fin D’études Du Master

2024

86
1
0

Phí lưu trữ

30 Point

Mục lục chi tiết

ATTESTATION SUR L’HONNEUR

LỜI CAM ĐOAN

Remerciements

Résumé

Abstract

Table des matières

0.5. Subdivision du travail

1. Présentation de l’organisme d’accueil

1.1. Laboratoire d’Informatique Fondamentale d’Orléans (LIFO)

1.2. Membres du LIFO

1.3. Contexte Organisationnel du Stage

1.4. Conclusion du Chapitre

2. État de l’art et cadre théorique

2.1. Explicabilité en Intelligence Artificielle (XAI)

2.2. Explicabilité et Interprétabilité

2.3. Revue des Méthodes XAI

2.4. Débat dans la littérature : les méthodes agnostiques vs spécifiques

2.5. Méthodes post-hocs et Ante-hoc

2.6. Rôle dans les approches basées sur des observations immenses

2.7. Génération automatique de légendes

2.8. Approches de sous-titrage

2.9. Le processus de génération de légendes

2.10. Collecte et Traitement des Données

2.11. Extraction de Caractéristiques

2.12. Conception et Entraı̂nement du Modèle de Légende

2.13. Saillance et génération de légendes

2.14. Définition Opérationnelle de la Saillance

2.15. Synthèse des Travaux

2.16. Positionnement de notre travail dans l’état de l’art

2.17. Conclusion du chapitre

3. Phase de Préparation des Données

3.1. Générateur d’images composites/Algorithme de localisation

3.2. phase de description d’images

3.3. Extraction des caracteristiques

3.4. Modèle de sous-titrage d’image

3.5. Conclusion du Chapitre

4. Expérimentations et analyse des résultats

4.1. Présentation des résultats

4.2. Interprétation des résultats

4.3. Interprétation des graphiques – Influence de l’insertion d’objets selon la région

4.4. Évaluation des résultats

4.5. Conclusion du Chapitre

Table des figures

Liste des acronymes

Liste des tableaux

1. Contexte

2. Problématique

3. Hypothèse

4. Objectif

5. Subdivision du travail

5.1. Chapitre 1 : Présentation de l’organisme d’accueil

5.2. Chapitre 2 : État de l’art et cadre théorique

5.3. Chapitre 3 : Méthodologie

5.4. Chapitre 4 : Expérimentations et analyse des résultats

Tóm tắt

I. Giới thiệu về AI chú thích ảnh đa phương tiện Tổng quan

Trí tuệ nhân tạo (AI) đã có những bước tiến vượt bậc trong việc xử lý và hiểu hình ảnh. Đặc biệt, lĩnh vực AI chú thích ảnh đa phương tiện đã thu hút sự quan tâm lớn, cho phép máy tính tự động tạo ra các mô tả bằng ngôn ngữ tự nhiên cho hình ảnh. Các mô hình học sâu, đặc biệt là các mạng nơ-ron tích chập (CNN) và mạng nơ-ron hồi quy (RNN), đã chứng minh khả năng tuyệt vời trong việc trích xuất các đặc trưng thị giác và tạo ra các chú thích có ý nghĩa. Tuy nhiên, việc giải thích cách AI đưa ra các chú thích này vẫn là một thách thức lớn. Mục tiêu chính của nghiên cứu này là khám phá và làm sáng tỏ quá trình đưa ra quyết định của các mô hình AI tạo chú thích ảnh, từ đó tăng cường tính minh bạch và tin cậy của chúng. Việc hiểu rõ cách AI "nhìn" và "mô tả" hình ảnh không chỉ giúp cải thiện hiệu suất của mô hình mà còn giúp người dùng tin tưởng hơn vào các hệ thống mô tả ảnh bằng AI. Công trình nghiên cứu này dựa trên cơ sở lý thuyết vững chắc về thị giác máy tính, xử lý ngôn ngữ tự nhiên và học sâu, đồng thời kết hợp các phương pháp thực nghiệm để đánh giá và so sánh các mô hình chú thích ảnh khác nhau. Bài viết này sẽ trình bày tổng quan về lĩnh vực này, các thách thức chính và các phương pháp tiếp cận hiện tại, cũng như những ứng dụng tiềm năng và hướng nghiên cứu trong tương lai.

1.1. Tầm quan trọng của chú thích ảnh tự động trong AI

Chú thích ảnh tự động đóng vai trò quan trọng trong nhiều ứng dụng AI. Trong lĩnh vực xử lý ảnh tự nhiên (Image Captioning), khả năng tự động tạo ra các mô tả văn bản cho hình ảnh giúp máy tính "hiểu" nội dung hình ảnh một cách toàn diện hơn. Điều này có ý nghĩa to lớn trong việc cải thiện khả năng tìm kiếm và phân loại hình ảnh, cho phép người dùng dễ dàng tìm thấy những hình ảnh liên quan đến nhu cầu của họ. Ví dụ, trong các trang thương mại điện tử, chú thích ảnh tự động có thể giúp người dùng tìm kiếm sản phẩm dựa trên mô tả hình ảnh, ngay cả khi họ không biết tên sản phẩm cụ thể. Ngoài ra, chú thích ảnh tự động còn đóng vai trò quan trọng trong việc hỗ trợ người khuyết tật. Bằng cách cung cấp mô tả bằng âm thanh cho hình ảnh, người khiếm thị có thể tiếp cận thông tin và nội dung trực quan một cách dễ dàng hơn. Điều này giúp tăng cường khả năng tiếp cận thông tin và hòa nhập xã hội cho người khuyết tật. Hơn nữa, trong các ứng dụng an ninh và giám sát, chú thích ảnh tự động có thể giúp tự động phân tích và mô tả các sự kiện hoặc hành vi đáng ngờ trong hình ảnh hoặc video giám sát, giúp tăng cường khả năng phát hiện và ứng phó với các tình huống khẩn cấp. Tóm lại, chú thích ảnh tự động là một công cụ mạnh mẽ với nhiều ứng dụng tiềm năng trong nhiều lĩnh vực khác nhau, từ thương mại điện tử đến hỗ trợ người khuyết tật và an ninh giám sát.

1.2. Ứng dụng của chú thích ảnh đa phương tiện trong thực tế

AI chú thích ảnh đa phương tiện đã được ứng dụng rộng rãi trong nhiều lĩnh vực, mang lại hiệu quả thiết thực và mở ra những cơ hội mới. Trong lĩnh vực thương mại điện tử, các trang web bán hàng trực tuyến sử dụng AI tạo mô tả ảnh để tự động tạo ra các mô tả sản phẩm chi tiết và hấp dẫn, giúp tăng cường trải nghiệm mua sắm và thúc đẩy doanh số bán hàng. Trong lĩnh vực truyền thông xã hội, mô tả ảnh bằng AI cho phép người dùng dễ dàng chia sẻ và tìm kiếm hình ảnh, tạo ra những cuộc trò chuyện và tương tác phong phú hơn. Ví dụ, các nền tảng mạng xã hội sử dụng AI để tự động tạo ra các hashtag và mô tả cho hình ảnh, giúp người dùng dễ dàng tìm kiếm và khám phá nội dung liên quan. Trong lĩnh vực giáo dục, AI tạo chú thích ảnh được sử dụng để tạo ra các tài liệu học tập trực quan và dễ hiểu, giúp học sinh và sinh viên tiếp thu kiến thức một cách hiệu quả hơn. Ví dụ, các ứng dụng học tập sử dụng AI để tự động chú thích hình ảnh trong sách giáo khoa và tài liệu tham khảo, giúp học sinh dễ dàng hình dung và hiểu các khái niệm phức tạp. Trong lĩnh vực y tế, AI tạo mô tả ảnh được sử dụng để phân tích và mô tả các hình ảnh y tế như X-quang và MRI, giúp bác sĩ chẩn đoán bệnh một cách chính xác và nhanh chóng hơn. Ngoài ra, chú thích ảnh đa phương tiện còn được ứng dụng trong các lĩnh vực như du lịch, bảo tàng, và các ứng dụng thực tế ảo, mang lại những trải nghiệm độc đáo và hấp dẫn cho người dùng.

II. Thách thức trong giải thích AI chú thích ảnh Vấn đề hộp đen

Mặc dù AI chú thích ảnh đã đạt được những thành công đáng kể, nhưng vẫn còn nhiều thách thức cần vượt qua. Một trong những thách thức lớn nhất là tính "hộp đen" của các mô hình học sâu. Các mô hình này thường rất phức tạp và khó hiểu, khiến cho việc giải thích lý do tại sao chúng đưa ra một chú thích cụ thể trở nên rất khó khăn. Sự thiếu minh bạch này gây ra những lo ngại về tính tin cậy và khả năng kiểm soát của các mô hình AI tạo chú thích ảnh. Nếu chúng ta không hiểu rõ cách các mô hình này hoạt động, thì chúng ta sẽ khó có thể tin tưởng vào các chú thích mà chúng tạo ra, đặc biệt là trong các ứng dụng quan trọng như y tế hoặc an ninh. Một thách thức khác là sự thiên vị trong dữ liệu huấn luyện. Nếu dữ liệu huấn luyện chứa các mẫu thiên vị, thì các mô hình AI tạo mô tả ảnh có thể học được những thiên vị này và tạo ra các chú thích mang tính phân biệt đối xử hoặc không chính xác. Hơn nữa, việc đánh giá chất lượng của các chú thích ảnh cũng là một thách thức lớn. Các thước đo đánh giá truyền thống như BLEU hoặc METEOR chỉ đánh giá sự tương đồng giữa chú thích do AI tạo ra và chú thích do người tạo ra, nhưng không đánh giá tính chính xác, phù hợp và hữu ích của chú thích trong bối cảnh cụ thể.

2.1. Sự phức tạp của mô hình học sâu và tính minh bạch

Các mô hình học sâu, đặc biệt là các mạng nơ-ron tích chập (CNN) và mạng nơ-ron hồi quy (RNN), đã chứng minh khả năng tuyệt vời trong việc trích xuất các đặc trưng thị giác và tạo ra các chú thích có ý nghĩa. Tuy nhiên, chính sự phức tạp của các mô hình này lại gây ra những khó khăn trong việc giải thích cách chúng đưa ra quyết định. Các mô hình học sâu thường chứa hàng triệu hoặc thậm chí hàng tỷ tham số, và các tham số này được học một cách tự động từ dữ liệu huấn luyện. Do đó, rất khó để hiểu rõ vai trò và tác động của từng tham số đối với quá trình tạo chú thích. Hơn nữa, các mô hình học sâu thường hoạt động như một "hộp đen", trong đó các quá trình bên trong diễn ra một cách mờ ám và khó theo dõi. Điều này khiến cho việc giải thích lý do tại sao một mô hình đưa ra một chú thích cụ thể trở nên rất khó khăn. Việc thiếu minh bạch này gây ra những lo ngại về tính tin cậy và khả năng kiểm soát của các mô hình AI tạo mô tả ảnh. Nếu chúng ta không hiểu rõ cách các mô hình này hoạt động, thì chúng ta sẽ khó có thể tin tưởng vào các chú thích mà chúng tạo ra, đặc biệt là trong các ứng dụng quan trọng như y tế hoặc an ninh.

2.2. Các yếu tố ảnh hưởng đến tính chính xác của chú thích ảnh

Nhiều yếu tố có thể ảnh hưởng đến tính chính xác của các chú thích ảnh do AI tạo ra. Một trong những yếu tố quan trọng nhất là chất lượng và số lượng dữ liệu huấn luyện. Nếu dữ liệu huấn luyện không đủ lớn hoặc chứa các mẫu thiên vị, thì các mô hình AI tạo mô tả ảnh có thể học được những thiên vị này và tạo ra các chú thích mang tính phân biệt đối xử hoặc không chính xác. Ngoài ra, kiến trúc và các tham số của mô hình cũng có thể ảnh hưởng đến tính chính xác của chú thích. Các mô hình phức tạp hơn có thể có khả năng học được các đặc trưng thị giác tinh vi hơn, nhưng cũng có thể dễ bị quá khớp và tạo ra các chú thích không chính xác trên dữ liệu mới. Hơn nữa, cách thức đánh giá chất lượng của các chú thích ảnh cũng có thể ảnh hưởng đến kết quả. Các thước đo đánh giá truyền thống như BLEU hoặc METEOR chỉ đánh giá sự tương đồng giữa chú thích do AI tạo ra và chú thích do người tạo ra, nhưng không đánh giá tính chính xác, phù hợp và hữu ích của chú thích trong bối cảnh cụ thể.

III. Cách giải thích AI chú thích ảnh Phương pháp tiếp cận chính

Để giải quyết thách thức về tính "hộp đen" của các mô hình AI chú thích ảnh, các nhà nghiên cứu đã phát triển nhiều phương pháp tiếp cận khác nhau. Một phương pháp phổ biến là sử dụng các kỹ thuật trực quan hóa để hiển thị các phần của hình ảnh mà mô hình đang tập trung vào khi tạo ra chú thích. Ví dụ, các bản đồ nhiệt (heatmap) có thể được sử dụng để hiển thị các vùng của hình ảnh có ảnh hưởng lớn nhất đến quá trình tạo chú thích. Một phương pháp khác là sử dụng các kỹ thuật giải thích cục bộ (local explanation) để giải thích các quyết định cụ thể của mô hình trên từng hình ảnh. Ví dụ, phương pháp LIME (Local Interpretable Model-agnostic Explanations) có thể được sử dụng để tạo ra các mô hình đơn giản, dễ hiểu để xấp xỉ hành vi của mô hình phức tạp trong một vùng lân cận của hình ảnh. Ngoài ra, các nhà nghiên cứu cũng đang khám phá các phương pháp tạo ra các mô hình AI tạo mô tả ảnh có tính minh bạch cao hơn ngay từ đầu. Ví dụ, các mô hình dựa trên sự chú ý (attention-based models) có thể cung cấp thông tin về các phần của hình ảnh mà mô hình đang tập trung vào khi tạo ra từng từ trong chú thích.

3.1. Sử dụng bản đồ nhiệt heatmap để trực quan hóa sự chú ý

Bản đồ nhiệt là một kỹ thuật trực quan hóa mạnh mẽ cho phép chúng ta hiểu rõ hơn về cách các mô hình AI tạo chú thích ảnh tập trung vào các phần khác nhau của hình ảnh khi tạo ra chú thích. Bản đồ nhiệt thường được tạo ra bằng cách tính toán gradient của đầu ra của mô hình đối với các pixel đầu vào. Các pixel có gradient lớn hơn được coi là quan trọng hơn và được hiển thị bằng màu sắc đậm hơn trên bản đồ nhiệt. Bằng cách chồng bản đồ nhiệt lên hình ảnh gốc, chúng ta có thể thấy rõ các vùng của hình ảnh mà mô hình đang tập trung vào khi tạo ra chú thích. Ví dụ, nếu mô hình đang tạo ra chú thích "một con mèo đang ngồi trên ghế", thì bản đồ nhiệt có thể hiển thị rằng mô hình đang tập trung vào con mèo và chiếc ghế, trong khi bỏ qua các phần khác của hình ảnh. Bản đồ nhiệt có thể được sử dụng để đánh giá xem mô hình có đang tập trung vào các đối tượng và vùng quan trọng của hình ảnh hay không. Nếu bản đồ nhiệt hiển thị rằng mô hình đang tập trung vào các vùng không liên quan, thì điều đó có thể cho thấy rằng mô hình đang hoạt động không chính xác hoặc có thể đang bị ảnh hưởng bởi các yếu tố gây nhiễu.

3.2. Giải thích cục bộ LIME để hiểu quyết định trên từng ảnh

Phương pháp LIME (Local Interpretable Model-agnostic Explanations) là một kỹ thuật giải thích cục bộ cho phép chúng ta hiểu rõ hơn về cách các mô hình AI tạo chú thích ảnh đưa ra quyết định trên từng hình ảnh cụ thể. LIME hoạt động bằng cách tạo ra một mô hình đơn giản, dễ hiểu để xấp xỉ hành vi của mô hình phức tạp trong một vùng lân cận của hình ảnh. Cụ thể, LIME hoạt động bằng cách tạo ra một tập hợp các hình ảnh nhiễu (perturbed images) bằng cách thay đổi một số pixel trong hình ảnh gốc. Sau đó, LIME sử dụng mô hình phức tạp để tạo ra các chú thích cho các hình ảnh nhiễu này. Cuối cùng, LIME sử dụng các chú thích và các hình ảnh nhiễu để huấn luyện một mô hình đơn giản, dễ hiểu (ví dụ: một mô hình tuyến tính) để xấp xỉ hành vi của mô hình phức tạp trong vùng lân cận của hình ảnh gốc. Mô hình đơn giản này có thể được sử dụng để giải thích lý do tại sao mô hình phức tạp đưa ra một chú thích cụ thể cho hình ảnh gốc. Ví dụ, nếu mô hình đơn giản cho thấy rằng một số pixel cụ thể trong hình ảnh có ảnh hưởng lớn đến quá trình tạo chú thích, thì điều đó có thể cho thấy rằng mô hình phức tạp đang tập trung vào các pixel này khi đưa ra quyết định.

IV. Ứng dụng giải thích AI Cải thiện mô hình chú thích ảnh tự động

Việc giải thích các mô hình AI chú thích ảnh không chỉ giúp tăng cường tính minh bạch và tin cậy của chúng, mà còn có thể được sử dụng để cải thiện hiệu suất của các mô hình này. Bằng cách hiểu rõ hơn về cách các mô hình hoạt động, chúng ta có thể xác định các điểm yếu và các vấn đề tiềm ẩn, và sau đó phát triển các phương pháp để khắc phục các vấn đề này. Ví dụ, nếu chúng ta phát hiện ra rằng một mô hình đang tập trung vào các vùng không liên quan của hình ảnh, thì chúng ta có thể sử dụng các kỹ thuật điều chỉnh dữ liệu (data augmentation) hoặc các kỹ thuật huấn luyện đặc biệt để giúp mô hình tập trung vào các đối tượng và vùng quan trọng hơn. Ngoài ra, việc giải thích các mô hình AI tạo mô tả ảnh có thể giúp chúng ta phát triển các thước đo đánh giá chất lượng chú thích ảnh tốt hơn. Bằng cách hiểu rõ hơn về các yếu tố ảnh hưởng đến tính chính xác, phù hợp và hữu ích của chú thích, chúng ta có thể thiết kế các thước đo đánh giá toàn diện hơn và đánh giá các mô hình một cách chính xác hơn.

4.1. Phát hiện và sửa lỗi trong quá trình tạo chú thích ảnh

Giải thích AI có thể giúp chúng ta phát hiện và sửa chữa các lỗi trong quá trình tạo chú thích ảnh. Ví dụ, nếu chúng ta phát hiện ra rằng một mô hình thường xuyên tạo ra các chú thích không chính xác cho các hình ảnh chứa một đối tượng cụ thể, thì chúng ta có thể điều tra lý do tại sao mô hình lại gặp khó khăn với đối tượng này. Có thể là do đối tượng này không được biểu diễn đủ tốt trong dữ liệu huấn luyện, hoặc có thể là do mô hình không có khả năng trích xuất các đặc trưng thị giác quan trọng của đối tượng. Sau khi xác định được nguyên nhân gốc rễ của vấn đề, chúng ta có thể phát triển các phương pháp để khắc phục nó. Ví dụ, chúng ta có thể thu thập thêm dữ liệu huấn luyện chứa đối tượng này, hoặc chúng ta có thể điều chỉnh kiến trúc hoặc các tham số của mô hình để giúp nó trích xuất các đặc trưng thị giác quan trọng của đối tượng một cách chính xác hơn. Ngoài ra, giải thích AI có thể giúp chúng ta xác định các thiên vị trong dữ liệu huấn luyện và các mô hình AI tạo chú thích ảnh. Bằng cách phân tích các chú thích do mô hình tạo ra cho các nhóm đối tượng khác nhau, chúng ta có thể phát hiện ra nếu mô hình đang tạo ra các chú thích mang tính phân biệt đối xử hoặc không chính xác cho một nhóm cụ thể.

4.2. Tối ưu hóa dữ liệu huấn luyện và kiến trúc mô hình AI

Thông tin thu được từ việc giải thích AI có thể được sử dụng để tối ưu hóa dữ liệu huấn luyện và kiến trúc của các mô hình AI tạo mô tả ảnh. Ví dụ, nếu chúng ta phát hiện ra rằng một mô hình đang gặp khó khăn trong việc tạo ra các chú thích chính xác cho các hình ảnh chứa các đối tượng phức tạp hoặc các cảnh có nhiều đối tượng, thì chúng ta có thể thu thập thêm dữ liệu huấn luyện chứa các hình ảnh như vậy. Ngoài ra, chúng ta có thể sử dụng các kỹ thuật điều chỉnh dữ liệu để tạo ra các hình ảnh huấn luyện mới từ các hình ảnh hiện có. Ví dụ, chúng ta có thể xoay, lật hoặc thay đổi độ sáng của các hình ảnh để tạo ra các biến thể khác nhau của cùng một cảnh. Thông tin thu được từ việc giải thích AI cũng có thể được sử dụng để điều chỉnh kiến trúc của các mô hình AI tạo chú thích ảnh. Ví dụ, nếu chúng ta phát hiện ra rằng một mô hình không có khả năng trích xuất các đặc trưng thị giác quan trọng của một đối tượng cụ thể, thì chúng ta có thể thêm các lớp hoặc các kết nối mới vào mô hình để giúp nó trích xuất các đặc trưng này một cách chính xác hơn. Ngoài ra, chúng ta có thể sử dụng các kỹ thuật học chuyển giao (transfer learning) để khởi tạo mô hình với các tham số được huấn luyện trước trên một tập dữ liệu lớn khác, và sau đó tinh chỉnh mô hình trên tập dữ liệu cụ thể của chúng ta.

V. Tương lai của giải thích AI chú thích ảnh Hướng nghiên cứu

Lĩnh vực giải thích AI chú thích ảnh vẫn còn nhiều tiềm năng phát triển. Các nhà nghiên cứu đang khám phá các phương pháp mới để giải thích các mô hình phức tạp hơn, phát triển các thước đo đánh giá chất lượng chú thích ảnh tốt hơn, và tạo ra các mô hình AI tạo mô tả ảnh có tính minh bạch cao hơn ngay từ đầu. Một hướng nghiên cứu quan trọng là phát triển các phương pháp giải thích có thể áp dụng cho nhiều loại mô hình khác nhau, từ các mô hình dựa trên học sâu đến các mô hình dựa trên logic. Điều này sẽ cho phép chúng ta so sánh và đánh giá các mô hình khác nhau một cách công bằng và nhất quán. Một hướng nghiên cứu khác là phát triển các phương pháp giải thích có thể cung cấp thông tin về các thiên vị trong dữ liệu huấn luyện và các mô hình AI tạo chú thích ảnh. Điều này sẽ giúp chúng ta tạo ra các mô hình công bằng và chính xác hơn cho tất cả các nhóm đối tượng.

5.1. Phát triển các phương pháp giải thích đa dạng và toàn diện

Trong tương lai, việc phát triển các phương pháp giải thích đa dạng và toàn diện sẽ đóng vai trò quan trọng trong việc tăng cường tính minh bạch và tin cậy của các mô hình AI tạo chú thích ảnh. Các phương pháp giải thích này nên có khả năng cung cấp thông tin về nhiều khía cạnh khác nhau của quá trình tạo chú thích, bao gồm: - Các đối tượng và vùng quan trọng của hình ảnh mà mô hình đang tập trung vào. - Các quy tắc và logic mà mô hình đang sử dụng để tạo ra chú thích. - Các thiên vị trong dữ liệu huấn luyện và các mô hình AI tạo mô tả ảnh. - Các điểm yếu và các vấn đề tiềm ẩn của mô hình. Các phương pháp giải thích này cũng nên có khả năng cung cấp thông tin cho nhiều đối tượng khác nhau, từ các nhà nghiên cứu và các nhà phát triển đến người dùng cuối. Điều này sẽ giúp tất cả mọi người hiểu rõ hơn về cách các mô hình AI tạo chú thích ảnh hoạt động và cách chúng có thể được sử dụng một cách an toàn và hiệu quả.

5.2. Tích hợp giải thích AI vào quy trình phát triển mô hình

Trong tương lai, việc tích hợp giải thích AI vào quy trình phát triển các mô hình AI tạo mô tả ảnh sẽ trở nên ngày càng quan trọng. Điều này có nghĩa là các phương pháp giải thích AI nên được sử dụng trong tất cả các giai đoạn của quy trình phát triển, từ thu thập và chuẩn bị dữ liệu huấn luyện đến huấn luyện và đánh giá mô hình. Bằng cách sử dụng giải thích AI trong giai đoạn thu thập và chuẩn bị dữ liệu, chúng ta có thể phát hiện và loại bỏ các thiên vị trong dữ liệu huấn luyện. Bằng cách sử dụng giải thích AI trong giai đoạn huấn luyện mô hình, chúng ta có thể theo dõi quá trình học của mô hình và đảm bảo rằng nó đang học các quy tắc và logic chính xác. Bằng cách sử dụng giải thích AI trong giai đoạn đánh giá mô hình, chúng ta có thể đánh giá tính chính xác, phù hợp và hữu ích của các chú thích do mô hình tạo ra.

VI. Kết luận Giải thích AI chú thích ảnh chìa khóa cho tương lai

Giải thích AI chú thích ảnh là một lĩnh vực nghiên cứu quan trọng và đầy hứa hẹn. Bằng cách giải quyết thách thức về tính "hộp đen" của các mô hình học sâu, chúng ta có thể tăng cường tính minh bạch, tin cậy và hiệu suất của các mô hình AI tạo mô tả ảnh. Việc giải thích các mô hình AI tạo chú thích ảnh không chỉ giúp chúng ta hiểu rõ hơn về cách các mô hình hoạt động, mà còn có thể được sử dụng để cải thiện hiệu suất của các mô hình này, phát triển các thước đo đánh giá chất lượng chú thích ảnh tốt hơn, và tạo ra các mô hình công bằng và chính xác hơn cho tất cả các nhóm đối tượng. Với sự phát triển không ngừng của các phương pháp giải thích AI và sự tăng trưởng của dữ liệu và sức mạnh tính toán, chúng ta có thể mong đợi những tiến bộ đáng kể trong lĩnh vực AI chú thích ảnh trong những năm tới.

6.1. Tóm tắt những đóng góp của giải thích AI chú thích ảnh

Giải thích AI đóng vai trò quan trọng trong việc cải thiện chất lượng và độ tin cậy của các hệ thống chú thích ảnh. Những đóng góp chính bao gồm:

  • Tăng cường tính minh bạch: Giải thích AI giúp làm sáng tỏ các quy trình bên trong của mô hình, cho phép người dùng hiểu cách mô hình đưa ra quyết định chú thích.
  • Cải thiện độ chính xác: Bằng cách xác định các yếu tố ảnh hưởng đến chất lượng chú thích, giải thích AI giúp tinh chỉnh mô hình và dữ liệu huấn luyện để đạt được độ chính xác cao hơn.
  • Giảm thiểu thiên vị: Giải thích AI giúp phát hiện và loại bỏ các thiên vị tiềm ẩn trong dữ liệu huấn luyện hoặc mô hình, đảm bảo chú thích công bằng và khách quan.
  • Nâng cao khả năng kiểm soát: Với khả năng hiểu rõ hơn về mô hình, người dùng có thể kiểm soát quá trình chú thích và điều chỉnh để phù hợp với các yêu cầu cụ thể.

Nhờ những đóng góp này, giải thích AI đã trở thành một phần không thể thiếu trong việc phát triển các hệ thống chú thích ảnh tự động hiệu quả và đáng tin cậy.

6.2. Hướng phát triển trong tương lai của giải thích AI chú thích ảnh

Lĩnh vực giải thích AI chú thích ảnh đang phát triển nhanh chóng với nhiều hướng nghiên cứu đầy hứa hẹn. Một số hướng phát triển chính bao gồm:

  • Phát triển các phương pháp giải thích cục bộ chính xác hơn: Các phương pháp giải thích cục bộ hiện tại có thể không chính xác trong một số trường hợp. Nghiên cứu trong tương lai sẽ tập trung vào việc phát triển các phương pháp chính xác và đáng tin cậy hơn.
  • Giải thích các mô hình chú thích ảnh phức tạp hơn: Các mô hình chú thích ảnh ngày càng trở nên phức tạp, đòi hỏi các phương pháp giải thích tiên tiến hơn để hiểu rõ hoạt động của chúng.
  • Tích hợp giải thích AI vào quy trình thiết kế mô hình: Giải thích AI nên được tích hợp vào quy trình thiết kế mô hình để tạo ra các mô hình chú thích ảnh dễ giải thích hơn.
  • Phát triển các công cụ và kỹ thuật để trực quan hóa các giải thích: Các công cụ trực quan hóa sẽ giúp người dùng dễ dàng hiểu và diễn giải các giải thích được tạo bởi các phương pháp giải thích AI.

Với những tiến bộ trong lĩnh vực này, giải thích AI sẽ đóng vai trò ngày càng quan trọng trong việc phát triển các hệ thống chú thích ảnh tự động mạnh mẽ và đáng tin cậy.

15/09/2025

Trích đoạn nội dung tài liệu

UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL MUNDUKU MUNDUKU DEO EXPLICABILITÉ DANS LES SYSTÈMES MULTIMODAUX (SOUS-TITRAGE D’IMAGES) GIẢI THÍCH TRONG CÁC HỆ THỐNG ĐA PHƯƠNG TIỆN (CHÚ THÍCH HÌNH ẢNH) MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE HANOÏ – 2024 UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL MUNDUKU MUNDUKU DEO EXPLICABILITÉ DANS LES SYSTÈMES MULTIMODAUX (SOUS-TITRAGE D’IMAGES) GIẢI THÍCH TRONG CÁC HỆ THỐNG ĐA PHƯƠNG TIỆN (CHÚ THÍCH HÌNH ẢNH) MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE Spécialité : Systèmes Intelligents et Multimédia Code : 8480201.02 Sous la direction de : Anais Halftermeyer, Maı̂tre de conférences, HDR, Université d’Orléans Co-encadré par : Sofiane Elguendouze, Docteur (PhD), Université d’Orléans HANOÏ – 2024 ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée. LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc.

MUNDUKU MUNDUKU DEO Remerciements Nous remercions tout d’abord le créateur de l’univers visible et invisible, Dieu Tout- Puissant, à travers son Fils, notre Seigneur Jésus-Christ, pour la grâce et le soutien constants tout au long de cette période de formation. Ce travail est le fruit de nombreux sacrifices, d’efforts dévoués, et du soutien moral et matériel de nombreuses personnes, auxquelles nous exprimons notre sincère reconnaissance. Nous adressons notre profonde gratitude à nos encadrants, Mme Anais Halftermeyer et M. Sofiane Elguendouze, pour leur accompagnement exceptionnel, leur bienveillance et leurs conseils avisés.

Leur expertise et leur soutien constant au sein du Laboratoire d’Informatique Fondamentale d’Orléans (LIFO) ont été essentiels à la réalisation de ce projet, rattaché à l’équipe Contraintes et Apprentissage (CA). Ce cadre de recherche a été pour nous une source d’inspiration et de réflexion stimulante. Nous tenons également à exprimer notre gratitude aux membres de l’équipe de re- cherche du LIFO pour leur accueil chaleureux et leur professionnalisme tout au long de notre parcours. Nos remerciements vont également au corps enseignant de l’Institut Francophone In- ternational (IFI) pour la qualité de leur formation et leur engagement, dont l’impact a permis des progrès significatifs.

Enfin, nous adressons nos remerciements à l’administration de l’IFI pour son soutien et son accueil chaleureux lors de notre arrivée au Vietnam, ainsi qu’aux autorités de la Faculté des Sciences de l’Université de Kinshasa pour leur soutien. À tous ceux qui, de près ou de loin, ont contribué à la réussite de ce travail, nous exprimons notre reconnaissance. Leurs encouragements et leur soutien inestimable ont été une source constante de motivation et d’inspiration. Résumé L’intelligence artificielle (IA), et plus particulièrement les techniques d’apprentissage profond, ont permis des avancées significatives dans le développement de modèles com- plexes, notamment pour le sous-titrage et le légendage d’images.

Cependant, ces modèles sont souvent perçus comme des “boı̂tes noires” en raison de leur manque de transparence, soulevant ainsi des préoccupations quant à l’explicabilité de leurs décisions. Un aspect clé de ces systèmes réside dans la saillance des objets, qui désigne l’importance attribuée aux éléments d’une image lors de la génération de sa légende. Cette étude explore l’influence de la localisation des objets sur leur saillance visuelle dans le cadre de la génération de légendes. Par une approche explicative heuristique, il est démontré que la position d’un objet inséré dans une scène impacte sa visibilité, indépendamment de ses caractéristiques telles que la taille ou la couleur.

Un protocole expérimental, basé sur la division des images en zones définies, permet d’analyser la saillance en fonction de la position spéci- fique des objets. Les résultats montrent que certaines régions, comme le Centre, renforcent la saillance des objets, tandis que les zones situées au Sud la diminuent. En clarifiant ces mécanismes, ce travail vise à renforcer l’explicabilité et l’interprétabilité des modèles de sous-titrage d’images, contribuant ainsi à une plus grande confiance des utilisateurs dans ces systèmes. Plusieurs pistes de recherche non explorées sont identifiées, notamment la saillance relative basée sur la distance entre les objets.

Mots-clés : Saillance visuelle, génération de légendes d’images, explicabilité heuris- tique, protocole expérimental, interprétabilité. Abstract Artificial intelligence (AI), particularly deep learning techniques, has enabled signi- ficant advances in the development of complex models, especially for image captioning and description. However, these models are often perceived as “black boxes” due to their lack of transparency, raising concerns about the explainability of their decisions. A key aspect of these systems lies in object salience, which refers to the importance attributed to elements within an image during caption generation.

This study explores the influence of object location on their visual salience in the context of caption generation. Through a heuristic explanatory approach, it is demonstrated that the position of an object inserted into a scene significantly impacts its visibility, regardless of its characteristics such as size or color. An experimental protocol, based on the division of images into defined zones, enables the analysis of salience based on the specific position of objects. Results show that certain regions, such as the Center, enhance object salience, while areas located in the South tend to reduce it.

By clarifying these mechanisms, this work aims to strengthen the explainability and interpretability of image captioning models, thus contributing to grea- ter user confidence in these systems. Several unexplored research avenues are identified, including relative salience based on the distance between objects. Keywords : Visual salience, image caption generation, heuristic explainability, expe- rimental protocol, interpretability. Table des matières 0.5 Subdivision du travail.

3 1 Présentation de l’organisme d’accueil 5 1.1 Laboratoire d’Informatique Fondamentale d’Orléans (LIFO) .4 Membres du LIFO .4 Contexte Organisationnel du Stage .5 Conclusion du Chapitre. 8 2 État de l’art et cadre théorique 10 2.1 Explicabilité en Intelligence Artificielle (XAI) .2 Explicabilité et Interprétabilité .3 Revue des Méthodes XAI .4 Débat dans la littérature : les méthodes agnostiques vs spécifiques 15 2.5 Méthodes post-hocs et Ante-hoc .7 Rôle dans les approches basées sur des observations immenses .2 Génération automatique de légendes .3 Approches de sous-titrage .3 Le processus de génération de légendes .1 Collecte et Traitement des Données .2 Extraction de Caractéristiques .3 Conception et Entraı̂nement du Modèle de Légende .1 Saillance et génération de légendes .2 Définition Opérationnelle de la Saillance .3 Synthèse des Travaux .5 Positionnement de notre travail dans l’état de l’art .6 Conclusion du chapitre .1 Phase de Préparation des Données .3 Générateur d’images composites/Algorithme de localisation .3 phase de description d’images .1 Extraction des caracteristiques .2 Modèle de sous-titrage d’image .4 Conclusion du Chapitre. 47 4 Expérimentations et analyse des résultats 48 4.2 Présentation des résultats .1 Interprétation des résultats .2 Interprétation des graphiques – Influence de l’insertion d’objets se- lon la région .3 Évaluation des résultats .4 Conclusion du Chapitre. 59 ii Table des figures 1.2 Localisation Geographique de Lifo (Université d’Orléans, 2024b) .3 organigramme de Lifo .1 Flux d’un Modèle de Machine Learning (Tjoa and Guan, 2020) .2 représentation de légende des images .1 Pipeline du Protocole Proposé .2 Catégorie d’images de fond sélectionnées avant filtrage .3 Répartition des catégories d’objets de fond après les 3 filtres .5 Répartition des zones dans une grille 3x3 .6 Quelques illustrations des objets de fond et de leur emplacement.7 Quelques illustrations des detection des objects de fond .8 illustration de la sortie de l’algorithme de localisation /generateur d’image synthetique .9 Illustration de Légendes Générées par le Modèle de Sous-Titrage d’Image .10 illustration du cas (1-1) : Objet de fond et objet inséré tous deux saillants 46 4.1 Total des insertions de tous les objets confondus dans les images de fond par region/position .2 Répartition des cas de figures.3 Répartition groupée de cas de figures.4 illustration de cas de figure 0-0.5 pipline pour l’evaluation.6 Répartition de cas de figure grouper d’evaluation.7 Description des Scénarios de Saillance.

59 iii Liste des acronymes LIFO Laboratoire d’Informatique Fondamentale d’Orléans INSA Institut National des Sciences Appliquées CA Contraintes et Apprentissage XAI EXplainable Artificial Intelligence AI Artificial Intelligence CNN Convolutional Neural Network RCNN Region-based Convolutional Neural Network LSTM Long Short-Term Memory RNN Recurrent Neural Network BLEU Bilingual Evaluation Understudy METEOR Metric for Evaluation of Translation with Explicit ORdering ROUGE Recall-Oriented Understudy for Gisting Evaluation ViT Vision Transformer CPTR Caption Transformer GRU Gated Recurrent Unit SHAP SHapley Additive exPlanations LIME Local Interpretable Model-agnostic Explanations MS COCO Microsoft Common Objects in Context ROC Receiver Operating Characteristic NLP Natural Language Processing ML Machine Learning iv Liste des tableaux 3.1 Fréquence des objets dans MS COCO .2 Tableau des co-occurrences d’objets dans les images .1 Total des insertions .2 Répartition des valeurs par cas de figure dans chaques regions .3 Nombre total d’insertions par région pour le cas d’evaluation .4 Répartition des valeurs par cas de figure dans chaque région .1 Contexte Les progrès rapides réalisés dans le domaine de l’intelligence artificielle (IA), et plus particulièrement dans les techniques d’apprentissage profond, ont permis le développe- ment de modèles de plus en plus complexes et performants. Ces systèmes, bien que ef- ficaces, sont souvent considérés comme des “boı̂tes noires” en raison de leur manque de transparence, rendant difficile la compréhension de leur fonctionnement interne. Cette opacité suscite des préoccupations croissantes, notamment en matière d’explicabilité, car il devient essentiel de pouvoir expliquer et justifier les décisions prises par ces modèles. Ce besoin d’explicabilité est d’autant plus pressant dans les systèmes multimodaux, qui intègrent des données provenant de plusieurs modalités, comme l’image et le texte.

Les modèles de sous-titrage d’images, qui combinent des réseaux neuronaux profonds pour analyser des scènes visuelles et générer des descriptions textuelles, illustrent parfai- tement cette complexité croissante. Ces modèles transforment les informations visuelles en représentations latentes complexes, encapsulant des caractéristiques importantes des objets et des scènes. Bien que ces représentations soient cruciales pour l’efficacité du système, elles sont souvent difficiles à interpréter, ce qui complique la compréhension des mécanismes internes qui guident les décisions du modèle. Par conséquent, l’explicabilité de ces systèmes devient un enjeu majeur, particulièrement pour des tâches aussi com- plexe que le sous-titrage d’images, où l’interaction entre vision et langage doit être bien comprise.

Un aspect central dans l’analyse des scènes visuelles est la saillance des objets, qui fait référence à l’importance relative qu’un modèle accorde aux différents objets présents dans une image pour la génération des mots constituant les légendes.La manière dont les modèles identifient et priorisent ces objets saillants a un impact direct sur la qualité des légendes générés. Toutefois, les mécanismes qui sous-tendent la saillance visuelle de- meurent en grande partie méconnus, en particulier lorsqu’il s’agit de comprendre comment la position influence leur perception par le modèle. Dans un tel contexte, il devient essentiel de mieux comprendre les mécanismes régissant la saillance visuelle dans les systèmes de sous-titrage d’images. Le but est non seulement d’améliorer les performances de ces systèmes, mais également de rendre leurs décisions plus transparentes et compréhensibles pour les utilisateurs.

Ceci pourrait par exemple aider à prévoir et corriger les éventuelles erreurs, et par conséquent renforcer la confiance des utilisateurs, notamment dans des domaines applicatifs critiques.2 Problématique Dans les systèmes multimodaux basés sur l’apprentissage profond, tels que ceux utilisés pour le sous-titrage d’images, l’un des défis majeurs réside dans l’opacité des processus de décision. Bien que ces systèmes soient capables de générer des descriptions textuelles cohérentes à partir de scènes visuelles, il est souvent difficile de comprendre comment ils attribuent de l’importance à certains objets plutôt qu’à d’autres dans une image. Ce manque de transparence soulève des préoccupations en matière d’explicabilité, car les utilisateurs doivent pouvoir interpréter et justifier les résultats produits par ces modèles. L’aspect central considéré dans cette problématique est la saillance visuelle, qui dé- termine l’importance accordée par le modèle à différents objets dans une scène visuelle lors de la génération des descriptions.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ