Nghiên cứu về học máy và clustering ảnh tương tác tại Đại học Quốc gia Hà Nội

Nghiên cứu về mise en place dun apprentissage de metrique cho clustering bán giám sát tương tác hình ảnh, mang lại giải pháp hiệu quả.

Trường đại học

Université Nationale Du Vietnam, Hanoi

Chuyên ngành

Informatique

Người đăng

Ẩn danh

Thể loại

Mémoire De Fin D’études

2015

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: INTRODUCTION

1.1. Problématique et Motivation

1.2. Objectifs et Principales Contributions

2. CHƯƠNG 2: CLUSTERING SEMI-SUPERVISÉ INTERACTIF INCRÉMENTAL

2.1. Introduction

2.2. Clustering non-supervisé

2.2.1. Différents types de méthodes

2.2.1.1. Méthodes par partitionnement

2.2.1.2. Méthodes hiérarchiques

2.2.1.3. Méthodes basées sur la densité

2.2.1.4. Méthodes basées sur les grilles

2.2.2. Présentation des méthodes de clustering non-supervisé utilisées

2.3. Clustering semi-supervisé

2.3.1. Différents types de méthodes

2.3.2. Présentation de HMRF-KMeans

2.4. Modèle de clustering semi-supervisé interactif de LAI Hien Phuong

2.4.1. Introduction et Motivation

2.4.3. Stratégies de déduction des contraintes

2.4.4. Méthode de clustering semi-supervisé interactif incrémental

3. CHƯƠNG 3: APPRENTISSAGE DE MÉTRIQUE

3.2. Distance de Mahalanobis

3.3. Différents types d'approches d'apprentissage de métrique

3.4. Choix d'une méthode d'apprentissage de métrique dans notre contexte

4. CHƯƠNG 4: INTÉGRATION DE L'APPRENTISSAGE DE MÉTRIQUE DANS LE SYSTÈME EXISTANT

4.2. Présentation de la méthode

4.3. Implémentation de la méthode

4.4. Analyses des résultats obtenus

4.5. Discussion et Conclusion

5. CHƯƠNG 5: CONCLUSION

A ILLUSTRATION DES MÉTHODES DE CLUSTERING NON-SUPERVISÉ

B MESURES DE QUALITÉ DE CLUSTERING

C RÉSULTAT EXPÉRIMENTAL DE L'ALGORITHME MPCKMEANS

D RÉSULTATS DÉTAILLÉS DE QUELQUES MÉTHODES D'APPRENTISSAGE DE MÉTRIQUE

BIBLIOGRAPHIE

Tóm tắt

I. Tổng quan về Học máy cho phân loại ảnh tương tác hiệu quả

Học máy đã trở thành một công cụ quan trọng trong việc phân loại ảnh, đặc biệt là trong bối cảnh tương tác giữa người dùng và hệ thống. Phân loại ảnh không chỉ đơn thuần là việc nhận diện đối tượng mà còn bao gồm việc hiểu và phân tích nội dung hình ảnh một cách sâu sắc. Trong bài viết này, sẽ trình bày các phương pháp học máy hiện đại, đặc biệt là các kỹ thuật học sâu và mạng nơ-ron, để cải thiện hiệu quả phân loại ảnh.

1.1. Khái niệm cơ bản về học máy và phân loại ảnh

Học máy là một lĩnh vực con của trí tuệ nhân tạo, cho phép máy tính học hỏi từ dữ liệu mà không cần lập trình cụ thể. Phân loại ảnh là quá trình gán nhãn cho hình ảnh dựa trên nội dung của chúng. Các thuật toán học máy như K-means, SVM, và mạng nơ-ron đã được áp dụng rộng rãi trong lĩnh vực này.

1.2. Tầm quan trọng của tương tác trong phân loại ảnh

Tương tác giữa người dùng và hệ thống phân loại ảnh giúp cải thiện độ chính xác của mô hình. Người dùng có thể cung cấp phản hồi, từ đó hệ thống có thể điều chỉnh và cải thiện kết quả phân loại. Điều này đặc biệt quan trọng trong các ứng dụng yêu cầu độ chính xác cao như y tế và an ninh.

II. Vấn đề và thách thức trong phân loại ảnh tương tác

Mặc dù học máy đã đạt được nhiều thành tựu trong phân loại ảnh, nhưng vẫn còn nhiều thách thức cần giải quyết. Một trong những vấn đề lớn nhất là sự không đồng nhất trong dữ liệu hình ảnh, cũng như sự phức tạp trong việc hiểu ngữ nghĩa của hình ảnh. Các thuật toán hiện tại đôi khi không thể xử lý tốt các tình huống phức tạp, dẫn đến kết quả không chính xác.

2.1. Sự không đồng nhất trong dữ liệu hình ảnh

Dữ liệu hình ảnh thường rất đa dạng và không đồng nhất, từ độ phân giải, màu sắc đến góc chụp. Điều này gây khó khăn cho các thuật toán phân loại trong việc nhận diện và phân loại chính xác các đối tượng trong hình ảnh.

2.2. Khó khăn trong việc hiểu ngữ nghĩa hình ảnh

Việc hiểu ngữ nghĩa của hình ảnh là một thách thức lớn trong học máy. Các mô hình hiện tại thường gặp khó khăn trong việc phân tích các yếu tố ngữ nghĩa phức tạp, dẫn đến việc phân loại không chính xác.

III. Phương pháp học máy hiệu quả cho phân loại ảnh tương tác

Để giải quyết các thách thức trong phân loại ảnh, nhiều phương pháp học máy đã được phát triển. Các phương pháp này không chỉ cải thiện độ chính xác mà còn tăng cường khả năng tương tác giữa người dùng và hệ thống. Một số phương pháp nổi bật bao gồm học sâu, mạng nơ-ron tích chập (CNN), và học không giám sát.

3.1. Học sâu và mạng nơ ron tích chập

Học sâu, đặc biệt là mạng nơ-ron tích chập, đã chứng minh được hiệu quả vượt trội trong việc phân loại ảnh. Các mô hình này có khả năng tự động trích xuất đặc trưng từ hình ảnh mà không cần can thiệp của con người, giúp cải thiện độ chính xác phân loại.

3.2. Học không giám sát và tương tác người dùng

Học không giám sát cho phép hệ thống tự động phân loại mà không cần nhãn. Khi kết hợp với phản hồi từ người dùng, hệ thống có thể cải thiện liên tục và thích ứng với các thay đổi trong dữ liệu.

IV. Ứng dụng thực tiễn của học máy trong phân loại ảnh

Học máy đã được áp dụng rộng rãi trong nhiều lĩnh vực khác nhau, từ y tế đến thương mại điện tử. Các ứng dụng này không chỉ giúp cải thiện hiệu quả công việc mà còn mang lại giá trị lớn cho người dùng. Ví dụ, trong y tế, phân loại ảnh có thể giúp chẩn đoán bệnh nhanh chóng và chính xác hơn.

4.1. Ứng dụng trong y tế

Trong lĩnh vực y tế, học máy được sử dụng để phân loại hình ảnh y tế như X-quang, MRI, giúp bác sĩ chẩn đoán bệnh nhanh chóng và chính xác hơn. Các mô hình học sâu đã cho thấy khả năng phát hiện các dấu hiệu bệnh lý mà con người có thể bỏ sót.

4.2. Ứng dụng trong thương mại điện tử

Trong thương mại điện tử, phân loại ảnh giúp cải thiện trải nghiệm người dùng bằng cách gợi ý sản phẩm dựa trên hình ảnh. Hệ thống có thể nhận diện sản phẩm từ hình ảnh và cung cấp thông tin chi tiết cho người tiêu dùng.

V. Kết luận và tương lai của học máy trong phân loại ảnh

Học máy đang mở ra nhiều cơ hội mới trong lĩnh vực phân loại ảnh. Tương lai của công nghệ này hứa hẹn sẽ mang lại những cải tiến đáng kể trong độ chính xác và khả năng tương tác. Việc phát triển các mô hình học máy mạnh mẽ hơn sẽ giúp giải quyết các thách thức hiện tại và mở rộng ứng dụng của chúng trong nhiều lĩnh vực khác nhau.

5.1. Xu hướng phát triển trong học máy

Xu hướng phát triển trong học máy sẽ tập trung vào việc cải thiện khả năng tương tác và tự động hóa. Các mô hình mới sẽ được phát triển để xử lý tốt hơn các dữ liệu không đồng nhất và phức tạp.

5.2. Tương lai của phân loại ảnh tương tác

Tương lai của phân loại ảnh tương tác sẽ chứng kiến sự gia tăng trong việc sử dụng trí tuệ nhân tạo để cải thiện trải nghiệm người dùng. Các hệ thống sẽ trở nên thông minh hơn, có khả năng học hỏi từ phản hồi của người dùng và tự động điều chỉnh để đạt được kết quả tốt nhất.

19/08/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ mise en place dun apprentissage de metrique pour du clustering semi supervise interactif dimages

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Nghiên cứu tập trung vào việc cải tiến phương pháp phân loại ảnh tự động bằng cách thiết lập thuật toán học máy tự động các chỉ số (metric learning) phục vụ cho phân loại ảnh bán giám sát tương tác, nhằm gia tăng độ chính xác và tính ứng dụng trong khai thác dữ liệu ảnh lớn. Với hơn 1000 ảnh thuộc 10 lớp phân loại khác nhau từ bộ dữ liệu Wang, nghiên cứu khai thác đặc trưng rgSIFT và phương pháp học metric dựa trên khoảng cách Mahalanobis để thích nghi và cải thiện kết quả phân nhóm ảnh theo yêu cầu người dùng qua các vòng tương tác. Nghiên cứu dự kiến nâng cao độ đo VMesure từ mức khoảng 0,56 lên trên 0,8 trong vòng dưới 10 lần lặp tương tác, thể hiện sự cải thiện vượt trội so với phương pháp sử dụng khoảng cách Euclide truyền thống. Phạm vi nghiên cứu diễn ra trong thời gian năm 2015, tập trung trên hệ thống phân loại ảnh tương tác bán giám sát, dựa trên cấu trúc cây CF-Tree từ thuật toán BIRCH, cho phép xử lý dữ liệu lớn một cách hiệu quả với tính mở rộng và khả năng thích ứng theo thời gian. Ý nghĩa của nghiên cứu góp phần thu hẹp khoảng cách ngữ nghĩa (semantic gap) giữa dữ liệu đặc trưng thấp cấp và sự hài lòng của người dùng cuối, đồng thời làm tăng tỷ lệ thành công phân loại, giảm thời gian tính toán và nâng cao trải nghiệm tương tác trong hệ thống khai thác ảnh tự động.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai lý thuyết trọng tâm:

Phân nhóm bán giám sát tương tác (Interactive Semi-Supervised Clustering): Kết hợp thông tin giám sát không hoàn chỉnh (như các constraints MustLink và CannotLink) với dữ liệu chưa gán nhãn để phân nhóm ảnh. Nổi bật là mô hình HMRF-KMeans, sử dụng hồi quy Markov ẩn kết hợp với thuật toán KMeans để dung hòa dữ liệu và các ràng buộc cặp ảnh tương tác. Chiến lược tương tác cho phép người dùng liên tục hiệu chỉnh kết quả phân nhóm qua các bước lặp.
Học metric với khoảng cách Mahalanobis: Khoảng cách Mahalanobis được mở rộng từ khoảng cách Euclide bằng cách áp dụng ma trận covariance nhằm đánh giá khoảng cách dựa trên phân bố dữ liệu. Học metric tập trung tối ưu ma trận covariance sao cho khoảng cách phản ánh tốt hơn bản chất dữ liệu trong không gian đa chiều, đồng thời giảm thiểu ảnh hưởng của đặc trưng nhiễu hoặc dư thừa. Thuật toán MPCKMeans (Metric Pairwise Constraints KMeans) được lựa chọn nhờ khả năng hỗ trợ học metric với nhiều cluster riêng biệt, phù hợp với sự đa dạng trong dữ liệu ảnh.

Các khái niệm chính gồm:

CF-Tree: cấu trúc cây cân bằng thể hiện cấu trúc phân nhóm dữ liệu nén gọn.
MustLink, CannotLink: dạng ràng buộc cặp điểm dữ liệu thể hiện mối quan hệ tương đồng hoặc dị biệt.
VMesure: chỉ số đo hiệu quả phân nhóm tích hợp lượng giá đồng nhất và đầy đủ phân lớp.
Covariance matrix: ma trận hiệp phương sai cho biết sự phụ thuộc giữa các biến đặc trưng.

Phương pháp nghiên cứu

Nguồn dữ liệu: Bộ ảnh Wang gồm 1000 hình ảnh được gán nhãn thành 10 lớp chuẩn, chứa đặc trưng rgSIFT xây dựng từ tập dữ liệu ảnh gốc.
Phương pháp phân tích:
- Sử dụng thuật toán BIRCH để xây dựng cây CF-Tree, tự động phân cụm ảnh thành các nhóm nhỏ (CF-Entries).
- Tích hợp thuật toán học metric MPCKMeans để điều chỉnh khoảng cách Mahalanobis, tối ưu hóa ma trận covariance cụ thể từng cluster, dựa trên phản hồi tương tác của người dùng.
- Tương tác người dùng mô phỏng bởi một agent Oracle cung cấp thông tin chính xác để sinh các ràng buộc MustLink và CannotLink.
- So sánh kết quả với phương pháp baseline, dùng khoảng cách Euclide truyền thống và thuật toán HMRF-KMeans.
Timeline nghiên cứu: Quá trình chạy thử nghiệm diễn ra qua 50 vòng lặp tương tác, thu thập chỉ số VMesure, thời gian xử lý, tần suất hội tụ đến hiệu suất tối ưu.
Lý do chọn lựa phương pháp: Việc kết hợp CF-Tree với học metric MPCKMeans cho phép xử lý hiệu quả tập dữ liệu lớn đồng thời tạo điều kiện thuận lợi cho tương tác người dùng nâng cao chất lượng phân nhóm ảnh theo mong muốn sử dụng thực tế.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả cải thiện VMesure đáng kể khi học metric Mahalanobis:
- Phương pháp baseline (khoảng cách Euclide, HMRF-KMeans) đạt VMesure tối đa khoảng 0,56 sau 50 vòng.
- Với phương pháp MPCKMeans toàn cục dạng ma trận covariance đầy đủ (GLOBAL_FULL), VMesure tối đa đạt đến khoảng 0,66 - 0,68, tăng trưởng 20-22%.
- Một số cấu hình sử dụng ma trận covariance dạng chéo (diagonal) đạt khoảng 0,6 - 0,64 VMesure, cao hơn baseline từ 7-11%.
Tốc độ hội tụ và ổn định kết quả:
- MPCKMeans toàn cục dạng diagonal hội tụ nhanh với VMesure đạt 80% trong vòng 6-8 lần tương tác, trong khi baseline cần trên 10 lần.
- Độ lệch chuẩn VMesure trong 40 vòng cuối nhỏ nhất thuộc về baseline (~0.02 - 0.04), cho thấy độ ổn định cao hơn điện dạng MPCKMeans nhưng độ chính xác thấp hơn.
- Một số cấu hình MPCKMeans địa phương (local) có hiện tượng thoát hội tụ hoặc suy giảm hiệu suất do ma trận covariance không đủ mẫu dữ liệu bên trong cluster, gây lỗi tính toán.
Ảnh hưởng chiến lược ràng buộc tương tác:
- Chiến lược 1 (dùng tất cả ràng buộc) cho hiệu quả tốt nhất nhưng chi phí tính toán cao nhất.
- Chiến lược 4 và 5 tạo được sự cân bằng giữa hiệu suất và thời gian tính toán trên hầu hết cấu hình dưới học metric, giúp giảm độ phức tạp mà vẫn giữ hiệu quả cao.
Thời gian tính toán:
- Học metric toàn cục dạng diagonal có thời gian xử lý thấp hơn dạng full do giảm độ phức tạp ma trận.
- Sử dụng vector hóa phép tính ma trận và phân tích giá trị riêng giúp tính toán khoảng cách Mahalanobis nhanh hơn đáng kể so với phương pháp ma trận nguyên thủy.

Thảo luận kết quả

Việc áp dụng học metric Mahalanobis cho phép hệ thống thích nghi linh hoạt với đặc trưng phân bố thực của dữ liệu, tránh hạn chế của khoảng cách Euclide tuyến tính không trọng số đồng nhất. Điều này lý giải sự gia tăng rõ rệt VMesure và tốc độ hội tụ. Các kết quả cũng phản ánh rằng khoảng cách Euclide chỉ phù hợp trong không gian dữ liệu có phân phối gần như đồng nhất, không tính đến liên kết nội tại giữa các đặc trưng. MPCKMeans toàn cục là lựa chọn hiệu quả trong bối cảnh đa dạng cluster và dữ liệu lớn, trong khi các phiên bản địa phương dễ rơi vào bẫy gradient cục bộ hoặc thiếu dữ liệu huấn luyện cho từng cluster cụ thể. Mặc dù độ ổn định thấp hơn baseline, biên độ dao động trong VMesure vẫn nằm ở mức chấp nhận được với lợi ích về độ chính xác và tốc độ vượt trội. Ngoài ra, chiến lược chọn lọc ràng buộc tương tác ảnh hưởng rất lớn đến cân bằng hiệu suất - thời gian, nên việc điều chỉnh phù hợp dựa theo mức độ tương tác người dùng là cần thiết. Nghiên cứu tiếp tục mở ra hướng ứng dụng các kỹ thuật học metric và thuật toán clustering bán giám sát tương tác trong các hệ thống truy vấn tìm kiếm ảnh, phân loại tự động với yêu cầu người dùng cao về độ chính xác và linh hoạt.

Đề xuất và khuyến nghị

Áp dụng thuật toán MPCKMeans toàn cục dạng ma trận covariance đầy đủ (GLOBAL_FULL) hoặc dạng chéo (GLOBAL_DIAGONAL) trong môi trường phân loại ảnh bán giám sát tương tác: Động từ hành động là “thiết lập” và “tích hợp” để cải thiện VMesure ít nhất 15-20% trong 10 vòng tương tác đầu tiên, do nhóm phát triển hệ thống AI hình ảnh đảm trách trong vòng 6 tháng.
Thiết kế giao diện tương tác người dùng hỗ trợ lựa chọn chiến lược ràng buộc phù hợp (chiến lược 4 hoặc 5): Giúp giảm thời gian tính toán trong mỗi vòng tương tác xuống dưới 30%, tăng khả năng sử dụng thực tế trong môi trường kích thước bộ dữ liệu lớn, dưới trách nhiệm nhóm UI/UX trong 4 tháng.
Triển khai đa luồng và vector hóa tính toán khoảng cách Mahalanobis: Để giảm tối thiểu thời gian xử lý mỗi vòng clustering xuống 50% so với baseline hiện tại, nhằm nâng cao trải nghiệm phản hồi tức thời, do nhóm phát triển phần mềm đảm nhận với thời gian 3 tháng.
Tích hợp cơ chế điều chỉnh mức độ ràng buộc tương tác theo phản hồi người dùng thực tế: Động từ “tối ưu hóa” để tiếp tục cân bằng giữa hiệu quả phân nhóm và độ ổn định, đồng thời tránh hiện tượng thiếu hội tụ, triển khai thử nghiệm trên môi trường thực tế trong 1 năm có sự tham gia từ vai trò kiểm thử và chuyên gia dữ liệu.
Khuyến nghị đào tạo nâng cao cho nhóm phát triển về học metric và các thuật toán clustering bán giám sát: Tạo điều kiện chuyển giao công nghệ và nâng cao chất lượng phát triển hệ thống lâu dài, kéo dài trong vòng 6 tháng, với sự hợp tác của các chuyên gia học máy.

Đối tượng nên tham khảo luận văn

Nhà phát triển phần mềm và kỹ sư AI trong lĩnh vực thị giác máy tính: Hưởng lợi trực tiếp từ các kỹ thuật học metric tích hợp tương tác nhằm xây dựng hệ thống phân loại ảnh tự động có độ chính xác và tốc độ xử lý cải tiến rõ rệt, ứng dụng trong nhận dạng ảnh, lọc nội dung.
Giảng viên và nghiên cứu sinh ngành khoa học dữ liệu, học máy: Luận văn cung cấp kiến thức chuyên sâu về clustering bán giám sát, học metric và thiết kế thuật toán hiệu năng cao trong không gian đa chiều dữ liệu ảnh, hỗ trợ nghiên cứu phát triển các công trình tương tự hoặc điều chỉnh thuật toán theo bài toán khác.
Chuyên gia phân tích dữ liệu trong lĩnh vực truyền thông số và marketing: Có thể ứng dụng mô hình tương tác để phân nhóm dữ liệu ảnh, video hoặc tài liệu đa phương tiện nhằm mục đích tối ưu hóa quảng cáo, cá nhân hóa nội dung, nâng cao trải nghiệm người dùng.
Quản lý dự án CNTT trong các công ty công nghệ số: Nhận biết rõ lợi ích kinh tế kỹ thuật khi áp dụng các giải pháp học máy bán giám sát có phản hồi người dùng để triển khai hoặc đầu tư phát triển hệ thống khai thác dữ liệu lớn, cải thiện chất lượng sản phẩm.

Câu hỏi thường gặp

Học metric Mahalanobis khác gì so với khoảng cách Euclide truyền thống?
Khoảng cách Mahalanobis xét đến phân phối dữ liệu bằng cách sử dụng ma trận covariance, do đó đánh giá khoảng cách giữa điểm và trung tâm cluster theo sự tương quan giữa các đặc trưng. Đây là cải tiến quan trọng so với Euclide, vốn coi các trục đặc trưng độc lập và bằng trọng số, dẫn đến độ chính xác thấp hơn trong nhiều bài toán phân nhóm đa chiều không đều.
Tại sao cần tương tác người dùng trong mô hình phân nhóm bán giám sát?
Thông tin ràng buộc MustLink và CannotLink do người dùng cung cấp giúp giảm sai lệch kết quả clustering phát sinh từ dữ liệu chưa gán nhãn hoặc đặc trưng không biểu diễn đầy đủ semantique, đồng thời giúp thuật toán học metric điều chỉnh phù hợp với ngữ cảnh và nhu cầu thực tế, đẩy nhanh hội tụ.
MPCKMeans phù hợp với dữ liệu như thế nào?
Phương pháp này hiệu quả đặc biệt với dữ liệu lớn, đa dạng cluster có hình dạng và mật độ khác nhau, khi có sẵn thông tin giám sát dạng ràng buộc cặp chưa đầy đủ. Nó vừa tối ưu phân nhóm, vừa học metric cho từng cluster riêng biệt, giúp nguyên nhóm dễ dàng thích nghi theo yêu cầu người dùng.
Khi nào chiến lược ràng buộc tương tác nên được điều chỉnh?
Chiến lược được chọn dựa trên cân bằng giữa lượng thông tin giám sát cung cấp cho mô hình và thời gian tính toán. Nếu hệ thống quá chậm hoặc thông tin dư thừa, cần thu gọn chiến lược (vd. chiến lược 4 hoặc 5). Nếu cần độ chính xác cao nhất và thời gian không hạn chế, chiến lược 1 ưu tiên.
Làm thế nào để xử lý ma trận covariance không ổn định trong MPCKMeans theo phương pháp địa phương?
Có thể áp dụng các kỹ thuật chuẩn hóa, thêm điều chuẩn (regularization) hoặc giảm số chiều đặc trưng nhằm đảm bảo ma trận covariance đầy đủ và khả năng nghịch đảo tồn tại, tránh lỗi tính toán dẫn đến hội tụ thất bại hoặc kết quả không ổn định.

Kết luận

Luận văn đã triển khai thành công tích hợp học metric Mahalanobis vào phương pháp clustering bán giám sát tương tác, cải thiện đáng kể hiệu suất phân loại ảnh so với baseline Euclide.
Thuật toán MPCKMeans toàn cục với ma trận covariance đầy đủ đem lại độ chính xác và tốc độ hội tụ tốt nhất trên bộ dữ liệu Wang nhiều lớp phân biệt.
Phương pháp mới giảm đáng kể số vòng tương tác để đạt mức VMesure 0,8, thể hiện năng lực thích nghi với phản hồi người dùng cao hơn.
Việc sử dụng vector hóa phép tính và phân tích giá trị riêng giúp giảm thời gian xử lý, tăng khả năng áp dụng thực tế trong các hệ thống lớn và tương tác thời gian thực.
Hướng tiếp theo là nghiên cứu tối ưu hóa ổn định kết quả, phát triển thuật toán cho dữ liệu đa phương tiện đa dạng và nâng cấp giao diện tương tác thân thiện hơn với người dùng cuối.

Hãy áp dụng nghiên cứu này để nâng cao hệ thống phân loại ảnh và tối ưu hiệu quả khai thác dữ liệu ảnh số trong dự án của bạn ngay hôm nay!

Trích đoạn nội dung tài liệu

UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL VŨ VIẾT MINH MISE EN PLACE D'UN APPRENTISSAGE DE METRIQUE POUR DU CLUSTERING SEMI-SUPERVISE INTERACTIF D'IMAGES THIẾT LẬP MỘT THUẬT TOÁN HỌC TỰ ĐỘNG CÁC CHỈ SỐ PHỤC VỤ CHO PHÂN LOẠI ẢNH TỰ ĐỘNG VÀ TƯƠNG TÁC MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE HANOI – 2015 TIEU LUAN MOI download : skknchat@gmail.com UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL VŨ VIẾT MINH MISE EN PLACE D'UN APPRENTISSAGE DE METRIQUE POUR DU CLUSTERING SEMI-SUPERVISE INTERACTIF D'IMAGES THIẾT LẬP MỘT THUẬT TOÁN HỌC TỰ ĐỘNG CÁC CHỈ SỐ PHỤC VỤ CHO PHÂN LOẠI ẢNH TỰ ĐỘNG VÀ TƯƠNG TÁC Spécialité: Systèmes Intelligents Multimédia Code: Programme pilote MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE Sous la direction de: Mme Muriel Visani, Maître de Conférences HDR, Laboratoire L3i - Département Informatique, Université de La Rochelle HANOI – 2015 TIEU LUAN MOI download : skknchat@gmail.com ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée. LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác.

Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc. Signature de l’étudiant TIEU LUAN MOI download : skknchat@gmail.com Table des matières Table des gures iii Liste de Tableaux iv 1 Introduction 1 1.1 Problématique et Motivation .2 Objectifs et Principales Contributions. 2 2 Clustering semi-supervisé interactif incrémental 4 2.2 Clustering non-supervisé .1 Diérents types de méthodes .2 Présentation des méthodes de clustering non-supervisé utilisées .3 Clustering semi-supervisé .1 Diérents types de méthodes .2 Présentation de HMRF-KMeans .4 Modèle de clustering semi-supervisé interactif de LAI Hien Phuong .1 Introduction et Motivation .3 Stratégies de déduction des contraintes .4 Méthode de clustering semi-supervisé interactif incrémental. 23 3 Apprentissage de métrique 25 3.2 Distance de Mahalanobis .2 Diérents types d'approches d'apprentissage de métrique .3 Choix d'une méthode d'apprentissage de métrique dans notre contexte.

31 4 Intégration de l'apprentissage de métrique dans le système existant 34 4.2 Présentation de la méthode .2 Implémentation de la méthode. 38 i TIEU LUAN MOI download : skknchat@gmail.com Contents ii 4.2 Analyses des résultats obtenus .4 Discussion et Conclusion. 47 5 Conclusion 50 A Illustration des méthodes de clustering non-supervisé 53 B Mesures de qualité de clustering 55 C Résultat expérimental de l'algorithme MPCKMeans 57 D Résultats détaillés de quelques méthodes d'apprentissage de métrique 58 Bibliographie 62 TIEU LUAN MOI download : skknchat@gmail.com Table des gures 2.1 Illustration des méthodes de clustering non-supervisé hiérarchiques 1 .2 Illustration des méthodes basées sur les grilles .3 Comparaison des méthodes de clustering non supervisé .4 L'algorithme BIRCH : Construction de l'arbre CF-Tree .5 L'interface interactive du système de LAI Hien Phuong .6 Les résultats de la méthode de LAI Hien Phuong avec 6 stratégies diérentes 24 3.1 Une vue globale de l'apprentissage de métrique .2 Un exemple de la distance de Mahalanobis .3 Illustration de la méthode LMNN 2 .1 La méthode Baseline .2 MPCKMEANS_GLOBAL_DIAGONAL avec la distance Euclidienne .3 MPCKMEANS_GLOBAL_DIAGONAL avec la distance de Mahalanobis 46 4.4 Comparaison du temps d'exécution de toutes les méthodes .5 Comparaison de la performance .1 Illustration de l'algorithme BIRCH 3 .1 L'algorithme MPCKMeans appliqué sur la base Wang .2 Comparaison avec la méthode Baseline (DistE) .3 Comparaison avec la méthode Baseline (DistE et DistM). 61 iii TIEU LUAN MOI download : skknchat@gmail.com Liste de Tableaux 2.1 Résumé des 6 stratégies de déduction de contraintes .1 Les méthodes pour l'expérimentation sur la base Wang .2 Les résultats expérimentaux sur la base Wang (1) .3 Les résultats expérimentaux sur la base Wang (2).

43 iv TIEU LUAN MOI download : skknchat@gmail.com Chapitre 1 Introduction Ce stage en recherche d'information multimédia, se place dans la suite de la thèse de LAI Hien Phuong, qui traite de l'analyse d'images par le contenu, et plus précisément du clustering semi-supervisé interactif d'images en vue de l'utilisation d'outils de navigation dans des bases d'images, ou de recherche par exemple. Son travail dans sa thèse est une étude complète sur les méthodes de clustering non-supervisé et semi-supervisé. Elle a proposé une nouvelle méthode de clustering semi-supervisé interactif dans le but de combler le fossé sémantique entre les concepts de haut niveau perçus par l'utilisateur dans la collection d'images, et les signatures de bas niveau extraites à partir des images originales. Dans un contexte interactif incrémental, sa méthode implique l'utilisateur dans la phase de clustering pour qu'il puisse interagir avec le système an d'améliorer les résultats fournis par le modèle de clustering semi-supervisé automatique.

Son système convertit en contraintes entre paires de groupes d'images les informations supervisées fournies par l'utilisateur et procède itérativement au reclustering semi-supervisé en pénalisant ces contraintes. Tout d'abord, son système construit un modèle de clustering non-supervisé hiérarchique grâce à l'algorithme BIRCH pour représenter des images d'entrée dans une structure hiérarchique où les images similaires sont automatiquement regroupées dans des groupes compacts et représentatifs. Ensuite, les résultats de ce modèle de clustering non-supervisé sont présentés de façon visuelle à l'utilisateur pour qu'il puisse donner ses retours via des clics positifs et négatifs sur les images achées ou via le déplacement des images entre des clusters. Beaucoup de stratégies de déduction des contraintes à partir des retours de l'utilisateur sont étudiées et expérimentées.

En tenant compte des contraintes par paires générées par ce moteur de déduction, le système réorganise la structure hiérarchique des données et refait le clustering en bénéciant d'une méthode de 1 TIEU LUAN MOI download : skknchat@gmail.com Introduction 2 clustering semi-supervisé. La boucle d'interaction peut être répétée jusqu'à la satisfaction de l'utilisateur.1 Problématique et Motivation Les mesures de la similarité et de la distance entre des observations jouent un rôle impor- tant dans les processus cognitifs humains et les systèmes articiels pour la reconnaissance et la catégorisation. La question de comment mesurer de manière appropriée la distance ou la similarité est cruciale pour la performance de nombreuses méthodes d'apprentis- sage et de fouille de données. La tâche principale dans tous les algorithmes de clustering est de déterminer à quel cluster appartient un point de données, c'est-à-dire que l'on a besoin d'une mesure de similarité / dissimilarité entre des points dans un ensemble de données.

La distance Euclidienne est une mesure de dissimilarité qui est largement utilisée. Mais cette distance géométrique n'est pas toujours parfaite, par exemple dans l'espace de données non-sphériques ou hétérogènes. Lorsque l'on travaille avec des don- nées multidimensionnelles, la distance Euclidienne traite toutes les dimensions de façon égale, mais dans quelques situations, on doit considérer quelques dimensions en priorité, on a donc besoin d'une métrique paramétrable. L'apprentissage de métrique qui uti- lise systématiquement la distance de Mahalanobis est une solution prometteuse.

L'idée principale des algorithmes d'apprentissage de métrique est d'apprendre un ensemble de paramètres qui contrôle une fonction de distance particulière, et le cas échéant de mettre à jour incrémentalement ces paramètres en fonction de nouvelles informations. Cette idée est compatible avec le système interactif incrémental où les nouvelles informations supervisées (sous forme de retours de l'utilisateur) sont fournies dans chaque itération et sont utilisées pour entraîner la métrique pour rendre le résultat du modèle de clustering plus satisfaisant pour l'utilisateur.2 Objectifs et Principales Contributions L'objectif principal du stage est de mettre en place un apprentissage de métrique grâce aux informations données incrémentalement par l'utilisateur, an d'améliorer la per- formance de la phase de clustering. Ce travail de stage a pour principale contribution d'enrichir une méthode existante de clustering semi-supervisé dans un contexte interactif incrémental par des méthodes d'apprentissage de métrique. Les activités réalisées dans ce stage sont les suivantes : (1)Étude de l'état de l'art et du système existant proposé dans le contexte de la thèse de LAI Hien Phuong.

(2) Choix de l'algorithme d'appren- tissage de métrique à mettre en ÷uvre, et de la manière de l'articuler avec le système TIEU LUAN MOI download : skknchat@gmail.com Introduction 3 existant. Après une étude sur les méthodes de clustering non-supervisé, semi-supervisé et semi-supervisé interactif et sur diérentes approches d'apprentissage de métrique, l'al- gorithme MPCKMeans (présenté dans la section 3. (3) L'implémentation d'un prototype permettant d'intégrer l'algorithme d'apprentissage de métrique dans le système existant. L'adaptation de l'algorithme MPCKMeans sur la structure de données hiérarchique qui est disponible dans le système existant est proposée.

Les résultats ex- périmentaux de cet algorithme avec diérentes congurations sont analysés et comparés avec la méthode existante de LAI Hien Phuong. Les autres chapitres dans ce mémoire sont organisés comme suit : Le chapitre 2 présente l'état de l'art des méthodes de clustering non-supervisé, semi-supervisé et la méthode de clustering semi-supervisé interactif récemment proposée par LAI Hien Phuong. Le chapitre 3 présente l'état de l'art des algorithmes d'apprentissage de métrique et le choix d'une méthode adaptée à notre contexte applicatif. Le chapitre 4 présente l'intégration de la méthode d'apprentissage de métrique choisie dans le système existant et les résultats expérimentaux.

Le chapitre 5 termine ce travail par une conclusion. TIEU LUAN MOI download : skknchat@gmail.com Chapitre 2 Clustering semi-supervisé interactif incrémental 2.1 Introduction L'apprentissage non supervisé consiste à inférer des connaissances sur les données. Car aucune information n'est fournie sur l'appartenance des données à telle ou telle classe, on souhaite trouver des groupes compacts et bien séparés et aecter à chaque observation une étiquette de classe (label). Les techniques de clustering non supervisé qui cherchent à décomposer un ensemble d'individus en plusieurs sous ensembles les plus homogènes possible sont présentées dans la section 2.

Quand on ajoute des informations supervisées incomplètes comme les étiquettes de quelques points ou des relations explicites entre quelques points, on s'oriente vers des méthodes de clustering semi-supervisé (cf. Comme dans la méthode semi-supervisée on a plus de connaissances données, on souhaite améliorer le résultat du clustering non-supervisé. LAI Hien Phuong a proposé un nouveau modèle de clustering semi-supervisé interactif incrémental (cf. Dans son système, les connaissances fournies par l'utilisateur qui interagit avec le système sont utilisées dans les itérations suivantes pour améliorer la performance du modèle.

Le dernier point que l'on doit clarier avant d'étudier les méthodes précisées, c'est le concept de "Incrémental versus non-incrémental" : Une méthode incrémentale va être exécutée de façon continue, et va intégrer les données au fur et à mesure de leur arrivée dans l'algorithme. C'est-à-dire, après chaque itération interactive, si on a des nouvelles données (peut être des informations supplémentaires, ou des retours d'utilisateur, .) elles seront utilisées dans l'itération suivante. À l'inverse, une méthode non-incrémentale va considérer un ensemble de données fournies en entrée, et sera exécutée sur cet ensemble. 4 TIEU LUAN MOI download : skknchat@gmail.com Clustering semi-supervisé interactif incrémental 5 Si, par la suite, une nouvelle donnée est fournie, celle-ci devrait être relancée en repartant de zéro.2 Clustering non-supervisé En général, le clustering automatique d'objets se base sur une mesure de similarité (ou distance) pour grouper les données.

Le clustering non supervisé est une analyse multi- dimensionnelle qui vise à partitionner l'ensemble des objets sans besoin d'informations supervisées comme des étiquettes des objets. Une partition ou bien un cluster est une division de l'ensemble en sous-ensembles, telle que chaque objet appartienne à un seul groupe. Les principales méthodes de clustering non supervisé comprennent : 1. Méthodes par partitionnement : Construire K partitions et les corriger jusqu'à obtenir une similarité satisfaisante.

Méthodes hiérarchiques : Créer une décomposition hiérarchique par agglomération ou division de groupes similaires ou dissimilaires. Méthodes basées sur la densité : Grouper les objets tant que la densité de voisinage excède une certaine limite. Méthodes basées sur les grilles : Diviser l'espace en cellules formant une grille multi-niveaux et grouper les cellules voisines en terme de distance. Ces méthodes sont détaillées dans la section 2.1 et quelques algorithmes typiques sont présentés dans la section 2.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ