Nghiên Cứu Tra Cứu Ảnh Dựa Vào Nội Dung Với Học Biểu Diễn

Chuyên khảo phân tích Tra cứu ảnh dựa vào nội dung với học biểu diễn và giảm chiều dữ liệu, đánh giá các khía cạnh quan trọng, đề xuất hướng nghiên cứu tiếp theo.

Trường đại học

Học viện Khoa học và Công nghệ

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

2023

115

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỤC LỤC

1. MỞ ĐẦU

1.1. Tính cấp thiết của luận án

1.2. Mục tiêu nghiên cứu của luận án

1.3. Đối tượng và phạm vi nghiên cứu của luận án

1.4. Phương pháp nghiên cứu của luận án

1.5. Đóng góp chính của luận án

1.6. Bố cục của luận án

2. TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG VỚI PHẢN HỒI LIÊN QUAN

2.1. Tra cứu ảnh dựa vào nội dung. Các đặc trưng mức thấp

2.2. Các đặc trưng toàn cục

2.3. Đặc trưng màu

2.4. Đặc trưng kết cấu

2.5. Đặc trưng hình

2.6. Thông tin không gian

2.7. Các đặc trưng cục bộ

2.8. Biến đổi đặc trưng bất biến tỉ lệ

2.9. Các đặc trưng mạnh và nhanh

2.10. Mẫu nhị phân cục bộ. Lựa chọn đặc trưng

2.11. Kỹ thuật trọng số Fisher. Thuật toán Relief

2.12. Thuật toán Relief-F

2.13. Trích rút đặc trưng. Phân tích thành phần chính

2.14. Phân tích phân biệt tuyến tính. Học máy cho tra cứu ảnh dựa vào nội dung

2.15. Học không giám sát cho CBIR

2.16. Học có giám sát cho CBIR

2.17. Máy véc tơ hỗ trợ

2.18. Mạng nơ ron nhân tạo

2.19. Học sâu cho CBIR

2.20. Học kết hợp. Cơ chế phản hồi liên quan

2.21. Đo độ tương tự giữa các ảnh

2.22. Một số nghiên cứu về CBIR. Nghiên cứu quốc tế

2.23. Nghiên cứu trong nước

2.24. Tổ chức thực nghiệm và đánh giá hiệu năng

2.25. Môi trường thực nghiệm

2.26. Cơ sở dữ liệu ảnh thực nghiệm

2.27. Tập dữ liệu ảnh COREL

2.28. Tập dữ liệu ảnh CIFAR-100

2.29. Phương pháp đánh giá hiệu năng

2.30. Kết luận

3. PHƯƠNG PHÁP TRA CỨU ẢNH VỚI PHÂN TÍCH PHÂN BIỆT THƯA

3.1. Nghiên cứu liên quan

3.2. Giới thiệu chuẩn ℓ2,1. Một số phương pháp liên quan

3.3. Phương pháp LDA (phân tích phân biệt tuyến tính)

3.4. Phương pháp RSLDA (phân tích phân biệt tuyến tính thưa)

3.5. Phương pháp tra cứu ảnh được đề xuất

3.5.1. Mô hình của phương pháp

3.5.2. Lựa chọn tập đặc trưng quan trọng qua mô hình học chiếu

3.5.3. Mô hình học cho phân lớp

3.5.4. Thuật toán tra cứu ảnh đề xuất

3.5.5. Độ phức tạp tính toán

3.6. Kết quả thực nghiệm

3.6.1. Tập dữ liệu ảnh CIFAR-100

3.6.2. Trích rút đặc trưng

3.6.2.1. Tự tương quan màu (Color auto-correlogram)

3.6.2.2. Gray-level Co-occurrence matrix

3.6.2.3. Histogram of oriented gradients (HOG)

3.6.3. Thực nghiệm về hiệu năng của phương pháp đề xuất

3.6.3.1. Kiểm tra hiệu năng toàn bộ của phương pháp đề xuất

3.6.3.2. Thực nghiệm về hiệu quả tra cứu ảnh khi loại bỏ các đặc trưng dư thừa và giải quyết vấn đề cỡ lớp nhỏ

3.6.4. Kết luận

4. HỌC CÁC BIỂU DIỄN ẢNH VỚI MẠNG NƠ RON TÍCH CHẬP SÂU AUTOENCODER CHO TRA CỨU ẢNH VỚI PHẢN HỒI LIÊN QUAN

4.1. Nghiên cứu liên quan

4.2. Phương pháp đề xuất

4.2.1. Học các biểu diễn ảnh với mạng nơ ron tích chập sâu autoencoder

4.2.2. Mạng nơ ron tích chập autoencoder

4.2.3. Kiến trúc mạng tích chập autoencoder

4.2.4. Huấn luyện các tham số

4.2.5. Tra cứu ảnh với phản hồi liên quan dựa vào máy véc tơ hỗ trợ

4.2.6. Máy véc tơ hỗ trợ (SVM)

4.2.7. Tra cứu ảnh

4.3. Đánh giá thực nghiệm

4.3.1. Các kết quả trên tập dữ liệu ảnh CIFAR-100

4.3.2. Các kết quả trên tập dữ liệu ảnh Corel

4.4. Kết luận

KẾT LUẬN VÀ KIẾN NGHỊ

DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. CBIR và Học Biểu Diễn Tổng Quan Tiềm Năng Ứng Dụng

Tra cứu ảnh dựa vào nội dung (CBIR) đang trở thành một lĩnh vực nghiên cứu quan trọng trong bối cảnh dữ liệu ảnh số ngày càng gia tăng. CBIR hướng đến việc tìm kiếm ảnh dựa trên phân tích nội dung trực quan, thay vì dựa vào chú thích bằng văn bản như TBIR (Text-Based Image Retrieval). Điều này giúp khắc phục hạn chế về tính chủ quan và công sức trong việc tạo chú thích thủ công. Tuy nhiên, CBIR phải đối mặt với thách thức lớn, đó là "khoảng trống ngữ nghĩa" giữa các đặc trưng mức thấp (ví dụ: màu sắc, kết cấu) và các khái niệm mức cao (ví dụ: đối tượng, cảnh quan) mà con người nhận thức. Học biểu diễn (Representation Learning), đặc biệt là các kỹ thuật từ học sâu (Deep Learning), được kỳ vọng sẽ thu hẹp khoảng trống này bằng cách tự động học các biểu diễn dữ liệu phức tạp và trừu tượng hơn. Việc kết hợp học biểu diễn vào CBIR mở ra tiềm năng lớn trong việc cải thiện độ chính xác và hiệu quả của việc tìm kiếm ảnh.

1.1. CBIR Phương Pháp Tiếp Cận Dựa Trên Nội Dung Trực Quan

CBIR sử dụng các thuật toán để phân tích và so sánh các đặc trưng của ảnh, bao gồm đặc trưng màu, đặc trưng kết cấu, và đặc trưng hình dạng. Các đặc trưng này được biểu diễn bằng vector đặc trưng (Feature Vectors), và độ tương đồng ảnh (Image Similarity) được tính toán dựa trên các khoảng cách (distances) như khoảng cách Euclid (Euclidean Distance) hoặc khoảng cách Cosin (Cosine Distance) giữa các vector đặc trưng. CBIR đang được ứng dụng rộng rãi trong nhiều lĩnh vực như y tế, thương mại điện tử và an ninh. Tuy nhiên, hiệu quả của CBIR phụ thuộc lớn vào khả năng trích xuất đặc trưng ảnh (Image Feature Extraction) phù hợp và việc lựa chọn giải thuật CBIR (CBIR Algorithms) hiệu quả.

1.2. Học Biểu Diễn Cầu Nối Giữa Đặc Trưng Mức Thấp và Ngữ Nghĩa Cao

Học biểu diễn là một lĩnh vực của học máy (Machine Learning) tập trung vào việc tự động học các biểu diễn hữu ích từ dữ liệu thô. Các phương pháp học biểu diễn, như Autoencoders và GANs (Generative Adversarial Networks), có khả năng trích xuất các đặc trưng phức tạp và trừu tượng hơn so với các phương pháp thủ công. Học sâu (Deep Learning), với các kiến trúc mạng nơ-ron sâu, là một công cụ mạnh mẽ để thực hiện học biểu diễn. Việc áp dụng học biểu diễn vào CBIR giúp hệ thống hiểu rõ hơn về ngữ nghĩa của ảnh, từ đó cải thiện khả năng tìm kiếm và phân loại.

II. Thách Thức Trong Tra Cứu Ảnh CBIR và Vai Trò Học Biểu Diễn

Mặc dù CBIR có nhiều ưu điểm so với TBIR, nó vẫn phải đối mặt với nhiều thách thức. "Khoảng trống ngữ nghĩa" là một vấn đề lớn, khi các đặc trưng mức thấp không thể hiện đầy đủ thông tin ngữ nghĩa của ảnh. Điều này dẫn đến việc kết quả tìm kiếm thường trả về những ảnh không liên quan hoặc không đáp ứng được mong đợi của người dùng. Một thách thức khác là sự đa dạng của dữ liệu ảnh, bao gồm sự khác biệt về độ phân giải, góc nhìn, điều kiện ánh sáng và các yếu tố môi trường khác. Học biểu diễn có thể giúp giải quyết những thách thức này bằng cách học các đặc trưng không thay đổi theo các yếu tố trên, đồng thời nắm bắt được thông tin ngữ nghĩa quan trọng của ảnh. Hơn nữa, việc đánh giá hiệu năng CBIR (CBIR Performance Evaluation) một cách chính xác cũng là một thách thức, đòi hỏi các độ đo phù hợp như độ chính xác (Precision), độ thu hồi (Recall) và mAP (Mean Average Precision).

2.1. Khoảng Trống Ngữ Nghĩa Rào Cản Lớn Của Hệ Thống CBIR

Vấn đề "khoảng trống ngữ nghĩa" nảy sinh do sự khác biệt giữa cách máy tính "nhìn" ảnh (dưới dạng các đặc trưng mức thấp) và cách con người hiểu ảnh (dựa trên các khái niệm mức cao). Ví dụ, máy tính có thể nhận diện các đặc trưng màu và kết cấu trong một bức ảnh về biển, nhưng nó có thể không hiểu rằng đó là một "bãi biển đẹp" hoặc "một ngày hè thư giãn". Học biểu diễn hướng đến việc xây dựng các biểu diễn ảnh (Image Representation) trung gian, giúp thu hẹp khoảng cách này bằng cách học các đặc trưng phản ánh cả thông tin trực quan và ngữ nghĩa của ảnh.

2.2. Đa Dạng Hóa Dữ Liệu Ảnh Yêu Cầu Tính Ổn Định Của Đặc Trưng

Dữ liệu ảnh trong thế giới thực rất đa dạng, với sự biến đổi về nhiều yếu tố như góc nhìn, ánh sáng, kích thước và độ phân giải. Một hệ thống CBIR hiệu quả cần phải có khả năng xử lý những biến đổi này và trích xuất các đặc trưng ổn định, không bị ảnh hưởng bởi các yếu tố nhiễu. Các phương pháp học biểu diễn, như sử dụng mạng nơ-ron tích chập (Convolutional Neural Networks - CNNs), có thể học các đặc trưng mạnh mẽ và không thay đổi, giúp cải thiện độ tin cậy của hệ thống CBIR.

III. Học Sâu CNN và Autoencoders Phương Pháp CBIR Tiên Tiến

Học sâu (Deep Learning), đặc biệt là mạng nơ-ron tích chập (CNNs), đã chứng minh được hiệu quả vượt trội trong nhiều bài toán thị giác máy tính, bao gồm phân loại ảnh (Image Classification), phát hiện đối tượng (Object Detection) và phân đoạn ảnh (Image Segmentation). CNNs có khả năng tự động học các đặc trưng phân cấp từ dữ liệu ảnh thô, giúp thu hẹp "khoảng trống ngữ nghĩa". Autoencoders, một loại mạng nơ-ron đặc biệt, được sử dụng để học biểu diễn dữ liệu bằng cách mã hóa ảnh thành một không gian tiềm ẩn và sau đó giải mã trở lại. Việc sử dụng Autoencoders trong CBIR giúp tạo ra các biểu diễn ảnh nén và hiệu quả, đồng thời loại bỏ nhiễu và các thông tin không liên quan.

3.1. Mạng Nơ ron Tích Chập CNNs Tự Động Trích Xuất Đặc Trưng Phân Cấp

CNNs sử dụng các lớp tích chập để học các đặc trưng cục bộ của ảnh, sau đó kết hợp các đặc trưng này để tạo ra các biểu diễn toàn cục. Kiến trúc sâu của CNNs cho phép học các đặc trưng ở nhiều mức độ trừu tượng khác nhau, từ các cạnh và góc đơn giản đến các đối tượng phức tạp. Việc sử dụng CNNs trong CBIR giúp hệ thống tự động trích xuất các đặc trưng quan trọng, giảm bớt sự phụ thuộc vào các đặc trưng được thiết kế thủ công.

3.2. Autoencoders Học Biểu Diễn Nén và Loại Bỏ Nhiễu

Autoencoders hoạt động bằng cách huấn luyện một mạng nơ-ron để tái tạo lại dữ liệu đầu vào. Quá trình này buộc mạng nơ-ron phải học một biểu diễn nén của dữ liệu, loại bỏ các thông tin dư thừa và chỉ giữ lại các thông tin quan trọng nhất. Việc sử dụng Autoencoders trong CBIR giúp tạo ra các biểu diễn ảnh hiệu quả, đồng thời cải thiện độ chính xác và tốc độ tìm kiếm.

IV. Phản Hồi Liên Quan Học Chuyển Giao Cho CBIR Hiệu Quả

Phản hồi liên quan (Relevant Feedback - RF) là một kỹ thuật quan trọng trong CBIR, cho phép người dùng cung cấp thông tin phản hồi về kết quả tìm kiếm ban đầu, giúp hệ thống điều chỉnh và cải thiện kết quả tìm kiếm tiếp theo. RF giúp thu hẹp "khoảng trống ngữ nghĩa" bằng cách cho phép người dùng tương tác trực tiếp với hệ thống và cung cấp thông tin về mức độ liên quan của các ảnh được trả về. Học chuyển giao (Transfer Learning), một kỹ thuật học máy, cho phép sử dụng các mô hình đã được huấn luyện trên một cơ sở dữ liệu ảnh (Image Database) lớn để cải thiện hiệu năng của CBIR trên một cơ sở dữ liệu nhỏ hơn. Học chuyển giao giúp tận dụng kiến thức đã được học từ các dữ liệu khác, giảm bớt yêu cầu về dữ liệu huấn luyện và cải thiện độ chính xác của CBIR.

4.1. Phản Hồi Liên Quan Cầu Nối Giữa Người Dùng và Hệ Thống CBIR

Phản hồi liên quan (RF) cho phép người dùng đánh giá kết quả tìm kiếm ban đầu và chỉ ra các ảnh liên quan hoặc không liên quan. Thông tin này được sử dụng để điều chỉnh mô hình tìm kiếm, giúp hệ thống hiểu rõ hơn về nhu cầu của người dùng và cải thiện kết quả tìm kiếm tiếp theo. RF là một kỹ thuật quan trọng để giảm thiểu "khoảng trống ngữ nghĩa" và cá nhân hóa kết quả tìm kiếm.

4.2. Học Chuyển Giao Tận Dụng Kiến Thức Từ Cơ Sở Dữ Liệu Lớn

Học chuyển giao (Transfer Learning) cho phép sử dụng các mô hình đã được huấn luyện trên một cơ sở dữ liệu ảnh lớn (ví dụ: ImageNet) để cải thiện hiệu năng của CBIR trên một cơ sở dữ liệu nhỏ hơn. Kỹ thuật này giúp tận dụng kiến thức đã được học từ các dữ liệu khác, giảm bớt yêu cầu về dữ liệu huấn luyện và cải thiện độ chính xác của CBIR. Học chuyển giao đặc biệt hữu ích trong trường hợp cơ sở dữ liệu ảnh nhỏ hoặc không có nhãn.

V. Ứng Dụng CBIR trong Thực Tế và Hướng Nghiên Cứu Tương Lai

CBIR có nhiều ứng dụng tiềm năng trong thực tế, bao gồm tìm kiếm sản phẩm trong thương mại điện tử, chẩn đoán y tế dựa trên hình ảnh, quản lý thư viện ảnh số và hỗ trợ điều tra tội phạm. Trong thương mại điện tử, CBIR có thể giúp người dùng tìm kiếm sản phẩm dựa trên hình ảnh, thay vì phải nhập từ khóa. Trong y tế, CBIR có thể giúp bác sĩ tìm kiếm các hình ảnh y tế tương tự để hỗ trợ chẩn đoán. Trong tương lai, CBIR sẽ tiếp tục phát triển với sự ra đời của các kỹ thuật học sâu tiên tiến và sự gia tăng của dữ liệu ảnh lớn. Các hướng nghiên cứu tiềm năng bao gồm phát triển các giải thuật CBIR có khả năng xử lý dữ liệu đa phương thức (ví dụ: kết hợp hình ảnh và văn bản), cải thiện khả năng đánh giá hiệu năng CBIR (CBIR Performance Evaluation) và ứng dụng CBIR trong các lĩnh vực mới.

5.1. CBIR Trong Thương Mại Điện Tử Y Tế và Quản Lý Thư Viện Ảnh

CBIR đang được triển khai trong nhiều ứng dụng thực tế, bao gồm: Thương mại điện tử: Cho phép người dùng tìm kiếm sản phẩm bằng hình ảnh. Y tế: Hỗ trợ chẩn đoán bệnh bằng cách tìm kiếm các hình ảnh y tế tương tự. Quản lý thư viện ảnh số: Giúp người dùng tìm kiếm ảnh dựa trên nội dung trực quan.

5.2. Hướng Nghiên Cứu Tương Lai Dữ Liệu Đa Phương Thức Đánh Giá Hiệu Năng

Các hướng nghiên cứu tiềm năng trong CBIR bao gồm: Xử lý dữ liệu đa phương thức: Kết hợp hình ảnh và văn bản để cải thiện độ chính xác. Cải thiện đánh giá hiệu năng: Phát triển các độ đo mới để đánh giá chính xác hơn hiệu năng của CBIR. Ứng dụng trong các lĩnh vực mới: Khám phá các ứng dụng tiềm năng của CBIR trong các lĩnh vực chưa được khai thác.

VI. Kết Luận Học Biểu Diễn Định Hình Tương Lai Tra Cứu Ảnh CBIR

Tóm lại, CBIR là một lĩnh vực nghiên cứu đầy tiềm năng trong bối cảnh dữ liệu ảnh ngày càng gia tăng. Học biểu diễn, đặc biệt là các kỹ thuật từ học sâu, đóng vai trò quan trọng trong việc giải quyết các thách thức của CBIR, như "khoảng trống ngữ nghĩa" và sự đa dạng của dữ liệu ảnh. Việc kết hợp học biểu diễn và các kỹ thuật khác, như phản hồi liên quan và học chuyển giao, sẽ giúp CBIR trở nên hiệu quả và ứng dụng rộng rãi hơn trong tương lai. Các nghiên cứu tiếp theo cần tập trung vào việc phát triển các giải thuật CBIR có khả năng xử lý dữ liệu phức tạp và đáp ứng nhu cầu ngày càng cao của người dùng. Ngoài ra, cần chú trọng đến việc đánh giá hiệu năng CBIR (CBIR Performance Evaluation) để đảm bảo rằng các giải thuật mới thực sự cải thiện khả năng tìm kiếm.

6.1. Tầm Quan Trọng Của Học Biểu Diễn Trong CBIR Hiện Đại

Học biểu diễn là yếu tố then chốt để nâng cao hiệu quả của CBIR bằng cách tự động học các đặc trưng mạnh mẽ và trừu tượng, giúp thu hẹp "khoảng trống ngữ nghĩa" và cải thiện khả năng tìm kiếm.

6.2. Hướng Đi Tương Lai Cho Nghiên Cứu Và Phát Triển CBIR

Nghiên cứu trong tương lai nên tập trung vào việc phát triển các giải thuật CBIR có khả năng xử lý dữ liệu phức tạp, tận dụng các kỹ thuật học sâu tiên tiến và đáp ứng nhu cầu ngày càng cao của người dùng. Đồng thời, cần chú trọng đến việc đánh giá hiệu năng CBIR để đảm bảo các cải tiến thực sự mang lại hiệu quả.

23/05/2025

Bạn đang xem trước tài liệu:

Tra cứu ảnh dựa vào nội dung với học biểu diễn và giảm chiều dữ liệu

Tải đầy đủ

Trích đoạn nội dung tài liệu

đặt vấn đề cho bài toán. Phần thứ hai, trình bày phương pháp đề xuất với hai nội dung: (1) Học các biểu diễn ảnh với mạng nơ ron tích chập sâu autoencoder và (2) Tra cứu ảnh với RF dựa vào máy véc tơ hỗ trợ. Phần thứ ba, đánh giá hiệu năng của phương pháp đề xuất thông qua thực nghiệm so sánh phương pháp đề xuất với 3 phương pháp khác ở ba lần lặp phản hồi đầu tiên. Kết luận và kiến nghị, luận án tổng hợp kết quả đạt được và đưa ra một số kết luận, đồng thời trình bày một số định hướng nghiên cứu của luận án trong tương lai.

Danh mục công trình của tác giả, luận án liệt kê 04 công trình là các bài báo của tác giả được đăng trên các tạp chí, kỷ yếu hội thảo trong nước và quốc tế. Cuối cùng, là danh mục các tài liệu tham khảo đươc sử dụng trong luận án. TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG VỚI PHẢN HỒI LIÊN QUAN Chương này trình bày các kiến thức lý thuyết cơ bản liên quan đến CBIR với phản hồi liên quan (RF), được sử dụng làm cơ sở lý luận trong luận án. Các kiến thức lý thuyết cơ bản về CBIR được mô tả bao gồm các đặc trưng mức thấp và cách thức lựa chọn, trích rút các đặc trưng hữu ích; cơ chế RF quan và vấn đề giảm khoảng trống ngữ nghĩa thông qua tiếp cận kỹ thuật học máy, học sâu; các độ đo tương tự cho tra cứu ảnh.

Ngoài ra môi trường, tập dữ liệu ảnh thực nghiệm và phương pháp đánh giá hiệu năng cũng được trình bày trong chương này. Bên cạnh đó, một số công trình nghiên cứu liên quan về CBIR và các giai đoạn trong CBIR theo cách tiếp cận sử dụng học mày vào quá trình tra cứu với RF ở trong nước và trên thế giới được khảo sát và phân tích. Dựa trên những ưu điểm, hạn chế đối với các phương pháp được đề xuất trong các công trình nghiên cứu này để định hướng một số vấn đề cần giải quyết, làm tiền đề thực hiện đối với các chương tiếp theo của luận án. Tra cứu ảnh dựa vào nội dung Tra cứu ảnh dựa vào nội dung (CBIR) là một lĩnh vực nghiên cứu của thị giác máy tính [12].

Mục tiêu của CBIR là tìm kiếm các ảnh trong một CSDL ảnh lớn dựa trên các đặc trưng trực quan của chúng, bao gồm hình dạng, kết cấu, màu và các thông tin khác có thể trích rút được từ bản thân ảnh. Khung làm việc của CBIR được mô tả như trong Hình 1. Sơ đồ hệ thống CBIR 9 Bước đầu tiên trong sơ đồ hệ thống CBIR là đưa ảnh truy vấn vào hệ thống bởi người dùng. Bước tiếp theo là trích rút đặc trưng, đây là bước quan trọng nhất, mà một khái niệm trực quan được chuyển sang dạng số.

Các đặc trưng được trích rút trong tra cứu ảnh có thể là các đặc trưng mức thấp, chẳng hạn như màu, kết cấu, hình dạng và thông tin không gian hoặc các mô tả cục bộ của ảnh. Quá trình trích rút đặc trưng ảnh truy vấn cũng được thực hiện tương tự như trong trường hợp ảnh CSDL. Bước tiếp theo là tính độ tương tự giữa các đặc trưng được trích rút từ ảnh truy vấn và tất cả các ảnh trong CSDL để phục vụ phân hạng các ảnh. Bước cuối cùng là phân hạng các ảnh theo thứ tự về độ tương tự với ảnh truy vấn để được tập kết quả.

RF là một bước mà được sử dụng để tăng cường các kết quả thông qua tương tác của người dùng bằng việc quyết định các ảnh được trả về là liên quan hay không liên quan. Nhiều kỹ thuật RF đã được đề xuất để áp dụng RF vào việc tăng cường hiệu năng của hệ thống CBIR [13]. Các đặc trưng mức thấp Trong tra cứu ảnh, vấn đề chính là cách đo hiệu quả độ tương tự giữa các ảnh. Bởi vì các cảnh hoặc các đối tượng trực quan có thể có nhiều thay đổi hoặc biến đổi, nên việc so sánh trực tiếp các ảnh ở mức pixel (điểm ảnh) là không khả thi.

Thông thường, các đặc trưng trực quan được trích rút từ các ảnh và sau đó được biến đổi thành một véc tơ có cỡ cố định cho biểu diễn ảnh. Các đặc trưng có thể được chia thành các đặc trưng toàn cục và các đặc trưng cục bộ. Các đặc trưng toàn cục, bao gồm màu sắc, hình dạng, kết cấu, và thông tin không gian, mà mô tả toàn bộ ảnh. Trong khi đó, các đặc trưng cục bộ thường thu được thông qua việc chia các ảnh thành các đoạn hoặc thông qua việc tính một số điểm chính nào đó như các góc, các đóm màu và các cạnh.

Các đặc trưng cục bộ là bất biến với tỉ lệ, xoay và dịch chuyển [14]. Hai loại đặc trưng này sẽ được mô tả ở phần dưới. Các đặc trưng toàn cục Các đặc trưng như màu, kết cấu, hình dạng và thông tin không gian được sử dụng rộng rãi trong các nhiệm vụ tra cứu ảnh. Đặc trưng màu Trong tra cứu ảnh, một trong những đặc trưng quan trọng nhất là màu sắc.

Các đặc trưng màu được sử dụng để phân tích và nhận diện các đối tượng trong ảnh, và 10 được tính toán dựa trên các không gian màu khác nhau. Không gian màu được sử dụng phổ biến trong CBIR bao gồm RGB, HSV (LSV), YCbCr và LAB. Các không gian màu này được mô tả sử dụng các mô men màu [15], tương quan màu, lược đồ màu, bộ mô tả màu trội, ma trận đồng xuất hiện màu [16] và nhiều bộ mô tả màu khác. Các đặc trưng màu được coi là đặc trưng mạnh bởi vì chúng bất biến với tỉ lệ, xoay và dịch chuyển [19].

Tuy nhiên, đặc trưng màu bị hạn chế về thông tin không gian nên nó cần có sự hỗ trợ của các bộ mô tả khác [20]. Đặc trưng kết cấu Kết cấu là các mẫu mà không thể đứng riêng lẻ như màu hoặc cường độ duy nhất. Kết cấu được coi là đặc trưng quan trọng trong thị giác máy tinh bởi vì các đặc trưng này tồn tại trong nhiều ảnh thế giới thực do đó nó thường được sử dụng trong nhận dạng mẫu và tra cứu ảnh. Hạn chế chính của tra cứu ảnh dựa vào kết cấu là độ phức tạp tinh toan và nhạy cảm với nhiễu [20].

Phân tích kết cấu đã được sử dụng cho nhiều thuật toán như lọc Gabor, trường ngẫu nhiên Markov, biến đổi wavelet, phân rã kim tự tháp, ma trận đồng xuất hiện mức xám, và bộ mô tả lược đồ cạnh [23]. Đặc trưng hình Hình là một trong những đặc trưng mức thấp dùng cho nhận dạng đối tượng. Đặc trưng hình được trích rút trên cơ sở của một biên hoặc một vùng [25]. Trong cách tiếp cận dựa vào vùng, trích rút được thực hiện cho toàn bộ vùng trong khi cách tiếp cận trích rút dựa vào biên được thực hiện theo biên của vùng.

Nhiều phương pháp như bộ mô tả Fourier và các bất biến mô men [27] được sử dụng cho quá trình trích rút các đặc trưng hình. Các bộ mô tả hình là bất biến với tỉ lệ và dịch chuyển. Do đó, chúng thường được kết hợp với các bộ mô tả khác để tăng độ chinh xác. Thông tin không gian Đặc trưng không gian đề cập đến vị trí của đối tượng trong một ảnh hai chiều.

Đối sánh tháp không gian là một trong những phương pháp tốt nhất để thu các thuộc tính không gian của các ảnh [28]. Ở giai đoạn đầu của tra cứu ảnh, các hệ thống thường sử dụng một đặc trưng để tra cứu các ảnh. Tuy nhiên, kết quả thường cho độ chính xác thấp bởi vì các ảnh 11 thường bao gồm một số đặc trưng [29]. Để thu được độ chính xác cao hơn, các phương pháp tra cứu ảnh sau đó thường sử dụng việc kết hợp nhiều đặc trưng như trong [19].

Các đặc trưng cục bộ Các đặc trưng toàn cục đã được sử dụng trong nhiều phương pháp CBIR và thu được độ chính xác tốt, tuy nhiên, các đặc trưng cục bộ đang phổ biến bởi vì chúng có ưu điểm hơn hẳn các đặc trưng toàn cục về tính bất biến với tỉ lệ và xoay. Bên cạnh đó, các đặc trưng cục bộ cũng cung cấp các đối sánh đáng tin cậy trong các điều kiện ảnh khác nhau [14]. Biến đổi đặc trưng bất biến tỉ lệ Biến đổi đặc trưng bất biến tỉ lệ (SIFT - Scale-Invariant Feature Transform) do David Lowe [14] đề xuất. Nó là một trong những bộ đặc trưng cục bộ được sử dụng rộng rãi nhất, mà chứa một bộ mô tả và một bộ phát hiện cho các điểm chính (key point).

SIFT là mạnh đối với xoay và tỉ lệ ảnh, nhưng nó thực hiện kém khi đối sánh với các chiều cao và cần một véc tơ cỡ cố định cho mã hóa để thực hiện kiểm tra độ tương tự ảnh. Trong tra cứu ảnh, SIFT có hạn hạn chế đó là nó sử dụng nhiều bộ nhớ và có chi phí tính toán cao [30]. Các đặc trưng mạnh và nhanh Các đặc trưng mạnh và nhanh (SURF - Speeded-Up Robust Feature) là một bộ mô tả cục bộ mạnh [31], nó khắc phục hạn chế về chiều cao của SIFT. SURF thì nhanh hơn và mạnh hơn SIFT bởi vì nó đòi hỏi ít thời gian cho tính toán đặc trưng và đối sánh bằng việc sử dụng một lược đồ đánh chỉ số dựa vào dấu hiệu Laplacian.

Tuy nhiên, SURF hoạt động kém trong trường hợp xoay. Mẫu nhị phân cục bộ Mẫu nhị phân cục bộ (LBP - Local Binary Pattern) so sánh điểm ảnh trung tâm và các lân cận của nó, ở đây điểm ảnh trung tâm được xem như là ngưỡng. LBP là mạnh bởi vì nó bất biến đối với các biến đổi về đa cấp xám. Hơn nữa, nó đơn giản về mặt tính toán.

Hạn chế chính của LBP là nó làm mất thông tin không gian toàn cục. Lựa chọn đặc trưng Lựa chọn đặc trưng là một quá trình quan trọng trong phân tích dữ liệu, nó giúp chọn ra tập các đặc trưng có liên quan nhất đến đối tượng dữ liệu và biểu diễn chúng một cách hiệu quả nhất. Tập các đặc trưng này được chọn từ các đặc trưng dữ liệu ban đầu (gốc) và được xếp theo thứ tự giảm dần của độ quan trọng. Một số kỹ 12 thuật lựa chọn đặc trưng khác nhau đã được đề xuất trong lĩnh vực nhận dạng mẫu [32].

Trong những năm gần đây, đã có một số tiếp cận đề xuất như: trọng số Fisher (Fisher score) [33], nổi trội (Relief), nổi trội F (Relief-F) [35], thông tin tương hỗ (mutual information) [36], điều kiện độc lập của Hilbert Schmidt (HSIC-Hilbert Schmidt Independence Criterion) [37], điểm số Laplace (Laplacian score) [38].

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nghiên Cứu Tra Cứu Ảnh Dựa Vào Nội Dung Với Học Biểu Diễn" khám phá các phương pháp hiện đại trong việc nhận diện và tra cứu hình ảnh dựa trên nội dung, sử dụng các kỹ thuật học máy tiên tiến. Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về cách thức hoạt động của các mô hình học biểu diễn mà còn chỉ ra những ứng dụng thực tiễn trong lĩnh vực nhận diện hình ảnh. Độc giả sẽ được lợi từ việc hiểu rõ hơn về các công nghệ mới, từ đó có thể áp dụng vào các dự án của riêng mình.

Nếu bạn muốn mở rộng kiến thức về lĩnh vực này, hãy tham khảo thêm tài liệu Luận văn phân đoạn ảnh dựa trên thuật toán nở vùng, nơi bạn sẽ tìm thấy các phương pháp phân đoạn hình ảnh hiệu quả. Bên cạnh đó, tài liệu Hcmute nguyên cứu và phát triển chương trình nhận diện xe ô tô và người đi bộ sẽ giúp bạn hiểu rõ hơn về ứng dụng thực tiễn của công nghệ nhận diện trong giao thông. Cuối cùng, tài liệu Luận văn thạc sĩ khoa học máy tính rút trích nét đối tượng sẽ cung cấp thêm thông tin về việc rút trích các đặc trưng quan trọng từ hình ảnh. Những tài liệu này sẽ là cơ hội tuyệt vời để bạn đào sâu hơn vào các khía cạnh khác nhau của nghiên cứu hình ảnh.

#công nghệ nhận diện