I. Tổng Quan Nghiên Cứu Tra Cứu Ảnh Dựa Trên Đặc Trưng Ảnh
Những năm gần đây, sự tăng trưởng vượt bậc của dữ liệu ảnh số đặt ra thách thức lớn trong việc quản lý và truy xuất hiệu quả. Lượng thông tin ảnh khổng lồ, ước tính hàng trăm triệu ảnh trên Internet, trở nên khó tiếp cận nếu không có phương pháp tổ chức và tra cứu ảnh phù hợp. Các phương pháp truyền thống dựa vào văn bản mô tả ảnh hoặc từ khóa gặp nhiều hạn chế, bao gồm sự tốn kém về thời gian, chi phí nhân lực và tính chủ quan trong việc gán nhãn. Do đó, tra cứu ảnh dựa trên nội dung (CBIR) sử dụng đặc trưng ảnh thị giác nổi lên như một giải pháp tiềm năng. CBIR tự động trích xuất thông tin từ ảnh, loại bỏ sự can thiệp thủ công và cung cấp khả năng tìm kiếm linh hoạt hơn. Theo Nguyễn Hữu Quỳnh, việc trích rút hiệu quả đặc trưng ảnh và đo lường độ tương đồng giữa chúng là hai yếu tố then chốt trong tra cứu ảnh hiệu quả.
1.1. Giới Thiệu Phương Pháp Truy Xuất Ảnh Dựa Trên Nội Dung CBIR
Phương pháp truy xuất ảnh dựa trên nội dung (CBIR, Content-Based Image Retrieval) sử dụng các đặc trưng ảnh thị giác như màu sắc, kết cấu, hình dạng và bố cục để tìm kiếm ảnh tương tự trong cơ sở dữ liệu. Thay vì dựa vào từ khóa hoặc mô tả bằng văn bản, CBIR phân tích trực tiếp nội dung ảnh, giúp giảm thiểu tính chủ quan và nâng cao độ chính xác trong quá trình truy xuất ảnh. Quá trình CBIR bao gồm hai giai đoạn chính: trích xuất đặc trưng ảnh (feature extraction) và so sánh đặc trưng ảnh (feature matching). Giai đoạn trích xuất đặc trưng ảnh chuyển đổi ảnh thành một vector số biểu diễn các thuộc tính quan trọng của ảnh. Giai đoạn so sánh đặc trưng ảnh tính toán độ tương đồng giữa vector đặc trưng của ảnh truy vấn và các vector đặc trưng của ảnh trong cơ sở dữ liệu.
1.2. Các Loại Đặc Trưng Ảnh Thường Dùng trong CBIR
Các đặc trưng ảnh được sử dụng trong CBIR có thể được chia thành nhiều loại, bao gồm đặc trưng màu sắc, đặc trưng kết cấu, đặc trưng hình dạng và đặc trưng không gian. Đặc trưng màu sắc mô tả sự phân bố màu trong ảnh, thường được biểu diễn bằng các lược đồ màu (Global Color Histogram, Local Color Histogram). Đặc trưng kết cấu mô tả sự lặp lại của các mẫu trong ảnh, thường được biểu diễn bằng các ma trận đồng xuất hiện mức xám (GLCM) hoặc các bộ lọc Gabor. Đặc trưng hình dạng mô tả hình dạng của các đối tượng trong ảnh, thường được biểu diễn bằng các moment bất biến hoặc các đường biên. Đặc trưng không gian mô tả vị trí tương đối của các đối tượng trong ảnh, thường được biểu diễn bằng các biểu đồ không gian hoặc các cây tứ phân. Theo Nguyễn Hữu Quỳnh, màu sắc là đặc trưng được sử dụng rộng rãi nhất nhờ tính toán nhanh và ổn định.
II. Thách Thức Vấn Đề Trong Tra Cứu Ảnh Bằng Đặc Trưng Ảnh
Mặc dù CBIR hứa hẹn nhiều tiềm năng, phương pháp này vẫn đối mặt với nhiều thách thức. Một trong những vấn đề lớn nhất là khoảng cách ngữ nghĩa (Semantic Gap), tức là sự khác biệt giữa cách máy tính biểu diễn ảnh và cách con người hiểu nội dung ảnh. Các đặc trưng ảnh thị giác mức thấp có thể không phản ánh đầy đủ ngữ nghĩa của ảnh, dẫn đến kết quả tìm kiếm không chính xác. Ngoài ra, việc lựa chọn đặc trưng ảnh phù hợp và phương pháp so sánh hiệu quả cũng là những vấn đề quan trọng cần giải quyết. Các phương pháp indexing ảnh cũng cần được cải thiện để tăng tốc độ truy xuất ảnh trong các cơ sở dữ liệu lớn. Theo luận án, hầu hết các phương pháp hiện tại đều gặp phải vấn đề về không gian lưu trữ, độ chính xác, độ phức tạp và tính nhạy cảm.
2.1. Vấn Đề Khoảng Cách Ngữ Nghĩa Semantic Gap Trong CBIR
Khoảng cách ngữ nghĩa (Semantic Gap) là một thách thức lớn trong CBIR. Máy tính chỉ có thể phân tích đặc trưng thị giác mức thấp, trong khi con người hiểu ảnh dựa trên ngữ nghĩa và ý nghĩa. Ví dụ, máy tính có thể nhận diện màu xanh và hình dạng bầu trời trong một bức ảnh, nhưng không thể hiểu rằng đó là một bức ảnh về một ngày đẹp trời. Sự khác biệt này dẫn đến việc kết quả tìm kiếm có thể không liên quan đến ý định của người dùng. Để giảm khoảng cách ngữ nghĩa, các nhà nghiên cứu đang tìm cách kết hợp thông tin ngữ nghĩa vào quá trình truy xuất ảnh, chẳng hạn như sử dụng ontology hoặc các kỹ thuật học sâu.
2.2. Khó Khăn Trong Việc Lựa Chọn Đặc Trưng Ảnh Phù Hợp
Việc lựa chọn đặc trưng ảnh phù hợp cho CBIR phụ thuộc vào loại ảnh và mục đích sử dụng. Không có một đặc trưng nào là tốt nhất cho tất cả các trường hợp. Ví dụ, đặc trưng màu sắc có thể hiệu quả cho việc tìm kiếm ảnh có màu sắc tương tự, nhưng không hiệu quả cho việc tìm kiếm ảnh có nội dung tương tự. Đặc trưng kết cấu có thể hiệu quả cho việc tìm kiếm ảnh có kết cấu tương tự, nhưng không hiệu quả cho việc tìm kiếm ảnh có hình dạng tương tự. Do đó, việc lựa chọn đặc trưng cần dựa trên phân tích kỹ lưỡng về dữ liệu ảnh và yêu cầu ứng dụng. Một giải pháp là sử dụng kết hợp nhiều đặc trưng ảnh khác nhau để tận dụng ưu điểm của từng loại.
2.3. Hạn Chế Về Tốc Độ Truy Xuất Ảnh trong CSDL lớn
Khi kích thước cơ sở dữ liệu ảnh tăng lên, tốc độ truy xuất ảnh trở thành một vấn đề quan trọng. Việc so sánh đặc trưng của ảnh truy vấn với tất cả các ảnh trong cơ sở dữ liệu có thể mất rất nhiều thời gian. Để giải quyết vấn đề này, các kỹ thuật indexing ảnh được sử dụng để tổ chức cơ sở dữ liệu ảnh sao cho việc tìm kiếm trở nên nhanh chóng hơn. Các kỹ thuật indexing ảnh phổ biến bao gồm cây KD, cây Ball và các phương pháp hashing.
III. Nghiên Cứu Cải Tiến Phương Pháp Dựa Trên Lược Đồ Màu Khối
Luận án này đề xuất một số phương pháp cải tiến dựa trên lược đồ màu khối (Color Cell Histogram - CCH) nhằm nâng cao hiệu quả truy xuất ảnh. Phương pháp HG (Histogram Graph) được giới thiệu, tập trung vào việc giảm không gian lưu trữ và tăng tính ổn định trước các biến đổi hình học. Tiếp theo, phương pháp IHG (Improving Histogram Graph) được phát triển dựa trên HG, hướng đến việc giảm thời gian tính toán và tăng độ chính xác. Cả hai phương pháp đều sử dụng ít không gian lưu trữ lược đồ màu và ít nhạy cảm với quay và dịch chuyển.
3.1. Phương Pháp HG Histogram Graph Giảm Không Gian Lưu Trữ
Phương pháp HG (Histogram Graph) được đề xuất nhằm giảm không gian lưu trữ lược đồ màu so với các phương pháp truyền thống như Global Color Histogram (GCH) và Local Color Histogram (LCH). HG biểu diễn lược đồ màu bằng một đồ thị, trong đó các đỉnh đại diện cho các dải màu và các cạnh đại diện cho mối quan hệ giữa các dải màu. Bằng cách chỉ lưu trữ các mối quan hệ quan trọng, HG giảm đáng kể không gian lưu trữ mà vẫn giữ được thông tin quan trọng về phân bố màu sắc trong ảnh. Luận án chỉ ra rằng phương pháp HG ít nhạy cảm hơn với quay và dịch chuyển so với các phương pháp khác.
3.2. Phương Pháp IHG Improving Histogram Graph Tăng Tốc Độ và Độ Chính Xác
Phương pháp IHG (Improving Histogram Graph) là một cải tiến của HG, nhằm giảm thời gian tính toán và tăng độ chính xác truy xuất ảnh. IHG sử dụng một kỹ thuật indexing để tăng tốc quá trình so sánh đặc trưng. Ngoài ra, IHG sử dụng một độ đo tương đồng cải tiến để tăng độ chính xác trong việc đánh giá sự tương đồng giữa các ảnh. Kết quả thực nghiệm cho thấy IHG có tốc độ truy xuất ảnh nhanh hơn và độ chính xác cao hơn so với HG, đồng thời vẫn giữ được ưu điểm về không gian lưu trữ.
IV. Ứng Dụng Vùng Ảnh Trong Tra Cứu Ảnh CSI và CCS
Luận án cũng khám phá việc sử dụng vùng ảnh và thông tin không gian để cải thiện hiệu năng truy xuất ảnh. Phương pháp CSI (Color and Spatial Information) trích xuất cả đặc trưng màu sắc và thông tin không gian từ các vùng ảnh. Phương pháp CCS (Cluster of Colors and Space) phân chia ảnh thành các cụm màu đồng nhất và trích xuất thông tin màu sắc và không gian từ mỗi cụm. Cả hai phương pháp đều hướng đến việc tận dụng thông tin về bố cục và vị trí của các đối tượng trong ảnh để nâng cao độ chính xác truy xuất ảnh.
4.1. Phương Pháp CSI Color and Spatial Information Kết Hợp Màu Sắc và Vị Trí
Phương pháp CSI (Color and Spatial Information) trích xuất cả đặc trưng màu sắc và thông tin không gian từ các vùng ảnh. Thông tin không gian được biểu diễn bằng các mối quan hệ không gian giữa các vùng ảnh. Bằng cách kết hợp cả màu sắc và thông tin không gian, CSI có thể phân biệt các ảnh có màu sắc tương tự nhưng có bố cục khác nhau. CSI cho phép biểu diễn vị trí của các vùng ảnh và sự tương quan giữa chúng, từ đó cải thiện đáng kể khả năng phân biệt ảnh. Phương pháp này đặc biệt hữu ích cho các ảnh có cấu trúc phức tạp hoặc nhiều đối tượng.
4.2. Phương Pháp CCS Cluster of Colors and Space Phân Cụm Màu Đồng Nhất
Phương pháp CCS (Cluster of Colors and Space) phân chia ảnh thành các cụm màu đồng nhất (các cụm màu này có thể có kích cỡ khác nhau) và trích xuất thông tin màu sắc và không gian của mỗi vùng phục vụ quá trình tra cứu . CCS tập trung vào việc xác định và phân tích các vùng có màu sắc tương tự nhau trong ảnh. Thông tin màu sắc và vị trí của các cụm được sử dụng để xây dựng một biểu diễn ảnh chi tiết. Phương pháp này đặc biệt hiệu quả trong việc xử lý các ảnh có nhiều vùng màu sắc riêng biệt, giúp máy tính hiểu rõ hơn về cấu trúc và nội dung của ảnh.
V. Xây Dựng Hệ Thống Tra Cứu Ảnh LVFIR Dựa Trên Các Phương Pháp
Luận án đã xây dựng hệ thống tra cứu ảnh thực nghiệm LVFIR (Local Visual Feature-based Image Retrieval) dựa trên các phương pháp HG, IHG, CSI và CCS. Hệ thống bao gồm hai module chính: module tiền xử lý và module tra cứu. Module tiền xử lý chịu trách nhiệm trích xuất đặc trưng ảnh từ các ảnh trong cơ sở dữ liệu. Module tra cứu chịu trách nhiệm so sánh đặc trưng ảnh của ảnh truy vấn với đặc trưng ảnh của các ảnh trong cơ sở dữ liệu và trả về các ảnh tương tự nhất.
5.1. Kiến Trúc và Chức Năng của Hệ Thống LVFIR
Hệ thống LVFIR (Local Visual Feature-based Image Retrieval) được thiết kế để thử nghiệm và đánh giá hiệu quả của các phương pháp HG, IHG, CSI và CCS trong tra cứu ảnh. Hệ thống bao gồm module tiền xử lý (pre-processing module) và module tra cứu (retrieval module). Module tiền xử lý thực hiện các bước như chuẩn hóa ảnh, phân đoạn ảnh và trích xuất đặc trưng ảnh. Module tra cứu nhận ảnh truy vấn làm đầu vào, trích xuất đặc trưng ảnh của ảnh truy vấn, so sánh với đặc trưng ảnh đã được lưu trữ trong cơ sở dữ liệu và trả về danh sách các ảnh tương tự nhất.
5.2. Các Module Tra Cứu Trong Hệ Thống LVFIR
Hệ thống LVFIR bao gồm hai module tra cứu chính: module tra cứu group1 và module tra cứu group2. Module tra cứu group1 tập trung vào các phương pháp dựa trên lược đồ màu khối (HG và IHG). Module tra cứu group2 tập trung vào các phương pháp sử dụng thông tin vùng ảnh (CSI và CCS). Mỗi module cung cấp giao diện người dùng để lựa chọn phương pháp tra cứu, tải ảnh truy vấn và hiển thị kết quả tra cứu.
VI. Kết Luận Hướng Nghiên Cứu Tra Cứu Ảnh Trong Tương Lai
Luận án đã đề xuất một số phương pháp cải tiến cho tra cứu ảnh dựa trên đặc trưng ảnh, tập trung vào việc giảm không gian lưu trữ, tăng tốc độ tính toán và nâng cao độ chính xác. Các phương pháp HG, IHG, CSI và CCS đã được chứng minh là có hiệu quả trong việc cải thiện hiệu năng tra cứu ảnh. Nghiên cứu trong tương lai có thể tập trung vào việc kết hợp các phương pháp này với các kỹ thuật học sâu để đạt được kết quả tốt hơn nữa. Ngoài ra, việc giải quyết vấn đề khoảng cách ngữ nghĩa vẫn là một thách thức quan trọng cần được quan tâm.
6.1. Tổng Kết Những Đóng Góp Của Luận Án
Luận án đã đóng góp vào lĩnh vực tra cứu ảnh bằng cách đề xuất các phương pháp cải tiến dựa trên đặc trưng ảnh, bao gồm phương pháp HG (Histogram Graph), phương pháp IHG (Improving Histogram Graph), phương pháp CSI (Color and Spatial Information) và phương pháp CCS (Cluster of Colors and Space). Các phương pháp này tập trung vào việc giảm không gian lưu trữ, tăng tốc độ tính toán và nâng cao độ chính xác truy xuất ảnh. Luận án cũng đã xây dựng hệ thống tra cứu ảnh LVFIR để đánh giá hiệu quả của các phương pháp đề xuất.
6.2. Hướng Nghiên Cứu Tương Lai Về Học Sâu và CBIR
Hướng nghiên cứu tương lai có thể tập trung vào việc kết hợp các phương pháp CBIR truyền thống với các kỹ thuật học sâu (Deep Learning for Image Retrieval). Các mô hình mạng nơ-ron tích chập (CNN) đã chứng minh hiệu quả trong việc trích xuất đặc trưng ảnh phức tạp và biểu diễn thông tin ngữ nghĩa tốt hơn. Việc sử dụng mạng nơ-ron để trích xuất đặc trưng ảnh và metric learning có thể giúp giảm khoảng cách ngữ nghĩa và cải thiện đáng kể hiệu năng truy xuất ảnh.