I. Tổng Quan Về Tra Cứu Ảnh Dựa Trên Nội Dung CBIR
Thuật ngữ "Tra cứu thông tin" xuất hiện năm 1952, thu hút sự chú ý từ năm 1961. Hệ thống tra cứu thông tin lưu trữ và tìm kiếm dữ liệu. Thế giới chứng kiến sự phát triển về số lượng, tính sẵn có, độ phức tạp và tầm quan trọng của ảnh trong mọi lĩnh vực. Nhu cầu về dịch vụ ảnh trở nên thiết yếu hơn bao giờ hết. Các ảnh đóng vai trò quan trọng trong giáo dục, y tế, dự báo thời tiết, nghiên cứu tội phạm, quảng cáo, thiết kế, web, mạng xã hội và giải trí. Tuy nhiên, xử lý và lưu trữ ảnh đòi hỏi phương pháp hiệu quả để đánh chỉ số, lưu trữ, phân tích và tra cứu. Tra cứu ảnh nhanh, chính xác và hiệu quả trở thành nhiệm vụ thách thức. Phương pháp ban đầu dựa vào văn bản, đánh chỉ số ảnh bằng từ khóa, chủ đề. Nhưng với cơ sở dữ liệu lớn, phương pháp này gặp nhiều khó khăn: tốn nhân lực, thời gian, từ khóa chủ quan. Để khắc phục, nội dung ảnh (màu sắc, kết cấu, hình dạng) được trích xuất tự động. Đây là Tra cứu ảnh dựa trên nội dung (CBIR). CBIR loại bỏ khó khăn của tra cứu dựa vào văn bản, cung cấp kết quả chính xác hơn. Theo [6] và [9], nhu cầu tìm kiếm ảnh ngày càng tăng trong nhiều lĩnh vực.
1.1. Kiến trúc Hệ Thống CBIR Thành Phần Quan Trọng
Kiến trúc hệ thống CBIR bao gồm các thành phần chính: trích xuất đặc trưng trực quan, tạo truy vấn, đánh giá độ tương tự, cơ sở dữ liệu ảnh, và phản hồi liên quan từ người dùng. Người dùng cung cấp truy vấn, hệ thống trích xuất đặc trưng (màu sắc, kết cấu, hình dạng) từ ảnh truy vấn và cơ sở dữ liệu. Sau đó, hệ thống so sánh các đặc trưng để tìm kiếm ảnh tương tự. Phản hồi liên quan cho phép người dùng đánh giá và cải thiện kết quả tìm kiếm.
1.2. Các Phương Pháp Tra Cứu Ảnh Truyền Thống Phổ Biến
Các phương pháp tra cứu ảnh truyền thống bao gồm: dựa trên văn bản (sử dụng từ khóa), duyệt qua danh mục, truy vấn theo khái niệm, truy vấn bằng bản phác thảo và truy vấn bằng ảnh ví dụ. Duyệt qua danh mục đơn giản nhưng không hiệu quả cho cơ sở dữ liệu lớn. Truy vấn theo khái niệm yêu cầu mô tả chi tiết. Truy vấn bằng bản phác thảo và ảnh ví dụ là phương pháp quan trọng, tập trung vào độ tương đồng đặc trưng trực quan.
II. Thách Thức Khoảng Cách Ngữ Nghĩa Trong Tra Cứu Ảnh
Hệ thống CBIR dựa vào đặc điểm nguyên thủy để so sánh độ tương tự giữa ảnh truy vấn và ảnh trong cơ sở dữ liệu. Tuy nhiên, sự tương tự không chỉ được xác định theo một cách. Số lượng ảnh tương tự thay đổi khi yêu cầu truy vấn thay đổi. Ví dụ, ảnh biển xanh mặt trời mọc và núi xanh mặt trời mọc. Khi mặt trời được xem xét, độ tương tự cao. Nhưng nếu đối tượng quan tâm là biển xanh, độ tương tự thấp. Rất khó tìm ra phương pháp đo độ tương tự chính xác cho mọi kiểu truy vấn. Mỗi phương pháp tra cứu đều có giới hạn. Ví dụ, khó phân biệt bầu trời xanh và mặt biển xanh bằng công nghệ tra cứu dựa trên màu sắc. Hiệu quả của công nghệ phụ thuộc vào kiểu yêu cầu của người dùng.
2.1. Khoảng Cách Ngữ Nghĩa Định Nghĩa Và Ảnh Hưởng
Khoảng cách ngữ nghĩa là sự khác biệt giữa cách máy tính hiểu ảnh (dựa trên đặc trưng) và cách con người hiểu ảnh (dựa trên ý nghĩa). Khoảng cách này gây khó khăn cho việc tra cứu ảnh chính xác, vì máy tính có thể trả về ảnh có đặc trưng tương tự nhưng ý nghĩa khác biệt.
2.2. Giảm Khoảng Cách Ngữ Nghĩa Bằng Phản Hồi Liên Quan
Phản hồi liên quan (RF) là quá trình tương tác trực tuyến để học mục đích của người dùng. RF được sử dụng rộng rãi trong hệ thống tra cứu thông tin. Mục đích là giảm khoảng cách ngữ nghĩa giữa truy vấn và ý nghĩ của người dùng. Bằng việc tiếp tục học qua tương tác với người dùng cuối, RF cải thiện hiệu năng đáng kể trong hệ thống tra cứu ảnh dựa vào nội dung. [5] đã chứng minh hiệu quả của RF trong việc cải thiện độ chính xác.
2.3. Cơ Chế Hoạt Động Của Phản Hồi Liên Quan Relevance Feedback
Cơ chế phản hồi liên quan trong tra cứu ảnh dựa trên nội dung hoạt động như sau: sau khi có kết quả ban đầu, người dùng chọn ảnh liên quan (mẫu dương) và không liên quan (mẫu âm). Dựa trên mẫu, thuật toán máy học điều chỉnh tham số. Sau đó, tra cứu ảnh tiếp tục được thực hiện. Quá trình lặp lại đến khi người dùng hài lòng.
III. Cách Trích Chọn Đặc Trưng Ảnh Hiệu Quả Cho CBIR
Các đặc trưng hình ảnh bao gồm đặc trưng nguyên thủy và đặc trưng ngữ nghĩa hoặc logic. Đặc trưng cơ bản là: màu sắc, kết cấu, hình dạng, vị trí không gian. Chúng được định lượng tự nhiên và có thể được trích xuất tự động hoặc bán tự động. Đặc trưng logic cung cấp mô tả trừu tượng của dữ liệu hình ảnh ở các cấp độ khác nhau. Một hoặc nhiều đặc trưng có thể được sử dụng trong từng ứng dụng cụ thể.
3.1. Trích Chọn Đặc Trưng Màu Sắc Các Phương Pháp Tiêu Biểu
Hình ảnh là một mảng pixel, mỗi pixel thể hiện một màu sắc. Có nhiều không gian màu được sử dụng để tính toán các giá trị màu, phổ biến nhất là RGB. Các phương pháp trích chọn đặc trưng màu bao gồm histogram màu, vector liên kết màu (CCV), và moment màu. Histogram màu biểu diễn phân bố màu sắc, CCV lưu trữ thông tin về sự liên kết giữa các pixel màu tương tự. Moment màu tóm tắt phân bố màu bằng các giá trị thống kê.
3.2. Kỹ Thuật Trích Chọn Đặc Trưng Kết Cấu Texture Ảnh
Kết cấu (Texture) mô tả sự lặp lại của các mẫu trong ảnh. Các phương pháp trích chọn đặc trưng kết cấu bao gồm ma trận đồng xuất hiện mức xám (GLCM), luật lọc Gabor và biến đổi wavelet. GLCM đo mối quan hệ không gian giữa các pixel mức xám. Lọc Gabor sử dụng các bộ lọc có hướng để trích xuất thông tin về tần số và hướng. Biến đổi wavelet phân tích ảnh ở các mức độ phân giải khác nhau.
3.3. Phương Pháp Trích Chọn Đặc Trưng Hình Dạng Shape Ảnh
Hình dạng (Shape) mô tả đường viền và hình dạng của đối tượng trong ảnh. Các phương pháp trích chọn đặc trưng hình dạng bao gồm moment Hu, đường biên, và lược đồ hệ số góc. Moment Hu là tập hợp các moment bất biến với phép biến đổi hình học. Đường biên mô tả đường viền của đối tượng. Lược đồ hệ số góc đo góc giữa các điểm trên đường biên.
IV. Phân Cụm Đồ Thị Giải Pháp Cho Tra Cứu Ảnh Hiệu Quả
Phân cụm là vấn đề cơ bản trong nhận dạng mẫu, học máy và khai thác dữ liệu. Có nhiều thuật toán phân cụm, nhưng không có thuật toán nào phù hợp với mọi loại dữ liệu. Các thuật toán phân cụm dựa trên đồ thị được đề xuất do khả năng xử lý dữ liệu đa dạng và có cấu trúc. Bản chất là biểu diễn dữ liệu dựa trên đồ thị và phân cụm các thành phần theo thuật toán riêng. [7] nhấn mạnh ưu điểm của phân cụm đồ thị trong xử lý dữ liệu phức tạp.
4.1. Giới Thiệu Về Đồ Thị Và Ứng Dụng Trong Phân Cụm
Đồ thị là cấu trúc toán học đại diện cho mối quan hệ giữa các đối tượng từ một tập hợp xác định. Đồ thị chứa đỉnh (đại diện cho đối tượng) và cạnh nối đỉnh (đại diện cho mối quan hệ). Đây là phương pháp biểu diễn cấu trúc dữ liệu quan trọng trong khai thác dữ liệu, xử lý ngôn ngữ tự nhiên, tìm kiếm thông tin. Trong phân cụm, sự tương đồng giữa các đối tượng được diễn tả như đồ thị có trọng số. Các đối tượng là đỉnh, sự tương đồng là trọng số cạnh.
4.2. Thuật Toán Phân Cụm Quang Phổ Spectral Clustering Chi Tiết
Phân cụm quang phổ (Spectral Clustering) là thuật toán phân cụm dựa trên đồ thị, sử dụng eigenvectơ của ma trận Laplacian để giảm chiều dữ liệu và thực hiện phân cụm. Thuật toán này hiệu quả với dữ liệu phi lồi và có cấu trúc phức tạp. Các bước chính bao gồm: xây dựng ma trận tương tự, tính toán ma trận Laplacian, tìm eigenvectơ và thực hiện phân cụm (ví dụ, k-means) trên eigenvectơ.
4.3. Tại Sao Nên Sử Dụng Phân Cụm Đồ Thị Trong Tra Cứu Ảnh
Trong bài toán tra cứu ảnh, các ảnh trong cơ sở dữ liệu được biểu diễn như đỉnh của đồ thị có trọng số. Phản hồi liên quan của người dùng được sử dụng để tạo ra mẫu gán nhãn. Mẫu này làm cơ sở tính toán khả năng lan truyền cho mỗi ảnh. Không chỉ sử dụng quan hệ từng cặp giữa ảnh truy vấn và ảnh trong cơ sở dữ liệu, nó còn khai thác quan hệ giữa tất cả ảnh. Các ảnh liên quan được gom cụm vào cùng nhóm, các ảnh còn lại là nhóm khác. Do đó, hiệu quả tra cứu được cải thiện.
V. Ứng Dụng Phân Cụm Đồ Thị Tra Cứu Ảnh Thử Nghiệm
Luận văn đã xây dựng chương trình thử nghiệm để đánh giá hiệu quả của phương pháp tra cứu ảnh dựa trên phân cụm đồ thị. Thử nghiệm sử dụng cơ sở dữ liệu ảnh Wang và các phương pháp trích chọn đặc trưng khác nhau. Kết quả cho thấy phân cụm đồ thị cải thiện độ chính xác của tra cứu ảnh, đặc biệt khi kết hợp với phản hồi liên quan. [14] cung cấp chi tiết về cơ sở dữ liệu ảnh Wang được sử dụng trong thử nghiệm.
5.1. Thiết Kế Mô Hình Thử Nghiệm Chi Tiết
Mô hình thử nghiệm bao gồm các bước: tiền xử lý ảnh (điều chỉnh kích thước, chuyển đổi không gian màu), trích chọn đặc trưng (màu sắc, kết cấu, hình dạng), xây dựng đồ thị tương tự giữa các ảnh, thực hiện phân cụm đồ thị (sử dụng thuật toán spectral clustering), và đánh giá kết quả tra cứu. Phản hồi liên quan được tích hợp để cải thiện độ chính xác.
5.2. Tiêu Chí Đánh Giá Hiệu Năng Tra Cứu Ảnh Quan Trọng
Hiệu năng tra cứu ảnh được đánh giá bằng các tiêu chí: độ chính xác (precision), độ phủ (recall), và F1-score. Độ chính xác đo tỷ lệ ảnh liên quan trong số các ảnh được trả về. Độ phủ đo tỷ lệ ảnh liên quan được tìm thấy trong số tất cả ảnh liên quan trong cơ sở dữ liệu. F1-score là trung bình điều hòa của độ chính xác và độ phủ.
5.3. Phân Tích Kết Quả Tra Cứu Ưu Điểm Phân Cụm Đồ Thị
Kết quả thử nghiệm cho thấy việc sử dụng phân cụm đồ thị cải thiện đáng kể độ chính xác của tra cứu ảnh so với phương pháp không sử dụng phân cụm. Đặc biệt, khi kết hợp phân cụm đồ thị với phản hồi liên quan, hiệu quả tra cứu được cải thiện đáng kể sau mỗi lần phản hồi từ người dùng. Điều này chứng tỏ tiềm năng của phương pháp trong việc giảm khoảng cách ngữ nghĩa và nâng cao trải nghiệm người dùng.
VI. Kết Luận Về Tra Cứu Ảnh Hướng Phát Triển Tương Lai
Luận văn đã trình bày nghiên cứu về phương pháp tra cứu ảnh dựa trên phân cụm đồ thị. Phương pháp này cho thấy tiềm năng trong việc cải thiện độ chính xác và hiệu quả của hệ thống CBIR. Hướng phát triển tương lai bao gồm nghiên cứu các thuật toán phân cụm đồ thị nâng cao, tích hợp thông tin ngữ cảnh và phát triển giao diện người dùng thân thiện hơn.
6.1. Tóm Tắt Các Kết Quả Nghiên Cứu Chính Trong Luận Văn
Luận văn đã nghiên cứu và đánh giá hiệu quả của việc áp dụng kỹ thuật phân cụm đồ thị vào bài toán tra cứu ảnh. Thử nghiệm được thực hiện trên cơ sở dữ liệu ảnh Wang với các bộ tham số khác nhau trong thuật toán. Kết quả cho thấy phân cụm đồ thị cải thiện độ chính xác của tra cứu ảnh, đặc biệt khi kết hợp với phản hồi liên quan.
6.2. Hướng Nghiên Cứu Phát Triển Tiếp Theo Cho Tra Cứu Ảnh
Hướng nghiên cứu phát triển tiếp theo bao gồm: nghiên cứu các thuật toán phân cụm đồ thị nâng cao (ví dụ, phân cụm đồ thị dựa trên học sâu), tích hợp thông tin ngữ cảnh (ví dụ, sử dụng mô tả văn bản đi kèm với ảnh), phát triển giao diện người dùng thân thiện hơn (ví dụ, cho phép người dùng tương tác trực quan với đồ thị). Ngoài ra, việc nghiên cứu các phương pháp đánh chỉ số hiệu quả hơn cho đồ thị cũng là một hướng đi tiềm năng.