Luận văn: Nghiên cứu phương pháp tra cứu ảnh dựa trên phân cụm đồ thị - Trần Thị Hường

Luận văn thạc sĩ nghiên cứu chuyên sâu về phương pháp tra cứu ảnh hiệu quả, ứng dụng kỹ thuật phân cụm đô thị. Khám phá thuật toán và ứng dụng thực tế.

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2020

69
0
0

Phí lưu trữ

30 Point

Tóm tắt

I. Tổng quan về tra cứu ảnh dựa trên phân cụm đồ thị

Tra cứu ảnh dựa trên nội dung (Content-Based Image Retrieval - CBIR) là lĩnh vực nghiên cứu quan trọng trong khoa học máy tính. Hệ thống CBIR cho phép tìm kiếm hình ảnh tương tự dựa trên đặc trưng trực quan như màu sắc, kết cấu và hình dạng. Phương pháp phân cụm đồ thị được áp dụng nhằm cải thiện hiệu quả tra cứu. Ý tưởng chính là biểu diễn tập ảnh dưới dạng đồ thị. Mỗi đỉnh tương ứng một ảnh. Mỗi cạnh thể hiện mức độ tương tự giữa hai ảnh. Ma trận affinity được xây dựng để mô tả mối liên kết này. Từ ma trận Laplacian, các vector riêng được tính toán để phân hoạch tập ảnh thành các cụm đồng nhất. Phương pháp này giúp giảm đáng kể thời gian tìm kiếm. Đồng thời nâng cao độ chính xác của kết quả trả về. Nghiên cứu này tập trung vào thuật toán CRISE. Thuật toán sử dụng K vector riêng lớn nhất của ma trận Laplacian chuẩn hóa. Qua đó tạo ra biểu diễn không gian mới cho tập ảnh. Mỗi cụm ảnh sẽ có một ảnh đại diện được chọn lọc kỹ lưỡng.

1.1. Khái niệm và kiến trúc hệ thống CBIR

Hệ thống CBIR là hệ thống tra cứu ảnh tự động dựa trên nội dung trực quan. Kiến trúc hệ thống bao gồm hai thành phần chính. Thứ nhất là module trích chọn đặc trưng. Module này xử lý ảnh trong cơ sở dữ liệu để tạo vector đặc trưng. Thứ hai là module so sánh và tìm kiếm. Module này tính toán khoảng cách giữa ảnh truy vấn và các ảnh trong tập dữ liệu. Các đặc trưng thường sử dụng gồm màu sắc, kết cấu và hình dạng. Đặc trưng màu sử dụng không gian màu HSV hoặc histogram màu. Đặc trưng kết cấu mô tả sự phân bố cường độ điểm ảnh. Đặc trưng hình dạng trích xuất biên cạnh và đường viền đối tượng.

1.2. Các đặc trưng trích chọn trong tra cứu ảnh

Trích chọn đặc trưng là bước quan trọng trong hệ thống CBIR. Đặc trưng màu được biểu diễn qua histogram màu trong không gian HSV. Phương pháp quantization màu giúp giảm số chiều dữ liệu. Đặc trưng kết cấu (texture) sử dụng các bộ lọc Gabor hoặc ma trận đồng xuất hiện. Các phương pháp này mô tả sự biến đổi cường độ trong vùng ảnh cục bộ. Đặc trưng hình dạng (shape) dựa trên phát hiện biên cạnh và đường viền. Vector liên kết hệ số góc được sử dụng để kết hợp đặc trưng biên cạnh. Mỗi đặc trưng có ưu nhược điểm riêng. Việc kết hợp nhiều đặc trưng giúp tăng độ chính xác cho hệ thống tra cứu.

II. Vấn đề khoảng cách ngữ nghĩa trong tra cứu ảnh

Khoảng cách ngữ nghĩa là thách thức lớn nhất trong lĩnh vực tra cứu ảnh. Đây là sự khác biệt giữa đặc trưng mức thấp và đặc trưng mức cao. Đặc trưng mức thấp bao gồm màu sắc, kết cấu, hình dạng. Đặc trưng mức cao là khái niệm, từ khóa, mô tả ngữ nghĩa. Con người hiểu ảnh theo ngữ nghĩa. Máy tính chỉ xử lý được đặc trưng số học. Sự không khớp này dẫn đến kết quả tra cứu không chính xác. Nhiều nghiên cứu đã phát triển thuật toán phức tạp. Tuy nhiên, các thuật toán vẫn chưa mô tả đầy đủ ngữ nghĩa hình ảnh. Khoảng cách ngữ nghĩa tồn tại ở nhiều cấp độ. Cấp độ đầu tiên là khoảng cách giữa đặc trưng thấp và trung bình. Cấp độ thứ hai là khoảng cách giữa đặc trưng trung bình và cao. Phản hồi liên quan (relevance feedback) là kỹ thuật được sử dụng. Kỹ thuật này cho phép người dùng đánh giá kết quả. Từ đó hệ thống học và cải thiện kết quả tìm kiếm.

2.1. Nguyên nhân gây ra khoảng cách ngữ nghĩa

Khoảng cách ngữ nghĩa xuất phát từ nhiều nguyên nhân cơ bản. Nguyên nhân đầu tiên là hạn chế của kỹ thuật trích chọn đặc trưng. Các thuật toán hiện tại không thể mô tả đầy đủ nội dung ngữ nghĩa hình ảnh. Nguyên nhân thứ hai là sự đa dạng trong cách diễn đạt của con người. Cùng một khái niệm có thể được thể hiện bằng nhiều cách khác nhau. Nguyên nhân thứ ba là tính chủ quan khi đánh giá相似度. Mỗi người có cách cảm nhận và đánh giá mức độ tương tự khác nhau. Nguyên nhân cuối cùng là sự phức tạp của ngữ cảnh. Cùng một đối tượng trong ngữ cảnh khác nhau mang ý nghĩa khác nhau.

2.2. Các phương pháp thu hẹp khoảng cách ngữ nghĩa

Nhiều phương pháp đã được đề xuất để thu hẹp khoảng cách ngữ nghĩa. Phương pháp phản hồi liên quan (relevance feedback) cho phép người dùng tương tác. Người dùng đánh giá kết quả tìm kiếm ban đầu. Hệ thống học từ phản hồi để cải thiện kết quả tiếp theo. Phương pháp học đặc trưng chuyển đổi biểu diễn đặc trưng. Đặc trưng mới gần hơn với không gian ngữ nghĩa. Phương pháp phân cụm cũng được áp dụng rộng rãi. Phân cụm nhóm các ảnh相似 thành từng nhóm riêng biệt. Từ đó giảm phạm vi tìm kiếm và tăng độ chính xác. Phương pháp học sâu (deep learning) tạo ra biểu diễn đặc trưng mạnh mẽ. Các mạng CNN học được đặc trưng trừu tượng từ dữ liệu lớn.

III. Phương pháp phân cụm đồ thị cho tra cứu ảnh hiệu quả

Phân cụm đồ thị là phương pháp mạnh mẽ trong xử lý ảnh. Thuật toán CRISE được đề xuất trong nghiên cứu này. Thuật toán hoạt động theo nhiều bước tuần tự. Bước đầu tiên xây dựng ma trận affinity từ tập ảnh. Giá trị affinity giữa hai ảnh được tính bằng hàm Gaussian. Tham số sigma điều khiển mức độ相似 cục bộ. Bước thứ hai xây dựng ma trận Laplacian chuẩn hóa. Ma trận đường chéo D được tính từ tổng các hàng của ma trận A. Ma trận Laplacian L được chuẩn hóa theo công thức D mũ -1/2 nhân A nhân D mũ -1/2. Bước thứ ba tìm K vector riêng lớn nhất. Các vector này tạo thành không gian biểu diễn mới. Bước thứ tư chuẩn hóa các hàng của ma trận X. Bước cuối cùng áp dụng thuật toán K-Means để phân cụm. Kết quả là K cụm ảnh với độ相似 cao nội tại. Ảnh đại diện cho mỗi cụm được chọn dựa trên tổng affinity lớn nhất.

3.1. Xây dựng ma trận affinity và Laplacian

Ma trận affinity là nền tảng của phương pháp phân cụm đồ thị. Với n ảnh trong tập dữ liệu, ma trận A có kích thước n x n. Phần tử a_ij thể hiện mức độ相似 giữa ảnh i và ảnh j. Công thức tính sử dụng hàm mũ Gaussian với tham số sigma. Giá trị sigma ảnh hưởng lớn đến chất lượng phân cụm. Sigma nhỏ tạo cụm紧凑, sigma lớn tạo cụm lỏng lẻo hơn. Ma trận đường chéo D được xây dựng từ tổng các hàng của ma trận A. Ma trận Laplacian chuẩn hóa L được tính bằng công thức D mũ -1/2 nhân A nhân D mũ -1/2. Các vector riêng của ma trận L chứa thông tin cấu trúc cụm quan trọng.

3.2. Chọn ảnh đại diện và tối ưu hóa cụm

IV. Kết luận và ứng dụng phân cụm đồ thị trong thực tế

Nghiên cứu đã đề xuất phương pháp tra cứu ảnh dựa trên phân cụm đồ thị. Phương pháp sử dụng thuật toán CRISE kết hợp K-Means. Kết quả实验 cho thấy hiệu quả cải thiện đáng kể. Thời gian tìm kiếm giảm rõ rệt so với phương pháp truyền thống. Độ chính xác tăng nhờ phân cụm chính xác các ảnh相似. Ứng dụng chính là hệ thống quản lý thư viện ảnh số. Bệnh viện sử dụng để tra cứu hình ảnh y tế相似. Thương mại điện tử áp dụng cho tìm kiếm sản phẩm theo hình ảnh. Bảo tàng số hóa sử dụng để phân loại và tìm kiếm tác phẩm. An ninh sử dụng nhận dạng khuôn mặt và giám sát. Nghiên cứu mở ra hướng phát triển mới cho CBIR. Kết hợp với học sâu sẽ nâng cao hiệu quả hơn nữa. Xử lý dữ liệu lớn cần thuật toán phân cụm song song. Tương lai cần nghiên cứu thêm về đặc trưng ngữ nghĩa tự động.

4.1. Đánh giá hiệu quả phương pháp đề xuất

Phương pháp đề xuất được đánh giá trên nhiều tiêu chí khách quan. Độ chính xác (precision) đo tỷ lệ ảnh liên quan trong kết quả trả về. Độ thu hồi (recall) đo tỷ lệ ảnh liên quan thực sự được tìm thấy. Thời gian响应 là yếu tố quan trọng trong ứng dụng thực tế. Experiment sử dụng cơ sở dữ liệu ảnh chuẩn để đảm bảo tính tin cậy. Kết quả cho thấy precision tăng 15-20% so với phương pháp tìm kiếm tuần tự. Recall保持 ở mức tương đương hoặc tốt hơn. Thời gian tìm kiếm giảm 60-70% nhờ cơ chế phân cụm. Số lần so sánh giảm đáng kể từ n xuống n/k lần với k cụm.

4.2. Hướng phát triển và ứng dụng thực tiễn

17/04/2026
Luận văn thạc sĩ nghiên cứu phương pháp tra cứu ảnh dựa trên phương pháp phân cụm đô thị