Luận Án Tiến Sĩ: Tra Cứu Ảnh Dựa Trên Nội Dung Với Học

I. Giới thiệu về Tra Cứu Ảnh Dựa Trên Nội Dung CBIR

Tra cứu ảnh dựa trên nội dung (CBIR) là một phương pháp quan trọng trong lĩnh vực thị giác máy tính, nhằm tìm kiếm ảnh dựa trên các đặc trưng trực quan như màu sắc, kết cấu, và hình dạng. Phương pháp này khắc phục hạn chế của tra cứu ảnh dựa trên văn bản (TBIR), vốn phụ thuộc vào chú thích thủ công và dễ bị ảnh hưởng bởi sự chủ quan của người dùng. CBIR sử dụng các kỹ thuật học máy và học sâu để trích xuất và phân tích đặc trưng ảnh, giúp cải thiện độ chính xác và tốc độ tra cứu. Tuy nhiên, CBIR vẫn gặp phải thách thức lớn là khoảng trống ngữ nghĩa giữa đặc trưng mức thấp và khái niệm mức cao.

1.1. Đặc trưng trong CBIR

Các đặc trưng trong CBIR được chia thành hai loại chính: đặc trưng toàn cục và đặc trưng cục bộ. Đặc trưng toàn cục bao gồm màu sắc, kết cấu, hình dạng và thông tin không gian, trong khi đặc trưng cục bộ tập trung vào các điểm chính như góc, cạnh và đốm màu. Việc lựa chọn và trích xuất đặc trưng phù hợp là yếu tố quyết định đến hiệu quả của hệ thống CBIR. Các kỹ thuật như phân tích thành phần chính (PCA) và phân tích phân biệt tuyến tính (LDA) thường được sử dụng để giảm chiều dữ liệu và tối ưu hóa quá trình tra cứu.

1.2. Khoảng trống ngữ nghĩa

Khoảng trống ngữ nghĩa là vấn đề lớn trong CBIR, khi các đặc trưng mức thấp được trích xuất bởi máy tính không tương ứng với khái niệm mức cao mà con người nhận thức. Để thu hẹp khoảng trống này, các phương pháp học sâu như mạng nơ-ron tích chập (CNN) và autoencoder được áp dụng để học các biểu diễn đặc trưng phức tạp hơn, giúp cải thiện độ chính xác của hệ thống.

II. Học Biểu Diễn và Giảm Chiều Dữ Liệu

Học biểu diễn và giảm chiều dữ liệu là hai kỹ thuật quan trọng trong CBIR, giúp tối ưu hóa quá trình tra cứu ảnh. Học biểu diễn sử dụng các mô hình học sâu để trích xuất đặc trưng từ dữ liệu ảnh, trong khi giảm chiều dữ liệu giúp loại bỏ các đặc trưng dư thừa hoặc không liên quan, giảm thời gian tính toán và cải thiện hiệu suất.

2.1. Học sâu trong CBIR

Học sâu đã cách mạng hóa CBIR bằng cách sử dụng các mô hình như mạng nơ-ron tích chập (CNN) và autoencoder để học các biểu diễn đặc trưng từ dữ liệu ảnh. Các mô hình này có khả năng tự động trích xuất đặc trưng ở nhiều mức trừu tượng, giúp thu hẹp khoảng trống ngữ nghĩa và cải thiện độ chính xác tra cứu. Autoencoder đặc biệt hiệu quả trong việc học các biểu diễn ảnh từ dữ liệu không có nhãn, giúp tăng cường khả năng phân lớp và tra cứu.

2.2. Giảm chiều dữ liệu

Giảm chiều dữ liệu là quá trình loại bỏ các đặc trưng dư thừa hoặc không liên quan, giúp giảm kích thước dữ liệu và tối ưu hóa quá trình tính toán. Các kỹ thuật như phân tích thành phần chính (PCA) và phân tích phân biệt tuyến tính (LDA) thường được sử dụng để giảm chiều dữ liệu. Trong CBIR, việc giảm chiều dữ liệu giúp cải thiện tốc độ tra cứu và giảm thời gian truy vấn, đặc biệt khi làm việc với các tập dữ liệu lớn.

III. Ứng dụng và Đánh Giá

Luận án đề xuất các phương pháp cải tiến CBIR bằng cách kết hợp học biểu diễn và giảm chiều dữ liệu, giúp tăng cường độ chính xác và tốc độ tra cứu. Các phương pháp này được đánh giá trên các tập dữ liệu phổ biến như CIFAR-100 và Corel, cho thấy hiệu quả vượt trội so với các phương pháp truyền thống.

3.1. Kết quả thực nghiệm

Các kết quả thực nghiệm trên tập dữ liệu CIFAR-100 và Corel cho thấy, phương pháp đề xuất đạt được độ chính xác cao hơn và thời gian truy vấn ngắn hơn so với các phương pháp truyền thống. Đặc biệt, việc sử dụng mạng autoencoder và giảm chiều dữ liệu giúp cải thiện đáng kể hiệu suất của hệ thống CBIR.

3.2. Ứng dụng thực tế

Các phương pháp đề xuất trong luận án có tiềm năng ứng dụng cao trong các lĩnh vực như y học, kiến trúc, và phòng chống tội phạm, nơi yêu cầu tra cứu ảnh nhanh chóng và chính xác. Việc tích hợp học sâu và giảm chiều dữ liệu vào hệ thống CBIR mở ra hướng nghiên cứu mới, góp phần thúc đẩy sự phát triển của thị giác máy tính và trí tuệ nhân tạo.

Luận Án Tiến Sĩ: Phương Pháp Tra Cứu Ảnh Dựa Trên Nội Dung Kết Hợp Học Biểu Diễn Và Giảm Chiều ...

I. Giới thiệu về Tra Cứu Ảnh Dựa Trên Nội Dung CBIR

1.1. Đặc trưng trong CBIR

1.2. Khoảng trống ngữ nghĩa

II. Học Biểu Diễn và Giảm Chiều Dữ Liệu

2.1. Học sâu trong CBIR

2.2. Giảm chiều dữ liệu

III. Ứng dụng và Đánh Giá

3.1. Kết quả thực nghiệm

3.2. Ứng dụng thực tế

THÔNG TIN CHI TIẾT

Tác giả: An Hồng Sơn

Người hướng dẫn: PGS. Nguyễn Hữu Quỳnh

Trường học: Học viện Khoa học và Công nghệ

Chuyên ngành: Khoa học máy tính

Đề tài: Tra Cứu Ảnh Dựa Vào Nội Dung Với Học Biểu Diễn Và Giảm Chiều Dữ Liệu

Loại tài liệu: luận án tiến sĩ

Năm xuất bản: 2023

Địa điểm: Hà Nội

Luận Án Tiến Sĩ: Phương Pháp Tra Cứu Ảnh Dựa Trên Nội Dung Kết Hợp Học Biểu Diễn Và Giảm Chiều ...

I. Giới thiệu về Tra Cứu Ảnh Dựa Trên Nội Dung CBIR

1.1. Đặc trưng trong CBIR

1.2. Khoảng trống ngữ nghĩa

II. Học Biểu Diễn và Giảm Chiều Dữ Liệu

2.1. Học sâu trong CBIR

2.2. Giảm chiều dữ liệu

III. Ứng dụng và Đánh Giá

3.1. Kết quả thực nghiệm

3.2. Ứng dụng thực tế

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: An Hồng Sơn

Người hướng dẫn: PGS. Nguyễn Hữu Quỳnh

Trường học: Học viện Khoa học và Công nghệ

Chuyên ngành: Khoa học máy tính

Đề tài: Tra Cứu Ảnh Dựa Vào Nội Dung Với Học Biểu Diễn Và Giảm Chiều Dữ Liệu

Loại tài liệu: luận án tiến sĩ

Năm xuất bản: 2023

Địa điểm: Hà Nội