I. Tổng Quan Nghiên Cứu Ứng Dụng Wavelets trong CBIR 55 ký tự
Hệ thống truy vấn ảnh dựa trên nội dung (CBIR) đang ngày càng trở nên quan trọng trong việc quản lý và khai thác kho dữ liệu ảnh khổng lồ hiện nay. Tuy nhiên, việc mô tả chính xác các đặc điểm nhìn của con người vẫn là một thách thức lớn. Các nghiên cứu gần đây tập trung vào việc cải tiến các đặc trưng ảnh cơ bản như histogram màu, texture, shape, và phát triển các đặc trưng mới dựa trên các phép biến đổi như wavelets và contourlets. Luận án này tập trung vào nghiên cứu ứng dụng biến đổi wavelets vào thiết kế hệ thống CBIR, cụ thể là xây dựng các thuật toán trích đặc trưng ảnh dùng biến đổi wavelets và giải thuật truy vấn phù hợp. Việc chọn lựa hướng nghiên cứu lấy biến đổi wavelets làm cơ sở nghiên cứu sâu về thiết kế đặc trưng ảnh và ứng dụng vào truy vấn ảnh đã đạt được kết quả nhất định.
Trích dẫn: 'Luận án tập trung nghiên cứu ứng dụng biến đổi wavelets vào thiết kế hệ thong CBIR mà cụ thé là xây dựng các thuật toán trích đặc trưng anh đùng biến doi wavelets và giải thuật truy vấn phù hợp, cùng khả năng ứng dụng mở rộng của các đặc trưng dé xudt.'
1.1. Giới thiệu về Biến đổi Wavelet và ứng dụng trong ảnh
Biến đổi Wavelet (Wavelet transform) là một công cụ mạnh mẽ trong xử lý ảnh và phân tích tín hiệu. Nó cho phép phân tích tín hiệu ở nhiều độ phân giải khác nhau (Multiresolution Analysis), giúp trích xuất thông tin quan trọng từ ảnh. Ứng dụng wavelet trong ảnh bao gồm nén ảnh, lọc ảnh và trích xuất đặc trưng. Các loại wavelet phổ biến bao gồm Daubechies, Haar, và Symlet. Việc lựa chọn wavelet phù hợp phụ thuộc vào đặc tính của ảnh và yêu cầu của ứng dụng.
1.2. CBIR Hệ thống truy vấn ảnh dựa trên nội dung
Hệ thống truy vấn ảnh dựa trên nội dung (CBIR) là một kỹ thuật tìm kiếm ảnh dựa trên các đặc trưng hình ảnh như màu sắc, texture, hình dạng. CBIR giúp người dùng tìm kiếm ảnh một cách hiệu quả hơn so với các phương pháp truyền thống dựa trên từ khóa. Quy trình CBIR bao gồm trích xuất đặc trưng ảnh, xây dựng cơ sở dữ liệu đặc trưng, và so sánh độ tương đồng ảnh giữa ảnh truy vấn và ảnh trong cơ sở dữ liệu. Hiệu suất của CBIR phụ thuộc vào chất lượng của các đặc trưng ảnh và thuật toán truy vấn ảnh.
II. Thách Thức CBIR Biểu Diễn Đặc Trưng Ảnh Hiệu Quả 59 ký tự
Một trong những thách thức lớn nhất trong hệ thống CBIR là làm thế nào để biểu diễn đặc trưng ảnh một cách hiệu quả, sao cho có thể nắm bắt được các đặc điểm quan trọng của ảnh và phân biệt được giữa các ảnh khác nhau. Các phương pháp truyền thống thường gặp khó khăn trong việc xử lý các biến thể về ánh sáng, góc nhìn, và kích thước. Do đó, cần có các phương pháp trích đặc trưng ảnh mạnh mẽ hơn, có khả năng chịu được các biến thể này và vẫn đảm bảo tính chính xác cao. Việc lựa chọn và kết hợp các mô hình hóa ảnh cũng đóng vai trò quan trọng trong việc cải thiện hiệu suất của hệ thống CBIR. Luận án này tập trung vào việc giải quyết thách thức này bằng cách đề xuất các phương pháp trích đặc trưng ảnh dựa trên wavelets, có khả năng biểu diễn ảnh một cách hiệu quả và linh hoạt. Trích dẫn: 'Mặc dù, các nhà nghiên cứu đã có nhiều nỗ lực trong những năm gan đây trong việc nghiên cứu hệ thống truy van ảnh, nhưng vẫn chưa có giải thuật thuyết phục được chấp nhận pho biến có thé biểu diễn được các đặc điểm nhìn của con người (human vision), đặc biệt là có thé mô tả ảnh đạt độ chính xác cao theo nội dung cần quan tâm, và điều này luôn là thách thức lớn với tất cả các nhà nghiên cứu.'
2.1. Các Yếu Tố Ảnh Hưởng Đến Hiệu Suất CBIR
Hiệu suất của hệ thống CBIR chịu ảnh hưởng bởi nhiều yếu tố, bao gồm chất lượng của dữ liệu ảnh, phương pháp trích xuất đặc trưng ảnh, thuật toán so sánh độ tương đồng ảnh, và phương pháp indexing ảnh. Độ chính xác truy vấn cũng phụ thuộc vào lựa chọn các tham số trong thuật toán trích xuất đặc trưng và so sánh. Việc đánh giá hiệu suất của hệ thống CBIR thường được thực hiện bằng các độ đo như độ chính xác (precision), độ phủ (recall), và MAP (Mean Average Precision). Cần có các phương pháp đánh giá khách quan và đáng tin cậy để so sánh hiệu suất của các hệ thống CBIR khác nhau.
2.2. Giới Hạn của Phương Pháp Trích Xuất Đặc Trưng Ảnh Truyền Thống
Các phương pháp trích xuất đặc trưng ảnh truyền thống như histogram màu và texture thường gặp khó khăn trong việc biểu diễn các đặc điểm phức tạp của ảnh. Chúng có thể nhạy cảm với các biến đổi về ánh sáng, góc nhìn, và kích thước. Ngoài ra, chúng thường bỏ qua thông tin về cấu trúc không gian của ảnh. Do đó, cần có các phương pháp trích xuất đặc trưng ảnh tiên tiến hơn, có khả năng khắc phục các hạn chế này và biểu diễn ảnh một cách đầy đủ và chính xác hơn. Kỹ thuật wavelet có tiềm năng giải quyết các hạn chế của phương pháp truyền thống.
III. Phương Pháp Wavelet Giải Pháp Trích Xuất Đặc Trưng CBIR 60 ký tự
Luận án này đề xuất các phương pháp trích đặc trưng ảnh mới dựa trên biến đổi wavelets, kết hợp với các kỹ thuật khác như contourlets và LBP (Local Binary Pattern). Cụ thể, luận án đề xuất ba đặc trưng ảnh mới: đặc trưng ảnh contourlet cooccurrence, đặc trưng ảnh phase-based LBP, và đặc trưng ảnh contourlet Harris. Các đặc trưng này được thiết kế để nắm bắt các đặc điểm quan trọng của ảnh, đồng thời giảm thiểu ảnh hưởng của các biến thể về ánh sáng, góc nhìn, và kích thước. Luận án cũng đề xuất bốn giải thuật truy vấn ảnh tương ứng với các đặc trưng này, nhằm tìm kiếm ảnh một cách hiệu quả và chính xác. Các thực nghiệm cho thấy các phương pháp đề xuất có hiệu suất cao hơn so với các phương pháp truyền thống.
Trích dẫn: 'Luận án đã dé xuất ba đặc trưng ảnh mới là: đặc trung ảnh contourlet cooccurrence, đặc trưng ảnh phase-based LBP, đặc trưng ảnh contourlet Harris và 4 giải thuật truy vẫn ảnh là: Giải thuật phối hợp các đặc trưng dé truy vấn ảnh (matching) , Giải thuật truy vấn ảnh dùng đặc trưng contourlet cooccurrence (CC), Giải thuật truy vấn ảnh dùng đặc trưng phase-based LBP (pbLBP), Giải thuật truy van anh dùng đặc trưng contourlet Harris (CH).'
3.1. Trích đặc trưng ảnh contourlet Cooccurrence Wavelet
Đặc trưng ảnh contourlet cooccurrence kết hợp biến đổi contourlets với ma trận GLCM (Gray-Level Co-occurrence Matrix) để trích xuất thông tin về texture của ảnh. Biến đổi contourlets cho phép phân tích ảnh ở nhiều hướng và độ phân giải khác nhau, trong khi ma trận GLCM ghi lại mối quan hệ không gian giữa các pixel có cường độ xám khác nhau. Sự kết hợp này giúp nắm bắt các đặc điểm texture một cách chi tiết và đầy đủ. Phương pháp này đặc biệt hiệu quả trong việc phân biệt các ảnh có texture phức tạp và đa dạng.
3.2. Trích đặc trưng ảnh Phase Based LBP wavelet
Đặc trưng ảnh phase-based LBP kết hợp biến đổi wavelets phức với toán tử LBP để trích xuất thông tin về cấu trúc cục bộ của ảnh. Biến đổi wavelets phức cho phép phân tích pha của ảnh, trong khi toán tử LBP ghi lại các mẫu nhị phân cục bộ. Sự kết hợp này giúp nắm bắt các đặc điểm cấu trúc quan trọng của ảnh, đồng thời giảm thiểu ảnh hưởng của các biến thể về ánh sáng. Giải thuật thích hợp cho truy xuất ảnh trong điều kiện ánh sáng thay đổi.
IV. Kết Hợp Contourlet Harris Wavelet cho Truy Vấn Ảnh CBIR 60 ký tự
Luận án này kết hợp biến đổi Nonsubsampled Contourlet (NSCT) với bộ dò góc Harris để hình thành bộ trích đặc trưng contourlet Harris và thiết kế giải thuật truy vấn. NSCT là một biến đổi contourlet không lấy mẫu con, cho phép phân tích ảnh ở nhiều hướng và độ phân giải khác nhau mà không gây ra hiện tượng răng cưa. Bộ dò góc Harris là một công cụ mạnh mẽ trong việc phát hiện các góc và điểm đặc trưng trong ảnh. Sự kết hợp này giúp nắm bắt các đặc điểm hình học quan trọng của ảnh, đồng thời giảm thiểu ảnh hưởng của các biến thể về góc nhìn. Các thực nghiệm cho thấy phương pháp đề xuất có hiệu suất cao trong việc tìm kiếm ảnh có cấu trúc hình học phức tạp. Trích dẫn: 'Nghiên cứu kết hợp biến đối Nonsubsampled Contourlet (N SCT) va bộ đò góc Harris đê hình thành bộ trích đặc trưng contourlet Harris va thiệt kê giải thuật truy VẤn.'
4.1. Ưu Điểm của Biến Đổi Nonsubsampled Contourlet NSCT
Biến đổi NSCT có nhiều ưu điểm so với các biến đổi contourlet truyền thống. NSCT không lấy mẫu con, do đó không gây ra hiện tượng răng cưa. NSCT có tính linh hoạt cao, cho phép lựa chọn số lượng hướng và độ phân giải phân tích một cách độc lập. NSCT có khả năng nắm bắt các đường cong và đường thẳng trong ảnh một cách hiệu quả. Những ưu điểm này làm cho NSCT trở thành một công cụ mạnh mẽ trong việc xử lý ảnh và phân tích ảnh.
4.2. Ứng dụng bộ dò góc Harris cho truy vấn ảnh
Bộ dò góc Harris có thể được sử dụng để phát hiện các góc và điểm đặc trưng trong ảnh. Các góc và điểm đặc trưng này có thể được sử dụng để biểu diễn hình dạng của các đối tượng trong ảnh. Việc sử dụng bộ dò góc Harris giúp hệ thống truy vấn ảnh có thể tìm kiếm ảnh dựa trên hình dạng của các đối tượng. Phương pháp này đặc biệt hiệu quả trong việc tìm kiếm ảnh có các đối tượng có hình dạng độc đáo và dễ nhận biết.
V. Đánh Giá Hiệu Suất Các Giải Thuật Truy Vấn Ảnh Wavelet 59 ký tự
Luận án này đã thực hiện các thực nghiệm để đánh giá hiệu suất của các giải thuật truy vấn ảnh đề xuất trên các cơ sở dữ liệu ảnh khác nhau, bao gồm UIUC và Brodatz. Các kết quả thực nghiệm cho thấy các giải thuật đề xuất có hiệu suất cao hơn so với các giải thuật truyền thống, đặc biệt là trong việc tìm kiếm ảnh có texture phức tạp và hình dạng độc đáo. Luận án cũng đã so sánh hiệu suất của các giải thuật đề xuất với các giải thuật đã công bố khác, và cho thấy các giải thuật đề xuất có hiệu suất cạnh tranh hoặc tốt hơn. Các kết quả thực nghiệm chứng minh tính hiệu quả và tiềm năng của các phương pháp trích đặc trưng ảnh và giải thuật truy vấn ảnh dựa trên wavelets. Trích dẫn: 'Các thực nghiệm đã chứng minh được hiệu quả cải tiễn của các giải thuật đề xuất.'
5.1. Phương Pháp Đánh Giá Hiệu Suất Truy Vấn Ảnh
Để đánh giá hiệu suất của một giải thuật truy vấn ảnh, cần phải có các phương pháp và tiêu chuẩn đánh giá thích hợp. Luận án đã chọn lựa và giới thiệu bộ các phương pháp và thông số đánh giá được sử dụng rộng rãi trong lĩnh vực truy vấn ảnh, bao gồm độ chính xác, độ phủ, MAP, và R-precision. Các phương pháp này cho phép đánh giá một cách khách quan và đáng tin cậy hiệu suất của các giải thuật truy vấn ảnh. Việc sử dụng các phương pháp đánh giá tiêu chuẩn giúp so sánh hiệu suất của các giải thuật đề xuất với các giải thuật đã công bố khác.
5.2. Kết quả thực nghiệm và so sánh với các phương pháp khác
Các kết quả thực nghiệm cho thấy các giải thuật đề xuất có hiệu suất cao hơn so với các giải thuật truyền thống, đặc biệt là trong việc tìm kiếm ảnh có texture phức tạp và hình dạng độc đáo. Luận án cũng đã so sánh hiệu suất của các giải thuật đề xuất với các giải thuật đã công bố khác, và cho thấy các giải thuật đề xuất có hiệu suất cạnh tranh hoặc tốt hơn. Các kết quả thực nghiệm chứng minh tính hiệu quả và tiềm năng của các phương pháp trích đặc trưng ảnh và giải thuật truy vấn ảnh dựa trên wavelets.
VI. Ứng Dụng Mở Rộng Phân Loại Ảnh bằng Wavelet 55 ký tự
Ngoài ứng dụng trong truy vấn ảnh, luận án này cũng khảo sát khả năng sử dụng các đặc trưng đề xuất vào ứng dụng phân loại ảnh. Phân loại ảnh là một hướng nghiên cứu có liên quan chặt chẽ với truy vấn ảnh. Luận án đề xuất phương pháp MKL (Multiple Kernel Learning) kết hợp các kernel và phương pháp integrate method để chọn những class có độ chính xác cao, từ đó gia tăng độ chính xác phân loại. Các kết quả thực nghiệm cho thấy phương pháp đề xuất có hiệu suất so sánh được với những phương pháp đã công bố gần đây. Việc ứng dụng các đặc trưng đề xuất trong phân loại ảnh mở ra nhiều tiềm năng trong các lĩnh vực như y tế, nông nghiệp, và giám sát an ninh. Trích dẫn: 'Ngoài ra, Luận án đã khảo sát khả năng sử dụng đặc trưng dé xuất vào ứng dụng phân loại anh (image classification) là một hướng nghiên cứu có liên quan chặt chẽ với truy vấn ảnh.'
6.1. Mô hình BoW Bag of Words cho phân loại ảnh
Luận án sử dụng mô hình BoW (Bag of Words) để phân loại ảnh. Mô hình BoW là một phương pháp phổ biến trong phân loại ảnh, trong đó ảnh được biểu diễn bằng một histogram các từ vựng hình ảnh. Các từ vựng hình ảnh được tạo ra bằng cách gom cụm các đặc trưng cục bộ của ảnh. Mô hình BoW có tính đơn giản và hiệu quả, và có thể được sử dụng để phân loại ảnh trong nhiều lĩnh vực khác nhau. Quy trình xử lý phân loại dùng mô hình BOW gồm: Trích đặc trưng->Xây dựng từ điển trực quan -> Biểu diễn ảnh dùng BOW -> Huấn luyện và phân loại.
6.2. Phương pháp MKL Multiple Kernel Learning
Luận án đề xuất phương pháp MKL (Multiple Kernel Learning) để kết hợp các kernel khác nhau trong quá trình phân loại ảnh. MKL cho phép kết hợp thông tin từ nhiều nguồn khác nhau, từ đó cải thiện độ chính xác phân loại. MKL là một phương pháp mạnh mẽ và linh hoạt, và có thể được sử dụng để giải quyết các bài toán phân loại ảnh phức tạp. Kết hợp nhiều kernel giúp tăng độ chính xác cho phân loại ảnh.