Nghiên cứu và Phát triển Hệ thống Truy vấn Ảnh Dựa trên Đặc trưng Wavelet và Màu sắc

Chuyên khảo phân tích Truy vấn ảnh hưởng dựa vào nội dung dùng biến đổi wavelet, đánh giá các khía cạnh quan trọng, đề xuất hướng nghiên cứu tiếp theo.

Trường đại học

Sở Giáo Dục Tỉnh

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2018

Phí lưu trữ

30 Point

Mục lục chi tiết

MỤC LỤC

1. CHƯƠNG 1: TỔNG QUAN

1.1. Tổng quan về lĩnh vực nghiên cứu

1.2. Các kết quả nghiên cứu trong và ngoài nước đã công bố

1.3. Mục tiêu của đề tài

1.4. Nhiệm vụ và giới hạn của đề tài

1.4.1. Nhiệm vụ của đề tài

1.4.2. Giới hạn của đề tài

1.5. Phương pháp nghiên cứu

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Biến đổi Wavelet rời rạc ảnh

2.2. Các đặc trưng kết cấu (texture)

2.2.1. Đặc trưng Wavelet

2.2.2. Đặc trưng Gabor Wavelet

2.3. Các đặc trưng màu sắc

2.3.1. Đặc trưng moments màu (Color moments)

2.3.2. Đặc trưng lược đồ màu (Color histogram)

2.3.3. Đặc trưng tương quan màu (Color correlogram)

2.4. Thu thập dữ liệu

2.5. Phương pháp truy vấn ảnh

2.5.1. Khoảng cách Euclidean

2.5.2. Khoảng cách Manhattan

2.5.3. Khoảng cách Euclidean chuẩn

2.5.4. Khoảng cách Mahalanobis

2.5.5. Khoảng cách Chebyshev

3. CHƯƠNG 3: TRUY VẤN ẢNH DỰA TRÊN CƠ SỞ ĐẶC TRƯNG WAVELET VÀ ĐẶC TRƯNG MÀU

3.1. Trích rút đặc trưng kết cấu (texture)

3.1.1. Trích rút đặc trưng Wavelet

3.1.2. Trích rút đặc trưng Gabor Wavelet

3.2. Trích rút đặc trưng màu sắc

3.2.1. Trích rút đặc trưng moments màu (Color moments)

3.2.2. Trích rút đặc trưng lược đồ màu (Color histogram)

3.2.3. Trích rút đặc trưng tương quan màu (Color correlogram)

3.3. Kết hợp các đặc trưng

3.4. Đo lường sự giống nhau

3.5. Phân loại ảnh bằng SVM

4. CHƯƠNG 4: KẾT QUẢ

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Hướng phát triển của đề tài

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Hệ Thống Truy Vấn Ảnh Dựa Trên Nội Dung

Truy vấn ảnh dựa trên nội dung (CBIR - Content Based Image Retrieval) là quá trình tìm kiếm ảnh trong cơ sở dữ liệu dựa trên các đặc trưng trích xuất tự động. Khi cung cấp ảnh đầu vào, hệ thống tìm kiếm các ảnh tương đồng nhất. Sự tương quan giữa ảnh đầu vào và đầu ra được định nghĩa bằng các luật đo sự tương đồng. CBIR xuất hiện từ những năm 1980, trở thành chủ đề nghiên cứu tích cực từ những năm 1990. Truy vấn ảnh từ CSDL lớn là vấn đề hấp dẫn, thu hút sự chú ý của khoa học thị giác máy tính và nhận dạng mẫu. Hiện nay, truy vấn ảnh là nhân tố quan trọng trong nhiều ứng dụng như thư viện số, tìm kiếm lịch sử, nhận dạng vân tay, y tế,... So với truy vấn truyền thống dựa trên từ khóa, CBIR khách quan hơn, dựa vào các đặc trưng trực quan như màu sắc, kết cấu, hình dạng để mô tả nội dung ảnh hiệu quả, làm cơ sở cho việc tra cứu, sắp xếp, tổ chức CSDL ảnh. Các đặc trưng toàn cục liên quan tới màu sắc, kết cấu được sử dụng phổ biến để mô tả đặc trưng ảnh trong việc truy vấn. Bài toán dùng đặc trưng toàn cục không thể giữ lại tất cả các phần của các đặc trưng khác nhau. Biến đổi Wavelet được ứng dụng phổ biến để trích đặc trưng kết cấu (texture). Màu sắc là một đặc trưng hữu ích cho truy vấn dựa vào nội dung.

1.1. Giới Thiệu Chi Tiết Về Truy Vấn Ảnh Dựa Trên Nội Dung

Truy vấn ảnh dựa trên nội dung (CBIR) là một lĩnh vực nghiên cứu liên ngành, kết hợp giữa xử lý ảnh, thị giác máy tính và khai phá dữ liệu. Mục tiêu chính của CBIR là cho phép người dùng tìm kiếm và truy xuất hình ảnh từ một cơ sở dữ liệu lớn dựa trên nội dung trực quan của chúng, thay vì dựa vào các siêu dữ liệu văn bản truyền thống như tên tệp hoặc thẻ. Quá trình CBIR thường bao gồm việc trích xuất các đặc trưng trực quan từ hình ảnh, chẳng hạn như màu sắc, kết cấu, hình dạng và bố cục không gian. Sau đó, các đặc trưng này được sử dụng để so sánh các hình ảnh và tìm ra những hình ảnh tương tự với truy vấn của người dùng.CBIR có nhiều ứng dụng tiềm năng trong các lĩnh vực như y tế, an ninh, thương mại điện tử và quản lý thư viện số.

1.2. Ưu Điểm Của Phương Pháp Truy Vấn Ảnh Dựa Trên Nội Dung

So với phương pháp truy vấn ảnh truyền thống dựa trên từ khóa hoặc siêu dữ liệu văn bản, CBIR mang lại nhiều ưu điểm đáng kể. CBIR cho phép truy vấn dựa trên nội dung trực quan thực tế của hình ảnh, thay vì chỉ dựa vào mô tả văn bản chủ quan. Điều này đặc biệt hữu ích khi các mô tả văn bản không đầy đủ, không chính xác hoặc không tồn tại. CBIR có thể xử lý các truy vấn phức tạp hơn, chẳng hạn như tìm kiếm các hình ảnh có chứa một đối tượng cụ thể hoặc có một kiểu kết cấu nhất định.CBIR cũng có thể tự động trích xuất các đặc trưng trực quan từ hình ảnh, giảm thiểu sự phụ thuộc vào công sức thủ công để gắn thẻ và mô tả hình ảnh.

II. Thách Thức Giải Pháp Truy Vấn Ảnh Wavelet và Màu Sắc

Bài toán dùng đặc trưng toàn cục là phương pháp không thể giữ lại tất cả các phần của các đặc trưng khác nhau. Để giữ lại các phần cụ thể của ảnh, dùng phương pháp đặc trưng cục bộ. Biến đổi Wavelet được ứng dụng phổ biến để trích đặc trưng kết cấu (texture). Màu sắc là một đặc trưng hữu ích cho truy vấn dựa vào nội dung. Wavelet giúp phân tích ảnh thành các thành phần tần số khác nhau, từ đó trích xuất các đặc trưng kết cấu (texture) hiệu quả. Màu sắc là một đặc trưng trực quan quan trọng, cho phép phân biệt các đối tượng và cảnh quan khác nhau trong ảnh.

2.1. Khó Khăn Trong Việc Trích Xuất Đặc Trưng Ảnh Hiệu Quả

Việc trích xuất các đặc trưng ảnh hiệu quả là một thách thức quan trọng trong CBIR. Các đặc trưng cần phải đủ mạnh mẽ để phân biệt các hình ảnh khác nhau, nhưng cũng phải đủ nhỏ gọn để cho phép truy vấn nhanh chóng. Ngoài ra, các đặc trưng cần phải không nhạy cảm với các biến thể trong hình ảnh, chẳng hạn như thay đổi độ sáng, góc nhìn và tỷ lệ. Một số phương pháp trích xuất đặc trưng phổ biến bao gồm các đặc trưng dựa trên màu sắc, kết cấu, hình dạng và bố cục không gian. Tuy nhiên, mỗi phương pháp đều có những ưu điểm và nhược điểm riêng, và việc lựa chọn phương pháp phù hợp phụ thuộc vào ứng dụng cụ thể.

2.2. Kết Hợp Đặc Trưng Wavelet và Màu Sắc Để Cải Thiện CBIR

Sử dụng kết hợp cả đặc trưng Wavelet và màu sắc mang đến một giải pháp tiềm năng để cải thiện hiệu suất của hệ thống CBIR. Đặc trưng Wavelet cho phép trích xuất thông tin về kết cấu của hình ảnh, trong khi đặc trưng màu sắc cung cấp thông tin về màu sắc. Bằng cách kết hợp hai loại đặc trưng này, hệ thống CBIR có thể phân biệt các hình ảnh dựa trên cả kết cấu và màu sắc của chúng. Cần có một cách tiếp cận cẩn thận để kết hợp các đặc trưng này, vì chúng có thể có các thang đo và phân bố khác nhau. Một số phương pháp kết hợp phổ biến bao gồm kết hợp đặc trưng, kết hợp quyết định và kết hợp dựa trên học máy.

III. Phương Pháp Trích Xuất Đặc Trưng Wavelet Cho Truy Vấn Ảnh

Biến đổi Wavelet được dùng để mô tả cấu trúc theo các đặc tính thống kê mức xám của các pixels chứa trong một ảnh bề mặt. Biến đổi Wavelet là một công cụ tách dữ liệu thành các thành phần có tần số khác nhau để xử lý mỗi thành phần với độ phân giải phù hợp với tỉ lệ của nó. Biến đổi Wavelet rời rạc (DWT) ảnh là phân tích một ảnh thành các băng con với tần số khác nhau tại các mức độ và đa phân giải khác nhau. Ở mỗi mức phân tích, băng con tần số cao giữ lại chi tiết của ảnh, ví dụ như thông tin cạnh biên của một ảnh. Băng con tần số thấp là một mẫu con của ảnh gốc với các đặc tính thống kê và không gian giống ảnh gốc (thành phần xấp xỉ).

3.1. Biến Đổi Wavelet Rời Rạc DWT Trong Xử Lý Ảnh

Biến đổi Wavelet rời rạc (DWT) là một công cụ mạnh mẽ trong xử lý ảnh, cho phép phân tích và tái tạo hình ảnh ở các mức độ phân giải khác nhau. DWT phân tích một hình ảnh thành các thành phần tần số khác nhau, bao gồm cả các thành phần tần số thấp (xấp xỉ) và các thành phần tần số cao (chi tiết). Các thành phần tần số thấp chứa thông tin chung về hình ảnh, trong khi các thành phần tần số cao chứa thông tin về các cạnh, đường và kết cấu. DWT có thể được sử dụng để nén hình ảnh, loại bỏ nhiễu và trích xuất các đặc trưng quan trọng cho các ứng dụng CBIR.

3.2. Các Đặc Trưng Wavelet Thường Được Sử Dụng Trong CBIR

Nhiều đặc trưng khác nhau có thể được trích xuất từ các thành phần Wavelet và sử dụng trong CBIR. Một số đặc trưng phổ biến bao gồm trung bình, độ lệch chuẩn, năng lượng, entropy và hệ số tương quan. Các đặc trưng này có thể được tính toán trên toàn bộ hình ảnh hoặc trên các vùng cục bộ của hình ảnh. Việc lựa chọn các đặc trưng Wavelet phù hợp phụ thuộc vào ứng dụng cụ thể và loại hình ảnh đang được xử lý. Một số nghiên cứu đã chỉ ra rằng việc sử dụng nhiều đặc trưng Wavelet khác nhau có thể cải thiện hiệu suất của hệ thống CBIR.

IV. Phân Tích Trích Xuất Đặc Trưng Màu Sắc Cho CBIR

Đặc trưng hiển thị được dùng rộng rãi nhất trong truy vấn ảnh là đặc trưng màu sắc. Mỗi pixel có thể được mô tả bằng một điểm trong không gian 3D. Không gian màu RGB và HSV được dùng phổ biến. Không gian màu RGB (Red, Green, Blue) mô tả màu sắc bằng 3 màu cơ bản là đỏ, xanh lá và xanh dương. Mỗi màu trong không gian 3D được xác định bởi 3 thành phần R,G,B. Ứng với các tổ hợp khác nhau của ba màu này sẽ cho ra một màu mới. Không gian màu HSV (Hue: Vùng màu, Saturation: Độ bão hòa màu, Value: Độ sáng), vùng màu H có giá trị từ 00 đến 3600, S và V có giá trị từ 0 đến 1. Các không gian màu có thể chuyển đổi lẫn nhau.

4.1. Các Không Gian Màu Phổ Biến RGB HSV YCbCr Trong CBIR

Việc lựa chọn không gian màu phù hợp là một yếu tố quan trọng trong việc trích xuất các đặc trưng màu sắc hiệu quả cho CBIR. Không gian màu RGB (Red, Green, Blue) là một không gian màu phổ biến, nhưng nó không phải lúc nào cũng là lựa chọn tốt nhất cho CBIR. Không gian màu HSV (Hue, Saturation, Value) tách màu sắc thành ba thành phần: màu sắc, độ bão hòa và độ sáng. Điều này có thể hữu ích để phân biệt các màu sắc khác nhau, ngay cả khi chúng có độ sáng khác nhau. Không gian màu YCbCr được sử dụng rộng rãi trong nén hình ảnh và video, và nó cũng có thể được sử dụng trong CBIR. YCbCr tách màu sắc thành một thành phần độ chói (Y) và hai thành phần màu (Cb và Cr).

4.2. Lược Đồ Màu Color Histogram và Moments Màu Trong CBIR

Lược đồ màu (color histogram) và moments màu là hai phương pháp phổ biến để trích xuất các đặc trưng màu sắc từ hình ảnh cho CBIR. Lược đồ màu biểu diễn phân bố màu sắc trong một hình ảnh. Nó đếm số lượng pixel có mỗi màu trong một hình ảnh. Moments màu là một tập hợp các thống kê mô tả các đặc điểm của phân bố màu sắc trong một hình ảnh. Các moments màu phổ biến bao gồm trung bình, độ lệch chuẩn và độ xiên. Cả lược đồ màu và moments màu đều có thể được sử dụng để so sánh các hình ảnh và tìm ra những hình ảnh tương tự.

V. Kết Hợp Wavelet Màu Sắc và Phân Loại Ảnh Bằng SVM

Kết hợp các đặc trưng Wavelet và màu sắc sẽ tạo ra một vector đặc trưng phong phú, giúp hệ thống CBIR phân biệt ảnh chính xác hơn. Việc đo lường sự giống nhau giữa các ảnh có thể thực hiện bằng nhiều phương pháp đo khoảng cách, chẳng hạn như khoảng cách Euclidean, Manhattan, v.v. Cuối cùng, thuật toán Support Vector Machine (SVM) có thể được sử dụng để phân loại ảnh và cải thiện hiệu quả truy vấn. SVM là một thuật toán học máy có giám sát, có thể được sử dụng để phân loại các đối tượng dựa trên các đặc trưng của chúng. Trong CBIR, SVM có thể được sử dụng để phân loại ảnh thành các danh mục khác nhau, chẳng hạn như ảnh phong cảnh, ảnh chân dung, v.v. Điều này có thể giúp người dùng tìm kiếm ảnh dễ dàng hơn.

5.1. Phương Pháp Đo Lường Khoảng Cách Giữa Các Đặc Trưng

Phương pháp đo lường khoảng cách là một phần quan trọng trong hệ thống CBIR. Nó xác định cách tính toán sự tương đồng giữa hai hình ảnh dựa trên các đặc trưng của chúng. Một số phương pháp đo lường khoảng cách phổ biến bao gồm khoảng cách Euclidean, khoảng cách Manhattan và khoảng cách cosine. Khoảng cách Euclidean là một đo lường khoảng cách phổ biến, nhưng nó có thể không phù hợp cho tất cả các loại đặc trưng. Khoảng cách Manhattan là một đo lường khoảng cách khác, ít nhạy cảm hơn với các giá trị ngoại lệ. Khoảng cách cosine đo góc giữa hai vectơ đặc trưng và nó có thể hữu ích cho các đặc trưng dựa trên hướng.

5.2. Sử Dụng SVM Để Phân Loại Ảnh và Cải Thiện Truy Vấn

Support Vector Machine (SVM) là một thuật toán học máy mạnh mẽ có thể được sử dụng để phân loại ảnh và cải thiện hiệu suất truy vấn trong CBIR. SVM hoạt động bằng cách tìm ra một siêu phẳng (hyperplane) phân chia các hình ảnh thành các lớp khác nhau. Siêu phẳng được chọn sao cho nó có lề lớn nhất có thể giữa các lớp. SVM có thể được sử dụng để phân loại ảnh thành các danh mục khác nhau, chẳng hạn như ảnh phong cảnh, ảnh chân dung, v.v. Điều này có thể giúp người dùng tìm kiếm ảnh dễ dàng hơn. SVM cũng có thể được sử dụng để cải thiện độ chính xác của hệ thống CBIR bằng cách học cách xác định các hình ảnh tương tự dựa trên các đặc trưng của chúng.

VI. Kết Luận Hướng Phát Triển CBIR Wavelet và Màu Sắc

Đề tài đã xây dựng một mô hình CBIR dựa trên cơ sở biến đổi Wavelet 2D và đặc trưng màu sắc. Việc kết hợp hai đặc trưng này giúp cải thiện hiệu quả truy vấn ảnh. Trong tương lai, có thể mở rộng nghiên cứu bằng cách sử dụng các tập dữ liệu lớn hơn và phức tạp hơn. Đồng thời, có thể thử nghiệm với các phương pháp trích xuất đặc trưng và phân loại ảnh khác nhau để tiếp tục nâng cao hiệu suất của hệ thống CBIR.

6.1. Tóm Tắt Kết Quả Nghiên Cứu và Đóng Góp

Nghiên cứu này đã thành công trong việc xây dựng và đánh giá một hệ thống CBIR dựa trên kết hợp đặc trưng Wavelet và màu sắc. Kết quả cho thấy rằng việc kết hợp hai loại đặc trưng này có thể cải thiện đáng kể hiệu suất truy vấn so với việc sử dụng chỉ một loại đặc trưng. Ngoài ra, nghiên cứu cũng đã khám phá các phương pháp đo lường khoảng cách khác nhau và thuật toán phân loại ảnh SVM để tối ưu hóa hệ thống CBIR. Những đóng góp này có thể giúp các nhà nghiên cứu và phát triển CBIR tạo ra các hệ thống hiệu quả và chính xác hơn.

6.2. Các Hướng Nghiên Cứu Tiềm Năng Trong Tương Lai

Có nhiều hướng nghiên cứu tiềm năng để phát triển thêm lĩnh vực CBIR dựa trên Wavelet và màu sắc. Một hướng là khám phá các phương pháp trích xuất đặc trưng Wavelet và màu sắc mới, có thể nắm bắt thông tin hình ảnh tốt hơn. Một hướng khác là nghiên cứu các phương pháp kết hợp đặc trưng khác nhau để tạo ra các biểu diễn hình ảnh mạnh mẽ hơn. Ngoài ra, cũng có thể nghiên cứu các thuật toán phân loại ảnh mới, có thể xử lý dữ liệu hình ảnh phức tạp và đa dạng. Cuối cùng, việc phát triển các hệ thống CBIR có thể tương tác với người dùng và học hỏi từ phản hồi của họ là một hướng nghiên cứu đầy hứa hẹn.

24/05/2025

Bạn đang xem trước tài liệu:

Truy vấn ảnh hưởng dựa vào nội dung dùng biến đổi wavelet

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Truy vấn ảnh dựa trên nội dung (Content Based Image Retrieval - CBIR) là một lĩnh vực nghiên cứu quan trọng trong khoa học máy tính, đặc biệt trong xử lý ảnh và thị giác máy tính. Theo báo cáo của ngành, với sự phát triển nhanh chóng của công nghệ số và internet, số lượng ảnh số lưu trữ ngày càng tăng lên hàng triệu ảnh, đòi hỏi các hệ thống truy vấn ảnh hiệu quả để tìm kiếm và phân loại ảnh chính xác. CBIR dựa trên việc trích xuất các đặc trưng trực quan như màu sắc, kết cấu, hình dạng từ ảnh để mô tả nội dung, thay vì dựa vào từ khóa truyền thống. Mục tiêu của nghiên cứu là xây dựng một mô hình truy vấn ảnh hiệu quả dựa trên biến đổi Wavelet 2D kết hợp với các đặc trưng màu sắc nhằm nâng cao độ chính xác truy vấn trên bộ dữ liệu ảnh tự thu thập tại Tp. Hồ Chí Minh trong năm 2018. Phạm vi nghiên cứu tập trung trên 472 ảnh thuộc 5 nhóm đối tượng khác nhau, với kích thước ảnh chuẩn 128x85 pixel. Việc phát triển hệ thống CBIR có ý nghĩa lớn trong các ứng dụng thư viện số, y tế, nhận dạng mẫu và quản lý dữ liệu ảnh lớn, góp phần nâng cao hiệu quả truy xuất thông tin và hỗ trợ ra quyết định.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai lý thuyết chính: biến đổi Wavelet rời rạc (Discrete Wavelet Transform - DWT) và thuật toán phân loại Support Vector Machine (SVM). Biến đổi Wavelet được sử dụng để phân tích ảnh thành các băng tần tần số khác nhau, giúp trích xuất đặc trưng kết cấu (texture) hiệu quả. Ở mức phân tích thứ 3, các hệ số xấp xỉ được tính trung bình và độ lệch chuẩn để tạo thành vector đặc trưng kết cấu. Ngoài ra, bộ lọc Gabor Wavelet cũng được áp dụng để trích xuất đặc trưng kết cấu theo nhiều tỉ lệ và hướng khác nhau, tạo ra vector đặc trưng bổ sung. Về đặc trưng màu sắc, nghiên cứu sử dụng moments màu (trung bình, độ lệch chuẩn), lược đồ màu (color histogram) và tượng quan màu (color correlogram) để mô tả phân bố màu sắc trong ảnh. Thuật toán SVM được áp dụng để phân loại ảnh dựa trên vector đặc trưng tổng hợp, giúp tăng độ chính xác truy vấn bằng cách phân biệt rõ ràng các nhóm ảnh khác nhau.

Phương pháp nghiên cứu

Dữ liệu nghiên cứu gồm 472 ảnh tự chụp bằng máy ảnh kỹ thuật số Samsung 12.2 Megapixels, phân thành 5 nhóm đối tượng: xe máy, xe nâng, giỏ xách/balo, giày/dép, vợt tennis. Ảnh được chuẩn hóa kích thước 128x85 pixel. Phương pháp nghiên cứu bao gồm các bước: tiền xử lý ảnh bằng DWT, trích xuất đặc trưng kết cấu và màu sắc, xây dựng vector đặc trưng tổng hợp chiều dài 190. Các phương pháp đo lường khoảng cách Euclidean, Manhattan và Euclidean chuẩn được sử dụng để so sánh sự giống nhau giữa ảnh truy vấn và ảnh trong cơ sở dữ liệu. Thuật toán SVM phi tuyến được huấn luyện trên tập dữ liệu đặc trưng để phân loại ảnh, cải thiện độ chính xác truy vấn. Quá trình nghiên cứu được thực hiện trong khoảng thời gian ngắn năm 2018, sử dụng phần mềm Matlab R2016a để mô phỏng và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả trích xuất đặc trưng kết cấu và màu sắc: Vector đặc trưng tổng hợp gồm 190 chiều, kết hợp biến đổi Wavelet, Gabor Wavelet và các đặc trưng màu sắc, cho phép mô tả chi tiết nội dung ảnh. Ví dụ, vector đặc trưng Wavelet có kích thước 40, Gabor Wavelet 48, moments màu 6, histogram màu 32 và correlogram màu 64.
Độ chính xác truy vấn ảnh tăng rõ rệt khi sử dụng SVM: Truy vấn ảnh loại xe máy với 20 ảnh truy vấn, khi chưa sử dụng SVM có 7 ảnh bị nhầm lẫn, tương đương sai số 35%. Khi áp dụng SVM, số ảnh nhầm giảm còn 1, tương đương sai số 5%. Tương tự, với ảnh loại vợt tennis, sai số giảm từ 15% (3 ảnh nhầm trên 20) xuống 0% khi dùng SVM.
So sánh các phương pháp đo khoảng cách: Khoảng cách Euclidean, Manhattan và Euclidean chuẩn đều được thử nghiệm để đo sự giống nhau giữa vector đặc trưng. Kết quả cho thấy sự kết hợp các phương pháp đo khoảng cách với SVM giúp cải thiện độ chính xác truy vấn, giảm nhầm lẫn trong phân loại.
Ma trận do dự (confusion matrix) minh họa rõ ràng hiệu quả phân loại: Các ma trận do dự cho thấy sự phân biệt tốt giữa các nhóm ảnh khi sử dụng SVM, giảm thiểu các trường hợp phân loại sai, đồng thời hỗ trợ trực quan trong việc đánh giá hiệu quả mô hình.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện độ chính xác là do việc kết hợp đặc trưng kết cấu và màu sắc giúp mô tả toàn diện nội dung ảnh, đồng thời thuật toán SVM tối ưu hóa ranh giới phân loại với lề cực đại, giảm thiểu sai số phân loại. Kết quả phù hợp với các nghiên cứu trước đây trong lĩnh vực CBIR, đồng thời khẳng định tính hiệu quả của việc sử dụng biến đổi Wavelet và SVM trong truy vấn ảnh. Việc sử dụng nhiều phương pháp đo khoảng cách cũng giúp hệ thống linh hoạt hơn trong việc đánh giá sự tương đồng giữa ảnh truy vấn và ảnh cơ sở dữ liệu. Kết quả có thể được trình bày qua biểu đồ so sánh tỷ lệ nhầm lẫn trước và sau khi áp dụng SVM, cũng như bảng ma trận do dự minh họa chi tiết hiệu quả phân loại từng nhóm ảnh.

Đề xuất và khuyến nghị

Mở rộng bộ dữ liệu ảnh: Thu thập thêm ảnh với số lượng lớn hơn và đa dạng hơn về đối tượng để tăng tính tổng quát và độ chính xác của hệ thống trong thực tế.
Kết hợp thêm các đặc trưng ảnh: Áp dụng thêm các đặc trưng cục bộ như SIFT, SURF hoặc các đặc trưng hình dạng để tăng khả năng phân biệt các ảnh có nội dung phức tạp.
Tối ưu hóa thuật toán phân loại: Nghiên cứu và áp dụng các thuật toán học máy nâng cao như mạng nơ-ron sâu (Deep Learning) để cải thiện hiệu quả phân loại và truy vấn ảnh.
Phát triển giao diện người dùng thân thiện: Xây dựng hệ thống truy vấn ảnh với giao diện trực quan, hỗ trợ người dùng lựa chọn phương pháp đo khoảng cách và số lượng ảnh trả về, nâng cao trải nghiệm sử dụng.

Các giải pháp trên nên được thực hiện trong vòng 1-2 năm tới, với sự phối hợp của các nhà nghiên cứu, kỹ sư phần mềm và chuyên gia xử lý ảnh nhằm phát triển hệ thống CBIR ứng dụng rộng rãi trong các lĩnh vực quản lý dữ liệu ảnh.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành khoa học máy tính, xử lý ảnh: Có thể sử dụng luận văn làm tài liệu tham khảo về phương pháp trích xuất đặc trưng ảnh và ứng dụng thuật toán SVM trong truy vấn ảnh.
Chuyên gia phát triển hệ thống quản lý ảnh số: Áp dụng các kỹ thuật CBIR để xây dựng hoặc cải tiến hệ thống tìm kiếm ảnh trong thư viện số, y tế, hoặc thương mại điện tử.
Doanh nghiệp công nghệ và startup về trí tuệ nhân tạo: Tận dụng mô hình và thuật toán trong luận văn để phát triển các sản phẩm liên quan đến nhận dạng và phân loại ảnh tự động.
Cơ quan quản lý dữ liệu và lưu trữ số: Nâng cao hiệu quả truy xuất và tổ chức dữ liệu ảnh lớn, hỗ trợ công tác lưu trữ và tìm kiếm thông tin nhanh chóng, chính xác.

Mỗi nhóm đối tượng có thể áp dụng các kết quả nghiên cứu để giải quyết các bài toán thực tế trong lĩnh vực của mình, từ đó nâng cao hiệu quả công việc và phát triển công nghệ.

Câu hỏi thường gặp

CBIR là gì và tại sao nó quan trọng?
CBIR là phương pháp truy vấn ảnh dựa trên nội dung trực quan như màu sắc, kết cấu thay vì từ khóa. Nó quan trọng vì giúp tìm kiếm ảnh chính xác trong kho dữ liệu lớn mà không phụ thuộc vào mô tả thủ công.
Biến đổi Wavelet có vai trò gì trong trích xuất đặc trưng?
Biến đổi Wavelet phân tích ảnh thành các băng tần tần số khác nhau, giúp trích xuất đặc trưng kết cấu chi tiết và hiệu quả, hỗ trợ mô tả nội dung ảnh đa chiều.
Tại sao sử dụng SVM trong phân loại ảnh?
SVM tối ưu hóa ranh giới phân loại với lề cực đại, giúp phân biệt rõ ràng các nhóm ảnh, giảm sai số phân loại và nâng cao độ chính xác truy vấn.
Các phương pháp đo khoảng cách nào được sử dụng trong nghiên cứu?
Nghiên cứu sử dụng khoảng cách Euclidean, Manhattan và Euclidean chuẩn để đo sự giống nhau giữa vector đặc trưng ảnh, giúp đánh giá mức độ tương đồng hiệu quả.
Làm thế nào để mở rộng và cải tiến hệ thống CBIR?
Có thể mở rộng bộ dữ liệu, kết hợp thêm đặc trưng ảnh cục bộ, áp dụng thuật toán học máy nâng cao và phát triển giao diện người dùng thân thiện để cải tiến hệ thống.

Kết luận

Đã xây dựng thành công mô hình truy vấn ảnh CBIR dựa trên biến đổi Wavelet 2D kết hợp đặc trưng màu sắc và thuật toán SVM.
Vector đặc trưng tổng hợp gồm 190 chiều giúp mô tả chi tiết nội dung ảnh, nâng cao hiệu quả truy vấn.
Sử dụng SVM giúp giảm sai số phân loại từ 35% xuống còn 5% với nhóm ảnh xe máy, và đạt 0% sai số với nhóm ảnh vợt tennis.
Kết quả nghiên cứu có ý nghĩa ứng dụng cao trong quản lý dữ liệu ảnh số, y tế, thương mại điện tử và các lĩnh vực liên quan.
Đề xuất mở rộng bộ dữ liệu, kết hợp thêm đặc trưng và thuật toán nâng cao trong 1-2 năm tới để phát triển hệ thống CBIR hoàn thiện hơn.

Hãy áp dụng các kết quả nghiên cứu này để phát triển các hệ thống truy vấn ảnh hiệu quả, góp phần nâng cao chất lượng quản lý và khai thác dữ liệu ảnh trong thời đại số.

Trích đoạn nội dung tài liệu

SỞ GIÁO DỤC T C I TRƢỜ G C O GC G G T Ủ ỨC O I – I T ỀT I G I CỨU O C TRUY VẤ Ả DỰ V O ỘI DUNG DÙ G BIẾ ỔI W VELET GIẢ G VI GUYỄ T Ị O G Tp. Hồ Chí Minh, tháng I 01 năm 2018 ỤC LỤC MỤC LỤC. III DANH SÁCH CÁC HÌNH .V DANH SÁCH CÁC TỪ VIẾT TẮT. VI Chƣơng I: TỔNG QUAN .1 Tổng quan về lĩnh vực nghiên cứu .2 Các kết quả nghiên cứu trong và ngoài nƣớc đã công bố .3 Mục tiêu của đề tài .4 Nhiệm vụ và giới hạn của đề tài .1 Nhiệm vụ của đề tài.2 Giới hạn của đề tài .5 Phƣơng pháp nghiên cứu.

4 Chƣơng II: CƠ SỞ LÝ THUYẾT .1 Biến đổi Wavelet rời rạc ảnh.2 Các đặc trƣng kết cấu (texture) .1 Đặc trƣng Wavelet .2 Đặc trƣng Gabor Wavelet .3 Các đặc trƣng màu sắc .1 Đặc trƣng moments màu (Color moments) .2 Đặc trƣng lƣợc đồ màu (Color histogram) .3 Đặc trƣng tƣơng quan màu (Color correlogram) .4 Thu thập dữ liệu .5 Phƣơng pháp truy vấn ảnh .1 Khoảng cách Euclidean .2 Khoảng cách Manhattan .3 Khoảng cách Euclidean chuẩn .4 Khoảng cách Mahalanobis .5 Khoảng cách Chebyshev .2 Siêu ph ng (Hyperplane).3 Phân loại tuyến tính với lề cực đại (maximum-margin linear classifier). 21 Chƣơng III: TRUY VẤN ẢNH DỰA TRÊN CƠ SỞ ĐẶC TRƢNG WAVELET VÀ ĐẶC TRƢNG MÀU .1 Trích rút đặc trƣng kết cấu (texture) .1 Trích rút đặc trƣng Wavelet .2 Trích rút đặc trƣng Gabor Wavelet .2 Trích rút đặc trƣng màu sắc .1 Trích rút đặc trƣng moments màu (Color moments) .2 Trích rút đặc trƣng lƣợc đồ màu (Color histogram).3 Trích rút đặc trƣng tƣơng quan màu (Color correlogram) .3 Kết hợp các đặc trƣng .4 Đo lƣờng sự giống nhau .5 Phân loại ảnh bằng SVM. 26 Chƣơng IV: KẾT QUẢ. 27 Chƣơng V: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN .2 HƢỚNG PHÁT TRIỂN CỦA ĐỀ TÀI.

32 TÀI LIỆU THAM KHẢO. 35 IV DANH SÁCH CÁC HÌNH Hình 2.1 Biến đổi Wavelet 2D mức 1 .2 Sơ đồ phân tích Wavelet 2D mức 1 [8] .3 Sơ đồ ví dụ biến đổi ảnh Wavelet 2D mức 1.4 Sơ đồ biến đổi Wavelet 2D mức 2 .5 Sơ đồ ví dụ biến đổi ảnh Wavelet 2D mức 2 .6 Sơ đồ phân tích Wavelet 2D tổng quát [8]. Có vô số đƣờng th ng có thể phân chia tuyến tính, tuy nhiên với đƣờng phân chia H5, đã có một điểm bị phân loại nhầm .8 Không thể phân chia các lớp dữ liệu một cách tuyến tính. Ánh xạ dữ liệu trong không gian ban đầu vào một không gian mới nhiều chiều hơn .9 Việc phân tách dữ liệu trở nên dễ dàng hơn trong không gian mới .10 Các siêu ph ng phân chia tập mẫu thành hai lớp và support vector trong SVM .11 Các siêu ph ng H+ và H- trong SVM.1 Sơ đồ khối của một hệ thống truy vấn ảnh dựa theo nội dung .1 Kết quả truy vấn ảnh loại xe máy khi chƣa có SVM .2 Kết quả truy vấn ảnh loại xe máy khi có SVM .3 Ma trận do dự 1 .4 Kết quả truy vấn ảnh loại vợt tennis khi chƣa có SVM .5 Kết quả truy vấn ảnh loại vợt tennis khi có SVM .6 Ma trận do dự 2.

31 V D SÁC CÁC TỪ VIẾT TẮT A – Approximation CBIR – Content Based Image Retrieval CSDL – Cơ sở dữ liệu D – Diagonal DWT – Decrete Wavelet Transform H – Horizontal HH –High High HL –High Low LL – Low Low LH –Low High SVM – Support Vector Machine V – Vertical 2D – 2 Dimension VI Chƣơng I TỔ G QU 1.1 Tổng quan về lĩnh vực nghiên cứu Truy vấn ảnh là quá trình tìm kiếm ảnh trong một cơ sở dữ liệu dựa trên các đặc trƣng đƣợc trích rút tự động từ chính các ảnh đó. Khi cung cấp một ảnh mục tiêu ngõ vào, hệ thống sẽ tìm kiếm các ảnh giống với ngõ vào nhất và trả về cho ngƣời dùng. Sự tƣơng quan giữa ngõ vào và ngõ ra đƣợc định nghĩa bằng luật đo sự tƣơng đồng cụ thể. Khái niệm truy vấn ảnh dựa theo nội dung (Content Based Image Retrieval - CBIR) xuất hiện từ những năm 1980 và trở thành một chủ đề nghiên cứu ứng dụng tích cực từ những năm đầu thập niên 1990 cùng với sự phát triển của công nghệ và internet [1].

Truy vấn ảnh từ một cơ sở dữ liệu với số lƣợng ảnh lớn là vấn đề hấp dẫn đã thu hút sự chú ý của khoa học thị giác máy tính và nhận dạng mẫu. Hiện nay, truy vấn ảnh cũng là nhân tố quan trọng trong nhiều ứng dụng khác nhau nhƣ thƣ viện số, tìm kiếm lịch sử, nhận dạng vân tay, y tế,…[2]. So với hệ thống truy vấn truyền thống dựa vào từ khóa thì hệ thống truy vấn dựa vào nội dung có tính khách quan hơn, nó dựa vào các đặc trƣng trực quan của ảnh nhƣ màu sắc, kết cấu, hình dạng và bố cục không gian,… để mô tả nội dung ảnh hiệu quả nhất, làm cơ sở cho việc tra cứu, sắp xếp, tổ chức cơ sở dữ liệu ảnh. Các đặc trƣng toàn cục liên quan tới màu sắc, kết cấu đƣợc sử dụng phổ biến để mô tả đặc trƣng ảnh trong việc truy vấn.

Bài toán dùng đặc trƣng toàn cục là phƣơng pháp không thể giữ lại tất cả các phần của các đặc trƣng khác nhau. Để giữ lại các phần cụ thể của ảnh, dùng phƣơng pháp đặc trƣng cụ bộ. Biến đổi Wavelet đƣợc ứng dụng phổ biến để trích đặc trƣng kết cấu (texture). Màu sắc là một đặc trƣng hữu ích cho truy vấn dựa vào nội dung.

Trong đề tài, tác giả sử dụng kết hợp hai đặc trƣng này để tạo thành vector đặc trƣng cho ảnh truy vấn và ảnh trong cơ sở dữ liệu dùng cho truy vấn ảnh.2 Các kết quả nghiên cứu trong và ngoài nƣớc đã công bố Luận văn thạc sĩ chuyên nghành khoa học máy tính “Nghiên cứu phƣơng pháp tra cứu ảnh dựa trên nội dung và xây dựng hệ thống tra cứu cây thuốc” của tác giả Nguyễn Huy Hoàng [3] đã trích rút đặc trƣng kết cấu ảnh dựa trên biến đổi Wavelet và đặc trƣng màu dựa vào lƣợc đồ màu để xây dựng hệ thống tra cứu cây thuốc. Luận án tiến sĩ chuyên nghành kỹ thuật điện tử “Truy vấn ảnh dựa theo nội dung sử dụng trích đặc trƣng trên nền Wavelet” của tác giả Nguyễn Đức Hoàng [4] đã nghiên cứu khả năng kết hợp của các đặc trƣng ảnh đƣợc tạo ra dựa trên biến đổi wavelets và các đặc trƣng phổ biến khác nhƣ đặc trƣng màu, đặc trƣng texture,… để mô tả đặc trƣng ảnh và sử dụng các đặc trƣng này để thiết kế hệ thống CBIR. Nhiều tác giả nƣớc ngoài đã nghiên cứu hệ thống CBIR với nhiều cách mô tả ảnh và cách đo sự tƣơng đồng khác nhau. Manjushas và Nelwin Raj N R [2] đã đƣa ra 10 bƣớc để truy vấn ảnh nhƣ sau: Bƣớc 1: Đọc ảnh truy vấn.

Bƣớc 2: Phân tích Wavelet ảnh truy vấn. Bƣớc 3: Trích đặc trƣng của ảnh truy vấn (ví dụ nhƣ các bộ mô tả màu, bộ mô tả kết cấu (texture). Bƣớc 4: So sánh các đặc trƣng của ảnh truy vấn với các đặc trƣng của ảnh cơ sở dữ liệu đƣợc lƣu trong cơ sở dữ liệu đặc trƣng. Bƣớc 5: Tìm kiếm các ảnh giống với ảnh truy vấn.

Bƣớc 6: Hỏi ngƣời dùng về tỉ lệ ảnh truy vấn đƣợc. Bƣớc 7: Dựa trên ngƣời dùng về tỉ lệ (bƣớc 5) và sự giống nhau (bƣớc 3), tính toán một hàm thích hợp cho tất cả các ảnh truy vấn đƣợc. 2 Bƣớc 8: Kết hợp tất cả các đặc trƣng của ảnh truy vấn đƣợc với các giá trị hàm thích hợp tốt nhất để tạo ra các vector đặc trƣng mới. Bƣớc 9: So sánh các đặc trƣng mới với các đặc trƣng của các ảnh trong cơ sở dữ liệu.

Bƣớc 10: Lặp lại các bƣớc từ 5 đến 9 cho đến khi ngƣời dùng hài lòng.Mahalakshmi [5] đƣa ra một vector đặc trƣng mới dựa trên biến đổi Wavelet 2D rời rạc. Đầu tiên tất cả các ảnh trong CSDL đƣợc chuyển sang không gian màu YCbCr, sau đó biến đổi Wavelet 2D rời rạc đƣợc áp dụng cho m i thành phần màu. Các đặc trƣng nhƣ trung bình, năng lƣợng, entropy và độ lệch chuẩn đƣợc tính đối với các băng con cho tất cả các ảnh trong CSDL. Các đặc trƣng của ảnh truy vấn đƣợc so ánh với vector đặc trƣng CSDL dùng khoảng cách Euclidean và truy vấn các ảnh liên quan thực hiện trên tập dữ liệu Wang.

Chaudhary và Abhay B. Upadhyay [6] đƣa ra một tiếp cận CBIR kết hợp cả hai đặc trƣng toàn cục và đặc trƣng cục bộ đƣa vào một ảnh. Đầu tiên, áp dụng biến đổi Wavelet cố định vào ảnh truy vấn để trích các ma trận chi tiết ngang, dọc và đƣờng chéo, sau đó các đặc trƣng kết cấu này đƣợc trích rút dùng ma trận mức xám đồng hiện (Gray level Co-occurrence Matrix) đối với m i ma trận con này. Để đạt đƣợc mục đích truy vấn, tính bộ mô tả cục bộ bằng cách tách ảnh thành các vùng con.

Cuối cùng, dùng khoảng cách Euclidean và truy vấn các ảnh liên quan. Nhóm tác giả Davar Giveki, Ali Soltanshahi, Fatemeh Shiri, Hadis Tarrah [7] đã nghiên cứu thực nghiệm về ảnh hƣởng của việc chọn không gian màu vào việc thực hiện CBIR dùng phân tích Wavelet cho m i kênh màu. Sau đó phân tích kết quả truy vấn của các không gian màu khác nhau nhƣ RGB, YUV, HSV,YCbCr và Lab. Tiếp tục biến đổi Wavelet cho không gian màu và moments màu thu đƣợc và kết hợp lại để tăng hiệu quả của phƣơng pháp.3 ục tiêu của đề tài Mục tiêu của đề tài là xây dựng một mô hình CBIR dựa trên cơ sở biến đổi Wavelet 2D theo bộ dữ liệu ảnh tự thu thập để truy vấn.4 hiệm vụ và giới hạn của đề tài 1.1 hiệm vụ của đề tài Các nội dung chính đƣợc thực hiện trong đề tài: - Thu thập và xây dựng tập dữ liệu ảnh.

- Tiền xử lý ảnh dùng phƣơng pháp DWT. - Trích đặc trƣng ảnh dùng đặc trƣng Wavelet và histogram màu. - Truy vấn ảnh dùng phƣơng pháp đo lƣờng khoảng cách và SVM. - Tóm tắt nội dung và viết báo cáo.2 Giới hạn của đề tài Đề tài chỉ thực hiện trên 472 ảnh dữ liệu tự xây dựng (ảnh tự chụp từ máy ảnh kỹ thuật số Samsung 12.2 Megapixels), phân biệt tối đa 10 nhóm đối tƣợng ảnh, m i lần truy vấn tối đa 20 ảnh.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nghiên cứu và Phát triển Hệ thống Truy vấn Ảnh Dựa trên Đặc trưng Wavelet và Màu sắc" trình bày một hệ thống tiên tiến cho việc truy vấn ảnh, sử dụng các đặc trưng wavelet và màu sắc để cải thiện độ chính xác và hiệu quả trong việc tìm kiếm hình ảnh. Nghiên cứu này không chỉ giúp nâng cao khả năng nhận diện và phân loại ảnh mà còn mở ra nhiều ứng dụng tiềm năng trong lĩnh vực công nghệ thông tin và xử lý ảnh. Độc giả sẽ tìm thấy những lợi ích rõ ràng từ việc áp dụng các phương pháp này, bao gồm khả năng tối ưu hóa quy trình tìm kiếm và nâng cao trải nghiệm người dùng.

Để mở rộng thêm kiến thức về lĩnh vực này, bạn có thể tham khảo tài liệu Luận văn nghiên cứu phương pháp nhận dạng ảnh mặt người và ứng dụng. Tài liệu này cung cấp cái nhìn sâu sắc về các phương pháp nhận dạng ảnh, từ đó giúp bạn hiểu rõ hơn về ứng dụng của công nghệ trong việc xử lý và phân tích hình ảnh. Hãy khám phá thêm để nắm bắt những xu hướng mới trong lĩnh vực này!

#xử lý ảnh số

#Hệ thống truy vấn ảnh

#Đặc trưng wavelet

#Phân tích màu sắc

#Công nghệ nhận diện ảnh

#Truy vấn ảnh thông minh

Chủ đề

Nghiên cứu về xử lý ảnh

Phát triển công nghệ truy vấn ảnh

Ứng dụng wavelet trong nhận diện ảnh

Tối ưu hóa hệ thống truy vấn ảnh