Nghiên Cứu Cải Tiến Thuật Toán Xếp Hạng Đa Tạp Trong Tra Cứu Ảnh Luận Án Tiến Sĩ Công Nghệ Thông Tin

Luận án tiến sĩ toán học phân tích nghiên cứu cải tiến thuật toán xếp hạng đa tạp trong tra cứu ảnh, xây dựng cơ sở lý luận, kiểm chứng thực nghiệm, đóng góp tri thức mới cho

Trường đại học

Trường Đại Học Điện Lực

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

2023

154

Phí lưu trữ

45 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Tính cấp thiết của đề tài

1.2. Mục tiêu của luận án

1.3. Đối tượng nghiên cứu của luận án

1.4. Phạm vi nghiên cứu

1.5. Các đóng góp của luận án

1.6. Bố cục của luận án

1.7. TRA CỨU ẢNH DỰA VÀO NỘI DUNG VÀ XẾP HẠNG ĐA TẠP TRONG CBIR

1.7.1. Giới thiệu về tra cứu ảnh dựa vào nội dung

1.7.2. Biểu diễn ảnh bằng vector đặc trưng

1.7.3. Đặc trưng mức thấp của ảnh

1.7.4. Đặc trưng mức cao của ảnh

1.7.5. Dữ liệu đa tạp

1.7.6. Các khái niệm đa tạp

1.7.7. Dữ liệu đa tạp

1.7.8. Xếp hạng đa tạp

1.7.8.1. Xếp hạng đa tạp cơ bản

1.7.8.2. Xếp hạng đa tạp hiệu quả

1.7.9. Tra cứu ảnh với xếp hạng đa tạp

1.7.10. Độ đo tương tự và tìm kiếm xấp xỉ láng giềng gần nhất

1.7.10.1. Tìm kiếm xấp xỉ láng giềng gần nhất (ANN)

1.7.11. Phương pháp đánh giá hiệu quả trong CBIR

1.7.12. Một số CSDL thực nghiệm cho tra cứu ảnh

1.7.13. Kết luận chương 1

2. CHƯƠNG 2: NÂNG CAO ĐỘ CHÍNH XÁC TRA CỨU ẢNH VỚI XẾP HẠNG ĐA TẠP CẢI TIẾN

2.1. Kiến trúc CBIR đề xuất

2.2. Phương pháp tìm điểm neo bằng thuật toán lvdc-FCM

2.3. Tìm các điểm neo gần nhất của một điểm dữ liệu

2.4. Tính trọng số hồi quy giữa điểm neo và điểm dữ liệu

2.5. Xây dựng ma trận hồi quy

2.6. Xây dựng ma trận kề

2.7. Kỹ thuật xếp hạng trong EMR

2.8. Thuật toán EMR với lvdc-FCM trong CBIR

2.9. Thực nghiệm và đánh giá kết quả

2.10. Đánh giá hiệu quả của của thuật toán lvdc-FCM đề xuất

2.11. Đánh giá hiệu năng tra cứu ảnh với EMR-(lvdc-FCM)

2.12. Kết luận chương 2

3. CHƯƠNG 3: NÂNG CAO HIỆU QUẢ TRA CỨU ẢNH THEO TIẾP CẬN KẾT HỢP ĐẶC TRƯNG MỨC THẤP VÀ ĐẶC TRƯNG MỨC CAO

3.1. Hệ thống CBIR đề xuất

3.2. Biểu diễn ảnh bằng kết hợp đặc trưng mức cao từ EfficientNetB7+ và đặc trưng mức thấp

3.3. Trích rút đặc trưng mức cao của ảnh sử dụng CNN

3.4. Kỹ thuật đề xuất tinh chỉnh mạng efficientNetB7

3.5. Kết hợp đặc trưng

3.6. CBIR với kỹ thuật xếp hạng EMR dựa vào GPU-platform

3.7. Tối ưu hóa thuật toán tìm điểm neo dựa trên GPU-platform

3.8. Thuật toán LDM-FCM

3.9. Xây dựng đồ thị HD-EMR với đặc trưng chiều rất cao

3.10. Thuật toán HD-EMR trong CBIR

3.11. Thực nghiệm và các kết quả

3.12. Môi trường thực nghiệm và huấn luyện mạng EfficientNetB7+

3.13. Các tham số và kết quả thực nghiệm hệ thống đề xuất HD-EMR

3.14. Kết luận chương 3

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CÓ LIÊN QUAN ĐẾN LUẬN ÁN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tra Cứu Ảnh Đa Tạp Tổng Quan Ứng Dụng Tiềm Năng

Tra cứu ảnh dựa vào nội dung (CBIR) đang trở nên quan trọng hơn bao giờ hết với sự bùng nổ của dữ liệu ảnh. Kỹ thuật này cho phép tìm kiếm ảnh dựa trên đặc trưng nội dung thay vì metadata truyền thống. CBIR ứng dụng rộng rãi trong nhiều lĩnh vực như y tế, an ninh, thương mại điện tử, và kỹ thuật hình sự. Hệ thống CBIR hiệu quả đòi hỏi cả biểu diễn ảnh tối ưu và thuật toán tìm kiếm, xếp hạng ảnh hiệu quả. Luận án này tập trung vào cải thiện thuật toán xếp hạng đa tạp, một phương pháp hứa hẹn để nâng cao độ chính xác của CBIR, đặc biệt khi dữ liệu ảnh thể hiện tính đa tạp. Theo Liang Zheng và cộng sự [129], nếu ảnh được biểu diễn bởi các đặc trưng “tốt” có thể giúp cải thiện độ chính xác của tìm kiếm tương tự lên 2 tới 51,3%.

1.1. Biểu Diễn Ảnh Bằng Vector Đặc Trưng Khái Niệm Cơ Bản

Giai đoạn đầu tiên của CBIR là trích xuất đặc trưng ảnh và biểu diễn chúng dưới dạng vector. Các đặc trưng này có thể là đặc trưng mức thấp (màu sắc, hình dạng, texture) hoặc đặc trưng mức cao (đối tượng, ngữ cảnh). Việc lựa chọn đặc trưng ảnh phù hợp ảnh hưởng lớn đến hiệu quả của hệ thống CBIR. Một biểu diễn vector đặc trưng tốt phải nắm bắt đầy đủ thông tin ngữ nghĩa của ảnh. Luận án này xem xét cả hai loại đặc trưng và phương pháp kết hợp chúng để đạt hiệu quả tốt nhất. Việc sử dụng mạng học sâu để trích xuất đặc trưng ảnh đã mang lại hiệu quả đáng kể.

1.2. Ứng Dụng Tra Cứu Ảnh Trong Các Lĩnh Vực Thực Tế

CBIR có nhiều ứng dụng thực tế quan trọng. Trong y tế, CBIR hỗ trợ tìm kiếm ảnh y khoa tương tự để hỗ trợ chẩn đoán bệnh. Trong an ninh, CBIR được dùng để nhận diện khuôn mặt và tìm kiếm đối tượng tình nghi. Thương mại điện tử hưởng lợi từ CBIR thông qua việc cho phép người dùng tìm kiếm sản phẩm bằng hình ảnh. Kỹ thuật hình sự sử dụng CBIR để phân tích và đối sánh hình ảnh hiện trường. Việc cải tiến thuật toán xếp hạng giúp nâng cao hiệu quả của các ứng dụng này.

II. Thách Thức Tra Cứu Ảnh Bài Toán Xếp Hạng Đa Tạp Dữ Liệu

Mặc dù CBIR có nhiều tiềm năng, vẫn còn nhiều thách thức cần giải quyết. Một trong những thách thức lớn nhất là xếp hạng ảnh hiệu quả. Thuật toán xếp hạng cần phải sắp xếp các ảnh trả về theo mức độ liên quan đến truy vấn của người dùng. Điều này trở nên khó khăn khi dữ liệu ảnh có tính đa tạp. Đa tạp đề cập đến việc dữ liệu nằm trên nhiều không gian con phi tuyến tính. Các thuật toán xếp hạng truyền thống thường không hiệu quả trong việc xử lý dữ liệu đa tạp. Các hệ thống tra cứu ảnh sử dụng các độ đo tương tự để so khớp các đặc trưng nội dung của ảnh truy vấn với đặc trưng có trong cơ sở dữ liệu hình ảnh.

2.1. Vấn Đề Xếp Hạng Ảnh Dựa Trên Độ Tương Đồng

Các phương pháp xếp hạng truyền thống thường dựa trên độ tương đồng giữa các vector đặc trưng. Tuy nhiên, độ tương đồng đơn thuần có thể không phản ánh chính xác mức độ liên quan về mặt ngữ nghĩa. Ví dụ, hai ảnh có thể có vector đặc trưng gần nhau nhưng lại thuộc hai không gian ngữ nghĩa khác nhau. Các nghiên cứu [40, 78, 79] cho thấy, các hệ thống CBIR sử dụng các đặc trưng CNN đều dùng độ đo khoảng cách “truyền thống” để đánh giá sự giống nhau của hai hình ảnh.

2.2. Tính Đa Tạp Của Dữ Liệu Ảnh Ảnh Hưởng Đến Xếp Hạng

Tính đa tạp của dữ liệu ảnh làm cho việc xếp hạng trở nên phức tạp hơn. Dữ liệu ảnh thường nằm trên nhiều không gian con phi tuyến tính khác nhau. Các thuật toán xếp hạng cần phải khám phá cấu trúc đa tạp này để đưa ra kết quả chính xác hơn. Việc bỏ qua tính đa tạp có thể dẫn đến việc các ảnh không liên quan bị xếp hạng cao. Để khắc phục các hạn chế trên và khám phá cấu trúc phi tuyến tính của dữ liệu đặc trưng ảnh, các phương pháp xếp hạng đa tạp được đề xuất trong CBIR.

III. Cải Tiến Thuật Toán Xếp Hạng Đa Tạp Giải Pháp EMR FCM

Luận án này đề xuất cải tiến thuật toán xếp hạng đa tạp hiệu quả (EMR) bằng cách sử dụng thuật toán phân cụm mờ C-means (FCM) để chọn điểm neo. Phương pháp này, được gọi là EMR-FCM, giúp cải thiện độ chính xác và hiệu quả của xếp hạng ảnh trong CBIR. EMR-FCM tận dụng khả năng của FCM trong việc xác định các cụm dữ liệu chồng chéo, từ đó tạo ra các điểm neo đại diện tốt hơn cho cấu trúc đa tạp. Thay vì chỉ xem xét độ tương tự giữa từng cặp điểm dữ liệu, MR xem xét toàn bộ không gian dữ liệu để đưa ra điểm số xếp hạng.

3.1. Phương Pháp Tìm Điểm Neo Tối Ưu Bằng Thuật Toán FCM

FCM là một thuật toán phân cụm mờ cho phép mỗi điểm dữ liệu thuộc về nhiều cụm khác nhau với các mức độ thuộc khác nhau. Điều này phù hợp với tính chất đa tạp của dữ liệu ảnh, nơi một ảnh có thể liên quan đến nhiều không gian ngữ nghĩa khác nhau. Việc sử dụng FCM để chọn điểm neo giúp tạo ra các điểm neo đại diện tốt hơn cho cấu trúc đa tạp so với các phương pháp chọn điểm neo truyền thống như K-means. Trong luận án này, thuật ngữ “xếp hạng đa tạp” là kỹ thuật xếp hạng nhằm khám phá cấu trúc phi tuyến tính của dữ liệu đa tạp và được hiểu là phương pháp xếp hạng các điểm trong CSDL theo thứ tự có liên quan với điểm dữ liệu truy vấn được áp dụng trên tập cơ sở dữ liệu đa tạp.

3.2. Xây Dựng Đồ Thị Kề Hiệu Quả Trong EMR FCM

EMR-FCM sử dụng các điểm neo được chọn bởi FCM để xây dựng đồ thị kề. Các cạnh trong đồ thị biểu diễn mối quan hệ tương đồng giữa các ảnh và các điểm neo. Việc xây dựng đồ thị kề hiệu quả giúp giảm chi phí tính toán và cải thiện tốc độ xếp hạng. Luận án này trình bày chi tiết phương pháp xây dựng đồ thị kề trong EMR-FCM và các kỹ thuật tối ưu hóa để tăng tốc quá trình này.

3.3. Thuật Toán Xếp Hạng Trong EMR FCM Chi Tiết Phân Tích

Thuật toán xếp hạng trong EMR-FCM sử dụng đồ thị kề để lan truyền điểm số tương đồng từ ảnh truy vấn đến các ảnh khác trong cơ sở dữ liệu. Ảnh nào nhận được điểm số cao hơn sẽ được xếp hạng cao hơn. Luận án này phân tích chi tiết thuật toán xếp hạng trong EMR-FCM và so sánh nó với các thuật toán xếp hạng truyền thống.

IV. Kết Hợp Đặc Trưng Nâng Cao Độ Chính Xác Tra Cứu Ảnh

Để nâng cao hơn nữa độ chính xác của CBIR, luận án này đề xuất kết hợp đặc trưng mức thấp và đặc trưng mức cao trích xuất từ mạng CNN. Phương pháp này tận dụng ưu điểm của cả hai loại đặc trưng để biểu diễn ảnh một cách đầy đủ và chính xác hơn. Đặc trưng mức thấp nắm bắt thông tin về màu sắc, hình dạng, và texture, trong khi đặc trưng mức cao nắm bắt thông tin về đối tượng và ngữ cảnh. Luận án này chọn mạng EfficientNetB7+ để trích xuất đặc trưng mức cao. Các phương pháp xếp hạng đa tạp kể trên tuy khám phá được cấu trúc phi tuyến tuyến của dữ liệu nhưng độ chính xác trong tra cứu chưa cao do thiếu sự đa dạng trong các phương pháp biểu diễn ảnh bằng đặc trưng được trích rút từ mạng học sâu của dữ liệu ảnh (chủ yếu các đề xuất đều dùng đặc trưng mức thấp).

4.1. Trích Rút Đặc Trưng Mức Cao Từ Mạng CNN EfficientNetB7

EfficientNetB7+ là một mạng CNN mạnh mẽ được thiết kế để đạt được độ chính xác cao với chi phí tính toán thấp. Luận án này trình bày chi tiết quá trình trích xuất đặc trưng mức cao từ mạng EfficientNetB7+ và cách tinh chỉnh mạng này cho bài toán CBIR.

4.2. Kết Hợp Đặc Trưng Mức Thấp Mức Cao Phương Pháp Đề Xuất

Luận án này đề xuất một phương pháp kết hợp đặc trưng mức thấp và mức cao bằng cách ghép chúng lại thành một vector đặc trưng duy nhất. Phương pháp này đơn giản nhưng hiệu quả trong việc tận dụng ưu điểm của cả hai loại đặc trưng.

4.3. Ứng Dụng EMR Trên Dữ Liệu Đặc Trưng Kết Hợp HD EMR

EMR-FCM được áp dụng trên dữ liệu đặc trưng kết hợp để tạo ra một hệ thống CBIR hiệu quả. Hệ thống này, được gọi là HD-EMR, tận dụng khả năng của EMR trong việc xử lý dữ liệu đa tạp và khả năng của đặc trưng kết hợp trong việc biểu diễn ảnh một cách đầy đủ và chính xác.

V. Thực Nghiệm Đánh Giá Kết Quả Vượt Trội Của Phương Pháp

Để đánh giá hiệu quả của các phương pháp đề xuất, luận án này thực hiện các thí nghiệm trên các tập dữ liệu ảnh tiêu chuẩn. Kết quả thực nghiệm cho thấy EMR-FCM và HD-EMR đạt được độ chính xác cao hơn so với các phương pháp CBIR truyền thống. Các kết quả này chứng minh tính hiệu quả của việc cải tiến thuật toán xếp hạng đa tạp và kết hợp đặc trưng trong CBIR. Độ chính xác của hai phương pháp EMR và HD-EMR trên tập CSDL VGGFACE2-S.

5.1. Các Tập Dữ Liệu Ảnh Thực Nghiệm Mô Tả Đặc Điểm

Luận án này sử dụng các tập dữ liệu ảnh tiêu chuẩn như Corel30K, Logo-2K+, và VGGFACE2-S để đánh giá hiệu quả của các phương pháp đề xuất. Các tập dữ liệu này có các đặc điểm khác nhau về kích thước, số lượng lớp, và độ khó, cho phép đánh giá hiệu quả của các phương pháp đề xuất trong các tình huống khác nhau.

5.2. Tiêu Chí Đánh Giá Hiệu Suất Tra Cứu Ảnh Precision Recall

Luận án này sử dụng các tiêu chí đánh giá hiệu suất CBIR tiêu chuẩn như Precision và Recall để so sánh các phương pháp đề xuất với các phương pháp truyền thống. Precision đo tỷ lệ ảnh trả về liên quan đến truy vấn, trong khi Recall đo tỷ lệ ảnh liên quan đến truy vấn được trả về.

5.3. So Sánh Với Các Thuật Toán Xếp Hạng Ảnh Khác EMR vs HD EMR

Kết quả thực nghiệm cho thấy EMR-FCM và HD-EMR đạt được độ chính xác cao hơn so với các thuật toán xếp hạng ảnh truyền thống như K-NN và EMR gốc. Điều này chứng minh tính hiệu quả của việc cải tiến thuật toán xếp hạng đa tạp và kết hợp đặc trưng trong CBIR.

VI. Kết Luận Hướng Phát Triển Tương Lai Của Tra Cứu Ảnh

Luận án này đã trình bày một nghiên cứu về cải tiến thuật toán xếp hạng đa tạp trong CBIR. Các phương pháp đề xuất, EMR-FCM và HD-EMR, đã chứng minh tính hiệu quả trong việc nâng cao độ chính xác và hiệu quả của xếp hạng ảnh. Nghiên cứu này mở ra nhiều hướng phát triển tiềm năng cho CBIR trong tương lai. Hạn chế của các phương pháp xếp hạng đa tạp hiện tại khi áp dụng cho bài toán tra cứu ảnh dựa trên nội dung: i. Việc xây dựng đồ thị của các điểm dữ liệu dựa vào đồ thị K-NN là không khả thi với dữ liệu quy mô lớn [115]. Chưa khai thác tốt tính đa biểu diễn của ảnh bằng nhiều bộ đặc trưng. Khi kết hợp nhiều bộ đặc trưng, chiều vector biểu diễn ảnh có thể rất cao dẫn đến khó khăn trong tính toán khoảng cách và xác định điểm neo (như trong EMR, SSG).

6.1. Tóm Tắt Các Đóng Góp Chính Của Luận Án

Các đóng góp chính của luận án bao gồm việc đề xuất thuật toán EMR-FCM, phương pháp kết hợp đặc trưng, và hệ thống HD-EMR. Các đóng góp này đã được chứng minh là hiệu quả trong việc nâng cao hiệu suất CBIR.

6.2. Các Hướng Nghiên Cứu Tiềm Năng Trong Tương Lai

Các hướng nghiên cứu tiềm năng trong tương lai bao gồm việc khám phá các thuật toán phân cụm mờ khác, phát triển các phương pháp kết hợp đặc trưng tiên tiến hơn, và ứng dụng các phương pháp đề xuất vào các lĩnh vực khác như nhận dạng đối tượng và phân tích ảnh y khoa.

6.3. Tối Ưu Hóa Thuật Toán Xếp Hạng Giảm Độ Phức Tạp Tính Toán

Một hướng phát triển quan trọng khác là tối ưu hóa thuật toán xếp hạng để giảm độ phức tạp tính toán. Điều này đặc biệt quan trọng khi xử lý các tập dữ liệu ảnh lớn.

27/05/2025

Bạn đang xem trước tài liệu:

Luận án tiến sĩ nghiên cứu cải tiến thuật toán xếp hạng đa tạp trong tra cứu ảnh

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1 TRA CỨU ẢNH DỰA VÀO NỘI DUNG VÀ XẾP HẠNG ĐA TẠP TRONG CBIR 1. Giới thiệu về tra cứu ảnh dựa vào nội dung Tra cứu ảnh dựa vào nội dung (CBIR) [57] thu hút rất nhiều sự chú ý từ các nhà nghiên cứu và được sử dụng nhiều trong công nghiệp, thương mại trong những năm qua do nhiều ứng dụng hữu ích của nó. Các thuật toán tra cứu ảnh thường xây dựng các độ đo tương tự toàn cục giữa các vector đặc trưng biểu diễn đối tượng ảnh đối sánh với toàn bộ vector đặc trưng trong CSDL. Hệ thống CBIR truyền thống [57] Hệ thống CBIR như Hình 1.1 là kỹ thuật tra cứu ảnh được sử dụng để tìm ra tập các ảnh tương tự nhất đối với ảnh truy vấn mà người dùng đưa vào.

Một hệ thống CBIR tiêu biểu được chia thành hai pha: trích rút đặc trưng ngoại tuyến và pha tra cứu ảnh trực tuyến. Trong pha ngoại tuyến, hệ thống trích rút tự động các thuộc tính trực quan ở mức thấp (low-level feature) hoặc đặc trưng mức cao (high-level feature) hoặc các loại đặc trưng được kết hợp với nhau. Trong pha 9 tra cứu ảnh trực tuyến, người dùng cung cấp một ảnh mẫu cho hệ thống tra cứu để tìm kiếm các ảnh tương đồng mong muốn (ở đây, độ dài vectorđặc trưng của ảnh tra cứu có cùng độ dài với vectorđặc trưng của ảnh CSD). Để trả lời tra cứu, hệ thống CBIR tìm trong CSDL ảnh để đưa ra những ảnh tương tự với ảnh truy vấn (như mô tả trong Hình 1.

Cuối cùng hệ thống xếp hạng các ảnh theo thứ tự tăng dần của khoảng cách hay giảm dần của độ tương tự và trả về tập ảnh kết quả cho người dùng. Giao diện trực quan cho hệ thống CBIR truyền thống như Hình 1. Trong hình này người dùng cung cấp cho hệ thống ảnh tra cứu là logo của hãng Pepsi, sau đó chúng ta thu thu được kết quả trả về bao gồm 16 ảnh kết quả trả về. Minh họa đối sánh trong CBIR Hình 1.

Giao diện hệ thống CBIR truyền thống Trong hệ thống CBIR truyền thống một số vector đặc trưng được trích rút 10 và thường sử dụng như vector đặc trưng màu sắc, vector đặc trưng kết cấu, vector đặc trưng hình dạng (vùng và đường viền). Các vector đặc trưng này được dùng trong các hệ thống CBIR được chia thành hai nhóm: nhóm vector đặc trưng toàn cục mô tả toàn bộ hình ảnh [88] (như vector đặc trưng màu, kết cấu, hình dạng), nhóm còn lại là vector đặc trưng cục bộ chia ảnh thành các vùng nhỏ hơn [81]. Biểu diễn ảnh bằng vector đặc trưng Vector đặc trưng biểu diễn ảnh là các thuộc tính được trích rút ra từ ảnh dựa trên phân phối cấu trúc, đối tượng có trong ảnh, từ đó tổng hợp các dữ liệu riêng lẻ để xác định thông tin có thể đo lường được khi quan sát, phân tích tình huống từ dữ liệu hình ảnh. Phương pháp trích rút đặc trưng và biểu diễn đặc trưng để thể hiện một cách riêng biệt và độc lập là yêu cầu quan trọng và quyết định mức độ thành công của các phương pháp nhận dạng mẫu, học máy, phân loại hay trong tra cứu ảnh… Trong [30] trích rút đặc trưng ảnh được hiểu là quá trình biến đổi dữ liệu ảnh thô ban đầu quan sát được thành các tín hiệu hoặc dữ liệu có nhiều thông tin hơn để biểu diễn và xử lý hiệu quả hơn so với dữ liệu ảnh thô ban đầu, mang được nhiều ý nghĩa, giữ lại những thông tin quan trọng phục vụ cho việc phân tích và xử lý ngữ nghĩa hơn.

Trích rút đặc trưng cho phép ánh xạ ảnh từ không gian ảnh sang không gian đặc trưng. Hiệu quả tra cứu ảnh phụ thuộc vào khả năng mô tả nội dung ảnh cho các ứng dụng cụ thể. Không tồn tại cách biểu diễn tốt nhất cho các đặc trưng thị giác vì mỗi đặc trưng có thể có nhiều cách biểu diễn theo các ngữ cảnh khác nhau. Chẳng hạn, đặc trưng màu có thể được biểu diễn bởi biểu đồ màu và mô men màu; đặc trưng hình dạng có thể biểu diễn bởi biểu đồ hệ số góc và GIST; đặc trưng kết cấu có thể biểu diễn bởi mã nhị phân cục bộ và biến đổi wavelet.

Trong thực tế, do ảnh đầu vào có thể được thu nhận và số hóa trong các 11 điều kiện khác nhau (ánh sáng, môi trường, góc thu nhận,…) nên các đặc trưng trích rút thường thỏa mãn một số tính chất bất biến như: Bất biến với phép tỉ lệ (scale invariance); bất biến với phép xoay (rotation invariance); bất biến với ánh sáng (intensity invariance); giàu thông tin; tính chính xác (accuracy); hiệu quả (efficiency); bền vững với nhiễu,… Một thuật toán (hay kỹ thuật) dùng để trích rút các đặc trưng ảnh được gọi là bộ trích rút đặc trưng (feature extraction). Có nhiều phương pháp trích rút các đặc trưng không chỉ dựa trên toàn bộ ảnh mà thông qua các vùng được tách ra từ ảnh. Sharif và cộng sự [86] đề xuất một hệ thống CBIR phụ thuộc vào việc hợp nhất các từ trực quan (visual words) mà được tạo ra từ đặc trưng SIFT (scale invariant feature transform) và BRISK (binary robust invariant scalable keypoints). Yousuf và cộng sự [120] thực hiện một hệ thống CBIR dựa trên SFIT và LIOP (local intensity order pattern).

Việc sử dụng đặc trưng SIFT trong CBIR cho hiệu quả kém khi số chiều đặc trưng SIFT là rất lớn. Herbert và cộng sự [7] đề xuất đặc trưng SURF (speededup robust features) là một bộ mô tả cục bộ mạnh khác mà vượt qua giới hạn về số chiều cao của SIFT. SURF nhanh và mạnh hơn SIFT vì nó yêu cầu ít thời gian để tính toán và đối sánh các ảnh thông qua sử dụng cơ chế đánh chỉ số dựa trên tín hiệu Laplacian. Jabeen và cộng sự [49] đề xuất một hệ thống CBIR mới dựa trên việc kết hợp hai bộ mô tả SURF, FREAK (fast retina key point) để tạo thành các từ trực quan trên cơ sở của BoVW.

Sau đó, phân cụm K-means được áp dụng trên các từ trực quan đó để tính toán một lược đồ cho các từ của mỗi ảnh. Đặc trưng mức thấp của ảnh Đặc trưng màu sắc Đặc trưng màu sắc được rất nhiều hệ thống tìm kiếm hình ảnh dựa trên nội dung nghiên cứu và sử dụng. Đặc trưng màu sắc ổn định và hầu như không bị ảnh hưởng bởi việc dịch chuyển, tỷ lệ và xoay hình ảnh. Đồng thời, màu sắc có quan hệ với các đối tượng ảnh, nền, cho biết sự thay đổi trong vị trí, thời gian… Các biểu diễn mầu phổ biến là lược đồ mầu, mô men mầu, tương quan 12 mầu và ma trận đồng hiện mầu.

Tùy mục đích của phương pháp truy vấn, các nhóm nghiên cứu có thể sử dụng các không gian màu khác nhau như phương pháp sử dụng không gian màu YCbCr với biểu đồ cạnh Canny và biến đổi Wavelet rời rạc [5], phương pháp sử dụng biểu đồ chênh lệch màu CDH (Color Difference Histogram) trong không gian màu HSV [72],… Biểu đồ màu (Color Histogram) [16] là sự mô tả sự biến đổi màu sắc trong một ảnh. Biểu đồ màu của ảnh bất biến với hướng và chỉ thay đổi dần theo góc nhìn. Tuy nhiên, biểu đồ màu không nắm bắt được mối quan hệ không gian của các vùng màu và khả năng phân biệt bị giới hạn. Do đó, mô men màu được sử dụng độ lệch chuẩn và giá trị trung bình của các phân phối trong mỗi dải màu cho mục đích lập chỉ mục màu trong các ứng dụng truy xuất ảnh để so sánh sự giống nhau về màu sắc giữa hai ảnh giống nhau [53,102].

Mô tả biểu đồ màu của ảnh Đặc trưng kết cấu Kết cấu là một đặc trưng ảnh quan trọng để mô tả các thuộc tính bề mặt của một đối tượng như độ mịn, độ thô, độ sâu,. và mối quan hệ của nó với các vùng xung quanh như sự thay đổi độ sáng cục bộ trong một vùng lân cận, sự sắp xếp không gian của các mức xám,. Nhiều phương pháp tìm kiếm ảnh theo nội dung (CBIR) dựa trên kết cấu được đề xuất. Kỹ thuật phân tích kết cấu thống kê chủ yếu mô tả kết cấu của các vùng trong ảnh dựa vào biểu đồ mức 13 xám [74].

Ma trận đồng xuất hiện mức xám GLCM (Gray-level co-occurrence matrix) là một trong những kỹ thuật được nhiều nhóm nghiên cứu sử dụng để phân tích kết cấu hình ảnh [34]. Bên cạnh đó, biểu đồ định hướng Gradient HOG (Histograms of Oriented Gradients) và mẫu nhị phân cục bộ LBP (Local Binary Patterns) [72] là hai bộ mô tả kết cấu với số chiều nhỏ được sử dụng phổ biến trong trích xuất đặc trưng. Các phương pháp tiếp cận cấu trúc nhằm xác định kết cấu nguyên thủy và các quy tắc sắp xếp như phát hiện biên với LoG (Laplacian of Gaussian) hay DoG (Difference of Gaussian) [15] nhằm phân đoạn hình ảnh. Các phương pháp tiếp cận theo cấu trúc thường được sử dụng cho các kết cấu thông thường vì tính đều đặn, lặp lại định kỳ trong kết cấu với một số quy tắc sắp xếp, thường độc lập với các phép biến đổi hình học như phép tịnh tiến, phép quay và phép chia tỷ lệ.

Tuy nhiên, các phương pháp này thường dùng cho mục đích tổng hợp hơn là mục đích phân tích, do chúng không được sử dụng cho các kết cấu có mức độ ngẫu nhiên cao. Các phương pháp biến đổi thể hiện một hình ảnh trong một không gian mà hệ tọa độ của nó liên quan chặt chẽ đến các đặc trưng của kết cấu nhằm phân đoạn hình ảnh [74] như: biến đổi Fourier phân tích nội dung của kết cấu theo miền tần số, phép lọc Gabor và phép biến đổi Wavelet phân tích nội dung của kết cấu cả trong miền tần số và miền không gian. Như vậy, có nhiều kỹ thuật khác nhau để trích rút đặc trưng kết cấu cấp thấp của hình ảnh. Tuy nhiên, đặc trưng kết cấu độ nhạy với nhiễu ảnh và ngữ nghĩa phụ thuộc vào hình dạng đối tượng ảnh.

Do đó, các xu hướng gần đây thường kết hợp đặc trưng kết cấu với đặc trưng hình dạng cho bài toán tìm kiếm ảnh theo ngữ nghĩa. Đặc trưng hình dạng Hình dạng là một đặc trưng cấp thấp nhằm nhận dạng đối tượng trong hình ảnh, ổn định với những thay đổi về ánh sáng, màu sắc và kết cấu [16]. Tìm kiếm ảnh theo đặc trưng hình dạng có độ chính xác tốt với các đặc trưng nhỏ gọn, độ phức tạp tính toán thấp. Các kỹ thuật biểu diễn và mô tả hình dạng có 14 thể được phân thành hai loại: phương pháp dựa trên đường biên và phương pháp dựa trên vùng.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Cải Tiến Thuật Toán Xếp Hạng Đa Tạp Trong Tra Cứu Ảnh Luận Án Tiến Sĩ Công Nghệ Thông Tin" trình bày những cải tiến trong thuật toán xếp hạng đa tạp, nhằm nâng cao hiệu quả trong việc tra cứu ảnh luận án tiến sĩ trong lĩnh vực công nghệ thông tin. Tài liệu này không chỉ giúp người đọc hiểu rõ hơn về các phương pháp xếp hạng hiện tại mà còn cung cấp những ứng dụng thực tiễn, từ đó mở rộng khả năng tìm kiếm và phân tích dữ liệu hình ảnh.

Để mở rộng kiến thức của bạn về các chủ đề liên quan, bạn có thể tham khảo thêm tài liệu Luận văn nghiên cứu phương pháp xây dựng hệ thống tìm kiếm ảnh theo nội dung sử dụng biểu đồ màu mờ, nơi bạn sẽ tìm thấy những phương pháp tương tự trong việc tìm kiếm ảnh. Ngoài ra, tài liệu Luận án tiến sĩ nghiên cứu phương pháp xây dựng hệ thống tìm kiếm ảnh theo nội dung sử dụng biểu đồ màu mờ cũng sẽ cung cấp cho bạn cái nhìn sâu sắc hơn về các kỹ thuật tiên tiến trong lĩnh vực này. Cuối cùng, tài liệu Luận văn thạc sĩ khoa học máy tính xây dựng hệ thống chatbot về thời trang dựa trên fewshot learning và rasa có thể giúp bạn hiểu thêm về ứng dụng của học máy trong các hệ thống thông minh.

Mỗi liên kết trên đều là cơ hội để bạn khám phá sâu hơn về các khía cạnh khác nhau của công nghệ thông tin và cải tiến thuật toán.

#Phân tích dữ liệu

#công nghệ thông tin

#Nghiên cứu công nghệ

#hệ thống tra cứu

#cải tiến thuật toán

#thuật toán xếp hạng

Chủ đề

Phát triển hệ thống thông minh

Cải tiến công nghệ thông tin

Nghiên cứu thuật toán xếp hạng

Ứng dụng trong tra cứu dữ liệu