Nghiên Cứu Cải Tiến Thuật Toán Xếp Hạng Đa Tạp Trong Tra Cứu Ảnh Luận Án Tiến Sĩ Công Nghệ Thông Tin

Trường đại học

Trường Đại Học Điện Lực

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

2023

154
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Tra Cứu Ảnh Đa Tạp Tổng Quan Ứng Dụng Tiềm Năng

Tra cứu ảnh dựa vào nội dung (CBIR) đang trở nên quan trọng hơn bao giờ hết với sự bùng nổ của dữ liệu ảnh. Kỹ thuật này cho phép tìm kiếm ảnh dựa trên đặc trưng nội dung thay vì metadata truyền thống. CBIR ứng dụng rộng rãi trong nhiều lĩnh vực như y tế, an ninh, thương mại điện tử, và kỹ thuật hình sự. Hệ thống CBIR hiệu quả đòi hỏi cả biểu diễn ảnh tối ưu và thuật toán tìm kiếm, xếp hạng ảnh hiệu quả. Luận án này tập trung vào cải thiện thuật toán xếp hạng đa tạp, một phương pháp hứa hẹn để nâng cao độ chính xác của CBIR, đặc biệt khi dữ liệu ảnh thể hiện tính đa tạp. Theo Liang Zheng và cộng sự [129], nếu ảnh được biểu diễn bởi các đặc trưng “tốt” có thể giúp cải thiện độ chính xác của tìm kiếm tương tự lên 2 tới 51,3%.

1.1. Biểu Diễn Ảnh Bằng Vector Đặc Trưng Khái Niệm Cơ Bản

Giai đoạn đầu tiên của CBIR là trích xuất đặc trưng ảnh và biểu diễn chúng dưới dạng vector. Các đặc trưng này có thể là đặc trưng mức thấp (màu sắc, hình dạng, texture) hoặc đặc trưng mức cao (đối tượng, ngữ cảnh). Việc lựa chọn đặc trưng ảnh phù hợp ảnh hưởng lớn đến hiệu quả của hệ thống CBIR. Một biểu diễn vector đặc trưng tốt phải nắm bắt đầy đủ thông tin ngữ nghĩa của ảnh. Luận án này xem xét cả hai loại đặc trưng và phương pháp kết hợp chúng để đạt hiệu quả tốt nhất. Việc sử dụng mạng học sâu để trích xuất đặc trưng ảnh đã mang lại hiệu quả đáng kể.

1.2. Ứng Dụng Tra Cứu Ảnh Trong Các Lĩnh Vực Thực Tế

CBIR có nhiều ứng dụng thực tế quan trọng. Trong y tế, CBIR hỗ trợ tìm kiếm ảnh y khoa tương tự để hỗ trợ chẩn đoán bệnh. Trong an ninh, CBIR được dùng để nhận diện khuôn mặt và tìm kiếm đối tượng tình nghi. Thương mại điện tử hưởng lợi từ CBIR thông qua việc cho phép người dùng tìm kiếm sản phẩm bằng hình ảnh. Kỹ thuật hình sự sử dụng CBIR để phân tích và đối sánh hình ảnh hiện trường. Việc cải tiến thuật toán xếp hạng giúp nâng cao hiệu quả của các ứng dụng này.

II. Thách Thức Tra Cứu Ảnh Bài Toán Xếp Hạng Đa Tạp Dữ Liệu

Mặc dù CBIR có nhiều tiềm năng, vẫn còn nhiều thách thức cần giải quyết. Một trong những thách thức lớn nhất là xếp hạng ảnh hiệu quả. Thuật toán xếp hạng cần phải sắp xếp các ảnh trả về theo mức độ liên quan đến truy vấn của người dùng. Điều này trở nên khó khăn khi dữ liệu ảnh có tính đa tạp. Đa tạp đề cập đến việc dữ liệu nằm trên nhiều không gian con phi tuyến tính. Các thuật toán xếp hạng truyền thống thường không hiệu quả trong việc xử lý dữ liệu đa tạp. Các hệ thống tra cứu ảnh sử dụng các độ đo tương tự để so khớp các đặc trưng nội dung của ảnh truy vấn với đặc trưng có trong cơ sở dữ liệu hình ảnh.

2.1. Vấn Đề Xếp Hạng Ảnh Dựa Trên Độ Tương Đồng

Các phương pháp xếp hạng truyền thống thường dựa trên độ tương đồng giữa các vector đặc trưng. Tuy nhiên, độ tương đồng đơn thuần có thể không phản ánh chính xác mức độ liên quan về mặt ngữ nghĩa. Ví dụ, hai ảnh có thể có vector đặc trưng gần nhau nhưng lại thuộc hai không gian ngữ nghĩa khác nhau. Các nghiên cứu [40, 78, 79] cho thấy, các hệ thống CBIR sử dụng các đặc trưng CNN đều dùng độ đo khoảng cách “truyền thống” để đánh giá sự giống nhau của hai hình ảnh.

2.2. Tính Đa Tạp Của Dữ Liệu Ảnh Ảnh Hưởng Đến Xếp Hạng

Tính đa tạp của dữ liệu ảnh làm cho việc xếp hạng trở nên phức tạp hơn. Dữ liệu ảnh thường nằm trên nhiều không gian con phi tuyến tính khác nhau. Các thuật toán xếp hạng cần phải khám phá cấu trúc đa tạp này để đưa ra kết quả chính xác hơn. Việc bỏ qua tính đa tạp có thể dẫn đến việc các ảnh không liên quan bị xếp hạng cao. Để khắc phục các hạn chế trên và khám phá cấu trúc phi tuyến tính của dữ liệu đặc trưng ảnh, các phương pháp xếp hạng đa tạp được đề xuất trong CBIR.

III. Cải Tiến Thuật Toán Xếp Hạng Đa Tạp Giải Pháp EMR FCM

Luận án này đề xuất cải tiến thuật toán xếp hạng đa tạp hiệu quả (EMR) bằng cách sử dụng thuật toán phân cụm mờ C-means (FCM) để chọn điểm neo. Phương pháp này, được gọi là EMR-FCM, giúp cải thiện độ chính xác và hiệu quả của xếp hạng ảnh trong CBIR. EMR-FCM tận dụng khả năng của FCM trong việc xác định các cụm dữ liệu chồng chéo, từ đó tạo ra các điểm neo đại diện tốt hơn cho cấu trúc đa tạp. Thay vì chỉ xem xét độ tương tự giữa từng cặp điểm dữ liệu, MR xem xét toàn bộ không gian dữ liệu để đưa ra điểm số xếp hạng.

3.1. Phương Pháp Tìm Điểm Neo Tối Ưu Bằng Thuật Toán FCM

FCM là một thuật toán phân cụm mờ cho phép mỗi điểm dữ liệu thuộc về nhiều cụm khác nhau với các mức độ thuộc khác nhau. Điều này phù hợp với tính chất đa tạp của dữ liệu ảnh, nơi một ảnh có thể liên quan đến nhiều không gian ngữ nghĩa khác nhau. Việc sử dụng FCM để chọn điểm neo giúp tạo ra các điểm neo đại diện tốt hơn cho cấu trúc đa tạp so với các phương pháp chọn điểm neo truyền thống như K-means. Trong luận án này, thuật ngữ “xếp hạng đa tạp” là kỹ thuật xếp hạng nhằm khám phá cấu trúc phi tuyến tính của dữ liệu đa tạp và được hiểu là phương pháp xếp hạng các điểm trong CSDL theo thứ tự có liên quan với điểm dữ liệu truy vấn được áp dụng trên tập cơ sở dữ liệu đa tạp.

3.2. Xây Dựng Đồ Thị Kề Hiệu Quả Trong EMR FCM

EMR-FCM sử dụng các điểm neo được chọn bởi FCM để xây dựng đồ thị kề. Các cạnh trong đồ thị biểu diễn mối quan hệ tương đồng giữa các ảnh và các điểm neo. Việc xây dựng đồ thị kề hiệu quả giúp giảm chi phí tính toán và cải thiện tốc độ xếp hạng. Luận án này trình bày chi tiết phương pháp xây dựng đồ thị kề trong EMR-FCM và các kỹ thuật tối ưu hóa để tăng tốc quá trình này.

3.3. Thuật Toán Xếp Hạng Trong EMR FCM Chi Tiết Phân Tích

Thuật toán xếp hạng trong EMR-FCM sử dụng đồ thị kề để lan truyền điểm số tương đồng từ ảnh truy vấn đến các ảnh khác trong cơ sở dữ liệu. Ảnh nào nhận được điểm số cao hơn sẽ được xếp hạng cao hơn. Luận án này phân tích chi tiết thuật toán xếp hạng trong EMR-FCM và so sánh nó với các thuật toán xếp hạng truyền thống.

IV. Kết Hợp Đặc Trưng Nâng Cao Độ Chính Xác Tra Cứu Ảnh

Để nâng cao hơn nữa độ chính xác của CBIR, luận án này đề xuất kết hợp đặc trưng mức thấp và đặc trưng mức cao trích xuất từ mạng CNN. Phương pháp này tận dụng ưu điểm của cả hai loại đặc trưng để biểu diễn ảnh một cách đầy đủ và chính xác hơn. Đặc trưng mức thấp nắm bắt thông tin về màu sắc, hình dạng, và texture, trong khi đặc trưng mức cao nắm bắt thông tin về đối tượng và ngữ cảnh. Luận án này chọn mạng EfficientNetB7+ để trích xuất đặc trưng mức cao. Các phương pháp xếp hạng đa tạp kể trên tuy khám phá được cấu trúc phi tuyến tuyến của dữ liệu nhưng độ chính xác trong tra cứu chưa cao do thiếu sự đa dạng trong các phương pháp biểu diễn ảnh bằng đặc trưng được trích rút từ mạng học sâu của dữ liệu ảnh (chủ yếu các đề xuất đều dùng đặc trưng mức thấp).

4.1. Trích Rút Đặc Trưng Mức Cao Từ Mạng CNN EfficientNetB7

EfficientNetB7+ là một mạng CNN mạnh mẽ được thiết kế để đạt được độ chính xác cao với chi phí tính toán thấp. Luận án này trình bày chi tiết quá trình trích xuất đặc trưng mức cao từ mạng EfficientNetB7+ và cách tinh chỉnh mạng này cho bài toán CBIR.

4.2. Kết Hợp Đặc Trưng Mức Thấp Mức Cao Phương Pháp Đề Xuất

Luận án này đề xuất một phương pháp kết hợp đặc trưng mức thấp và mức cao bằng cách ghép chúng lại thành một vector đặc trưng duy nhất. Phương pháp này đơn giản nhưng hiệu quả trong việc tận dụng ưu điểm của cả hai loại đặc trưng.

4.3. Ứng Dụng EMR Trên Dữ Liệu Đặc Trưng Kết Hợp HD EMR

EMR-FCM được áp dụng trên dữ liệu đặc trưng kết hợp để tạo ra một hệ thống CBIR hiệu quả. Hệ thống này, được gọi là HD-EMR, tận dụng khả năng của EMR trong việc xử lý dữ liệu đa tạp và khả năng của đặc trưng kết hợp trong việc biểu diễn ảnh một cách đầy đủ và chính xác.

V. Thực Nghiệm Đánh Giá Kết Quả Vượt Trội Của Phương Pháp

Để đánh giá hiệu quả của các phương pháp đề xuất, luận án này thực hiện các thí nghiệm trên các tập dữ liệu ảnh tiêu chuẩn. Kết quả thực nghiệm cho thấy EMR-FCM và HD-EMR đạt được độ chính xác cao hơn so với các phương pháp CBIR truyền thống. Các kết quả này chứng minh tính hiệu quả của việc cải tiến thuật toán xếp hạng đa tạp và kết hợp đặc trưng trong CBIR. Độ chính xác của hai phương pháp EMR và HD-EMR trên tập CSDL VGGFACE2-S.

5.1. Các Tập Dữ Liệu Ảnh Thực Nghiệm Mô Tả Đặc Điểm

Luận án này sử dụng các tập dữ liệu ảnh tiêu chuẩn như Corel30K, Logo-2K+, và VGGFACE2-S để đánh giá hiệu quả của các phương pháp đề xuất. Các tập dữ liệu này có các đặc điểm khác nhau về kích thước, số lượng lớp, và độ khó, cho phép đánh giá hiệu quả của các phương pháp đề xuất trong các tình huống khác nhau.

5.2. Tiêu Chí Đánh Giá Hiệu Suất Tra Cứu Ảnh Precision Recall

Luận án này sử dụng các tiêu chí đánh giá hiệu suất CBIR tiêu chuẩn như Precision và Recall để so sánh các phương pháp đề xuất với các phương pháp truyền thống. Precision đo tỷ lệ ảnh trả về liên quan đến truy vấn, trong khi Recall đo tỷ lệ ảnh liên quan đến truy vấn được trả về.

5.3. So Sánh Với Các Thuật Toán Xếp Hạng Ảnh Khác EMR vs HD EMR

Kết quả thực nghiệm cho thấy EMR-FCM và HD-EMR đạt được độ chính xác cao hơn so với các thuật toán xếp hạng ảnh truyền thống như K-NN và EMR gốc. Điều này chứng minh tính hiệu quả của việc cải tiến thuật toán xếp hạng đa tạp và kết hợp đặc trưng trong CBIR.

VI. Kết Luận Hướng Phát Triển Tương Lai Của Tra Cứu Ảnh

Luận án này đã trình bày một nghiên cứu về cải tiến thuật toán xếp hạng đa tạp trong CBIR. Các phương pháp đề xuất, EMR-FCM và HD-EMR, đã chứng minh tính hiệu quả trong việc nâng cao độ chính xác và hiệu quả của xếp hạng ảnh. Nghiên cứu này mở ra nhiều hướng phát triển tiềm năng cho CBIR trong tương lai. Hạn chế của các phương pháp xếp hạng đa tạp hiện tại khi áp dụng cho bài toán tra cứu ảnh dựa trên nội dung: i. Việc xây dựng đồ thị của các điểm dữ liệu dựa vào đồ thị K-NN là không khả thi với dữ liệu quy mô lớn [115]. Chưa khai thác tốt tính đa biểu diễn của ảnh bằng nhiều bộ đặc trưng. Khi kết hợp nhiều bộ đặc trưng, chiều vector biểu diễn ảnh có thể rất cao dẫn đến khó khăn trong tính toán khoảng cách và xác định điểm neo (như trong EMR, SSG).

6.1. Tóm Tắt Các Đóng Góp Chính Của Luận Án

Các đóng góp chính của luận án bao gồm việc đề xuất thuật toán EMR-FCM, phương pháp kết hợp đặc trưng, và hệ thống HD-EMR. Các đóng góp này đã được chứng minh là hiệu quả trong việc nâng cao hiệu suất CBIR.

6.2. Các Hướng Nghiên Cứu Tiềm Năng Trong Tương Lai

Các hướng nghiên cứu tiềm năng trong tương lai bao gồm việc khám phá các thuật toán phân cụm mờ khác, phát triển các phương pháp kết hợp đặc trưng tiên tiến hơn, và ứng dụng các phương pháp đề xuất vào các lĩnh vực khác như nhận dạng đối tượng và phân tích ảnh y khoa.

6.3. Tối Ưu Hóa Thuật Toán Xếp Hạng Giảm Độ Phức Tạp Tính Toán

Một hướng phát triển quan trọng khác là tối ưu hóa thuật toán xếp hạng để giảm độ phức tạp tính toán. Điều này đặc biệt quan trọng khi xử lý các tập dữ liệu ảnh lớn.

27/05/2025
Luận án tiến sĩ nghiên cứu cải tiến thuật toán xếp hạng đa tạp trong tra cứu ảnh
Bạn đang xem trước tài liệu : Luận án tiến sĩ nghiên cứu cải tiến thuật toán xếp hạng đa tạp trong tra cứu ảnh

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Tài liệu "Cải Tiến Thuật Toán Xếp Hạng Đa Tạp Trong Tra Cứu Ảnh Luận Án Tiến Sĩ Công Nghệ Thông Tin" trình bày những cải tiến trong thuật toán xếp hạng đa tạp, nhằm nâng cao hiệu quả trong việc tra cứu ảnh luận án tiến sĩ trong lĩnh vực công nghệ thông tin. Tài liệu này không chỉ giúp người đọc hiểu rõ hơn về các phương pháp xếp hạng hiện tại mà còn cung cấp những ứng dụng thực tiễn, từ đó mở rộng khả năng tìm kiếm và phân tích dữ liệu hình ảnh.

Để mở rộng kiến thức của bạn về các chủ đề liên quan, bạn có thể tham khảo thêm tài liệu Luận văn nghiên cứu phương pháp xây dựng hệ thống tìm kiếm ảnh theo nội dung sử dụng biểu đồ màu mờ, nơi bạn sẽ tìm thấy những phương pháp tương tự trong việc tìm kiếm ảnh. Ngoài ra, tài liệu Luận án tiến sĩ nghiên cứu phương pháp xây dựng hệ thống tìm kiếm ảnh theo nội dung sử dụng biểu đồ màu mờ cũng sẽ cung cấp cho bạn cái nhìn sâu sắc hơn về các kỹ thuật tiên tiến trong lĩnh vực này. Cuối cùng, tài liệu Luận văn thạc sĩ khoa học máy tính xây dựng hệ thống chatbot về thời trang dựa trên fewshot learning và rasa có thể giúp bạn hiểu thêm về ứng dụng của học máy trong các hệ thống thông minh.

Mỗi liên kết trên đều là cơ hội để bạn khám phá sâu hơn về các khía cạnh khác nhau của công nghệ thông tin và cải tiến thuật toán.