Kết Hợp Cấu Trúc R-Tree và Đồ Thị Tri Thức Trong Tìm Kiếm Ảnh

LỜI CAM ĐOAN

1. PHẦN MỞ ĐẦU

1.1. Tính cấp thiết của luận án

1.2. Tổng quan tình hình nghiên cứu

2. TỔNG QUAN VỀ TÌM KIẾM ẢNH, CẤU TRÚC R-TREE VÀ ĐỒ THỊ TRI THỨC

2.1. Tìm kiếm ảnh theo nội dung

2.2. Đặc trưng hình ảnh

2.3. Độ đo tương tự giữa hai hình ảnh

2.4. Cấu trúc R-Tree và các biến thể cho tìm kiếm ảnh

2.5. Đồ thị tri thức

2.6. Đồ thị ngữ cảnh

2.7. Kiến trúc hệ thống tìm kiếm ảnh

2.8. Môi trường thực nghiệm và độ đo đánh giá

2.9. Tổng kết chương

3. TÌM KIẾM ẢNH DỰA TRÊN RS-TREE

3.1. Cấu trúc RS-Tree

3.2. Mô tả cấu trúc RS-Tree

3.3. Xây dựng cấu trúc RS-Tree

3.4. Các thao tác trên cấu trúc RS-Tree

3.4.1. Tiêu chí lựa chọn nút lá phù hợp

3.4.2. Thêm phần tử vào cây

3.4.3. Cập nhật tâm và bán kính khối cầu

3.5. Tìm kiếm ảnh theo nội dung dựa trên RS-Tree

3.6. Mô hình tìm kiếm ảnh dựa trên RS-Tree

3.7. Thuật toán tìm kiếm ảnh

3.8. Thực nghiệm và đánh giá

3.9. Tổng kết chương

4. KẾT HỢP RS-TREE VÀ ĐỒ THỊ TRI THỨC TRONG TÌM KIẾM ẢNH

4.1. RS-Tree kết hợp đồ thị láng giềng

4.2. Khái niệm cơ sở

4.3. Cấu trúc đồ thị cụm láng giềng

4.4. Thuật toán tạo đồ thị láng giềng

4.5. Tìm kiếm ảnh theo nội dung dựa trên cấu trúc NBGraphRST

4.6. Khung đồ thị tri thức cho dữ liệu hình ảnh

4.7. Quy trình xây dựng đồ thị tri thức

4.8. Quá trình xây dựng đồ thị tri thức

4.9. Các thuật toán xây dựng đồ thị tri thức

4.10. Tìm kiếm ảnh kết hợp RS-Tree với đồ thị tri thức

4.11. Nhận dạng đối tượng bằng Faster-RCNN

4.12. Mô hình tìm kiếm ảnh kết hợp RS-Tree và đồ thị tri thức

4.13. Thuật toán tìm kiếm ảnh

4.14. Thực nghiệm và đánh giá

4.15. Mô tả bộ dữ liệu Visual Genome

4.16. Đánh giá thực nghiệm

4.17. Tổng kết chương

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

DANH MỤC CÁC CÔNG TRÌNH NGHIÊN CỨU CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN

TÀI LIỆU THAM KHẢO

I. Tổng Quan Tìm Kiếm Ảnh R Tree và Đồ Thị Tri Thức

Các hệ thống tìm kiếm ảnh đã phát triển mạnh mẽ, ứng dụng trong nhiều lĩnh vực như nhận dạng khuôn mặt, tìm kiếm hàng hóa, y tế, và ảnh vệ tinh. Có hai phương pháp chính: TBIR (Text-based Image Retrieval) dựa trên từ khóa và CBIR (Content-based Image Retrieval) dựa trên nội dung. TBIR sử dụng chỉ mục và mô tả ảnh do người dùng cung cấp, nhưng tốn kém và chủ quan. CBIR trích xuất và so sánh các đặc trưng cấp thấp như màu sắc, kết cấu, hình dạng, và vị trí. CBIR hiệu quả và chính xác hơn, nhưng kết quả có thể khác nhau về ngữ nghĩa. Khoảng cách giữa ngữ nghĩa cấp cao và đặc trưng thị giác cấp thấp là một thách thức lớn. Phân tích và tìm kiếm ảnh theo ngữ nghĩa đang được quan tâm. Sự tăng trưởng dữ liệu đa phương tiện đòi hỏi hệ thống lưu trữ lớn. Do đó, cần có cấu trúc lưu trữ dữ liệu đa chiều để tìm kiếm nhanh chóng và hiệu quả. Cấu trúc R-Tree là một mô hình tìm kiếm đối tượng sử dụng dữ liệu đa chiều, được Guttman đề xuất vào năm 1984. Các biến thể của R-Tree đã được phát triển để tìm kiếm hiệu quả hơn và xử lý các đối tượng trong không gian đa chiều.

1.1. Tìm Kiếm Ảnh Theo Nội Dung CBIR Tổng Quan

Phương pháp tìm kiếm ảnh theo nội dung (CBIR) tập trung vào việc trích xuất các đặc trưng hình ảnh cấp thấp như màu sắc, hình dạng, kết cấu và bố cục. Các đặc trưng này sau đó được sử dụng để so sánh sự tương đồng giữa các hình ảnh. CBIR khắc phục nhược điểm chủ quan của TBIR bằng cách tự động phân tích nội dung trực quan. Tuy nhiên, khoảng cách giữa các đặc trưng cấp thấp và nhận thức ngữ nghĩa của con người vẫn là một thách thức lớn, ảnh hưởng đến độ chính xác của kết quả tìm kiếm. Theo nghiên cứu của Haldurai và cộng sự [23], việc kết hợp các đặc trưng màu và kết cấu được trích xuất bằng phương pháp mờ hóa có thể cải thiện hiệu suất CBIR.

1.2. Cấu Trúc R Tree Giải Pháp Lưu Trữ Dữ Liệu Đa Chiều

Cấu trúc R-Tree là một cấu trúc dữ liệu cây được thiết kế để lưu trữ và truy vấn dữ liệu không gian đa chiều. Các nút trong R-Tree đại diện cho các vùng không gian, và các vùng này có thể chồng lấp lên nhau. R-Tree được sử dụng rộng rãi trong các ứng dụng như hệ thống thông tin địa lý (GIS), cơ sở dữ liệu không gian và tìm kiếm ảnh. Theo Guttman [18], R-Tree cho phép tìm kiếm hiệu quả các đối tượng nằm trong một vùng không gian nhất định, ngay cả khi dữ liệu có kích thước lớn.

II. Thách Thức Trong Tìm Kiếm Ảnh Hiệu Quả Hiện Nay

Việc tìm kiếm một đối tượng dựa trên cấu trúc R-Tree dẫn đến việc xét nhiều đường dẫn từ gốc đến lá, do đó kết quả giảm độ chính xác. Các vùng không gian lưu trữ lớn làm tăng mức độ chồng lấp, dẫn đến suy giảm hiệu suất khi thực hiện tìm kiếm vùng. Do đó, một cấu trúc R-Tree tối giản vùng không gian cần được xây dựng nhưng vẫn đảm bảo được hiệu suất của việc tìm kiếm ảnh. Cần giảm kích thước vùng không gian lưu trữ và giảm chi phí tính toán trong việc giãn nở vùng không gian cho cấu trúc R-Tree cần được xây dựng. Ngoài ra, cần có một mô hình tìm kiếm ảnh hiệu quả để đáp ứng nhu cầu người dùng, đồng thời giải quyết bài toán khoảng cách ngữ nghĩa và hiệu suất tìm kiếm trong bối cảnh dữ liệu ngày càng lớn.

2.1. Vấn Đề Về Độ Chính Xác và Hiệu Suất Tìm Kiếm

Một trong những thách thức lớn nhất trong tìm kiếm ảnh là đảm bảo độ chính xác và hiệu suất tìm kiếm, đặc biệt khi làm việc với các tập dữ liệu lớn. Việc sử dụng R-Tree có thể giúp tăng tốc quá trình tìm kiếm, nhưng việc chồng lấp giữa các vùng không gian có thể dẫn đến việc truy xuất nhiều kết quả không liên quan. Các thuật toán tìm kiếm cần được tối ưu hóa để giảm thiểu số lượng nút phải duyệt và đảm bảo rằng các kết quả trả về thực sự phù hợp với truy vấn của người dùng.

2.2. Khoảng Cách Ngữ Nghĩa Thách Thức Lớn Trong CBIR

Khoảng cách ngữ nghĩa (semantic gap) là sự khác biệt giữa các đặc trưng cấp thấp được sử dụng trong CBIR và nhận thức ngữ nghĩa của con người. Ví dụ, hai hình ảnh có thể có màu sắc và kết cấu tương tự, nhưng lại đại diện cho các đối tượng hoặc cảnh khác nhau. Để thu hẹp khoảng cách ngữ nghĩa, cần phải kết hợp các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) và đồ thị tri thức (Knowledge Graph) để hiểu và biểu diễn ngữ cảnh của hình ảnh.

III. RS Tree Phương Pháp Cải Tiến Cấu Trúc R Tree Cho Ảnh

Vanitha và cộng sự đã đề xuất cấu trúc SR-Tree ứng dụng cho hệ thống tìm kiếm ảnh tương tự theo nội dung. Trong hệ thống này, các đặc trưng màu sắc, đặc trưng không gian được trích xuất và lưu trữ véc-tơ đặc trưng trên cây SR-Tree để thực hiện việc tìm kiếm ảnh. Kết quả thực nghiệm trên tập ảnh COREL cho thấy SR-Tree hoạt động hiệu quả hơn các cấu trúc khác. Tuy nhiên, trong cấu trúc cây SR-tree khi chèn phần tử cần cập nhật cả hình cầu và hình chữ nhật dẫn đến việc tạo và cập nhật tương đối phức tạp và tốn kém chi phí tính toán về việc sắp xếp và giãn nở vùng không gian. Bên cạnh đó, mỗi nút trên cây SR-Tree chứa cả hình cầu và hình chữ nhật, nên kích thước sẽ lớn hơn nhiều làm ảnh hưởng đến hiệu suất tìm kiếm.

3.1. Ưu Điểm và Hạn Chế của Cấu Trúc SR Tree

SR-Tree là một cải tiến của R-Tree, sử dụng cả hình cầu và hình chữ nhật để biểu diễn các vùng không gian. Điều này cho phép SR-Tree biểu diễn dữ liệu chính xác hơn và giảm thiểu sự chồng lấp. Tuy nhiên, việc duy trì cả hình cầu và hình chữ nhật trong mỗi nút làm tăng độ phức tạp của các thao tác chèn, xóa và cập nhật. Nghiên cứu của Vanitha và cộng sự [25] đã chứng minh hiệu quả của SR-Tree trên tập dữ liệu COREL, nhưng vẫn còn những hạn chế về chi phí tính toán.

3.2. RS Tree Giải Pháp Thay Thế Tiềm Năng

Để khắc phục những hạn chế của SR-Tree, cấu trúc RS-Tree được đề xuất như một giải pháp thay thế tiềm năng. RS-Tree chỉ sử dụng hình cầu để biểu diễn các vùng không gian, giúp giảm độ phức tạp của các thao tác và giảm kích thước của các nút. Việc sử dụng hình cầu cũng giúp RS-Tree biểu diễn dữ liệu tự nhiên hơn, đặc biệt là trong các ứng dụng liên quan đến tìm kiếm ảnh dựa trên các đặc trưng không gian.

IV. Đồ Thị Tri Thức Nâng Cao Khả Năng Hiểu Ngữ Nghĩa Ảnh

Để giải quyết bài toán khoảng cách ngữ nghĩa, việc tích hợp đồ thị tri thức (Knowledge Graph) vào hệ thống tìm kiếm ảnh là một hướng đi đầy hứa hẹn. Đồ thị tri thức cung cấp một cách để biểu diễn các khái niệm, mối quan hệ và ngữ cảnh liên quan đến hình ảnh. Khi kết hợp với các đặc trưng cấp thấp, đồ thị tri thức có thể giúp hệ thống hiểu và suy luận về nội dung của hình ảnh một cách chính xác hơn. Sử dụng nhận dạng đối tượng bằng Faster-RCNN để tăng độ chính xác.

4.1. Xây Dựng Đồ Thị Tri Thức Cho Dữ Liệu Hình Ảnh

Việc xây dựng đồ thị tri thức cho dữ liệu hình ảnh đòi hỏi một quy trình phức tạp, bao gồm việc trích xuất các đối tượng và mối quan hệ từ hình ảnh, và sau đó biểu diễn chúng trong một định dạng có cấu trúc. Các kỹ thuật như nhận dạng đối tượng (object detection), phân đoạn ảnh (image segmentation) và xử lý ngôn ngữ tự nhiên (NLP) có thể được sử dụng để tự động hóa quá trình này. Theo nghiên cứu, có thể tham khảo các đồ thị ngữ cảnh của ảnh 2371376 để thêm thông tin về ngữ cảnh cho đồ thị tri thức.

4.2. Ứng Dụng Đồ Thị Tri Thức Trong Tìm Kiếm Ảnh Ngữ Nghĩa

Sau khi đã xây dựng được đồ thị tri thức, có thể sử dụng nó để cải thiện khả năng tìm kiếm ảnh ngữ nghĩa. Khi người dùng đưa ra một truy vấn, hệ thống có thể sử dụng đồ thị tri thức để mở rộng truy vấn và tìm kiếm các hình ảnh liên quan đến các khái niệm và mối quan hệ trong đồ thị. Điều này giúp hệ thống trả về các kết quả phù hợp hơn với ý định của người dùng.

V. Kết Hợp RS Tree và Đồ Thị Tri Thức Giải Pháp Tối Ưu

Việc kết hợp RS-Tree và đồ thị tri thức mang lại một giải pháp toàn diện cho bài toán tìm kiếm ảnh. RS-Tree cung cấp một cấu trúc lưu trữ hiệu quả cho các đặc trưng cấp thấp, trong khi đồ thị tri thức cung cấp thông tin ngữ nghĩa cần thiết để thu hẹp khoảng cách ngữ nghĩa. Bằng cách kết hợp hai kỹ thuật này, có thể xây dựng một hệ thống tìm kiếm ảnh vừa nhanh chóng vừa chính xác.

5.1. Mô Hình Tìm Kiếm Ảnh Kết Hợp RS Tree và Đồ Thị Tri Thức

Mô hình tìm kiếm ảnh kết hợp RS-Tree và đồ thị tri thức bao gồm hai giai đoạn chính: giai đoạn lập chỉ mục và giai đoạn tìm kiếm. Trong giai đoạn lập chỉ mục, các đặc trưng cấp thấp của hình ảnh được trích xuất và lưu trữ trong RS-Tree. Đồng thời, các đối tượng và mối quan hệ trong hình ảnh được biểu diễn trong đồ thị tri thức. Trong giai đoạn tìm kiếm, truy vấn của người dùng được sử dụng để tìm kiếm các hình ảnh tương tự trong RS-Tree và các khái niệm liên quan trong đồ thị tri thức. Kết quả từ hai nguồn này sau đó được kết hợp để trả về các hình ảnh phù hợp nhất.

5.2. Thuật Toán Tìm Kiếm Ảnh Kết Hợp

Thuật toán tìm kiếm ảnh kết hợp RS-Tree và đồ thị tri thức cần phải được thiết kế để tận dụng tối đa cả hai cấu trúc dữ liệu. Một cách tiếp cận là sử dụng RS-Tree để tìm kiếm các hình ảnh có các đặc trưng cấp thấp tương tự với truy vấn, và sau đó sử dụng đồ thị tri thức để lọc các kết quả dựa trên thông tin ngữ nghĩa. Thuật toán cũng cần phải xem xét độ tin cậy của thông tin trong đồ thị tri thức và điều chỉnh các tham số để đạt được sự cân bằng giữa độ chính xác và hiệu suất.

VI. Kết Luận và Hướng Phát Triển Tìm Kiếm Ảnh Hiện Đại

Luận án này đã trình bày một phương pháp kết hợp RS-Tree và đồ thị tri thức để xây dựng một hệ thống tìm kiếm ảnh hiệu quả và chính xác. Kết quả nghiên cứu cho thấy phương pháp đề xuất có tiềm năng cải thiện đáng kể hiệu suất tìm kiếm ảnh so với các phương pháp truyền thống. Trong tương lai, hướng phát triển có thể tập trung vào việc tối ưu hóa thuật toán tìm kiếm kết hợp, mở rộng đồ thị tri thức và thử nghiệm trên các tập dữ liệu lớn hơn.

6.1. Tối Ưu Hóa Thuật Toán Tìm Kiếm Kết Hợp

Việc tối ưu hóa thuật toán tìm kiếm kết hợp là một hướng đi quan trọng để cải thiện hiệu suất của hệ thống. Các kỹ thuật như học máy (machine learning) và khai phá dữ liệu (data mining) có thể được sử dụng để tự động điều chỉnh các tham số của thuật toán và cải thiện độ chính xác của kết quả tìm kiếm.

6.2. Mở Rộng Đồ Thị Tri Thức và Ứng Dụng Thực Tế

Mở rộng đồ thị tri thức bằng cách thêm nhiều khái niệm, mối quan hệ và ngữ cảnh hơn là một cách để cải thiện khả năng hiểu ngữ nghĩa của hệ thống. Việc tích hợp các nguồn tri thức bên ngoài (external knowledge sources) như Wikipedia và DBpedia cũng có thể giúp mở rộng phạm vi của đồ thị tri thức. Cần chú trọng phát triển ứng dụng tìm kiếm ảnh vào thực tế để chứng minh tính khả thi của đề tài.

Kết Hợp Cấu Trúc R-Tree và Đồ Thị Tri Thức Trong Mô Hình Tìm Kiếm Ảnh