Luận Văn Học Bán Giám Sát Trên Đồ Thị Với Ứng Dụng Tra Cứu Ảnh

Khám phá luận văn về học bán giám sát trên đồ thị và ứng dụng tra cứu ảnh, cung cấp cái nhìn sâu sắc về công nghệ và phương pháp hiện đại.

Trường đại học

Trường Đại Học Dân Lập Hải Phòng

Chuyên ngành

Hệ Thống Thông Tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2016

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

DANH MỤC CHỮ VIẾT TẮT

DANH MỤC HÌNH VẼ

DANH MỤC BẢNG BIỂU

MỞ ĐẦU

1. CHƯƠNG 1: KHÁI QUÁT VỀ CBIR VÀ HỌC TRÊN ĐỒ THỊ

1.1. Tra cứu ảnh dựa trên nội dung với phản hồi liên quan

1.2. Kiến trúc tổng quan của hệ thống CBIR với phản hồi liên quan

1.3. Các kỹ thuật phản hồi liên quan

1.3.1. Kỹ thuật dựa trên “học”

1.3.2. Phản hồi đặc điểm kỹ thuật tiến bộ

1.3.3. Phản hồi dựa trên định hướng người dùng

1.3.4. Phương pháp xác suất

2. CHƯƠNG 2: TRA CỨU ẢNH DỰA TRÊN XẾP HẠNG ĐA TẠP

2.1. Thuật toán lan truyền nhãn

2.2. Nội dung thuật toán

2.3. Sự hội tụ của thuật toán

2.4. Phương pháp xác định siêu tham số của đồ thị

2.5. Độ phức tạp của thuật toán

2.6. CBIR dựa trên Xếp hạng đa tạp

2.7. Học truyền dẫn trong CBIR

2.8. Học truyền dẫn với phản hồi liên quan

2.9. Kỹ thuật xếp hạng đa tạp cải tiến

2.10. Xây dựng đồ thị

2.11. Tính toán xếp hạng

2.12. Phân tích độ phức tạp

3. CHƯƠNG 3: THỰC NGHIỆM

3.1. Môi trường thực nghiệm

3.1.1. Cơ sở dữ liệu

3.1.2. Trích chọn đặc trưng

3.2. Mô tả chương trình thực nghiệm

3.2.1. Mở ảnh truy vấn

3.2.2. Tra cứu ảnh

3.2.3. Phản hồi liên quan

3.3. Đánh giá hiệu năng

3.3.1. Đánh giá qua độ chính xác với các ảnh trả về khác nhau

3.3.2. Đánh giá qua khảo sát trên tập dữ liệu khác

3.3.3. Đánh giá về thời gian thực hiện

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về Luận Văn Học Bán Giám Sát Trên Đồ Thị Ứng Dụng Tra Cứu Ảnh Hiệu Quả

Luận văn tập trung vào học bán giám sát trên đồ thị với ứng dụng trong tra cứu ảnh hiệu quả. Học bán giám sát là phương pháp kết hợp giữa dữ liệu có nhãn và không nhãn, giúp cải thiện hiệu suất của các hệ thống tra cứu ảnh dựa trên nội dung (CBIR). Đồ thị được sử dụng để biểu diễn mối quan hệ giữa các ảnh, từ đó lan truyền thông tin từ các ảnh có nhãn sang các ảnh không nhãn. Phương pháp này đặc biệt hữu ích trong các hệ thống CBIR, nơi số lượng ảnh không nhãn thường lớn hơn nhiều so với ảnh có nhãn.

1.1. Khái niệm học bán giám sát

Học bán giám sát là một kỹ thuật học máy kết hợp giữa dữ liệu có nhãn và không nhãn. Trong tra cứu ảnh, phương pháp này giúp tận dụng thông tin từ các ảnh không nhãn để cải thiện độ chính xác của hệ thống. Học bán giám sát trên đồ thị sử dụng đồ thị để biểu diễn mối quan hệ giữa các ảnh, từ đó lan truyền thông tin từ các ảnh có nhãn sang các ảnh không nhãn. Điều này giúp giảm thiểu khoảng cách ngữ nghĩa giữa các đặc trưng mức thấp và khái niệm mức cao.

1.2. Ứng dụng trong tra cứu ảnh

Tra cứu ảnh dựa trên nội dung (CBIR) là một công cụ mạnh mẽ trong việc tìm kiếm ảnh dựa trên các đặc trưng trực quan. Tuy nhiên, khoảng cách ngữ nghĩa giữa các đặc trưng mức thấp và khái niệm mức cao vẫn là một thách thức lớn. Học bán giám sát trên đồ thị giúp thu hẹp khoảng cách này bằng cách sử dụng phản hồi liên quan (RF) từ người dùng để cải thiện hiệu suất của hệ thống. Phương pháp này đặc biệt hiệu quả trong các hệ thống CBIR với số lượng ảnh không nhãn lớn.

II. Phương pháp học bán giám sát trên đồ thị

Phương pháp học bán giám sát trên đồ thị được áp dụng trong luận văn bao gồm việc xây dựng đồ thị, phân tích đồ thị và lan truyền nhãn. Đồ thị được xây dựng dựa trên mối quan hệ giữa các ảnh, trong đó các đỉnh đại diện cho ảnh và các cạnh đại diện cho độ tương tự giữa chúng. Lan truyền nhãn là quá trình sử dụng thông tin từ các ảnh có nhãn để dự đoán nhãn cho các ảnh không nhãn. Phương pháp này giúp cải thiện độ chính xác của hệ thống CBIR bằng cách tận dụng thông tin từ các ảnh không nhãn.

2.1. Xây dựng đồ thị

Xây dựng đồ thị là bước đầu tiên trong phương pháp học bán giám sát trên đồ thị. Đồ thị được xây dựng dựa trên mối quan hệ giữa các ảnh, trong đó các đỉnh đại diện cho ảnh và các cạnh đại diện cho độ tương tự giữa chúng. Độ tương tự được tính toán dựa trên các đặc trưng trực quan của ảnh, chẳng hạn như màu sắc, kết cấu và hình dạng. Đồ thị càng chính xác thì hiệu quả của phương pháp lan truyền nhãn càng cao.

2.2. Lan truyền nhãn

Lan truyền nhãn là quá trình sử dụng thông tin từ các ảnh có nhãn để dự đoán nhãn cho các ảnh không nhãn. Trong học bán giám sát trên đồ thị, thông tin từ các ảnh có nhãn được lan truyền qua các cạnh của đồ thị đến các ảnh không nhãn. Quá trình này giúp cải thiện độ chính xác của hệ thống CBIR bằng cách tận dụng thông tin từ các ảnh không nhãn. Lan truyền nhãn đặc biệt hiệu quả trong các hệ thống CBIR với số lượng ảnh không nhãn lớn.

III. Thực nghiệm và đánh giá

Luận văn tiến hành thực nghiệm để đánh giá hiệu quả của phương pháp học bán giám sát trên đồ thị trong tra cứu ảnh hiệu quả. Các thử nghiệm được thực hiện trên các cơ sở dữ liệu ảnh phổ biến như COREL và Caltech. Kết quả thực nghiệm cho thấy phương pháp này cải thiện đáng kể độ chính xác của hệ thống CBIR so với các phương pháp truyền thống. Học bán giám sát trên đồ thị cũng giúp giảm thời gian thực hiện, đặc biệt trong các hệ thống với số lượng ảnh lớn.

3.1. Môi trường thực nghiệm

Thực nghiệm được tiến hành trên các cơ sở dữ liệu ảnh phổ biến như COREL và Caltech. Các đặc trưng của ảnh được trích xuất tự động bằng các kỹ thuật thị giác máy tính. Học bán giám sát trên đồ thị được áp dụng để cải thiện độ chính xác của hệ thống CBIR. Các thử nghiệm được thực hiện với số lượng ảnh khác nhau để đánh giá hiệu quả của phương pháp.

3.2. Đánh giá hiệu năng

Kết quả thực nghiệm cho thấy phương pháp học bán giám sát trên đồ thị cải thiện đáng kể độ chính xác của hệ thống CBIR so với các phương pháp truyền thống. Phương pháp này cũng giúp giảm thời gian thực hiện, đặc biệt trong các hệ thống với số lượng ảnh lớn. Đánh giá hiệu năng được thực hiện dựa trên độ chính xác và thời gian thực hiện của hệ thống. Kết quả cho thấy phương pháp này là một giải pháp hiệu quả cho các hệ thống CBIR hiện đại.

13/02/2025

Bạn đang xem trước tài liệu:

Luận văn học bán giám sát trên đồ thị với ứng dụng tra cứu ảnh

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Tra cứu ảnh dựa trên nội dung (Content-Based Image Retrieval - CBIR) là lĩnh vực nghiên cứu quan trọng trong ngành Công nghệ Thông tin, đặc biệt trong xử lý ảnh và học máy. Theo báo cáo của ngành, nhu cầu tra cứu ảnh trong các cơ sở dữ liệu lớn ngày càng tăng nhanh, đòi hỏi các hệ thống CBIR phải đảm bảo tốc độ và độ chính xác cao. Tuy nhiên, các đặc trưng mức thấp như màu sắc, kết cấu, hình dạng vẫn chưa thể phản ánh đầy đủ ngữ nghĩa ảnh, dẫn đến hiệu suất tra cứu chưa đáp ứng kỳ vọng người dùng. Để khắc phục, kỹ thuật phản hồi liên quan (Relevance Feedback - RF) được áp dụng nhằm cải thiện hiệu năng hệ thống thông qua việc học từ các mẫu ảnh được người dùng đánh dấu liên quan hoặc không liên quan.

Mục tiêu nghiên cứu của luận văn là phát triển và ứng dụng phương pháp học bán giám sát trên đồ thị nhằm nâng cao hiệu quả tra cứu ảnh dựa trên nội dung với phản hồi liên quan. Nghiên cứu tập trung vào việc xây dựng mô hình học trên đồ thị, sử dụng thuật toán lan truyền nhãn và xếp hạng đa tạp để tận dụng tối đa thông tin từ dữ liệu đã gán nhãn và chưa gán nhãn. Phạm vi nghiên cứu thực hiện tại Trường Đại học Dân lập Hải Phòng trong năm 2016, với các bộ cơ sở dữ liệu ảnh tiêu biểu như COREL và Caltech.

Ý nghĩa nghiên cứu thể hiện qua việc cải thiện độ chính xác tra cứu ảnh lên đến khoảng 15-20% so với các phương pháp truyền thống, đồng thời giảm thời gian thực hiện tra cứu xuống còn khoảng 30-40% so với các thuật toán học máy khác. Kết quả này góp phần nâng cao chất lượng các ứng dụng tra cứu ảnh trong y tế, an ninh, viễn thám và các lĩnh vực liên quan.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình học máy hiện đại, tập trung vào:

Học bán giám sát (Semi-Supervised Learning): Kết hợp dữ liệu đã gán nhãn và chưa gán nhãn để xây dựng mô hình học hiệu quả, giảm thiểu chi phí gán nhãn và tăng độ chính xác dự đoán. Phương pháp này tận dụng ưu điểm của học có giám sát và học không giám sát.
Học trên đồ thị (Graph-Based Learning): Mô hình dữ liệu dưới dạng đồ thị, trong đó các đỉnh đại diện cho ảnh và các cạnh biểu diễn mức độ tương tự giữa các ảnh. Các thuật toán lan truyền nhãn (Label Propagation) và xếp hạng đa tạp (Manifold Ranking) được sử dụng để truyền thông tin nhãn và đánh giá mức độ liên quan.
Phản hồi liên quan (Relevance Feedback): Kỹ thuật tương tác với người dùng để cải thiện kết quả tra cứu thông qua việc người dùng đánh dấu các ảnh liên quan hoặc không liên quan, từ đó hệ thống học và điều chỉnh truy vấn.

Các khái niệm chính bao gồm: ma trận trọng số cạnh trong đồ thị, ma trận xác suất chuyển đổi nhãn, hàm điều hòa trong trường Gaussian ngẫu nhiên, thuật toán lan truyền nhãn, thuật toán xếp hạng đa tạp và các siêu tham số điều khiển trọng số đồ thị.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là các bộ cơ sở dữ liệu ảnh COREL và Caltech, với số lượng ảnh lên đến hàng nghìn. Dữ liệu bao gồm ảnh đã được gán nhãn và ảnh chưa gán nhãn, phục vụ cho việc huấn luyện và đánh giá mô hình học bán giám sát.

Phương pháp phân tích gồm:

Xây dựng đồ thị biểu diễn mối quan hệ giữa các ảnh dựa trên khoảng cách Euclid và hàm Gaussian để tính trọng số cạnh.
Áp dụng thuật toán lan truyền nhãn để truyền thông tin nhãn từ tập ảnh đã gán nhãn sang tập ảnh chưa gán nhãn.
Sử dụng thuật toán xếp hạng đa tạp (Manifold Ranking) và thuật toán xếp hạng đa tạp cải tiến (Efficient Manifold Ranking - EMR) để cải thiện hiệu quả tra cứu.
Đánh giá hiệu năng qua các chỉ số độ chính xác (precision) và thời gian thực hiện trên các tập dữ liệu khác nhau.

Timeline nghiên cứu kéo dài trong năm 2016, bao gồm các giai đoạn: tổng quan lý thuyết, xây dựng mô hình, cài đặt chương trình, thực nghiệm và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả thuật toán lan truyền nhãn: Thuật toán lan truyền nhãn cho phép truyền thông tin nhãn từ tập dữ liệu nhỏ đã gán nhãn sang tập lớn chưa gán nhãn, giúp cải thiện độ chính xác tra cứu ảnh lên đến khoảng 75% sau 6 vòng phản hồi, tăng khoảng 15% so với phương pháp không sử dụng phản hồi.
Cải tiến thuật toán xếp hạng đa tạp (EMR): Thuật toán EMR giảm đáng kể độ phức tạp tính toán so với thuật toán xếp hạng đa tạp truyền thống, giảm thời gian thực hiện tra cứu xuống còn khoảng 60% trên tập dữ liệu COREL và Caltech, đồng thời duy trì hoặc nâng cao độ chính xác trung bình lên khoảng 80%.
Ảnh hưởng của siêu tham số α: Việc lựa chọn siêu tham số α trong hàm trọng số cạnh ảnh hưởng lớn đến chất lượng đồ thị và kết quả học. Phương pháp xác định siêu tham số dựa trên cây khung nhỏ nhất (Minimum Spanning Tree) giúp tối ưu hóa cấu trúc đồ thị, nâng cao độ chính xác tra cứu thêm khoảng 5-7%.
Độ chính xác và thời gian thực hiện: So sánh trên tập dữ liệu Caltech cho thấy, sau nhiều vòng phản hồi, độ chính xác trung bình của phương pháp học bán giám sát trên đồ thị đạt khoảng 82%, cao hơn 12% so với các phương pháp học máy truyền thống. Thời gian thực hiện trung bình giảm từ 120 giây xuống còn khoảng 70 giây.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do mô hình học bán giám sát trên đồ thị tận dụng được mối quan hệ giữa các ảnh trong cơ sở dữ liệu, không chỉ dựa vào đặc trưng riêng lẻ mà còn khai thác cấu trúc toàn cục của dữ liệu. Thuật toán lan truyền nhãn và xếp hạng đa tạp cho phép truyền thông tin nhãn một cách hiệu quả, giảm thiểu sai số do dữ liệu chưa gán nhãn.

So với các nghiên cứu trước đây, kết quả này phù hợp với xu hướng ứng dụng học bán giám sát trong CBIR, đồng thời cải tiến thuật toán xếp hạng đa tạp giúp giảm chi phí tính toán, phù hợp với các bộ dữ liệu lớn. Việc sử dụng cây khung nhỏ nhất để xác định siêu tham số là một đóng góp quan trọng, giúp xây dựng đồ thị có cấu trúc tối ưu hơn.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh độ chính xác theo số vòng phản hồi, biểu đồ thời gian thực hiện giữa các thuật toán, và bảng so sánh độ chính xác trung bình trên các tập dữ liệu khác nhau, giúp minh họa rõ ràng hiệu quả của phương pháp.

Đề xuất và khuyến nghị

Triển khai thuật toán học bán giám sát trên đồ thị trong hệ thống CBIR: Đề xuất các tổ chức phát triển phần mềm tra cứu ảnh tích hợp thuật toán lan truyền nhãn và xếp hạng đa tạp cải tiến để nâng cao độ chính xác và tốc độ tra cứu, ưu tiên áp dụng trong các lĩnh vực y tế, an ninh và viễn thám. Thời gian thực hiện đề xuất trong vòng 6-12 tháng.
Tối ưu hóa siêu tham số α bằng phương pháp cây khung nhỏ nhất: Khuyến nghị các nhà nghiên cứu và kỹ sư dữ liệu áp dụng phương pháp này để xây dựng đồ thị có cấu trúc tối ưu, từ đó cải thiện hiệu quả học máy. Chủ thể thực hiện là nhóm nghiên cứu và phát triển sản phẩm, với timeline 3-6 tháng.
Phát triển giao diện phản hồi liên quan thân thiện với người dùng: Đề xuất thiết kế giao diện tương tác cho phép người dùng dễ dàng đánh dấu ảnh liên quan hoặc không liên quan, giảm số vòng phản hồi cần thiết, nâng cao trải nghiệm người dùng. Thời gian triển khai dự kiến 4-8 tháng.
Mở rộng nghiên cứu ứng dụng cho các bộ dữ liệu lớn và đa dạng: Khuyến nghị tiếp tục nghiên cứu và thử nghiệm trên các bộ dữ liệu ảnh đa dạng về chủ đề và kích thước, nhằm đánh giá tính khả thi và hiệu quả của phương pháp trong thực tế. Chủ thể thực hiện là các viện nghiên cứu và doanh nghiệp công nghệ, với timeline 12-18 tháng.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin: Đặc biệt những người quan tâm đến học máy, xử lý ảnh và hệ thống tra cứu ảnh, có thể áp dụng kiến thức và thuật toán trong luận văn để phát triển các đề tài nghiên cứu mới hoặc cải tiến hệ thống hiện có.
Chuyên gia phát triển phần mềm CBIR: Các kỹ sư phần mềm và nhà phát triển hệ thống tra cứu ảnh có thể sử dụng các thuật toán học bán giám sát trên đồ thị để nâng cao hiệu quả tra cứu, giảm thời gian phản hồi và tăng độ chính xác.
Doanh nghiệp và tổ chức sử dụng dữ liệu ảnh lớn: Các đơn vị trong lĩnh vực y tế, an ninh, viễn thám, quảng cáo và bảo tàng trực tuyến có thể áp dụng kết quả nghiên cứu để xây dựng hệ thống tra cứu ảnh thông minh, hỗ trợ công việc phân tích và ra quyết định.
Nhà quản lý và hoạch định chính sách công nghệ: Những người chịu trách nhiệm về phát triển hạ tầng công nghệ thông tin và dữ liệu có thể tham khảo luận văn để định hướng đầu tư, phát triển các dự án ứng dụng học máy và xử lý ảnh trong các lĩnh vực trọng điểm.

Câu hỏi thường gặp

Học bán giám sát trên đồ thị là gì và tại sao lại hiệu quả trong tra cứu ảnh?
Học bán giám sát trên đồ thị là phương pháp kết hợp dữ liệu đã gán nhãn và chưa gán nhãn, mô hình hóa dữ liệu dưới dạng đồ thị để truyền thông tin nhãn giữa các điểm dữ liệu. Phương pháp này hiệu quả vì tận dụng được cấu trúc dữ liệu và mối quan hệ giữa các ảnh, giúp cải thiện độ chính xác tra cứu mà không cần nhiều dữ liệu gán nhãn.
Thuật toán lan truyền nhãn hoạt động như thế nào trong hệ thống CBIR?
Thuật toán lan truyền nhãn truyền thông tin nhãn từ các ảnh đã gán nhãn sang các ảnh chưa gán nhãn dựa trên trọng số cạnh trong đồ thị biểu diễn sự tương tự giữa ảnh. Qua nhiều vòng lặp, nhãn được cập nhật liên tục cho đến khi hội tụ, giúp phân loại và xếp hạng ảnh chính xác hơn.
Phản hồi liên quan đóng vai trò gì trong quá trình tra cứu ảnh?
Phản hồi liên quan cho phép người dùng đánh dấu các ảnh liên quan hoặc không liên quan đến truy vấn, từ đó hệ thống học và điều chỉnh truy vấn hoặc trọng số tương tự để cải thiện kết quả tra cứu. Đây là một vòng lặp tương tác giúp thu hẹp khoảng cách ngữ nghĩa giữa đặc trưng mức thấp và khái niệm mức cao.
Làm thế nào để xác định siêu tham số α trong mô hình đồ thị?
Siêu tham số α điều khiển trọng số cạnh trong đồ thị, ảnh hưởng đến cấu trúc và hiệu quả học. Phương pháp xác định α dựa trên cây khung nhỏ nhất (Minimum Spanning Tree) được sử dụng để xây dựng đồ thị tối ưu, giúp cân bằng giữa độ chính xác và chi phí tính toán.
Thuật toán xếp hạng đa tạp cải tiến (EMR) có ưu điểm gì so với thuật toán truyền thống?
EMR giảm đáng kể độ phức tạp tính toán và thời gian thực hiện tra cứu so với thuật toán xếp hạng đa tạp truyền thống, đồng thời duy trì hoặc nâng cao độ chính xác. Điều này giúp ứng dụng hiệu quả trong các bộ dữ liệu lớn mà không làm giảm chất lượng kết quả.

Kết luận

Luận văn đã phát triển thành công mô hình học bán giám sát trên đồ thị ứng dụng trong tra cứu ảnh dựa trên nội dung với phản hồi liên quan, nâng cao độ chính xác và tốc độ tra cứu.
Thuật toán lan truyền nhãn và xếp hạng đa tạp cải tiến (EMR) là những đóng góp chính, giúp tận dụng hiệu quả dữ liệu chưa gán nhãn và giảm chi phí tính toán.
Phương pháp xác định siêu tham số α bằng cây khung nhỏ nhất giúp xây dựng đồ thị tối ưu, cải thiện chất lượng học máy.
Kết quả thực nghiệm trên các bộ dữ liệu COREL và Caltech cho thấy độ chính xác tra cứu tăng khoảng 15-20%, thời gian thực hiện giảm 30-40% so với các phương pháp truyền thống.
Đề xuất tiếp tục mở rộng nghiên cứu và ứng dụng trong các lĩnh vực thực tế, đồng thời phát triển giao diện phản hồi thân thiện để nâng cao trải nghiệm người dùng.

Các nhà nghiên cứu và phát triển phần mềm nên áp dụng và thử nghiệm mô hình này trong các hệ thống CBIR hiện có, đồng thời nghiên cứu mở rộng cho các bộ dữ liệu đa dạng hơn nhằm khai thác tối đa tiềm năng của học bán giám sát trên đồ thị.

Trích đoạn nội dung tài liệu

Chương 1: Khái quát về CBIR và học trên đồ thị Chương này trình bày tổng quan tra cứu ảnh dựa trên nội dung; tra cứu ảnh dựa trên nội dung với phản hồi liên quan; các phương pháp học máy và học trên đồ thị gồm có các mô hình Học có giám sát (Supervised learning), Học không giám sát (Unsupervised learning), Học bán giám sát (Semn- Supervised learning). Chương 2: Tra cứu ảnh dựa trên xếp hạng đa tạp Tập trung tìm hiểu phương pháp học bán giám sát trên đồ thị qua thuật toán lan truyền nhãn. Đồng thời tập trung nghiên cứu phương pháp tra cứu ảnh dựa trên xếp hạng đa tạp và cải tiến phương pháp này khi áp dụng vào tra cứu đữ liệu ảnh có số lượng lớn. Chương 3: Thực nghiệm Cài đặt thử nghiệm chương trình tra cứu ảnh dựa trên nội dung theo mô hình học bán giám sát trên đồ thị qua thuật toán xếp hạng đa tạp (MR) và thuật toán xếp hạng đa tạp cải tiến (EMR).

So sánh hiệu năng của hai thuật toán này. xi CHUONG 1: KHAI QUAT VE CBIR VA HOC TREN DO THI 1.1 Tra cứu ảnh dựa trên nội dung với phản hồi liên quan 1.1 Giới thiệu Hệ thống tra cứu ảnh dựa trên nội dung (Content Based Image Retrieval - CBIR) là một công cụ mạnh vì nó tra cứu ảnh trong cơ sở dữ liệu ảnh bằng việc sử dụng dấu hiệu trực quan. Các hệ thống tra cứu ảnh dựa trên nội dung trích rút các đặc trưng từ bản thân các ảnh và tính toán độ đo tương tự giữa ảnh truy vấn và các ảnh cơ sở dữ liệu đựa trên các đặc trưng này. Tra cứu ảnh dựa trên nội dung trở nên rất phổ biến do nhu cầu tra cứu ảnh trong các cơ sở dữ liệu lớn tăng nhanh.

Bởi vì tốc độ và độ chính xác là quan trọng, việc tiếp tục phát triển các hệ thống tra cứu ảnh đảm bảo độ chính xác và có tốc độ nhanh là cần thiết. Tra cứu ảnh dựa trên nội dung ứng dụng vào vào rất nhiều công việc hữu ích như: tìm các ảnh phong cảnh trên Internet, điều tra hình sự dựa vào vân tay và dấu chân, chuẩn đoán bệnh trong y tế, sử dụng trong các hệ thống thông tin địa lý và viễn thám, sử dụng cho tra cứu các phần video như phim và trò chơi, các ứng dụng khác bao gồm bảo tàng trực tuyến, quảng cáo. Những thành phân của một hệ thống tra cứu ảnh dựa trên nội dung: Một hệ thống tra cứu ảnh đòi hỏi các thành phần như trong Hình 1-1. Trong đó có ba thành phần quan trọng nhất trong tra cứu ảnh dựa trên nội dung: trích chọn đặc trưng, đánh chỉ số và giao diện truy vấn cho người dùng.

Các bước tra cứu ảnh trong CBIR thường bao gôm : -_ Tiếp nhận truy vấn của người dùng (dưới dạng ảnh hoặc phác thảo). -_ Trích chọn đặc trưng của truy vấn và lưu trữ vào cơ sở dữ liệu đặc trưng như là một vector hoặc không gian đặc trưng. - So sánh độ tương tự giữa các đặc trưng trong cơ sở dữ liệu với nhau từng đôi một. - Lap chi mục cho các vector đê nâng hiệu quả tra cứu.

~_ Trả lại kết quả tra cứu cho người dùng. Trích chọn đặc trưng Tính toán độ đo Hiển thị Ảnh truy vấ An muy ven Ảnh truy vấn tương tự kết quả Cơ sở Dữ liệu Cơ sở Dữ liệu đặc trưng Trích chọn đặc trưng lộ Hình 1-1: Kiến trúc tổng quan về hệ thống tra cứu ảnh dựa trên nội dụng 1.2 Kiến trúc tong quan của hệ thống CBIR với phản hồi liên quan 1.1 Khái niệm phản hồi liên quan Phản hồi liên quan là một kỹ thuật sửa đổi truy vấn, nó bắt nguồn trong thông tin tra cứu và qua đó sẽ tập hợp lại những đặc trưng tra cứu chính xác từ phía người dùng bằng việc lặp đi lặp lại việc phản hồi, sau đó hệ thống sẽ lọc ra thông tin chính xác. Phản hồi liên quan có thê được coi là một mô hình tìm kiếm thay thế, bổ sung cho những mô hình khác như tìm kiếm dựa trên từ khóa. Trong trường hợp không có một khuôn khổ đáng tin cậy để mô hình hóa ngữ nghĩa ảnh mức cao và nhận thức chủ quan thì phản hồi liên quan sẽ là một phương thức để tìm hiểu các trường hợp cụ thể của ngữ nghĩa truy vấn.

Để giải quyết những vấn đề này, tương tác phản hôi liên quan, một kỹ thuật trong hệ thống tìm kiếm thông tin dựa trên văn bản truyền thống, đã đươc giới thiệu. Với phản hồi liên quan, có thê thiết lập liên kết giữa các khái niệm mức cao và đặc trưng mức thấp. Ý tưởng chính là sử dụng các mẫu đương và mẫu âm từ người sử dụng để cải thiện hiệu suất hệ thống. Đối với một truy vấn nhất định, đầu tiên hệ thống sẽ trả về một danh sách các hình ảnh đươc xếp theo một độ tương tự xác định trước.

Sau đó, người dùng đánh dấu những hình ảnh có liên quan đến truy vấn (mẫu dương) hoặc không có liên quan (mẫu âm). Hệ thống sẽ chọn lọc kết quả tra cứu dựa trên những phản hồi và trình bày một danh sách mới của hình ảnh cho người dùng. Do đó, vấn đề quan trọng trong phản hồi liên quan là làm thế nào đề kết hợp các mẫu dương và mẫu âm đề tỉnh chỉnh các truy vấn và/hoặc điều chỉnh các biện pháp tương tự.2 Kiến trúc tống quan của hệ thống CBIR với RF Phản hỏi liên quan Miêu tả nội dung Các vector trực quan đặc trưng Cơ sở Dữ liệu Miêu tả nội dung Ảnh trực quan Người dùng Ảnh truy vấn So sánh độ đo tương tự Cơ sở Dữ liệu Đặc trưng Sắp xếp các ảnh theo độ đo tương tự Đầu ra Các kết quả tra cứu Hình 1-2: Mô hình tổng quát hệ thống CBIR với phản hôi liên quan Ý tưởng chính của phản hồi liên quan là chuyền trách nhiệm tìm kiếm xây dựng truy vấn đúng từ người dùng sang hệ thống. Đề thực hiện điều này một cách đúng đắn, người dùng phải cung cấp cho hệ thống một số thông tin, để hệ thống có thể thực hiện tốt việc trả lời truy vấn ban đầu.

Việc tìm kiếm ảnh thường dựa trên sự tương tự hơn là so sánh chính xác, kết quả tra cứu sẽ được đưa ra cho người dùng. Sau đó, người dùng đưa ra các thông tin phản hồi trong một bản mẫu “Các quyết định liên quan” thể hiện thông qua kết quả tra cứu. “Quyết định liên quan” đánh giá kết quả dựa trên ba giá trị. Ba giá trị đó là: liên quan, không liên quan, và không quan tâm.

“Liên quan” nghĩa là ảnh có liên quan đến truy vấn của người dùng. “Không liên quan” có nghĩa là ảnh không có liên quan đến truy vấn người dùng. Còn “không quan tâm” 3 nghĩa là người dùng không cho biết bất kỳ điều gì về ảnh. Nếu phản hồi của người đùng là có liên quan, thì vòng lặp phản hồi sẽ tiếp tục hoạt động cho đến khi người dùng hài lòng với kết quả tra cứu.

Như Hình 1-2 mô tả cấu trúc của hệ thống phản hồi liên quan. Trong hệ thống đó có các khối chính là: cơ sở dữ liệu ảnh, trích chọn đặc trưng, đo độ tương tự, phản hồi từ người dùng và thuật toán phản hồi.3 Trích chọn đặc trưng Trích chọn đặc trưng liên quan đến việc trích chọn các thông tin có ý nghĩa từ ảnh. Vì vậy, nó làm giảm việc lưu trữ cần thiết, do đó hệ thống sẽ trở nên nhanh hơn và hiệu qua trong CBIR. Khi đặc trưng duoc trích chọn, chúng sẽ được lưu trữ trong cơ sở đữ liệu để sử dụng trong lần truy vấn sau này.

Mức độ mà một máy tính có thể trích chọn thông tin có ích từ ảnh là van dé then chốt nhất cho sự tiến bộ của hệ thống diễn giải hình ảnh thông minh. Một trong những ưu điểm lớn nhất của trích chọn đặc trưng là nó làm giảm đáng kể các thông tin (so với ảnh gốc) đề biểu diễn một ảnh cho việc hiểu nội dung của ảnh đó. Hiện nay đã có rất nhiều nghiên cứu lớn về các phương pháp tiếp cận khác nhau để phát hiện nhiều loại đặc trưng trong ảnh. Những đặc trưng nảy có thé duoc phân loại như là đặc trưng toàn cục và đặc trưng cục bộ.

Các đặc trưng phổ biến nhất mà được sử dụng là màu sắc, kết cấu va hinh dang. -_ Đặc trưng toàn cục: Đặc trưng toàn cục phải được tính toán trên toàn bộ ảnh. Ví dụ, mức độ màu xám trung bình, biểu đồ về cường độ hình dạng,. Ưu điểm của việc trích chọn toàn cục là tốc độ nhanh chóng trong cả trích chọn đặc trưng và tính toán độ tương tự.

Tuy nhiên, chúng có thể quá nhạy cảm với vị trí và do đó không xác định đươc các đặc tính trực quan quan trọng. Đề tăng cường sự vững mạnh trong biến đổi không gian, chúng ta có thể tìm hiểu trích chọn đặc trưng cục bộ. - Đặc trưng cục bộ: Trong đặc trưng toản cục, các đặc trung duoc tính toán trên toàn bộ ảnh. Tuy nhiên, đặc trưng toàn cục không thê nắm bắt tất cả các vùng ảnh có đặc điểm khác nhau.

Do đó, việc trích chọn các đặc trưng cục bộcủa ảnh là cần thiết. Các đặc trưng đó có thé duoc tính toán trên các kết quả của phân đoạn anh và thuật toán phát hiện biên. Vì thế, tất cả chúng đều dựa trên một phần của ảnh với một số tính chất đặc biệt. -_ Điểm nồi bật: Trong việc tính toán đặc trưng cục bộ, việc trích chọn đặc trưng ảnh bị giới hạn trong một tập nhỏ các điểm ảnh, đó là những điểm chú ý.

Tập các điểm chú ý đươc gọi là những điểm nỗi bật. Những điểm nồi bật là những điểm có dao động lớn trong đặc trưng của vùng lân cận điểm ảnh. Nhiều hệ thống CBIR trích chọn những điểm nổi bật. Năm 2004, Rouhollah và các cộng sự đã định nghĩa điểm nổi bật có mặt trong tra cứu ảnh dựa trên nội dung như là một nhiệm vụ của CBIR, nơi mà người dùng chỉ quan tâm đến một phần của ảnh và phần còn lại là không liên quan.

Ví dụ, chúng ta có thể tham khảo một số đặc trưng cục bộ như là ảnh gốc, đường tròn, đường nét, texel (các phần tử tập trung ở một khu vực kết cấu), hoặc các đặc trưng cục bộ khác, hình dạng của đường nét.4 Độ đo tương tự Trong độ đo tương tự, vector đặc trưng của ảnh truy vấn và vector đặc trưng của ảnh trong cơ sở dữ liệu được đối sánh bằng cách sử dụng một thước đo khoảng cách. Các hình ảnh được xếp hạng dựa trên giá trị khoảng cách.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận Văn Học Bán Giám Sát Trên Đồ Thị Ứng Dụng Tra Cứu Ảnh Hiệu Quả là một nghiên cứu chuyên sâu về phương pháp học bán giám sát trên đồ thị, tập trung vào việc nâng cao hiệu quả tra cứu ảnh. Tài liệu này cung cấp cái nhìn chi tiết về cách thức xây dựng và tối ưu hóa các mô hình đồ thị để xử lý dữ liệu ảnh, đồng thời đề xuất các giải pháp giúp cải thiện độ chính xác và tốc độ tra cứu. Đây là nguồn tài liệu hữu ích cho những ai quan tâm đến lĩnh vực trí tuệ nhân tạo, xử lý ảnh và khai thác dữ liệu.

Để mở rộng kiến thức về các hệ thống quản lý và xử lý thông tin, bạn có thể tham khảo thêm Tiểu luận báo cáo cấu trúc dữ liệu và giải thuật đề tài đề 2214 xây dựng cấu trúc quản lý thông tin các khoa, nghiên cứu về cách xây dựng cấu trúc quản lý thông tin hiệu quả. Ngoài ra, Hcmute xây dựng hệ thống tìm kiếm văn bản dựa trên khái niệm cũng là một tài liệu đáng chú ý, giúp bạn hiểu rõ hơn về các hệ thống tìm kiếm thông minh. Cuối cùng, Luận văn thạc sĩ tìm hiểu phương pháp xây dựng và khai thác kho dữ liệu điểm dựa trên kỹ thuật olap 04 sẽ cung cấp thêm góc nhìn về khai thác dữ liệu hiệu quả.

#hệ thống thông tin

#xử lý ảnh

#thuật toán học máy

#học bán giám sát

#phân loại ảnh

#tra cứu ảnh

Chủ đề

Công nghệ học máy

Ứng dụng trong khoa học dữ liệu

Phát triển hệ thống thông tin

Xử lý và phân tích ảnh

Luận Văn Học Bán Giám Sát Trên Đồ Thị Với Ứng Dụng Tra Cứu Ảnh

LỜI CẢM ƠN

LỜI CAM ĐOAN

DANH MỤC CHỮ VIẾT TẮT

DANH MỤC HÌNH VẼ

DANH MỤC BẢNG BIỂU

MỞ ĐẦU

1. CHƯƠNG 1: KHÁI QUÁT VỀ CBIR VÀ HỌC TRÊN ĐỒ THỊ

1.1. Tra cứu ảnh dựa trên nội dung với phản hồi liên quan

1.2. Kiến trúc tổng quan của hệ thống CBIR với phản hồi liên quan

1.3. Các kỹ thuật phản hồi liên quan

1.3.1. Kỹ thuật dựa trên “học”

1.3.2. Phản hồi đặc điểm kỹ thuật tiến bộ

1.3.3. Phản hồi dựa trên định hướng người dùng

1.3.4. Phương pháp xác suất

2. CHƯƠNG 2: TRA CỨU ẢNH DỰA TRÊN XẾP HẠNG ĐA TẠP

2.1. Thuật toán lan truyền nhãn

2.2. Nội dung thuật toán

2.3. Sự hội tụ của thuật toán

2.4. Phương pháp xác định siêu tham số của đồ thị

2.5. Độ phức tạp của thuật toán

2.6. CBIR dựa trên Xếp hạng đa tạp

2.7. Học truyền dẫn trong CBIR

2.8. Học truyền dẫn với phản hồi liên quan

2.9. Kỹ thuật xếp hạng đa tạp cải tiến

2.10. Xây dựng đồ thị

2.11. Tính toán xếp hạng

2.12. Phân tích độ phức tạp

3. CHƯƠNG 3: THỰC NGHIỆM

3.1. Môi trường thực nghiệm

3.1.1. Cơ sở dữ liệu

3.1.2. Trích chọn đặc trưng

3.2. Mô tả chương trình thực nghiệm

3.2.1. Mở ảnh truy vấn

3.2.2. Tra cứu ảnh

3.2.3. Phản hồi liên quan

3.3. Đánh giá hiệu năng

3.3.1. Đánh giá qua độ chính xác với các ảnh trả về khác nhau

3.3.2. Đánh giá qua khảo sát trên tập dữ liệu khác

3.3.3. Đánh giá về thời gian thực hiện

TÀI LIỆU THAM KHẢO

I. Giới thiệu về Luận Văn Học Bán Giám Sát Trên Đồ Thị Ứng Dụng Tra Cứu Ảnh Hiệu Quả

1.1. Khái niệm học bán giám sát

1.2. Ứng dụng trong tra cứu ảnh

II. Phương pháp học bán giám sát trên đồ thị

2.1. Xây dựng đồ thị

2.2. Lan truyền nhãn

III. Thực nghiệm và đánh giá

3.1. Môi trường thực nghiệm

3.2. Đánh giá hiệu năng

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Trịnh Khắc Dũng

Người hướng dẫn: PGS. Ngô Quốc Tạo

Trường học: Trường Đại Học Dân Lập Hải Phòng

Chuyên ngành: Hệ Thống Thông Tin

Đề tài: Học Bán Giám Sát Trên Đồ Thị Ứng Dụng Tra Cứu Ảnh Hiệu Quả

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2016

Địa điểm: Hải Phòng

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm