I. Phân lớp hình ảnh và nhận dạng hình ảnh
Chương này trình bày tổng quan về Phân lớp hình ảnh và Nhận dạng hình ảnh, hai khái niệm then chốt trong lĩnh vực Xử lý ảnh bằng máy tính. Luận văn tập trung vào việc sử dụng Mạng nơ ron tích chập (CNN), một thành phần quan trọng của Học sâu (Deep Learning), để giải quyết bài toán này. Phân loại hình ảnh tự động là mục tiêu chính, đòi hỏi việc trích xuất đặc trưng hình ảnh hiệu quả. Các thuật toán phân lớp hình ảnh dựa trên CNN được xem xét kỹ lưỡng. Mạng nơ ron tích chập ứng dụng trong nhiều lĩnh vực, khẳng định vai trò của Học máy trong Phân tích hình ảnh. Luận văn đề cập đến các khía cạnh quan trọng như Mô hình CNN, Kiến trúc CNN, và Huấn luyện mô hình CNN. Việc đánh giá mô hình CNN cũng được nhấn mạnh thông qua các chỉ số như Accuracy, Precision, Recall, và F1-score. Tập dữ liệu hình ảnh đóng vai trò quyết định trong quá trình huấn luyện. Các vấn đề như Overfitting và Underfitting cũng được thảo luận. Các thư viện phổ biến như TensorFlow, PyTorch, và Keras được sử dụng trong quá trình triển khai.
1.1 Trích xuất đặc trưng hình ảnh
Phần này tập trung vào phương pháp trích xuất đặc trưng hình ảnh, một bước quan trọng trong Phân lớp ngữ nghĩa hình ảnh. Các đặc trưng hình ảnh được trích xuất từ ảnh đầu vào, sau đó được sử dụng để huấn luyện mô hình. Feature Extraction là quá trình chuyển đổi hình ảnh thô thành một dạng biểu diễn toán học, cho phép máy tính hiểu được nội dung hình ảnh. Các phương pháp trích xuất đặc trưng khác nhau sẽ dẫn đến hiệu quả phân loại khác nhau. Luận văn phân tích các phương pháp trích xuất đặc trưng hình ảnh phổ biến, đánh giá ưu nhược điểm của từng phương pháp. Object Detection và Semantic Image Segmentation là hai nhiệm vụ liên quan mật thiết đến trích xuất đặc trưng. Convolutional Neural Network được thiết kế để tự động học các đặc trưng từ dữ liệu, loại bỏ sự cần thiết phải thiết kế thủ công các đặc trưng. Việc chọn lựa phương pháp trích xuất đặc trưng phù hợp phụ thuộc vào loại hình ảnh và yêu cầu của bài toán. Computer Vision là lĩnh vực nghiên cứu rộng lớn chứa đựng nhiều kỹ thuật trích xuất đặc trưng tiên tiến. Image Recognition phụ thuộc rất nhiều vào chất lượng của quá trình trích xuất đặc trưng.
1.2 Thuật toán phân lớp hình ảnh
Phần này tập trung vào thuật toán phân lớp hình ảnh sử dụng Mạng nơ ron tích chập (CNN). Image Classification là một nhiệm vụ quan trọng trong lĩnh vực Xử lý ảnh bằng máy tính. Luận văn tập trung vào việc áp dụng Convolutional Neural Network để xây dựng mô hình phân loại. Các khái niệm quan trọng như tích chập, hàm kích hoạt, pooling, backpropagation, và gradient descent được giải thích rõ ràng. Regularization và Dropout là các kỹ thuật quan trọng giúp giảm hiện tượng overfitting. Deep Learning for Image Classification là một hướng tiếp cận hiện đại và hiệu quả. Các kỹ thuật Transfer Learning và Fine-tuning giúp cải thiện hiệu suất mô hình, đặc biệt khi dữ liệu huấn luyện có hạn. Việc lựa chọn kiến trúc CNN phù hợp là yếu tố then chốt ảnh hưởng đến hiệu quả phân loại. MATLAB, OpenCV, và các thư viện khác được sử dụng để triển khai thuật toán. Phân lớp ngữ nghĩa là một dạng phân lớp nâng cao, đòi hỏi sự hiểu biết sâu sắc về ngữ cảnh hình ảnh.
II. Kết hợp tìm kiếm theo ngữ nghĩa
Chương này trình bày phương pháp tìm kiếm theo ngữ nghĩa kết hợp với phân lớp hình ảnh dựa trên CNN. Phân lớp ngữ nghĩa hình ảnh được thực hiện bằng cách kết hợp thông tin ngữ nghĩa vào quá trình phân loại. Semantic Image Retrieval (SIR) là mục tiêu chính. Ontology được sử dụng để biểu diễn kiến thức về ngữ nghĩa hình ảnh. Phát triển Ontology giúp xây dựng một mô hình tri thức về các đối tượng trong ảnh. Ontology hình ảnh cho phép máy tính hiểu được mối quan hệ giữa các đối tượng và khái niệm trong ảnh. Xử lý tín hiệu hình ảnh đóng vai trò quan trọng trong việc tạo ra các đặc trưng cho phép tìm kiếm theo ngữ nghĩa. Phát triển Ontology cho phép mở rộng khả năng tìm kiếm và cải thiện độ chính xác. SPARQL có thể được sử dụng để truy vấn dữ liệu trong ontology. RDF là một ngôn ngữ mô tả nguồn dữ liệu được sử dụng trong ontology. Phân tích hình ảnh được kết hợp với công nghệ ngữ nghĩa để tăng cường khả năng tìm kiếm.
2.1 Xây dựng Ontology
Phần này tập trung vào việc xây dựng Ontology cho hệ thống tìm kiếm theo ngữ nghĩa. Ontology đóng vai trò quan trọng trong việc biểu diễn kiến thức về các đối tượng và khái niệm trong hình ảnh. Domain Ontology được xây dựng để mô tả các mối quan hệ giữa các chủ đề ảnh. Phát triển Ontology là quá trình xác định các khái niệm, thuộc tính và mối quan hệ giữa chúng. Các công cụ như Protégé có thể được sử dụng để xây dựng và quản lý ontology. OWL là một ngôn ngữ mô tả ontology phổ biến. Phân tích ngữ nghĩa đóng vai trò quan trọng trong việc xác định các khái niệm và mối quan hệ trong ontology. Xử lý ngôn ngữ tự nhiên có thể được sử dụng để tự động trích xuất thông tin ngữ nghĩa từ văn bản mô tả hình ảnh. Việc thiết kế ontology hợp lý giúp cải thiện hiệu quả tìm kiếm và khả năng mở rộng của hệ thống. Phân tích hình ảnh cung cấp dữ liệu đầu vào cho quá trình xây dựng ontology.
2.2 Thực nghiệm và đánh giá
Phần này trình bày quá trình thực nghiệm và đánh giá hệ thống tìm kiếm theo ngữ nghĩa. Tập dữ liệu thực nghiệm được sử dụng để huấn luyện và đánh giá mô hình. ImageNet là một bộ dữ liệu hình ảnh lớn thường được sử dụng trong các nghiên cứu về phân lớp hình ảnh. Môi trường và các công cụ được sử dụng trong quá trình thực nghiệm bao gồm các thư viện như TensorFlow, PyTorch, và Keras. Kết quả thực nghiệm được phân tích và đánh giá dựa trên các chỉ số như Accuracy, Precision, Recall, và F1-score. Confusion matrix giúp trực quan hóa kết quả phân loại. Ảnh hưởng của các tham số như batch size và dropout được phân tích. Vai trò của Dropout trong việc giảm hiện tượng overfitting được đánh giá. Việc đánh giá hiệu quả của hệ thống dựa trên khả năng tìm kiếm chính xác các hình ảnh theo yêu cầu của người dùng. Phân tích hình ảnh được sử dụng để đánh giá chất lượng của kết quả tìm kiếm.