Luận văn thạc sĩ về phân lớp ngữ nghĩa hình ảnh sử dụng mạng nơ ron tích chập

Tài liệu chuyên sâu Phân lớp ngữ nghĩa hình ảnh bằng mạng nơ ron tích chập, phân tích đa chiều, cung cấp kiến thức nền tảng vững chắc cho chuyên ngành

Trường đại học

Trường Đại Học Bà Rịa-Vũng Tàu

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2020

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN PHÂN TÍCH NGỮ NGHĨA HÌNH ẢNH

2. CHƯƠNG 2: TỔNG QUAN VỀ MẠNG NƠ-RON TÍCH CHẬP

3. CHƯƠNG 3: ĐỀ XUẤT MÔ HÌNH PHÂN LOẠI ẢNH VÀ KẾT HỢP TÌM KIẾM THEO NGỮ NGHĨA

4. CHƯƠNG 4: KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Phân lớp hình ảnh và nhận dạng hình ảnh

Chương này trình bày tổng quan về Phân lớp hình ảnh và Nhận dạng hình ảnh, hai khái niệm then chốt trong lĩnh vực Xử lý ảnh bằng máy tính. Luận văn tập trung vào việc sử dụng Mạng nơ ron tích chập (CNN), một thành phần quan trọng của Học sâu (Deep Learning), để giải quyết bài toán này. Phân loại hình ảnh tự động là mục tiêu chính, đòi hỏi việc trích xuất đặc trưng hình ảnh hiệu quả. Các thuật toán phân lớp hình ảnh dựa trên CNN được xem xét kỹ lưỡng. Mạng nơ ron tích chập ứng dụng trong nhiều lĩnh vực, khẳng định vai trò của Học máy trong Phân tích hình ảnh. Luận văn đề cập đến các khía cạnh quan trọng như Mô hình CNN, Kiến trúc CNN, và Huấn luyện mô hình CNN. Việc đánh giá mô hình CNN cũng được nhấn mạnh thông qua các chỉ số như Accuracy, Precision, Recall, và F1-score. Tập dữ liệu hình ảnh đóng vai trò quyết định trong quá trình huấn luyện. Các vấn đề như Overfitting và Underfitting cũng được thảo luận. Các thư viện phổ biến như TensorFlow, PyTorch, và Keras được sử dụng trong quá trình triển khai.

1.1 Trích xuất đặc trưng hình ảnh

Phần này tập trung vào phương pháp trích xuất đặc trưng hình ảnh, một bước quan trọng trong Phân lớp ngữ nghĩa hình ảnh. Các đặc trưng hình ảnh được trích xuất từ ảnh đầu vào, sau đó được sử dụng để huấn luyện mô hình. Feature Extraction là quá trình chuyển đổi hình ảnh thô thành một dạng biểu diễn toán học, cho phép máy tính hiểu được nội dung hình ảnh. Các phương pháp trích xuất đặc trưng khác nhau sẽ dẫn đến hiệu quả phân loại khác nhau. Luận văn phân tích các phương pháp trích xuất đặc trưng hình ảnh phổ biến, đánh giá ưu nhược điểm của từng phương pháp. Object Detection và Semantic Image Segmentation là hai nhiệm vụ liên quan mật thiết đến trích xuất đặc trưng. Convolutional Neural Network được thiết kế để tự động học các đặc trưng từ dữ liệu, loại bỏ sự cần thiết phải thiết kế thủ công các đặc trưng. Việc chọn lựa phương pháp trích xuất đặc trưng phù hợp phụ thuộc vào loại hình ảnh và yêu cầu của bài toán. Computer Vision là lĩnh vực nghiên cứu rộng lớn chứa đựng nhiều kỹ thuật trích xuất đặc trưng tiên tiến. Image Recognition phụ thuộc rất nhiều vào chất lượng của quá trình trích xuất đặc trưng.

1.2 Thuật toán phân lớp hình ảnh

Phần này tập trung vào thuật toán phân lớp hình ảnh sử dụng Mạng nơ ron tích chập (CNN). Image Classification là một nhiệm vụ quan trọng trong lĩnh vực Xử lý ảnh bằng máy tính. Luận văn tập trung vào việc áp dụng Convolutional Neural Network để xây dựng mô hình phân loại. Các khái niệm quan trọng như tích chập, hàm kích hoạt, pooling, backpropagation, và gradient descent được giải thích rõ ràng. Regularization và Dropout là các kỹ thuật quan trọng giúp giảm hiện tượng overfitting. Deep Learning for Image Classification là một hướng tiếp cận hiện đại và hiệu quả. Các kỹ thuật Transfer Learning và Fine-tuning giúp cải thiện hiệu suất mô hình, đặc biệt khi dữ liệu huấn luyện có hạn. Việc lựa chọn kiến trúc CNN phù hợp là yếu tố then chốt ảnh hưởng đến hiệu quả phân loại. MATLAB, OpenCV, và các thư viện khác được sử dụng để triển khai thuật toán. Phân lớp ngữ nghĩa là một dạng phân lớp nâng cao, đòi hỏi sự hiểu biết sâu sắc về ngữ cảnh hình ảnh.

II. Kết hợp tìm kiếm theo ngữ nghĩa

Chương này trình bày phương pháp tìm kiếm theo ngữ nghĩa kết hợp với phân lớp hình ảnh dựa trên CNN. Phân lớp ngữ nghĩa hình ảnh được thực hiện bằng cách kết hợp thông tin ngữ nghĩa vào quá trình phân loại. Semantic Image Retrieval (SIR) là mục tiêu chính. Ontology được sử dụng để biểu diễn kiến thức về ngữ nghĩa hình ảnh. Phát triển Ontology giúp xây dựng một mô hình tri thức về các đối tượng trong ảnh. Ontology hình ảnh cho phép máy tính hiểu được mối quan hệ giữa các đối tượng và khái niệm trong ảnh. Xử lý tín hiệu hình ảnh đóng vai trò quan trọng trong việc tạo ra các đặc trưng cho phép tìm kiếm theo ngữ nghĩa. Phát triển Ontology cho phép mở rộng khả năng tìm kiếm và cải thiện độ chính xác. SPARQL có thể được sử dụng để truy vấn dữ liệu trong ontology. RDF là một ngôn ngữ mô tả nguồn dữ liệu được sử dụng trong ontology. Phân tích hình ảnh được kết hợp với công nghệ ngữ nghĩa để tăng cường khả năng tìm kiếm.

2.1 Xây dựng Ontology

Phần này tập trung vào việc xây dựng Ontology cho hệ thống tìm kiếm theo ngữ nghĩa. Ontology đóng vai trò quan trọng trong việc biểu diễn kiến thức về các đối tượng và khái niệm trong hình ảnh. Domain Ontology được xây dựng để mô tả các mối quan hệ giữa các chủ đề ảnh. Phát triển Ontology là quá trình xác định các khái niệm, thuộc tính và mối quan hệ giữa chúng. Các công cụ như Protégé có thể được sử dụng để xây dựng và quản lý ontology. OWL là một ngôn ngữ mô tả ontology phổ biến. Phân tích ngữ nghĩa đóng vai trò quan trọng trong việc xác định các khái niệm và mối quan hệ trong ontology. Xử lý ngôn ngữ tự nhiên có thể được sử dụng để tự động trích xuất thông tin ngữ nghĩa từ văn bản mô tả hình ảnh. Việc thiết kế ontology hợp lý giúp cải thiện hiệu quả tìm kiếm và khả năng mở rộng của hệ thống. Phân tích hình ảnh cung cấp dữ liệu đầu vào cho quá trình xây dựng ontology.

2.2 Thực nghiệm và đánh giá

Phần này trình bày quá trình thực nghiệm và đánh giá hệ thống tìm kiếm theo ngữ nghĩa. Tập dữ liệu thực nghiệm được sử dụng để huấn luyện và đánh giá mô hình. ImageNet là một bộ dữ liệu hình ảnh lớn thường được sử dụng trong các nghiên cứu về phân lớp hình ảnh. Môi trường và các công cụ được sử dụng trong quá trình thực nghiệm bao gồm các thư viện như TensorFlow, PyTorch, và Keras. Kết quả thực nghiệm được phân tích và đánh giá dựa trên các chỉ số như Accuracy, Precision, Recall, và F1-score. Confusion matrix giúp trực quan hóa kết quả phân loại. Ảnh hưởng của các tham số như batch size và dropout được phân tích. Vai trò của Dropout trong việc giảm hiện tượng overfitting được đánh giá. Việc đánh giá hiệu quả của hệ thống dựa trên khả năng tìm kiếm chính xác các hình ảnh theo yêu cầu của người dùng. Phân tích hình ảnh được sử dụng để đánh giá chất lượng của kết quả tìm kiếm.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ ron tích chập

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh sự phát triển bùng nổ của dữ liệu đa phương tiện, đặc biệt là hình ảnh kỹ thuật số, việc quản lý và truy xuất thông tin hình ảnh trở thành một thách thức lớn. Theo báo cáo của ngành, mỗi ngày có khoảng 8.95 triệu ảnh và video được chia sẻ trên các nền tảng như Instagram, với mỗi người tạo ra ít nhất 1.000 ảnh mỗi năm, dẫn đến tổng số lượng hình ảnh kỹ thuật số lên đến hàng nghìn tỷ. Sự gia tăng này đòi hỏi các hệ thống tìm kiếm ảnh phải không chỉ nhanh mà còn chính xác và hiệu quả trong việc phân loại và truy xuất.

Luận văn tập trung nghiên cứu đề tài "Phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ-ron tích chập (CNN)" nhằm phát triển một mô hình học sâu kết hợp với kỹ thuật ontology để nâng cao độ chính xác trong phân loại và tìm kiếm hình ảnh theo ngữ nghĩa. Mục tiêu cụ thể là xây dựng hệ thống phân loại ảnh sử dụng CNN, đồng thời tích hợp domain ontology để mô tả các mối quan hệ ngữ nghĩa giữa các chủ đề ảnh, từ đó hỗ trợ truy xuất ảnh theo ngữ nghĩa chính xác hơn so với các phương pháp truyền thống dựa trên metadata hoặc nội dung ảnh.

Phạm vi nghiên cứu tập trung trên bộ dữ liệu hình ảnh thu thập từ ImageNet, một trong những bộ dữ liệu lớn và phổ biến nhất trong lĩnh vực thị giác máy tính, với thời gian nghiên cứu thực hiện trong năm 2020 tại Trường Đại học Bà Rịa - Vũng Tàu. Ý nghĩa của nghiên cứu không chỉ mang lại giá trị khoa học trong việc phát triển các phương pháp phân loại và truy xuất ảnh theo ngữ nghĩa mà còn có ứng dụng thực tiễn trong nhiều lĩnh vực như nông nghiệp thông minh, y tế, giao thông thông minh, góp phần thúc đẩy chuyển đổi số trong kỷ nguyên công nghiệp 4.0.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai nền tảng lý thuyết chính: mạng nơ-ron tích chập (Convolutional Neural Network - CNN) và ontology trong web ngữ nghĩa.

Mạng nơ-ron tích chập (CNN): CNN là mô hình học sâu được thiết kế đặc biệt để xử lý dữ liệu dạng lưới như hình ảnh. Kiến trúc CNN bao gồm các lớp tích chập để trích xuất đặc trưng không gian, hàm kích hoạt phi tuyến ReLU để tăng tính phi tuyến, lớp lấy mẫu (pooling) để giảm kích thước dữ liệu và lớp kết nối đầy đủ (fully connected) để phân loại. CNN tận dụng khả năng học đặc trưng tự động từ dữ liệu đầu vào, giúp nâng cao độ chính xác phân loại so với các phương pháp truyền thống. Các kiến trúc CNN phổ biến được nghiên cứu bao gồm LeNet-5, AlexNet, VGG-16 và Inception, trong đó AlexNet và VGG-16 được sử dụng làm cơ sở cho mô hình đề xuất.
Ontology và Web ngữ nghĩa: Ontology là tập hợp các khái niệm, thuật ngữ và mối quan hệ trong một lĩnh vực cụ thể, giúp máy tính hiểu và xử lý thông tin theo ngữ nghĩa. Trong tìm kiếm ảnh theo ngữ nghĩa, ontology được sử dụng để mô tả các mối quan hệ giữa các chủ đề ảnh, hỗ trợ truy vấn chính xác và mở rộng kết quả tìm kiếm. Các ngôn ngữ xây dựng ontology phổ biến gồm RDF, OWL và SPARQL, trong đó SPARQL được dùng để truy vấn dữ liệu ngữ nghĩa.

Ba khái niệm chính được áp dụng trong luận văn là: trích xuất đặc trưng hình ảnh (feature extraction), phân lớp ảnh dựa trên CNN, và truy xuất ảnh theo ngữ nghĩa dựa trên domain ontology.

Phương pháp nghiên cứu

Luận văn sử dụng phương pháp nghiên cứu thực nghiệm kết hợp phân tích lý thuyết và xây dựng mô hình.

Nguồn dữ liệu: Bộ dữ liệu hình ảnh ImageNet được sử dụng làm tập dữ liệu chính, với hàng nghìn ảnh thuộc nhiều chủ đề khác nhau, đảm bảo tính đa dạng và độ phức tạp cao cho việc huấn luyện và đánh giá mô hình.
Phương pháp phân tích: Mô hình CNN được xây dựng và huấn luyện để phân loại ảnh dựa trên đặc trưng trích xuất tự động. Kỹ thuật dropout được áp dụng để tránh hiện tượng overfitting, cùng với việc điều chỉnh batch size nhằm tối ưu hiệu suất huấn luyện. Song song đó, domain ontology được phát triển để mô tả các mối quan hệ ngữ nghĩa giữa các chủ đề ảnh, hỗ trợ truy vấn ảnh theo ngữ nghĩa bằng ngôn ngữ SPARQL.
Timeline nghiên cứu: Quá trình nghiên cứu được thực hiện trong năm 2020, bao gồm các giai đoạn: tổng quan tài liệu và xây dựng khung lý thuyết (3 tháng), phát triển mô hình CNN và ontology (4 tháng), huấn luyện và thử nghiệm mô hình (3 tháng), phân tích kết quả và hoàn thiện luận văn (2 tháng).
Cỡ mẫu và chọn mẫu: Bộ dữ liệu ImageNet với hàng nghìn ảnh được chọn làm mẫu đại diện cho các chủ đề ảnh phổ biến. Phương pháp chọn mẫu ngẫu nhiên được áp dụng để đảm bảo tính đại diện và đa dạng của dữ liệu huấn luyện và kiểm thử.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân loại ảnh bằng CNN: Mô hình CNN đề xuất đạt độ chính xác phân loại trung bình trên 85% trên bộ dữ liệu thử nghiệm, cao hơn khoảng 15% so với các phương pháp truyền thống dựa trên đặc trưng thủ công như HOG hay SIFT. Việc sử dụng kiến trúc AlexNet và VGG-16 giúp cải thiện đáng kể khả năng trích xuất đặc trưng và phân loại.
Ảnh hưởng của dropout: Thử nghiệm với các tỷ lệ dropout khác nhau cho thấy tỷ lệ dropout 0.5 giúp giảm tỷ lệ lỗi xuống còn khoảng 12%, so với tỷ lệ lỗi trên 20% khi không sử dụng dropout. Điều này chứng tỏ kỹ thuật dropout hiệu quả trong việc giảm overfitting và tăng khả năng tổng quát của mô hình.
Tác động của batch size: Khi thay đổi batch size từ 16 lên 64, thời gian huấn luyện giảm khoảng 30%, trong khi độ chính xác phân loại không giảm đáng kể, duy trì ở mức trên 83%. Điều này cho thấy việc lựa chọn batch size phù hợp giúp tối ưu hiệu suất huấn luyện mà không ảnh hưởng đến chất lượng mô hình.
Tăng cường truy xuất ảnh theo ngữ nghĩa: Việc kết hợp domain ontology với mô hình phân loại CNN giúp nâng cao độ chính xác truy vấn ảnh theo ngữ nghĩa lên khoảng 90%, so với chỉ khoảng 70% khi sử dụng phương pháp tìm kiếm dựa trên metadata hoặc nội dung ảnh truyền thống. Ontology cho phép mở rộng và đa dạng hóa kết quả tìm kiếm, giảm thiểu các kết quả không liên quan.

Thảo luận kết quả

Kết quả phân loại ảnh cho thấy CNN là công cụ mạnh mẽ trong việc trích xuất đặc trưng và phân loại ảnh với độ chính xác cao, phù hợp với các bộ dữ liệu lớn và phức tạp như ImageNet. Việc áp dụng kỹ thuật dropout và điều chỉnh batch size giúp mô hình tránh hiện tượng quá khớp và tăng tốc độ huấn luyện, phù hợp với yêu cầu thực tiễn về thời gian và tài nguyên tính toán.

So sánh với các nghiên cứu trước đây, kết quả này tương đồng với xu hướng ứng dụng CNN trong thị giác máy tính, đồng thời bổ sung thêm giá trị khi tích hợp ontology để nâng cao khả năng truy xuất ảnh theo ngữ nghĩa. Điều này khẳng định tính khả thi và hiệu quả của việc kết hợp học sâu và web ngữ nghĩa trong xử lý ảnh.

Dữ liệu có thể được trình bày qua các biểu đồ như biểu đồ độ chính xác phân loại theo từng kiến trúc CNN, biểu đồ tỷ lệ lỗi theo tỷ lệ dropout, biểu đồ thời gian huấn luyện theo batch size, và biểu đồ so sánh độ chính xác truy xuất ảnh giữa các phương pháp khác nhau. Bảng confusion matrix cũng được sử dụng để đánh giá chi tiết hiệu suất phân loại theo từng chủ đề ảnh.

Đề xuất và khuyến nghị

Triển khai mô hình CNN tích hợp ontology trong các hệ thống tìm kiếm ảnh: Đề xuất các tổ chức phát triển hệ thống đa phương tiện áp dụng mô hình phân loại ảnh CNN kết hợp domain ontology để nâng cao độ chính xác và hiệu quả truy xuất ảnh theo ngữ nghĩa. Thời gian triển khai dự kiến trong vòng 6-12 tháng.
Tối ưu hóa kỹ thuật huấn luyện mạng: Khuyến nghị sử dụng kỹ thuật dropout với tỷ lệ khoảng 0.5 và điều chỉnh batch size phù hợp (khoảng 32-64) để cân bằng giữa tốc độ huấn luyện và độ chính xác mô hình. Chủ thể thực hiện là các nhóm nghiên cứu và phát triển AI trong doanh nghiệp hoặc viện nghiên cứu.
Phát triển và mở rộng domain ontology: Đề xuất xây dựng và cập nhật liên tục ontology cho các lĩnh vực chuyên biệt như nông nghiệp, y tế, giao thông để tăng khả năng mở rộng và đa dạng hóa kết quả tìm kiếm. Thời gian thực hiện liên tục theo chu kỳ 6 tháng một lần, do các chuyên gia ngữ nghĩa và lĩnh vực đảm nhiệm.
Đào tạo và nâng cao năng lực cho đội ngũ phát triển: Khuyến nghị tổ chức các khóa đào tạo về học sâu, mạng nơ-ron tích chập và web ngữ nghĩa cho các kỹ sư, nhà phát triển phần mềm nhằm nâng cao năng lực triển khai và vận hành hệ thống. Chủ thể thực hiện là các trường đại học, trung tâm đào tạo công nghệ thông tin.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin: Luận văn cung cấp kiến thức chuyên sâu về mạng nơ-ron tích chập và ứng dụng ontology trong xử lý ảnh, hỗ trợ nghiên cứu và phát triển các đề tài liên quan đến học sâu và web ngữ nghĩa.
Chuyên gia phát triển hệ thống đa phương tiện: Các kỹ sư và nhà phát triển hệ thống tìm kiếm ảnh, quản lý dữ liệu đa phương tiện có thể áp dụng mô hình và phương pháp đề xuất để nâng cao hiệu quả truy xuất và phân loại ảnh.
Doanh nghiệp trong lĩnh vực nông nghiệp, y tế, giao thông: Các tổ chức này có thể ứng dụng hệ thống truy xuất ảnh theo ngữ nghĩa để cải thiện các ứng dụng nhận dạng, phân loại sản phẩm, chẩn đoán hình ảnh y tế hoặc giám sát giao thông thông minh.
Nhà quản lý và hoạch định chính sách công nghệ: Luận văn cung cấp cơ sở khoa học và thực tiễn để hỗ trợ các quyết định đầu tư, phát triển công nghệ AI và chuyển đổi số trong các lĩnh vực kinh tế xã hội, đặc biệt trong bối cảnh cách mạng công nghiệp 4.0.

Câu hỏi thường gặp

Mạng nơ-ron tích chập (CNN) là gì và tại sao nó phù hợp cho phân loại hình ảnh?
CNN là mô hình học sâu chuyên biệt cho dữ liệu dạng lưới như hình ảnh, sử dụng các lớp tích chập để tự động trích xuất đặc trưng không gian. Nó phù hợp vì khả năng học đặc trưng đa cấp độ, từ cạnh đơn giản đến các đặc trưng phức tạp, giúp phân loại ảnh chính xác hơn các phương pháp truyền thống.
Ontology đóng vai trò gì trong tìm kiếm ảnh theo ngữ nghĩa?
Ontology mô tả các khái niệm và mối quan hệ trong lĩnh vực cụ thể, giúp máy tính hiểu và xử lý thông tin theo ngữ nghĩa. Trong tìm kiếm ảnh, ontology hỗ trợ mở rộng và chính xác hóa kết quả truy vấn bằng cách liên kết các chủ đề ảnh theo mối quan hệ ngữ nghĩa.
Tại sao cần kết hợp CNN với ontology trong hệ thống truy xuất ảnh?
CNN giúp phân loại và trích xuất đặc trưng ảnh hiệu quả, còn ontology cung cấp cấu trúc ngữ nghĩa để truy vấn và mở rộng kết quả tìm kiếm. Sự kết hợp này giúp hệ thống vừa có khả năng nhận dạng chính xác vừa hiểu được ngữ cảnh, nâng cao hiệu quả truy xuất.
Kỹ thuật dropout có tác dụng gì trong huấn luyện mạng CNN?
Dropout ngẫu nhiên loại bỏ một số nơ-ron trong quá trình huấn luyện để tránh hiện tượng overfitting, giúp mô hình tổng quát tốt hơn trên dữ liệu mới và tăng tốc độ huấn luyện.
Làm thế nào để đánh giá hiệu quả của mô hình phân loại và truy xuất ảnh?
Hiệu quả được đánh giá qua các chỉ số như độ chính xác phân loại, tỷ lệ lỗi, precision, recall, và F1-score. Ngoài ra, confusion matrix và biểu đồ precision-recall giúp phân tích chi tiết hiệu suất theo từng lớp hoặc chủ đề ảnh.

Kết luận

Mạng nơ-ron tích chập (CNN) là công cụ hiệu quả trong phân loại hình ảnh với độ chính xác trên 85% trên bộ dữ liệu ImageNet.
Kỹ thuật dropout và điều chỉnh batch size giúp tối ưu quá trình huấn luyện, giảm overfitting và tăng tốc độ xử lý.
Việc tích hợp domain ontology nâng cao đáng kể độ chính xác và tính mở rộng trong truy xuất ảnh theo ngữ nghĩa, đạt khoảng 90% độ chính xác truy vấn.
Mô hình đề xuất có tiềm năng ứng dụng rộng rãi trong nhiều lĩnh vực như nông nghiệp thông minh, y tế, giao thông thông minh, góp phần thúc đẩy chuyển đổi số trong kỷ nguyên công nghiệp 4.0.
Các bước tiếp theo bao gồm mở rộng ontology cho các lĩnh vực chuyên biệt, tối ưu mô hình CNN cho các bộ dữ liệu lớn hơn và triển khai thử nghiệm thực tế trong các hệ thống đa phương tiện.

Quý độc giả và các nhà nghiên cứu được khuyến khích áp dụng và phát triển tiếp các kết quả nghiên cứu này nhằm nâng cao hiệu quả quản lý và truy xuất dữ liệu hình ảnh trong thực tiễn.

Trích đoạn nội dung tài liệu

CHƯƠNG 1 TỔNG QUAN PHÂN TÍCH NGỮ NGHĨA HÌNH ẢNH Trong những năm gần đây, dữ liệu hình ảnh đã gia tăng một cách nhanh chóng cả về dung lượng lẫn về thể loại. Các dữ liệu hình ảnh đều phục vụ cho nhiều lĩnh vực quan trọng trong cuộc sống như trong các hệ thống giao thông, an ninh, y tế,. Vì thế việc phân tích một lượng lớn dữ liệu ảnh để nhận dạng, phân loại và tìm kiếm đóng vai trò hết sức quan trọng trong các hệ thống đa phương tiện. Các nhà khoa học trong thập kỷ qua đã đề xuất rất nhiều phương pháp tiếp cận hiệu quả cho tìm kiếm hình ảnh đang có xu hướng trở nên phổ biến.

Với nguồn tài nguyên ảnh vô cùng to lớn trên mạng internet, thì việc tìm kiếm chính xác một bức ảnh đúng với yêu cầu của người dùng đối với thế hệ Web 2.0 đang gặp nhiều khó khăn. Chúng ta khó có thể tìm kiếm một bức ảnh theo cách thông thường, có nghĩa là việc tìm kiếm được thực hiện lần lượt trên từng tấm ảnh cho đến khi tìm thấy đúng ảnh có nội dung cần tìm. Hơn nữa, theo sự phát triển của công nghệ số, nguồn tài nguyên ảnh trên mạng internet ngày càng nhiều. Do đó, nhu cầu thật sự đòi hỏi chúng ta phải có một công cụ hỗ trợ cho việc tìm kiếm ảnh chính xác là hết sức thiết thực trong thời đại cách mạng công nghiệp 4.

Vì vậy, sự ra đời của Web ngữ nghĩa [6] đã mở ra một bước tiến của công nghệ Web. Web ngữ nghĩa (Web 3.0) là bước tiến lớn so với kỹ thuật của Web 2.0 về khả năng làm việc với thông tin thay vì chỉ đơn thuần là lưu trữ, cùng với xử lý ngôn ngữ tự nhiên, trí thông minh nhân tạo,… đã giúp cho web ngữ nghĩa có cấu trúc hoàn chỉnh và mang ngữ nghĩa mà máy tính có thể “hiểu” được. Những thông tin này, có thể được sử dụng lại mà không cần qua các bước tiền xử lý. Khi sử dụng các máy tìm kiếm thông thường (Google, Yahoo…), tìm kiếm thông tin trên Web ngữ nghĩa sẽ không tận dụng được những ưu điểm vượt trội của Web ngữ nghĩa, kết quả trả về không có sự thay đổi.

Nói theo một cách khác thì với các máy tìm kiếm hiện tại Web ngữ nghĩa hay Web thông thường chỉ là một. 5 Luan van Do vậy, cần thiết có một hệ thống tìm kiếm ngữ nghĩa (Semantic Search) tìm kiếm trên Web ngữ nghĩa hay trên một mạng tri thức mang ngữ nghĩa, kết quả trả về là các thông tin có cấu trúc hoàn chỉnh mà máy tính có thể “hiểu” được, nhờ đó việc sử dụng hay xử lý thông tin trở nên dễ dàng hơn. Quá trình truy xuất và hiển thị hình ảnh có liên quan dựa trên các truy vấn của người dùng từ web hoặc cơ sở dữ liệu hình ảnh. Nói chung các phương pháp truy xuất hình ảnh được phân thành ba loại kỹ thuật chính bao gồm tìm kiếm dựa trên đặc trưng văn bản đi kèm ảnh, dựa trên đặc trưng nội dung ảnh và tìm kiếm ảnh theo ngữ nghĩa với vai trò của ontology trong việc sử dụng bản thể học miền (domain ontology) cụ thể để truy xuất hình ảnh có liên quan đến truy vấn của người dùng.

Ontology được coi là trọng tâm của web ngữ nghĩa và sẽ là kỹ thuật chính trong tìm kiếm ảnh theo tiếp cận ngữ nghĩa. Đặc trưng văn bản đi kèm ảnh Mỗi ảnh trên web thường có các văn bản đi kèm như là tên ảnh (title), các thẻ (tags), bình luận (comment),…để mô tả các thông tin về ảnh, đây là các dữ liệu mô tả về ảnh (metadata). Các dữ liệu này thường do người dùng tạo ảnh gắn cho mỗi ảnh, vì vậy chúng đều mang một ý nghĩa nhất định. Độ quan trọng của các loại siêu dữ liệu khác nhau cũng khác nhau.

Ví dụ, các thẻ thường quan trọng hơn tên ảnh, tên ảnh quan trọng hơn bình luận. Dưới đây là một ví dụ về văn bản đi kèm một ảnh: • Title: “Red_Rose Flower” • Tags: “redRoseflower, hongkongflowershow, 2009, bokeh, ausewaybay, hongkong, jonnoj, jonbinalay, nikond80, interestingness50” • Description: “HEAVEN SCENT".FOR THE LOVE OF THE RED ROSE. • Content: 6 Luan van Hình 1.1: Ví dụ hiển thị một ảnh Vì văn bản đi kèm ảnh mang ngữ nghĩa về nội ảnh cho nên hai bức ảnh có nội dung giống nhau thường có tên giống nhau và các thẻ tương tự nhau. Vì vậy, các công cụ tìm kiếm ảnh theo văn bản đi kèm thường tập trung khai thác nội dung của các văn bản này để tìm kiếm và xếp hạng ảnh.

Phương pháp này cho kết quả khả quan cũng như đáp ứng nhanh nhu cầu của người sử dụng. Tuy nhiên, với các câu truy vấn mang ý nghĩa nhập nhằng có thể các kết quả trả về sẽ không đúng với yêu cầu đặt ra. Ví dụ khi truy vấn là “d-80”, một máy ảnh phổ biến của Nikon, thì các hệ thống trả về kết quả khá tốt như Hình 1.2 kết quả với truy vấn máy ảnh Nikon “d-80”.2: Ví dụ truy vấn “d-80” của Google 7 Luan van Tuy nhiên, với truy vấn “apple’, nếu người dùng muốn tìm quả táo thì kết quả trả về đầu tiên không thỏa mãn (logo của hãng Apple) như Hình 1.3 kết quả với truy vấn “Apple”.3: Ví dụ truy vấn “Apple” của Google Mặt khác, các albumn cá nhân thường không có các thẻ hoặc văn bản đi kèm ảnh. Cùng với số lượng ảnh số được chụp thêm mỗi ngày, việc gán thủ công các thẻ cho ảnh rất tốn kém.

Một hướng nghiên cứu nhằm khắc phục vấn đề trên là tìm kiếm theo chính các đặc trưng trích xuất từ nội dung của ảnh. Đặc trưng nội dung ảnh Các đặc trưng phổ biến nhất được sử dụng là màu sắc, kết cấu và hình dạng. Tìm kiếm ảnh theo nội dung (CBIR) hay truy vấn theo nội dung ảnh (QBIC) là một ứng dụng của thị giác máy tính đối với bài toán tìm kiếm ảnh. Dựa vào nội dung ảnh việc tìm kiếm sẽ phân tích nội dung thực sự của các bức ảnh.

Nội dung ảnh ở đây được thể hiện bằng màu sắc, hình dạng, kết cấu (texture), các đặc trưng cục bộ (local features),… hay bất cứ thông tin nào có từ chính nội dung ảnh với một số đặc trưng [7]: - Đặc trưng màu sắc: Màu sắc là một đặc trưng nổi bật và được sử dụng phổ biến nhất trong tìm kiếm ảnh theo nội dung. Đây là phương pháp đơn giản, tốc độ tìm kiếm 8 Luan van tương đối nhanh tuy nhiên kết quả tìm kiếm có độ chính xác không cao. Mỗi một điểm ảnh (thông tin màu sắc) có thể được biểu diễn như một điểm trong không gian màu sắc ba chiều. Trong đó, lược đồ màu RGB được sử dụng phổ biến nhất.

Tìm kiếm ảnh theo màu sắc tiến hành tính toán biểu đồ màu cho mỗi ảnh để xác định tỉ trọng các điểm ảnh của ảnh mà chứa các giá trị đặc biệt (màu sắc). Các nghiên cứu gần đây đang cố gắng phân vùng ảnh theo các màu sắc khác nhau và tìm mối quan hệ giữa các vùng này. - Đặc trưng kết cấu: Hiện tại, vẫn chưa có một khái niệm chính thức cụ thể về kết cấu. Kết cấu là một đối tượng dùng để phân hoạch ảnh ra thành những vùng quan tâm để phân lớp những vùng đó.

Kết cấu cung cấp thông tin về sự sắp xếp về mặt không gian của màu sắc và cường độ một ảnh. Kết cấu được đặc trưng bởi sự phân bổ không gian của những mức cường độ trong một khu vực láng giềng với nhau. Kết cấu gồm các kết cấu gốc hay nhiều kết cấu gộp lại đôi khi còn gọi là texel.4: Ví dụ về một số lọai kết cấu Kết cấu được biểu diễn bởi các texel mà sau đó được đặt vào một số các tập phụ thuộc vào số kết cấu được phát hiện trong ảnh. Các tập này không chỉ xác định các kết cấu mà còn chỉ rõ vị trí các kết cấu trong ảnh.

Việc xác định các kết cấu đặc biệt trong ảnh đạt được chủ yếu bằng cách mô hình các kết cấu như những biến thể cấp độ xám 2 chiều. Ví dụ về một số loại kết cấu như Hình 1. 9 Luan van - Đặc trưng hình dạng: Hình dạng của một ảnh hay một vùng là một đặc trưng quan trọng trong việc xác định và phân biệt ảnh trong nhận dạng mẫu. Mục tiêu chính của biểu diễn hình dạng trong nhận dạng mẫu là đo thuộc tính hình học của một đối tượng được dùng trong phân lớp, so sánh và nhận dạng đối tượng.

Màu sắc và kết cấu là những thuộc tính có khái niệm toàn cục trong một ảnh. Trong khi đó, hình dạng không phải là một thuộc tính của ảnh. Nói tới hình dạng không phải là nhắc đến hình dạng của một ảnh. Thay vì vậy, hình dạng có khuynh hướng chỉ đến một khu vực đặc biệt trong ảnh, hay hình dạng chỉ là biên của một đối tượng nào đó trong ảnh.

Trong tìm kiếm ảnh theo nội dung, hình dạng là một cấp cao hơn so với màu sắc và kết cấu. Nó đòi hỏi sự phân biệt giữa các vùng để tiến hành xử lý về độ đo của hình dạng. Các hệ thống tìm kiếm ảnh theo nội dung thường khai thác hai nhóm biểu diễn hình dạng sau: + Biểu diễn hình dạng theo đường biên: Biểu diễn các đường biên bao bên ngoài + Biểu diễn theo vùng: Biểu diễn một vùng toàn vẹn. Tìm kiếm ảnh theo mẫu (example-based image search) Tìm kiếm ảnh theo mẫu là một dạng của tìm kiếm ảnh dựa vào nội dung.

Trong hệ thống đó, đầu vào là một ảnh, hệ thống tìm kiếm và trả lại cho người dùng những ảnh tương đồng với ảnh mẫu. Hướng tiếp cận theo ngữ nghĩa hình ảnh Trong phần trên đã đề cập đến 2 kỹ thuật đặc trưng là đặc trưng văn bản đi kèm ảnh và đặc trưng nội dung ảnh cho nục đích tìm kiếm hình ảnh dựa trên văn bản và dựa trên nội dung. - Trong tìm kiếm dựa trên văn bản đi kèm với ảnh, các hình ảnh được tìm kiếm thông qua việc kết hợp các truy vấn của người dùng và chú thích từ khoá. Mô tả về hình ảnh thường do người dùng cung cấp.

Hệ thống tìm kiếm dựa trên từ khoá khớp với tìm 10 Luan van kiếm văn bản của người dùng để mô tả văn bản của hình ảnh và trả lại tất cả các hình ảnh có mô tả phù hợp. Tuy nhiên, phương pháp tìm kiếm ảnh dựa trên văn bản hoặc các mô tả (meta-data) kèm theo ảnh sẽ không chính xác khi các mô tả này bị sai sót hoặc không tồn tại, có thể các kết quả trả lại có chứa hình ảnh không liên quan.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Luận văn thạc sĩ về phân lớp ngữ nghĩa hình ảnh sử dụng mạng nơ ron tích chập" của tác giả Trương Hữu Chiến, dưới sự hướng dẫn của TS. Văn Thế Thành tại Trường Đại Học Bà Rịa-Vũng Tàu, tập trung vào việc áp dụng mạng nơ ron tích chập để phân lớp ngữ nghĩa hình ảnh. Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về công nghệ học máy mà còn mở ra hướng đi mới trong việc xử lý và phân tích hình ảnh, từ đó giúp cải thiện độ chính xác trong các ứng dụng nhận diện hình ảnh.

Để mở rộng thêm kiến thức về các ứng dụng công nghệ thông tin và học máy, bạn có thể tham khảo bài viết "Luận Văn Thạc Sĩ: Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói", nơi nghiên cứu về việc áp dụng Active Learning trong lĩnh vực nhận diện giọng nói, hay bài viết "Luận văn thạc sĩ: Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ", nghiên cứu về nhận diện giọng nói tiếng Việt thông qua các mô hình học sâu. Cả hai bài viết này đều liên quan đến việc ứng dụng công nghệ học máy trong các lĩnh vực khác nhau, giúp bạn có cái nhìn tổng quát hơn về xu hướng phát triển công nghệ hiện nay.

#Luận văn Thạc sĩ

#mạng nơ ron

#thị giác máy tính

#phân tích hình ảnh

#nhận diện hình ảnh

#mạng nơ ron tích chập

Chủ đề

Nghiên cứu và phát triển trong lĩnh vực AI

Công nghệ học máy

Phân tích và xử lý hình ảnh

Ứng dụng của mạng nơ ron trong thị giác máy tính

Luận văn thạc sĩ về phân lớp ngữ nghĩa hình ảnh sử dụng mạng nơ ron tích chập

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN PHÂN TÍCH NGỮ NGHĨA HÌNH ẢNH

2. CHƯƠNG 2: TỔNG QUAN VỀ MẠNG NƠ-RON TÍCH CHẬP

3. CHƯƠNG 3: ĐỀ XUẤT MÔ HÌNH PHÂN LOẠI ẢNH VÀ KẾT HỢP TÌM KIẾM THEO NGỮ NGHĨA

4. CHƯƠNG 4: KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ

TÀI LIỆU THAM KHẢO

I. Phân lớp hình ảnh và nhận dạng hình ảnh

1.1 Trích xuất đặc trưng hình ảnh

1.2 Thuật toán phân lớp hình ảnh

II. Kết hợp tìm kiếm theo ngữ nghĩa

2.1 Xây dựng Ontology

2.2 Thực nghiệm và đánh giá

THÔNG TIN CHI TIẾT

Tác giả: Trương Hữu Chiến

Người hướng dẫn: TS. Văn Thế Thành

Trường học: Trường Đại Học Bà Rịa-Vũng Tàu

Chuyên ngành: Công Nghệ Thông Tin

Đề tài: Phân Lớp Ngữ Nghĩa Hình Ảnh Dựa Trên Mạng Nơ-Ron Tích Chập

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2020

Địa điểm: Bà Rịa Vũng Tàu

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Luận văn thạc sĩ về phân lớp ngữ nghĩa hình ảnh sử dụng mạng nơ ron tích chập

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN PHÂN TÍCH NGỮ NGHĨA HÌNH ẢNH

2. CHƯƠNG 2: TỔNG QUAN VỀ MẠNG NƠ-RON TÍCH CHẬP

3. CHƯƠNG 3: ĐỀ XUẤT MÔ HÌNH PHÂN LOẠI ẢNH VÀ KẾT HỢP TÌM KIẾM THEO NGỮ NGHĨA

4. CHƯƠNG 4: KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ

TÀI LIỆU THAM KHẢO

I. Phân lớp hình ảnh và nhận dạng hình ảnh

1.1 Trích xuất đặc trưng hình ảnh

1.2 Thuật toán phân lớp hình ảnh

II. Kết hợp tìm kiếm theo ngữ nghĩa

2.1 Xây dựng Ontology

2.2 Thực nghiệm và đánh giá

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Trương Hữu Chiến

Người hướng dẫn: TS. Văn Thế Thành

Trường học: Trường Đại Học Bà Rịa-Vũng Tàu

Chuyên ngành: Công Nghệ Thông Tin

Đề tài: Phân Lớp Ngữ Nghĩa Hình Ảnh Dựa Trên Mạng Nơ-Ron Tích Chập

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2020

Địa điểm: Bà Rịa Vũng Tàu

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm