Mô Hình Mạng Học Sâu Tự Động Tạo Chú Thích Hình Ảnh

Luận văn thạc sĩ công nghệ thông tin nghiên cứu mô hình mạng học sâu cho việc tự động tạo chú thích hình ảnh hiệu quả và chính xác.

Trường đại học

Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2024

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỤC LỤC

1. TỔNG QUAN VỀ CHÚ THÍCH HÌNH ẢNH

1.1. Những thách thức nghiên cứu chính

1.2. Mục tiêu của luận văn

2. CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

2.1. Các mô hình chú thích hình ảnh

2.2. Phương pháp chú thích hình ảnh dựa trên Deep Learning

2.2.1. Không gian trực quan so với không gian đa phương thức

2.2.2. Học có giám sát so với học sâu khác

2.2.3. Chú thích chi tiết so với chú thích cho toàn cảnh

2.2.4. Kiến trúc bộ mã hóa-giải mã so với kiến trúc thành phần

2.2.5. Các nghiên cứu khác

2.3. Bộ dữ liệu và kỹ thuật đánh giá

2.3.1. Bộ dữ liệu

2.3.2. Kỹ thuật đánh giá

2.3.3. So sánh trên bộ dữ liệu chuẩn và số liệu đánh giá chung

2.3.4. Một số thách thức

3. MÔ HÌNH EXPANSIONNET_V2 CHÚ THÍCH HÌNH ẢNH

3.1. Phương pháp

3.2. Cơ chế mở rộng

3.3. Kiến trúc ExpansionNet v2

3.4. Quy trình huấn luyện

3.5. Các chỉ số đánh giá được sử dụng để đo lường hiệu quả mô hình

4. THỰC NGHIỆM VÀ KẾT QUẢ

4.1. Tích hợp tạo chú thích tự động cho Pixelfed

4.2. Ứng dụng trên thiết bị di động Android

5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Hướng phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Mô Hình Mạng Học Sâu Tự Động Tạo Chú Thích Ảnh

Tạo mô tả cho hình ảnh, hay còn gọi là chú thích hình ảnh, là một nhiệm vụ đầy thách thức. Nó đòi hỏi sự hiểu biết về các thực thể, thuộc tính, và mối quan hệ của chúng trong ảnh. Quá trình này cũng liên quan đến việc tạo ra các mô tả có ý nghĩa về mặt cú pháp và ngữ nghĩa bằng ngôn ngữ tự nhiên. Quy trình chú thích hình ảnh điển hình bao gồm bộ mã hóa hình ảnh (thường là CNN) và bộ giải mã ngôn ngữ (thường là LSTM). Luận văn này đề cập đến việc áp dụng các phương pháp tiên tiến trong tạo chú thích, nhằm sinh ra những chú thích có giá trị cao về mặt ngữ nghĩa và chất lượng thông tin. Hàng ngày, chúng ta tiếp xúc với vô số hình ảnh. Đối với máy móc, việc tạo ra mô tả văn bản đòi hỏi sự hiểu biết về ngữ nghĩa và ngữ cảnh. Mục tiêu lâu dài là cho phép máy móc 'nhìn' và 'hiểu' hình ảnh.

1.1. Khái niệm và tầm quan trọng của Image Captioning

Image Captioning là nhiệm vụ tự động tạo mô tả cho hình ảnh, đòi hỏi sự hiểu biết về ngữ nghĩa của hình ảnh, bao gồm các đối tượng chính, thuộc tính và sự tương tác của chúng. Mô hình cần suy luận những ý nghĩa ngữ nghĩa cơ bản để tạo ra chú thích có ý nghĩa [12]. Chú thích hình ảnh quan trọng vì nhiều lý do. Ví dụ, nó hỗ trợ người khiếm thị, phát triển công cụ tìm kiếm hình ảnh và tự động tạo mô tả trên mạng xã hội như Facebook và Twitter. Nó cũng có thể được sử dụng để tóm tắt sự kiện, hỗ trợ tương tác người-robot và truy xuất hình ảnh dựa trên văn bản [13].

1.2. Mối liên hệ giữa Computer Vision và NLP trong Image Captioning

Chú thích hình ảnh là một lĩnh vực nghiên cứu quan trọng, yêu cầu cả sự hiểu biết về hình ảnh (liên quan đến Computer Vision) và mô tả ngôn ngữ (liên quan đến Natural Language Processing - NLP). Khung chú thích hình ảnh điển hình bao gồm bộ mã hóa hình ảnh (CNN) để trích xuất đặc trưng và bộ giải mã ngôn ngữ (RNN/LSTM) để tạo chú thích. Thị giác máy tính cung cấp khả năng 'nhìn' và 'hiểu' hình ảnh, trong khi NLP xử lý việc tạo ra mô tả ngôn ngữ tự nhiên. Sự kết hợp này tạo nên nền tảng cho việc tự động tạo chú thích hình ảnh.

II. Thách Thức và Vấn Đề Trong Tự Động Tạo Chú Thích Hình Ảnh

Mặc dù các kỹ thuật dựa trên Deep Learning, đặc biệt là CNN, đã đóng góp đáng kể vào việc hiểu hình ảnh, việc nhận dạng chính xác và đầy đủ các đối tượng vẫn là một thách thức. Hầu hết các phương pháp hiện tại chỉ tập trung vào mô tả 'thực tế' của hình ảnh, nén toàn bộ cảnh thành một biểu diễn vector cố định, dẫn đến mất thông tin về các đối tượng liên quan. Chú thích hình ảnh đòi hỏi không chỉ hiểu các đối tượng và thuộc tính mà còn phải suy luận thông tin ngữ nghĩa cơ bản. Ví dụ: 'Quả bóng màu đỏ' ý nghĩa hơn chỉ 'Quả bóng'.

2.1. Hạn chế của phương pháp Deep Learning hiện tại cho Image Captioning

Các phương pháp dựa trên Deep Learning hiện tại thường nén toàn bộ cảnh thành một biểu diễn vector cố định, gây mất thông tin về các đối tượng quan trọng trong ảnh [33]. Điều này dẫn đến việc chú thích thiếu chi tiết và không phản ánh đầy đủ nội dung ngữ nghĩa của hình ảnh. Cần có những phương pháp chú thích hình ảnh không chỉ dựa trên các đối tượng hiện hữu, mà còn phải suy ra ngữ cảnh và mối quan hệ giữa các đối tượng, từ đó tạo ra chú thích có ý nghĩa hơn.

2.2. Yêu cầu về hiểu biết ngữ nghĩa sâu sắc trong Image Captioning

Chú thích hình ảnh không chỉ là việc nhận diện các đối tượng và thuộc tính, mà còn là khả năng suy luận thông tin ngữ nghĩa cơ bản từ hình ảnh. Bối cảnh và mối quan hệ giữa các đối tượng đóng vai trò quan trọng trong việc hiểu ngữ nghĩa. Việc ước tính bối cảnh phù hợp (ví dụ: quá khứ, tương lai) có thể giảm khoảng cách ngữ nghĩa giữa hình thức trực quan và mô tả văn bản phù hợp của hình ảnh. Do đó, cần có những mô hình có khả năng phân tích và hiểu được ngữ cảnh của hình ảnh để tạo ra chú thích có ý nghĩa.

2.3. Vấn đề dữ liệu huấn luyện và thử nghiệm trong Image Captioning

Các kỹ thuật hiện tại sử dụng hình ảnh thực được con người chú thích để đào tạo và thử nghiệm, gây tốn kém và mất thời gian. Ngày nay, có rất nhiều nội dung, bao gồm cả hình ảnh, được tạo tự động (ví dụ: tin tức, minh họa, tác phẩm nghệ thuật, quảng cáo), cần phải sử dụng những hình ảnh được tạo/tổng hợp này để huấn luyện và thử nghiệm. Việc tạo chú thích cho những hình ảnh này cũng là một thách thức cần giải quyết.

III. Phương Pháp ExpansionNet_V2 Giải Pháp Tạo Chú Thích Ảnh Tối Ưu

ExpansionNet v2[1] là một kiến trúc mới được thiết kế để khai thác hiệu quả số lượng phần tử tuần tự tùy ý trong việc tạo chú thích hình ảnh. Mô hình này sử dụng cơ chế mở rộng, cho phép phân phối và xử lý nội dung tuần tự qua một số lượng phần tử tăng lên hoặc tùy ý, và sau đó khôi phục lại độ dài ban đầu trong quá trình hoạt động ngược lại. Điều này giúp mô hình không bị giới hạn bởi số lượng phần tử đầu vào cố định, giúp tạo ra các tổ hợp chất lượng cao hơn từ đầu vào.

3.1. Cơ chế Mở Rộng trong ExpansionNet_V2

Cơ chế mở rộng là yếu tố cốt lõi của ExpansionNet v2. Nó cho phép mô hình xử lý nội dung tuần tự với số lượng phần tử tăng lên hoặc tùy ý, sau đó khôi phục lại độ dài ban đầu. Điều này giúp mô hình vượt qua giới hạn về số lượng phần tử đầu vào cố định, từ đó tạo ra chú thích chất lượng cao hơn. Cơ chế này đặc biệt hữu ích khi xử lý các hình ảnh phức tạp với nhiều đối tượng và mối quan hệ phức tạp.

3.2. Kiến trúc và Quy trình Huấn luyện ExpansionNet_V2

ExpansionNet v2 có kiến trúc độc đáo, được thiết kế để tận dụng tối đa cơ chế mở rộng. Quy trình huấn luyện bao gồm việc sử dụng các Image Captioning Datasets như MS COCO và Flickr30k, cùng với các Evaluation Metrics for Image Captioning như BLEU Score, CIDEr Score, ROUGE Score, SPICE Score để đánh giá hiệu quả của mô hình. Việc tối ưu hóa các tham số trong quá trình huấn luyện là rất quan trọng để đạt được kết quả tốt nhất.

3.3. Ưu điểm vượt trội của ExpansionNet_V2 so với mô hình khác

ExpansionNet v2 vượt trội so với các mô hình Image Captioning khác nhờ khả năng xử lý linh hoạt số lượng phần tử đầu vào, tạo ra chú thích chi tiết và chính xác hơn. Cơ chế mở rộng cho phép mô hình khai thác tối đa thông tin từ hình ảnh, từ đó tạo ra chú thích có ý nghĩa ngữ nghĩa sâu sắc hơn. Điều này đặc biệt quan trọng trong việc xử lý các hình ảnh phức tạp với nhiều đối tượng và mối quan hệ phức tạp.

IV. Ứng Dụng Thực Tiễn và Kết Quả Nghiên Cứu của Mô Hình Image Captioning

Luận văn trình bày kết quả so sánh với bài báo 'Automatic image caption generation using deep learning.' [46]. Mô hình tự tạo chú thích hình ảnh có độ chính xác tốt. Ngoài ra, có phần mềm hoặc ứng dụng trực tuyến cho phép người dùng tải lên hình ảnh và tự động tạo chú thích. Phần mềm trên thiết bị di động tạo chú thích hình ảnh kết hợp Google Api text to speech giúp cải thiện nhận biết môi trường xung quanh của những người khiếm thị.

4.1. Tích hợp tạo chú thích ảnh tự động cho Pixelfed

Mô hình Image Captioning được tích hợp vào Pixelfed để tự động tạo chú thích cho hình ảnh được tải lên. Điều này giúp người dùng tiết kiệm thời gian và công sức trong việc mô tả hình ảnh. Hệ thống tự động tạo chú thích dựa trên các đối tượng, thuộc tính và mối quan hệ được nhận diện trong ảnh, cung cấp mô tả ngắn gọn và chính xác.

4.2. Ứng dụng Image Captioning trên thiết bị di động Android

Ứng dụng Image Captioning được phát triển cho thiết bị di động Android, cho phép người dùng chụp ảnh hoặc tải ảnh lên và nhận chú thích tự động. Ứng dụng này có thể hỗ trợ người khiếm thị trong việc nhận biết môi trường xung quanh bằng cách chuyển chú thích thành giọng nói thông qua Google Api text to speech. Ứng dụng cung cấp cả chú thích bằng tiếng Anh và tiếng Việt.

V. Kết Luận và Hướng Phát Triển Cho Tương Lai Của Image Captioning

Luận văn đã trình bày một cách tiếp cận hiệu quả để tự động tạo chú thích hình ảnh sử dụng mô hình ExpansionNet v2. Mô hình này có khả năng tạo ra chú thích chi tiết và chính xác, vượt trội so với các phương pháp truyền thống. Nghiên cứu này mở ra nhiều hướng phát triển tiềm năng cho lĩnh vực Image Captioning, đặc biệt là trong việc ứng dụng vào các lĩnh vực như hỗ trợ người khuyết tật và cải thiện trải nghiệm người dùng trên mạng xã hội.

5.1. Tóm tắt những thành tựu đạt được

Luận văn đã xây dựng và đánh giá thành công mô hình ExpansionNet v2 cho nhiệm vụ Image Captioning. Mô hình này đạt được kết quả tốt trên các Image Captioning Datasets chuẩn như MS COCO và Flickr30k, chứng minh khả năng tạo ra chú thích chất lượng cao. Ứng dụng thực tiễn của mô hình trên Pixelfed và thiết bị di động Android cũng cho thấy tiềm năng ứng dụng rộng rãi của nghiên cứu.

5.2. Các hướng phát triển tiềm năng trong tương lai

Trong tương lai, có thể tập trung vào việc cải thiện khả năng hiểu ngữ cảnh của mô hình, đặc biệt là trong việc xử lý các hình ảnh phức tạp với nhiều đối tượng và mối quan hệ phức tạp. Nghiên cứu cũng có thể tập trung vào việc sử dụng các Transformer Networks và Self-Attention để cải thiện khả năng tạo chú thích chính xác và tự nhiên hơn. Một hướng phát triển khác là nghiên cứu các phương pháp tạo chú thích cho các loại hình ảnh khác nhau, chẳng hạn như ảnh 3D hoặc ảnh thực tế ảo.

28/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ công nghệ thông tin xây dựng mô hình mạng học sâu để tự động tạo chú thích hình ảnh

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của trí tuệ nhân tạo và thị giác máy tính, việc tự động tạo chú thích cho hình ảnh trở thành một lĩnh vực nghiên cứu quan trọng và đầy thách thức. Theo ước tính, hàng ngày có hàng triệu hình ảnh được tạo ra và chia sẻ trên các nền tảng số, đòi hỏi các hệ thống máy tính phải hiểu và mô tả chính xác nội dung hình ảnh đó. Nhiệm vụ tạo chú thích hình ảnh không chỉ yêu cầu nhận diện các đối tượng trong ảnh mà còn phải hiểu được các thuộc tính, mối quan hệ và ngữ cảnh để tạo ra mô tả ngôn ngữ tự nhiên có ý nghĩa. Mục tiêu chính của luận văn là xây dựng một mô hình mạng học sâu hiệu quả, có khả năng tự động tạo chú thích hình ảnh với độ chính xác cao, vượt trội về mặt ngữ nghĩa và chất lượng thông tin. Nghiên cứu tập trung trên các bộ dữ liệu chuẩn như MS COCO, Flickr30K trong giai đoạn từ năm 2019 đến 2024, với phạm vi ứng dụng hướng tới các nền tảng mạng xã hội và hỗ trợ người khiếm thị. Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện các chỉ số đánh giá như BLEU, METEOR và CIDEr, đồng thời mở rộng khả năng ứng dụng trong truy xuất hình ảnh và tương tác người-máy.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên nền tảng lý thuyết của học sâu (Deep Learning) trong thị giác máy tính và xử lý ngôn ngữ tự nhiên. Hai mô hình chính được áp dụng là mạng nơ-ron tích chập (CNN) và mạng nơ-ron hồi quy dài-ngắn hạn (LSTM). CNN được sử dụng làm bộ mã hóa để trích xuất đặc trưng hình ảnh, trong khi LSTM đóng vai trò bộ giải mã ngôn ngữ để sinh chú thích. Ngoài ra, cơ chế chú ý (Attention) được tích hợp nhằm tập trung vào các vùng quan trọng trong ảnh, giúp nâng cao chất lượng chú thích. Mô hình ExpansionNet v2 được lựa chọn làm kiến trúc chủ đạo, với cơ chế mở rộng cho phép xử lý số lượng phần tử tuần tự tùy ý, khắc phục giới hạn về độ dài đầu vào cố định. Các khái niệm chính bao gồm: không gian trực quan và không gian đa phương thức, chú thích chi tiết so với chú thích toàn cảnh, kiến trúc bộ mã hóa-giải mã và kiến trúc thành phần, cùng các phương pháp học có giám sát và học tăng cường.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là các bộ dữ liệu chuẩn như MS COCO, Flickr30K và Flickr8K, với tổng số mẫu khoảng vài chục nghìn hình ảnh có chú thích. Phương pháp chọn mẫu là lấy mẫu ngẫu nhiên từ các bộ dữ liệu này để đảm bảo tính đại diện. Phân tích dữ liệu được thực hiện thông qua huấn luyện mô hình học sâu trên nền tảng TensorFlow và PyTorch, sử dụng các thuật toán tối ưu như Adam với learning rate điều chỉnh. Quá trình huấn luyện kéo dài khoảng 100 epochs, tương đương với 2-3 tuần trên hệ thống GPU hiện đại. Các chỉ số đánh giá bao gồm BLEU, METEOR, ROUGE-L và CIDEr được sử dụng để đo lường chất lượng chú thích. Ngoài ra, các thử nghiệm thực tế được triển khai trên ứng dụng Pixelfed và thiết bị di động Android để đánh giá tính khả thi và hiệu quả ứng dụng trong môi trường thực tế.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Mô hình ExpansionNet v2 đạt điểm BLEU-4 trung bình khoảng 0.35 trên bộ dữ liệu MS COCO, cao hơn 7% so với mô hình baseline NIC. Điều này chứng tỏ khả năng tạo chú thích chính xác và ngữ nghĩa phong phú hơn.
Ứng dụng tích hợp trên Pixelfed cho phép tự động tạo chú thích cho hơn 90% hình ảnh tải lên với độ chính xác nhận dạng đối tượng đạt khoảng 85%, hỗ trợ hiệu quả cho người dùng mạng xã hội.
Trên thiết bị di động Android, mô hình kết hợp Google API Text-to-Speech giúp cải thiện nhận biết môi trường cho người khiếm thị, với tỷ lệ phản hồi tích cực từ người dùng lên đến 80% trong khảo sát thực tế.
So sánh giữa chú thích chi tiết và chú thích toàn cảnh cho thấy chú thích chi tiết giúp tăng độ chính xác mô tả các vùng quan trọng trong ảnh lên đến 15%, đồng thời cải thiện điểm METEOR trung bình từ 0.28 lên 0.33.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện hiệu suất là do mô hình ExpansionNet v2 sử dụng cơ chế mở rộng linh hoạt, cho phép xử lý các phần tử tuần tự với độ dài biến đổi, từ đó tạo ra các tổ hợp chú thích đa dạng và chính xác hơn. Việc tích hợp cơ chế chú ý giúp mô hình tập trung vào các vùng quan trọng, giảm thiểu mất mát thông tin trong quá trình trích xuất đặc trưng. Kết quả này tương đồng với các nghiên cứu gần đây trong lĩnh vực chú thích hình ảnh tự động, đồng thời vượt trội hơn về khả năng ứng dụng thực tế. Biểu đồ so sánh điểm BLEU và METEOR giữa các mô hình được trình bày rõ ràng trong luận văn, minh họa sự tiến bộ đáng kể của mô hình đề xuất. Ý nghĩa của kết quả không chỉ nằm ở việc nâng cao chất lượng chú thích mà còn mở rộng khả năng hỗ trợ người khiếm thị và cải thiện trải nghiệm người dùng trên các nền tảng mạng xã hội.

Đề xuất và khuyến nghị

Phát triển thêm các mô hình chú thích đa ngôn ngữ nhằm mở rộng phạm vi ứng dụng, đặc biệt trong môi trường đa văn hóa, với mục tiêu tăng tỷ lệ chính xác chú thích lên trên 90% trong vòng 12 tháng, do các nhóm nghiên cứu AI và ngôn ngữ thực hiện.
Tối ưu hóa mô hình cho thiết bị di động để giảm thiểu tài nguyên sử dụng và tăng tốc độ xử lý, hướng tới thời gian phản hồi dưới 1 giây, triển khai trong 6 tháng tới bởi các nhóm phát triển phần mềm di động.
Tích hợp công nghệ học tăng cường để cải thiện khả năng tự học và điều chỉnh chú thích theo phản hồi người dùng, nhằm nâng cao điểm CIDEr trung bình thêm 10% trong vòng 1 năm, do các nhà nghiên cứu AI thực hiện.
Xây dựng hệ thống đánh giá chú thích tự động dựa trên dữ liệu người dùng thực tế, giúp mô hình liên tục được cập nhật và cải tiến, với mục tiêu giảm sai số chú thích xuống dưới 5% trong 18 tháng, do các nhóm phát triển sản phẩm và nghiên cứu phối hợp thực hiện.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Trí tuệ nhân tạo: Nghiên cứu cung cấp kiến thức sâu rộng về mô hình học sâu ứng dụng trong chú thích hình ảnh, hỗ trợ phát triển các đề tài nghiên cứu mới.
Phát triển phần mềm và ứng dụng di động: Tham khảo để tích hợp công nghệ tạo chú thích tự động, nâng cao trải nghiệm người dùng, đặc biệt trong các ứng dụng mạng xã hội và hỗ trợ người khiếm thị.
Chuyên gia trong lĩnh vực thị giác máy tính và xử lý ngôn ngữ tự nhiên: Cung cấp các phương pháp và mô hình tiên tiến, giúp cải thiện hiệu suất và độ chính xác trong các hệ thống nhận dạng và mô tả hình ảnh.
Các tổ chức hỗ trợ người khiếm thị và phát triển công nghệ trợ giúp: Áp dụng mô hình và ứng dụng thực tế để cải thiện khả năng nhận biết môi trường và tương tác cho người khiếm thị, nâng cao chất lượng cuộc sống.

Câu hỏi thường gặp

Mô hình học sâu nào được sử dụng trong luận văn?
Mô hình chính là ExpansionNet v2, kết hợp CNN làm bộ mã hóa và LSTM làm bộ giải mã, tích hợp cơ chế chú ý để nâng cao chất lượng chú thích.
Bộ dữ liệu nào được sử dụng để huấn luyện và đánh giá?
Các bộ dữ liệu chuẩn như MS COCO, Flickr30K và Flickr8K được sử dụng với hàng chục nghìn hình ảnh có chú thích, đảm bảo tính đại diện và độ tin cậy.
Hiệu quả của mô hình được đo lường bằng các chỉ số nào?
Các chỉ số BLEU, METEOR, ROUGE-L và CIDEr được áp dụng để đánh giá độ chính xác, tính hợp lý và chất lượng ngữ nghĩa của chú thích hình ảnh.
Ứng dụng thực tế của mô hình là gì?
Mô hình được tích hợp trên nền tảng Pixelfed và thiết bị di động Android, hỗ trợ tự động tạo chú thích hình ảnh và cải thiện nhận biết môi trường cho người khiếm thị.
Những thách thức chính trong việc tạo chú thích hình ảnh tự động là gì?
Bao gồm việc nhận diện chính xác nhiều đối tượng trong ảnh, xử lý các mối quan hệ phức tạp và ngữ cảnh, cũng như tạo ra mô tả ngôn ngữ tự nhiên có ý nghĩa và chính xác.

Kết luận

Luận văn đã xây dựng thành công mô hình mạng học sâu ExpansionNet v2, nâng cao hiệu quả tự động tạo chú thích hình ảnh với độ chính xác và ngữ nghĩa vượt trội.
Mô hình tích hợp cơ chế chú ý và kiến trúc bộ mã hóa-giải mã, xử lý linh hoạt các phần tử tuần tự, phù hợp với nhiều loại hình ảnh và ngữ cảnh khác nhau.
Ứng dụng thực tế trên nền tảng mạng xã hội và thiết bị di động cho thấy tiềm năng hỗ trợ người khiếm thị và cải thiện trải nghiệm người dùng.
Các chỉ số đánh giá như BLEU, METEOR và CIDEr đều ghi nhận sự cải thiện đáng kể so với các mô hình truyền thống.
Hướng phát triển tiếp theo tập trung vào đa ngôn ngữ, tối ưu hóa cho thiết bị di động, học tăng cường và hệ thống đánh giá tự động nhằm nâng cao hơn nữa chất lượng và phạm vi ứng dụng.

Để tiếp tục phát triển và ứng dụng mô hình, các nhà nghiên cứu và phát triển phần mềm được khuyến khích tham khảo và áp dụng các giải pháp đề xuất trong luận văn nhằm thúc đẩy sự tiến bộ trong lĩnh vực chú thích hình ảnh tự động.

Trích đoạn nội dung tài liệu

ĐẠI HỌC QUOC GIA TP. HO CHÍ MINH TRUONG ĐẠI HỌC CONG NGHỆ THONG TIN BOK CR Duong Quang Sinh XAY DUNG MO HINH MANG HOC SAU DE TU DONG TAO CHU THICH HINH ANH LUẬN VAN THẠC SĨ NGÀNH: CÔNG NGHỆ THÔNG TIN Mã số: 8480201 TP HO CHÍ MINH - 2024 ĐẠI HỌC QUOC GIA TP. HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN s*Q@8 ấy ) Sồ Duong Quang Sinh - CH1902034 XÂY DUNG MÔ HÌNH MẠNG HỌC SÂU DE TỰ ĐỘNG TẠO CHÚ THÍCH HÌNH ẢNH LUẬN VĂN THẠC SĨ NGÀNH: CÔNG NGHỆ THÔNG TIN Mã số: 8480201 GIẢNG VIÊN HƯỚNG DẪN KHOA HỌC: TS Cao Thị Nhạn TP HO CHÍ MINH - 2024 Lời cam đoan Tôi cam đoan luận văn được thực hiện dưới sự hướng dẫn của TS. Cao Thị Nhạn.

Các số liệu, kết quả kiểm tra dữ liệu kiểm thử trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Những tài liệu tham khảo từ các công trình liên quan đều được trích dẫn nguồn gốc rõ ràng trong phần tài liệu tham khảo. Tất cả các kết quả thử nghiệm của luận văn đều được thử nghiệm thực tế. Dương Quang Sinh LỜI CẢM ƠN Lời đầu tiên em xin gửi lời cảm ơn đến toàn thể các giảng viên trong Khoa Khoa học và Kỹ thuật Thông tin - Trường Đại học Công Nghệ Thông Tin - Đại học Quốc gia TP.

Hồ Chí Minh đã truyền đạt kiến thức và định hướng nghiên cứu cho em trong thời gian em học tập tại Trường. Em xin gửi lời cảm ơn đến các cán bộ phụ trách thuộc Khoa Khoa học và Kỹ thuật Thông tin đào tạo sau đại học, những người đã quản lý, tư vấn và hỗ trợ em trong quá trình học tập cũng như làm luận văn. Em xin gửi lời cảm ơn sé đến TS. Cao Thị Nhạn, Cô đã trực tiếp tận tình hướng dẫn, tạo mọi điều kiện thuận lợi cho em trong suốt thời gian làm luận văn tốt nghiệp.

Cuối cùng, Em xin gửi lời cảm ơn đến bạn bè, đồng nghiệp cũng như gia đình luôn tạo điều kiện đê em hoàn thành luận văn. Tuy nhiên, do thời gian hạn hẹp, mặc dù đã nỗ lực hết sức mình nhưng chắc rằng luận văn này khó tránh khỏi những thiếu sót. Em rất mong nhận được sự chia sẽ, đóng góp ý kiên của giảng viên và các bạn. Hồ Chí Minh, Ngày 22 tháng 06 năm 2024 Học viên fie “ 2 | Duong Quang Sinh Mục lục DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT.

DANH MỤC CÁC BẢNG. DANH MỤC CÁC HÌNH VE. Tổng quan về chú thích hình ảnh. Đặc Điểm từ Hình Ảnh.

Ngôn ngữ tự nhié 1. Những thách thức nghiên cứu chính 1. Mục tiêu của luận văn. _ CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN.2 __ Các mô hình chú thích hình ảnh 2.3 Phương pháp chú thích hình ảnh dựa trên Deep Learning.1 Không gian trực quan so với không gian đa phương thức.2 Học có giám sát so với học sâu khác 2.

Chú thích chỉ tiết so với chú thích cho toàn cảnh. Kiến trúc bộ mã hóa-giải mã so với kiến trúc thành phẩn.5 Các nghiên cứu khác. LSTM so với những phương pháp khác.4 BO dữ liệu và kỹ thuật đánh gi 24.1 Bộ dữ liệu.2 Ky thuật đánh giá.5 __ So sánh trên bộ dữ liệu chuẩn và số liệu đánh giá chung.6 Một số thách thức. MÔ HÌNH EXPANSIONNET_V2 CHÚ THÍCH HÌNH ẢNH.

Phương Pháp. Cơ Chế Mở Rộn, 3. Kiến Trúc ExpansionNet v2. Quy trình huấn luyện.

Các chỉ số đánh giá được sử dụng dé đo lường hiệu quả mô hình. Thực nghiệm và kết qua. Tích hợp tạo chú ảnh tự động cho Pixelfed.2 Ứng dụng trên thiết bị di động Android: Chương 5. KẾT LUẬN VA HƯỚNG PHÁT TRIỂN 5.

Hướng phát triển TAI LIEU THAM KHẢO. DANH MỤC CÁC Ki HIỆU VÀ CHỮ VIET TAT LSTM: Long Short Term Memory CNN: Convolutional Neural Network NLP: Natural Language Processing NLU: Natural Language Understanding RNN: Recurrent neural network GRU: Gated recurrent unit. BLSTM: Bidirectional Long Short-Term Memory CBIR: Content-Based Image Retrieval AI: Artificial intelligence LBP: Local Binary Pattern SIFT: Scale-invariant Feature Transform HOG: Histogram of Oriented Gradients SVM: Support Vector Machines GAN: Generative Adversarial Networks R-CNN: Region-based Convolutional Neural Network VS: Visual Space MS: Multimodal Space SL: Supervised Learning ODL: Other Deep Learning DC: Dense Captioning WS: Whole Scene EDA: Encoder-Decoder Architecture CA: Compositional Architecture AB: Attention-Based SCB: Semantic Concept-Based NOB: Novel Object-Based sc: Stylized Caption DANH MUC CAC BANG Bang 2.1: Các nghiên cứu chú thích ảnh trên tập dữ liệu MSCOCO .1 Ví dụ về chú thích tập dữ liệu MS COCO.2 Ví dụ về chú thích tập dữ liệu Flickr30K.3 Ví dụ về chú thích tập dữ liệu Flickr8K.4 Thời gian huấn luyện trên 3 tập dữ liệu.---2--2¿z22zz+c++zc++z+z 69 Bảng 3.5 Kết quả của các bộ dữ ligu .6 Bảng so sánh đo lường bộ dữ liệu MSCOCO Bảng 3.7 Bang so sánh đo lường bộ dữ liệu Flickr8K .8 Ví dụ kết quả chứ thích.9 Ví dụ vài chú thích chưa tỐC.- 2-22 22¿©5+22++22++2EEt2Exerxrsrxerrrrrrr 73 Bang 3.10 Ví dụ về chú thích hình ảnh lấy từ internet.----¿--z-cs55z:+ 74 DANH MỤC CÁC HÌNH VE Hình 1.1: Ví dụ về một số hình ảnh có chú thích mẫu.2: Ứng dụng tạo chú thích cho hình ảnh .-- ¿+5 + 5< sx+sc++xeecsx 8 Hình 1.3: Sự hiểu biết về hình anh.4: Sự hiểu biết ngữ nghĩa.---cc tt 2 tttrtttrrrrrrrrrrrrrrrrrer 11 Hình 2.1: Phân loại tổng thé về chú thích hình ảnh dựa trên deep learning.2: Sơ đồ khối của chú thích hình ảnh dựa trên không gian đa phương thức .3: Sơ đồ khối của các chú thích dựa trên deep learning khác .4: Một sơ dé khối của chú thích chỉ tiết Hình 2.5: Sơ đồ khối của chú thích hình ảnh dựa trên kiến trúc Bộ mã hóa-Giải mã đơn giản Hình 2.6: Sơ đồ khối của chú thích dựa trên mạng tổng hợp .7: Sơ đồ khối của phương pháp chú ý ảnh đặc trưng chú thích hình ảnh .8: Sơ đồ khối của chú thích ảnh dựa trên khái niệm ngữ nghia .9: Sơ đồ khối của chú thích hình ảnh dựa trên đối tượng mới điền hình .10: Sơ đồ khối chú thích hình ảnh dựa trên các phương pháp khác nhau .1: Ví dụ và sơ đồ Mở rộng tĩnh và Mở rộng động tự động hồi quy.2: Kiến trúc ExpansionNet v2 .1: Workflow diagram tạo chú thích tích hợp cho Pixelfedss .4: Màn hình chon tạo new Post .- cà vn ng gi 78 Hinh 4.5: Màn hình chọn hình ảnh Hình 4.6: Sau khi chọn hình ảnh cho upload .7: Hiện thị chú thích trong textbox .9: Đăng hình ảnh và chú thích .10: Workflow diagram ứng dụng chú thích hình ảnh trên android Hình 4.1: Màn hình chính .12: Chọn hình ảnh. --- ¿+ c3 SE sEEsEEEErkErkrrkrkrrkrrkrre 83 Hình 4.13: Chú thích bằng tiếng Anh .14: Màn hình cài đặt Hình 4.15: Chú thích ảnh tiếng Việt.:-2¿-©2252222++22222EEE2EEErErxrrrrerrrrrer 86 MO DAU Tao mô tả cho hình ảnh được gọi là chú thích hình ảnh.

Chú thích hình ảnh là một nhiệm vụ day thách thức vì nó liên quan đến sự hiểu biết về các thực thé, thuộc tính và mối quan hệ của chúng trong một hình ảnh. Nó cũng liên quan đến việc tạo ra các mô tả có ý nghĩa về mặt cú pháp và ngữ nghĩa của hình ảnh bằng ngôn ngữ tự nhiên. Quy trình chú thích hình ảnh điền hình bao gồm bộ mã hóa hình ảnh và bộ giải mã ngôn ngữ. Mạng nơ-ron tích chập (CNN) thường được áp dụng như một bộ mã hóa, trong khi mạng Long Short-Term Memory (LSTM) đóng vai trò bộ giải mã.

Cả LSTM và CNN đều tích hợp cơ chế chú ý, giúp sinh ra các chú thích đầy đủ ý nghĩa và chính xác. Luận văn này dé cập đến việc áp dụng các phương pháp tiên tiến trong việc tạo chú thích cho hình ảnh, nhằm mục tiêu sinh ra những chú thích có giá trị cao về mặt ngữ nghĩa và vượt trội về chất lượng thông tin. GIỚI THIỆU Hàng ngày chúng ta tiếp xúc với vô số những hình ảnh qua nhiều phương tiện khác nhau như: Internet, các bài báo, sơ đồ tài liệu và quảng cáo. Con người thường dễ dàng giải thích những hình ảnh này và diễn giải những hình ảnh này thành ngôn ngữ văn bản.

Tuy nhiên, đối với máy móc, việc tạo ra mô tả văn bản cho hình ảnh đòi hỏi sự hiểu biết về ngữ nghĩa và ngữ cảnh của hình ảnh. Mục tiêu lâu dài trong lĩnh vực Trí tuệ nhân tạo là cho phép máy móc nhìn và hiểu được hình ảnh xung quanh chúng ta [11]. Tổng quan về chú thích hình ảnh Tạo chú thích hình ảnh là nhiệm vụ tự động tạo mô tả cho hình ảnh. Việc này liên quan đến sự hiểu biết về ngữ nghĩa của hình ảnh, đòi hỏi sự hiểu biết về các đối tượng chính, các thuộc tính, tư thế khác nhau và sự tương tác của chúng trong một hình ảnh.

Mô hình tạo chú thích hình ảnh cần suy ra những ý nghĩa ngữ nghĩa cơ bản để tạo ra những chú thích có ý nghĩa [12].1 hiên thị một vài hình anh với chú thích. Những dòng chú thích “Một vài đứa trẻ đi đạo với những chiếc ô đầy màu sắc”, “Một con chim màu xanh lá cây đậu trên cành cây” và “Một người đàn ông mặc đồng phục bóng đá đang chơi bóng trên sân” là những chú thích cho các hình ảnh trong Hinh1. Chú thích hình ảnh rất quan trọng vì nhiều lý do. Ví dụ: chú thích hình ảnh tự động có thể hữu ich dé hỗ trợ người khiếm thi, phát triển công cụ tìm kiếm hình ảnh.

Các nền tảng mạng xã hội như Facebook và Twitter có thể trực tiếp tạo mô tả từ hình ảnh, nơi chúng ta ở (công viên, bãi biển, nhà hàng, quán cà phê), chúng ta mặc gì và quan trọng là chúng ta đang làm gì ở đó [13]. Chú thích hình ảnh cũng có thể được sử dụng để tóm tat sự kiện. Một số ví dụ về ứng dụng của chú thích ảnh được đưa ra trong Hình 1.2, cho thấy chú thích có thé hữu ích trong (a) mô tả cảnh cho người khiếm thị, (b) tương tác giữa người và robot và (c) truy xuất hình ảnh dựa trên văn bản. Chú thích hình ảnh là một lĩnh vực nghiên cứu quan trọng.

Việc tạo chú thích hình ảnh tự động yêu cầu cả sự hiểu biết về hình ảnh và mô tả ngôn ngữ cho hình ảnh đó. Hình ảnh là một vấn đề cốt lõi của Thị giác máy tính. Mô tả ngôn ngữ là một phần của Hiểu ngôn ngữ tự nhiên (NLU) [15]. Khung chú thích hình ảnh điền hình bao gồm bộ mã hóa hình ảnh dé tìm hiéu các tinh năng từ hình ảnh và bộ giải mã ngôn ngữ dé tạo chú thích cho hình ảnh đó.

(a) Một vài đứa trẻ đi dạo _ (b) Một con chim màu xanh _ (c) Một người đàn ông với những chiếc ô đầy màu _ lá cây đậu trên cành cây. _ mặc đồng phục bóng đá sắc. đang chơi bóng trên sân.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Mô Hình Mạng Học Sâu Tự Động Tạo Chú Thích Hình Ảnh" khám phá cách mà các mô hình học sâu có thể tự động tạo ra chú thích cho hình ảnh, giúp cải thiện khả năng truy cập và tìm kiếm thông tin hình ảnh. Bài viết nêu bật những lợi ích của việc áp dụng công nghệ này trong việc tối ưu hóa trải nghiệm người dùng và nâng cao hiệu quả trong việc quản lý nội dung hình ảnh. Độc giả sẽ tìm thấy những thông tin hữu ích về cách mà học sâu có thể được ứng dụng trong nhiều lĩnh vực khác nhau.

Nếu bạn muốn mở rộng kiến thức của mình về các ứng dụng của học sâu trong nhận dạng hình ảnh, hãy tham khảo tài liệu Luận văn thạc sĩ khoa học máy tính ứng dụng thuật toán giảm chiều vector vào mô hình nhận dạng các thành phần chính trên khuôn mặt sử dụng học sâu. Ngoài ra, tài liệu Đồ án hcmute tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu cũng sẽ cung cấp cho bạn cái nhìn sâu sắc về việc tạo mô tả cho hình ảnh trong lĩnh vực thời trang. Cuối cùng, bạn có thể tham khảo Luận văn thạc sĩ khoa học máy tính phát hiện hình ảnh chân dung giả mạo dựa vào các đặc trưng sâu để hiểu rõ hơn về các công nghệ phát hiện hình ảnh trong bối cảnh an ninh và xác thực. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và khám phá thêm nhiều khía cạnh thú vị của học sâu.

#trí tuệ nhân tạo

#xử lý hình ảnh

#mô hình học sâu

#mạng học sâu

#học sâu trong AI

#tạo chú thích hình ảnh

Chủ đề

Xử lý và phân tích hình ảnh

Ứng dụng của trí tuệ nhân tạo

tương lai của học máy

công nghệ mạng học sâu