MỘT SỐ MÔ HÌNH HỌC MÁY TRONG MÔ TẢ HÌNH ẢNH

Trường đại học

Trường Đại học Khoa học Tự nhiên

Chuyên ngành

Khoa Học Dữ Liệu

Người đăng

Ẩn danh

Thể loại

Luận văn Thạc sĩ

2023

104

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. KIẾN THỨC CHUẨN BỊ

1.1. Mô tả hình ảnh và hướng tiếp cận Mã hóa-Giải mã

1.2. Trích xuất đặc trưng

1.2.1. Bài toán trích xuất đặc trưng

1.2.2. Trích xuất đặc trưng dữ liệu ngôn ngữ - Mã hóa từ

1.3. Một số dạng mô hình mạng nơ-ron nhân tạo

1.3.1. Mạng nơ-ron nhân tạo truyền thống

1.3.2. Mạng nơ ron tích chập

1.3.3. RNN và LSTM

1.3.4. Cơ chế chú ý và mạng Transformer

1.3.5. Mô hình Transformer cho thị giác máy tính

1.4. Phát hiện đối tượng

1.5. Các thang đo đánh giá mô hình

2. CÁC MÔ HÌNH SINH MÔ TẢ ẢNH ĐƯỢC THỰC NGHIỆM

2.1. Mô tả ảnh với mô hình kết hợp CNN - LSTM

2.2. Mô hình sử dụng thêm thông tin đối tượng và cơ chế chú ý

2.2.1. Mô hình Xception-Yolo-att-LSTM

2.2.2. Mô hình Yolo4-att-LSTM

2.3. Các mô hình giải mã dựa trên Transformer

3. KẾT QUẢ THỰC NGHIỆM

3.1. Giới thiệu bộ dữ liệu

3.1.1. Dữ liệu COCO

3.1.2. Dữ liệu giao thông tại Việt Nam

3.2. Kết quả thực nghiệm trên bộ dữ liệu COCO

3.2.1. Các mô hình CNN-LSTM

3.2.2. Các mô hình CNN-LSTM khai thác thêm thông tin phát hiện vật thể và cơ chế chú ý

3.2.3. Các mô hình Transformer

3.3. Kết quả thực nghiệm trên bộ dữ liệu giao thông Việt Nam

KẾT LUẬN

TÀI LIỆU THAM KHẢO

A Ảnh dự đoán của các mô hình

A.1. Một số hình ảnh được sinh mô tả bằng các mô hình CNN-LSTM

A.2. Hình ảnh được sinh mô tả bằng các mô hình sử dụng thông tin phát hiện vật thể và cơ chế chú ý

A.3. Ảnh được sinh mô tả bởi các mô hình Transformer

A.4. Sinh mô tả cho ảnh giao thông Việt Nam

Tóm tắt

I. Tổng Quan Về Ứng Dụng Học Máy Trong Mô Tả Ảnh

Bài toán mô tả hình ảnh (image captioning) đang thu hút sự quan tâm lớn trong lĩnh vực thị giác máy tính. Mục tiêu là tự động tạo ra mô tả bằng ngôn ngữ tự nhiên cho hình ảnh, thường gói gọn trong một câu. Đây là sự kết hợp giữa Computer Vision (CV) và Natural Language Processing (NLP). Ứng dụng rộng rãi, từ quản lý ảnh theo nội dung đến xây dựng trợ lý ảo. Nhu cầu khai thác dữ liệu ảnh thúc đẩy nghiên cứu, giúp máy tính diễn giải thế giới hình ảnh như con người. Tuy nhiên, nhiệm vụ này đòi hỏi hiểu biết sâu sắc về ngữ nghĩa hình ảnh và khả năng diễn đạt thông tin một cách tự nhiên.

1.1. Lịch sử Phát triển của Mô hình Học Máy trong Mô Tả Hình Ảnh

Từ những năm 2000, các cách tiếp cận ban đầu như hạn chế khuôn mẫu nội dung hình ảnh, dựa trên truy xuất hoặc khuôn mẫu, đều cho kết quả hạn chế. Bước đột phá chỉ đến khi các mạng học sâu ra đời và được ứng dụng rộng rãi. Nhiều tác giả tiếp cận theo hướng kết hợp các mô hình học sâu trích xuất đặc trưng hình ảnh như mạng nơ-ron tích chập (CNN) với các mô hình xử lý ngôn ngữ. Các mô hình này được sử dụng để kết xuất nội dung mô tả ảnh. Deep Learning đã thực sự thay đổi cách chúng ta tiếp cận bài toán này.

1.2. Ứng Dụng Tiềm Năng của Mô Tả Hình Ảnh trong Thực Tế

Vấn đề sinh mô tả hình ảnh có nhiều ứng dụng thực tế, trước hết do lượng dữ liệu ảnh số được thu thập và lưu trữ ngày càng nhiều. Có thể kể đến lập chỉ mục và quản lý hình ảnh theo nội dung, xây dựng hệ thống trợ lý ảo dựa trên dữ liệu hình ảnh, tạo báo cáo tự động từ dữ liệu ảnh trong các lĩnh vực chuyên sâu (y tế, môi trường, kỹ thuật), điều khiển phương tiện tự lái hay giúp đỡ người khiếm thị.

II. Thách Thức Trong Ứng Dụng Mô Hình Học Máy Mô Tả Ảnh

Việc sinh mô tả hình ảnh không chỉ yêu cầu mức độ hiểu biết cao về nội dung ngữ nghĩa của hình ảnh mà còn cần diễn đạt thông tin giống như con người. Xác định sự hiện diện, thuộc tính và mối quan hệ của các đối tượng trong ảnh không dễ. Tổ chức một câu để mô tả thông tin như vậy càng khó khăn hơn. Để đạt được mục tiêu này, nhiều nghiên cứu đã được thực hiện với nhiều cách tiếp cận khác nhau. Việc đánh giá hiệu quả của các mô hình cũng là một thách thức lớn, cần các Evaluation Metrics phù hợp.

2.1. Vấn đề Hiểu Ngữ Cảnh và Mối Quan Hệ Giữa Các Đối Tượng

Các câu mô tả, bên cạnh việc chỉ ra các đối tượng, còn cần có thông tin về sự liên hệ giữa chúng. Điều này khó có thể cung cấp bởi các mạng CNN, vì đầu ra của các mạng này thường chỉ chứa thông tin về phân loại đối tượng cũng như xác suất của chúng. Cần các mô hình có khả năng hiểu được ngữ cảnh chung của bức ảnh, từ đó đưa ra các mô tả chính xác và phù hợp.

2.2. Khó khăn trong việc diễn đạt thông tin chính xác và tự nhiên

Việc diễn đạt thông tin chính xác và tự nhiên là một thách thức lớn. Các mô hình cần tạo ra các câu mô tả không chỉ đúng về mặt nội dung mà còn phải có cấu trúc ngữ pháp tốt và sử dụng ngôn ngữ một cách mượt mà, giống như con người. Điều này đòi hỏi sự kết hợp giữa khả năng Computer Vision và Natural Language Processing (NLP).

2.3. Hạn chế về Dataset và nguồn dữ liệu huấn luyện

Chất lượng và số lượng của Dataset ảnh hưởng lớn đến hiệu suất của các mô hình học máy. Việc thu thập và gán nhãn dữ liệu hình ảnh là tốn kém và mất thời gian. Hơn nữa, cần có các Dataset đa dạng, bao phủ nhiều loại hình ảnh khác nhau để mô hình có thể hoạt động tốt trong nhiều tình huống thực tế.

III. CNN LSTM Phương Pháp Phổ Biến Trong Mô Tả Hình Ảnh

Nhiều tác giả đã tiếp cận bài toán theo hướng kết hợp các mô hình học sâu trích xuất đặc trưng của hình ảnh, như mạng nơ-ron tích chập (CNN), với các mô hình xử lý ngôn ngữ để kết xuất nội dung mô tả. Với cảm hứng từ thành công của các mô hình học sâu áp dụng cho bài toán dịch máy, nhiều nhà nghiên cứu đã tiếp cận bài toán mô tả hình ảnh như một dạng dịch máy. Kiến trúc mã hóa – giải mã (encoder-decoder) được sử dụng rộng rãi, trong đó chúng ta cần “dịch” từ “ngôn ngữ hình ảnh” sang ngôn ngữ tự nhiên.

3.1. Ứng Dụng Mạng CNN để Trích Xuất Đặc Trưng Hình Ảnh Hiệu Quả

Trong kiến trúc mã hóa – giải mã, các mạng CNN được sử dụng cho phần mã hóa dựa trên việc các mạng này đã được sử dụng để trích xuất đặc trưng, là biểu diễn số của các nội dung trong ảnh như loại đối tượng, độ tin cậy của đối tượng đó. Các nghiên cứu giai đoạn này đơn giản lấy vec-tơ đặc trưng trích xuất từ ảnh qua một mạng CNN và coi đó như là vec-tơ nội dung để gửi sang phần mã hóa.

3.2. Sử dụng LSTM cho khả năng tạo mô tả văn bản tự nhiên

Nhiều nghiên cứu sử dụng các mô hình dạng mạng nơ-ron tái phát (RNN), sau đó là các mạng bộ nhớ dài ngắn (LSTM) đã sớm được áp dụng cho phần giải mã. Khi cơ chế chú ý (Attention) được đề xuất cho bài toán dịch máy, các nghiên cứu về vấn đề sinh mô tả ảnh cũng đã cố gắng áp dụng cơ chế này cho phần giải mã dưới dạng các tầng độc lập (attention layers).

3.3. Ưu Điểm và hạn chế của phương pháp CNN LSTM

Tiếp cận theo hướng CNN-LSTM đạt được những kết quả nhất định, nhưng cũng có những hạn chế. Đó là các câu mô tả bên cạnh chỉ ra các đối tượng thì còn cần có thông tin về sự liên hệ giữa chúng, nhưng điều này khó có thể cung cấp bởi các mạng CNN vì đầu ra của các mạng này thường chỉ chứa thông tin về phân loại đối tượng cũng như xác suất của chúng.

IV. Khai Thác Thông Tin Đối Tượng Giải Pháp Nâng Cao Mô Tả Ảnh

Một bài toán quan trọng khác của thị giác máy tính là vấn đề phát hiện đối tượng (object detection) đã đạt được nhiều tiến bộ đáng kể. Bài toán phát hiện đối tượng không chỉ đưa ra các đối tượng trong hình ảnh, mà còn chỉ ra vị trí của chúng. Một số nghiên cứu đã cố gắng sử dụng các mô hình phát hiện đối tượng như là phần mã hóa cho các mô hình sinh mô tả ảnh theo kiểu mã hóa – giải mã.

4.1. Kết hợp Thông Tin từ Mô Hình Phát Hiện Đối Tượng YOLO

Tiêu biểu cho hướng này có thể kể đến nghiên cứu kết hợp thông tin trích xuất từ một mạng CNN, kết hợp với thông tin từ mô hình phát hiện đối tượng YOLO như là thông tin nội dung (context vector) để gửi sang phần giải mã (sử dụng LSTM và cơ chế chú ý như tầng độc lập). Thực nghiệm cho thấy hướng tiếp cận này cho kết quả vượt trội so với các mô hình chỉ sử dụng mạng CNN, khi kết hợp với cùng kiến trúc giải mã.

4.2. Lợi ích của việc xác định vị trí đối tượng và thuộc tính hình ảnh

Việc xác định vị trí đối tượng giúp mô hình hiểu rõ hơn về bố cục và cấu trúc của hình ảnh. Thông tin về thuộc tính của đối tượng (ví dụ: màu sắc, kích thước, hình dạng) cung cấp thêm ngữ cảnh cho việc tạo mô tả. Sự kết hợp này giúp tạo ra các mô tả chi tiết và chính xác hơn.

4.3. Hạn chế của việc chỉ tập trung vào một số đối tượng chính

Mặc dù bản thân phần phát hiện đối tượng đã sử dụng các mạng CNN, các mô hình dạng này vẫn cần kết hợp thông tin với một nhánh CNN khác. Có thể giải thích một cách định tính là các mô hình phát hiện đối tượng được áp dụng ở đây chỉ nhằm vào một số đối tượng chính, do đó nhiều thông tin từ các mạng tích chập xương sống đã bị bỏ qua. Việc phải sử dụng thêm một mạng CNN để có thông tin bổ sung vẫn là một hạn chế.

V. Mô Hình Transformer Bước Tiến Mới Trong Mô Tả Hình Ảnh

Sự ra đời của mô hình transformer đã đem lại bước tiến bộ vượt bậc cho các mô hình xử lý ngôn ngữ nói chung và mô hình dịch máy nói riêng. Điều này trở thành sự cổ vũ cho nhiều nghiên cứu hướng vào việc tìm một phương pháp tương tự transformer cho các vấn đề trong xử lý hình ảnh, thị giác máy tính. Nhiều nghiên cứu cũng chỉ ra rằng phần giải mã đạt hiệu quả cao khi thông tin được gửi từ phần mã hóa đầy đủ.

5.1. Ứng Dụng Cơ Chế Chú Ý của Transformer trong Thị Giác Máy Tính

Các ý tưởng đầu tiên sử dụng việc khai thác các bản đồ đặc trưng (feature maps) ở đầu ra của mạng CNN, sau đó áp dụng các cơ chế chú ý của transformer như multi head self attention lên các đặc trưng này. Các nghiên cứu này đã cho thấy những hiệu quả nhất định, nhưng nó vẫn phải dựa trên một kiến trúc CNN nào đó.

5.2. Mô hình ViT Bỏ Qua Kiến Trúc CNN Truyền Thống

Năm 2021, mô hình ViT đề xuất một mô hình thực sự áp dụng dạng transformer cho thị giác máy tính, trong đó có thể bỏ qua các kiến trúc dạng như CNN. Trong nghiên cứu này, các tác giả đã chia ảnh thành các khối cùng kích thước, sau đó xử lý các khối này giống như là các đơn nguyên trong ngôn ngữ tự nhiên (token) bằng mô hình transformer.

5.3. Cải Tiến với Mô Hình Swin Transformer và Cửa Sổ Trượt

Để cải thiện, mô hình Swin Transformer ra đời, trong đó ý tưởng chính là sẽ chia ảnh theo nhiều độ phân giải khác nhau. Sau đó sử dụng cơ chế cửa sổ trượt để kết hợp các vùng lại và từ đó các đơn nguyên được đưa vào phần transformer sẽ đại diện cho các vùng có kích thước khác nhau. Cải tiến này đã đem lại hiệu quả hơn hẳn so với các mô hình ViT.

VI. Kết Luận Hướng Phát Triển Ứng Dụng Học Máy Mô Tả Ảnh

Bài toán tạo mô tả hình ảnh có tính thực tiễn, ý nghĩa khoa học và sự thú vị. Mặc dù đã có nhiều tiến bộ, vẫn còn nhiều thách thức cần vượt qua. Các hướng nghiên cứu tiếp theo có thể tập trung vào việc cải thiện khả năng hiểu ngữ cảnh, tăng cường tính sáng tạo của mô hình, và phát triển các phương pháp đánh giá hiệu quả hơn. Ứng dụng thực tế của bài toán này rất rộng mở và tiềm năng.

6.1. Tối Ưu Hóa Hiệu Năng và Giảm Yêu Cầu Tính Toán

Việc huấn luyện các mô hình transformer như ViT hay Swin Transformer là khá phức tạp và số tham số cũng như yêu cầu khối lượng tính toán lớn, đòi hỏi cấu hình thiết bị khá mạnh khi cài đặt và thực thi. Cần có các phương pháp tối ưu hóa để giảm yêu cầu tính toán và cho phép triển khai trên các thiết bị có cấu hình hạn chế.

6.2. Phát Triển Mô Hình Mô Tả Ảnh Phù Hợp Với Dữ Liệu Việt Nam

Nhiều lĩnh vực ứng dụng của vấn đề sinh mô tả ảnh lại đòi hỏi thời gian thực hiện nhanh, thậm chí tiệm cận thời gian thực, trong lúc đó cấu hình hệ thống lại hạn chế, thậm chí cho phép nhúng trên thiết bị. Cần phát triển các mô hình được huấn luyện trên dữ liệu ảnh Việt Nam để đạt hiệu suất tốt nhất.

6.3. Tiềm Năng Ứng Dụng Trong Các Lĩnh Vực Khác Nhau

Ứng dụng của mô tả hình ảnh có tiềm năng lớn trong nhiều lĩnh vực, bao gồm hỗ trợ người khuyết tật, tự động hóa quy trình sản xuất, giám sát an ninh, và phát triển các ứng dụng tương tác người-máy. Việc nghiên cứu và phát triển các mô hình hiệu quả và chính xác sẽ mở ra nhiều cơ hội mới.

15/05/2025

Bạn đang xem trước tài liệu:

Một số mô hình học máy trong mô tả hình ảnh

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Sinh mô tả hình ảnh (image captioning) là một bài toán quan trọng trong lĩnh vực thị giác máy tính và xử lý ngôn ngữ tự nhiên, thu hút nhiều nghiên cứu trong những năm gần đây. Theo ước tính, lượng dữ liệu ảnh số được tạo ra và lưu trữ trên toàn cầu tăng trưởng với tốc độ hàng tỷ ảnh mỗi ngày, tạo ra nhu cầu cấp thiết về các phương pháp tự động mô tả và phân loại hình ảnh. Vấn đề sinh mô tả hình ảnh không chỉ đòi hỏi máy tính phải hiểu được nội dung ngữ nghĩa của ảnh mà còn phải diễn đạt thông tin một cách tự nhiên, giống như con người. Mục tiêu nghiên cứu của luận văn là khảo sát và phát triển một số mô hình học máy hiện đại nhằm nâng cao hiệu quả mô tả hình ảnh, đặc biệt tập trung vào các mô hình học sâu kết hợp giữa mạng nơ-ron tích chập (CNN), mạng hồi tiếp dài-ngắn hạn (LSTM) và các kiến trúc Transformer tiên tiến.

Phạm vi nghiên cứu tập trung vào việc xây dựng và đánh giá các mô hình sinh mô tả ảnh tiếng Anh trên bộ dữ liệu COCO đa lĩnh vực và bộ dữ liệu giao thông Việt Nam gồm khoảng 3000 ảnh kèm mô tả do tác giả tự xây dựng. Nghiên cứu có ý nghĩa quan trọng trong việc phát triển các hệ thống trợ lý ảo, quản lý dữ liệu hình ảnh, hỗ trợ người khiếm thị, và ứng dụng trong các lĩnh vực y tế, môi trường, kỹ thuật. Các chỉ số đánh giá như điểm BLEU và METEOR được sử dụng để đo lường chất lượng mô tả, với các mô hình thử nghiệm đạt điểm BLEU-4 lên đến khoảng 0.35 trên bộ dữ liệu COCO, cho thấy tiềm năng ứng dụng thực tiễn của các mô hình được đề xuất.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình nghiên cứu chính:

Kiến trúc Mã hóa - Giải mã (Encoder-Decoder): Đây là mô hình chủ đạo trong sinh mô tả ảnh, trong đó phần mã hóa sử dụng các mạng học sâu để trích xuất đặc trưng ảnh dưới dạng vector ngữ cảnh, còn phần giải mã sử dụng các mô hình xử lý ngôn ngữ tự nhiên để sinh câu mô tả. Các khái niệm chính bao gồm:
- Mạng nơ-ron tích chập (CNN) dùng để trích xuất đặc trưng ảnh.
- Mạng hồi tiếp dài-ngắn hạn (LSTM) và mạng Transformer dùng cho phần giải mã.
- Cơ chế chú ý (Attention) giúp mô hình tập trung vào các vùng ảnh quan trọng khi sinh mô tả.
Mô hình Transformer và các biến thể cho thị giác máy tính: Mô hình Transformer với cơ chế multi-head self-attention được áp dụng để xử lý dữ liệu chuỗi và hình ảnh. Các biến thể như Vision Transformer (ViT) và Swin Transformer được sử dụng để cải thiện khả năng trích xuất đặc trưng ảnh với hiệu quả tính toán cao hơn và khả năng xử lý các vùng ảnh có kích thước khác nhau.

Các khái niệm chuyên ngành quan trọng bao gồm: mạng nơ-ron tích chập (CNN), mạng hồi tiếp (RNN), mạng bộ nhớ dài-ngắn hạn (LSTM), cơ chế chú ý (Attention), mạng Transformer, phát hiện đối tượng (Object Detection), và các chỉ số đánh giá mô hình như BLEU, METEOR.

Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm:

Bộ dữ liệu COCO đa lĩnh vực với hàng chục nghìn ảnh và mô tả.
Bộ dữ liệu giao thông Việt Nam gồm khoảng 3000 ảnh kèm mô tả do tác giả xây dựng.

Phương pháp nghiên cứu bao gồm:

Sử dụng các mô hình học sâu đã được huấn luyện sẵn (pre-trained) như ResNet50, InceptionV3, Xception, EfficientNetB0 cho phần mã hóa ảnh.
Kết hợp các mô hình phát hiện đối tượng YOLOv4 để khai thác thông tin vị trí và nhãn đối tượng trong ảnh.
Áp dụng các mô hình giải mã như LSTM có cơ chế chú ý và Transformer để sinh câu mô tả.
Đánh giá mô hình dựa trên các chỉ số BLEU (BLEU-1 đến BLEU-4) và METEOR.
Phân tích kết quả thực nghiệm trên cả hai bộ dữ liệu, so sánh hiệu quả giữa các mô hình.

Timeline nghiên cứu kéo dài trong năm 2023, với các giai đoạn chính gồm thu thập và xử lý dữ liệu, xây dựng mô hình, huấn luyện và đánh giá, phân tích kết quả và hoàn thiện luận văn.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của mô hình CNN-LSTM truyền thống: Các mô hình kết hợp CNN (ResNet50, InceptionV3, Xception, EfficientNetB0) với LSTM cho kết quả điểm BLEU-4 dao động từ 0.25 đến 0.30 trên bộ dữ liệu COCO. Ví dụ, mô hình Xception-LSTM đạt điểm BLEU-4 khoảng 0.29, cho thấy khả năng mô tả ảnh tương đối chính xác.
Tăng cường thông tin với mô hình phát hiện đối tượng và cơ chế chú ý: Khi kết hợp thông tin phát hiện đối tượng từ YOLOv4 và áp dụng cơ chế chú ý (Attention), các mô hình như Xcept-Yolo4-Att-LSTM đạt điểm BLEU-4 lên đến 0.33, tăng khoảng 10% so với mô hình CNN-LSTM cơ bản. Điều này chứng tỏ việc khai thác thông tin vị trí và nhãn đối tượng giúp mô hình hiểu sâu hơn về nội dung ảnh.
Ứng dụng mô hình Transformer trong giải mã: Các mô hình sử dụng Transformer cho phần giải mã, như ViT-Trans và Swin-Trans, đạt điểm BLEU-4 khoảng 0.34-0.35 trên bộ dữ liệu COCO, vượt trội hơn so với các mô hình LSTM truyền thống. Số lượng tham số của các mô hình Transformer lớn hơn, nhưng hiệu quả mô tả được cải thiện rõ rệt.
Kết quả trên bộ dữ liệu giao thông Việt Nam: Trên bộ dữ liệu tự xây dựng gồm 3000 ảnh giao thông, các mô hình kết hợp YOLOv4 và Transformer cũng cho kết quả tốt với điểm BLEU-4 khoảng 0.31, chứng tỏ tính khả thi và ứng dụng thực tế của các mô hình trong môi trường đặc thù.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện hiệu quả mô tả khi sử dụng mô hình phát hiện đối tượng và cơ chế chú ý là do mô hình có thể tập trung vào các vùng ảnh quan trọng, nhận diện chính xác các đối tượng và mối quan hệ giữa chúng. So với các nghiên cứu trước đây chỉ sử dụng CNN để trích xuất đặc trưng, việc bổ sung thông tin vị trí và nhãn đối tượng giúp tăng tính ngữ nghĩa của vector ngữ cảnh.

Mô hình Transformer cho phần giải mã tận dụng cơ chế self-attention giúp xử lý song song và ghi nhớ ngữ cảnh dài hạn hiệu quả hơn LSTM, từ đó tạo ra các câu mô tả tự nhiên và chính xác hơn. Tuy nhiên, các mô hình Transformer đòi hỏi tài nguyên tính toán lớn hơn, gây khó khăn khi triển khai trên thiết bị có cấu hình hạn chế.

Việc thử nghiệm trên bộ dữ liệu giao thông Việt Nam cho thấy các mô hình có thể được tùy chỉnh và áp dụng hiệu quả trong các lĩnh vực chuyên sâu, hỗ trợ các ứng dụng như giám sát giao thông, phân tích hành vi người tham gia giao thông.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh điểm BLEU-4 giữa các mô hình CNN-LSTM, CNN-LSTM có chú ý, và Transformer; bảng thống kê số lượng tham số và thời gian huấn luyện; hình ảnh minh họa các câu mô tả sinh ra từ các mô hình khác nhau.

Đề xuất và khuyến nghị

Tăng cường tích hợp mô hình phát hiện đối tượng trong phần mã hóa: Khuyến nghị sử dụng các mô hình phát hiện đối tượng hiện đại như YOLOv5 hoặc YOLOv8 để khai thác thông tin vị trí và nhãn đối tượng chính xác hơn, nhằm nâng cao chất lượng mô tả. Thời gian thực hiện trong vòng 6 tháng, do các nhóm nghiên cứu và phát triển AI thực hiện.
Ứng dụng mô hình Transformer tối ưu hóa cho thiết bị nhúng: Phát triển các phiên bản Transformer nhẹ (lightweight Transformer) hoặc áp dụng kỹ thuật pruning, quantization để giảm số lượng tham số và yêu cầu tính toán, phù hợp với các ứng dụng thời gian thực trên thiết bị có cấu hình thấp. Thời gian triển khai dự kiến 9-12 tháng, do các nhóm kỹ thuật phần mềm và phần cứng phối hợp thực hiện.
Mở rộng bộ dữ liệu chuyên ngành: Thu thập và xây dựng thêm các bộ dữ liệu ảnh kèm mô tả trong các lĩnh vực chuyên sâu như y tế, môi trường, kỹ thuật để tăng tính đa dạng và khả năng ứng dụng của mô hình. Thời gian thực hiện khoảng 1 năm, do các tổ chức nghiên cứu và doanh nghiệp liên quan phối hợp.
Phát triển hệ thống trợ lý ảo hỗ trợ người khiếm thị: Áp dụng các mô hình sinh mô tả ảnh để xây dựng hệ thống trợ lý ảo có khả năng mô tả hình ảnh theo thời gian thực, hỗ trợ người khiếm thị trong sinh hoạt và di chuyển. Thời gian phát triển dự kiến 1-2 năm, do các nhóm phát triển phần mềm và tổ chức xã hội phối hợp.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Dữ liệu, Thị giác máy tính: Luận văn cung cấp kiến thức nền tảng và các mô hình học sâu hiện đại, giúp họ hiểu rõ các phương pháp sinh mô tả ảnh và áp dụng trong nghiên cứu.
Chuyên gia phát triển hệ thống AI và ứng dụng: Các kỹ sư và nhà phát triển phần mềm có thể tham khảo để xây dựng các hệ thống tự động mô tả hình ảnh, trợ lý ảo, hoặc các ứng dụng quản lý dữ liệu ảnh.
Doanh nghiệp trong lĩnh vực y tế, giao thông, môi trường: Các tổ chức này có thể áp dụng các mô hình và phương pháp trong luận văn để phát triển các giải pháp tự động phân tích và báo cáo dựa trên dữ liệu hình ảnh chuyên ngành.
Nhóm phát triển công nghệ hỗ trợ người khuyết tật: Luận văn cung cấp cơ sở khoa học để phát triển các công cụ trợ giúp người khiếm thị thông qua mô tả hình ảnh tự động, nâng cao chất lượng cuộc sống.

Câu hỏi thường gặp

Sinh mô tả hình ảnh là gì và tại sao nó quan trọng?
Sinh mô tả hình ảnh là quá trình tự động tạo ra câu mô tả nội dung của một bức ảnh bằng ngôn ngữ tự nhiên. Nó quan trọng vì giúp quản lý, tìm kiếm và khai thác dữ liệu ảnh hiệu quả, hỗ trợ người khiếm thị và phát triển các ứng dụng AI thông minh.
Các mô hình học sâu nào được sử dụng phổ biến trong sinh mô tả ảnh?
Các mô hình phổ biến gồm mạng nơ-ron tích chập (CNN) để trích xuất đặc trưng ảnh, mạng hồi tiếp dài-ngắn hạn (LSTM) và Transformer để sinh câu mô tả. Kết hợp cơ chế chú ý giúp cải thiện chất lượng mô tả.
Điểm BLEU và METEOR dùng để đánh giá mô hình như thế nào?
BLEU đo độ chính xác của câu mô tả dự đoán so với câu tham chiếu dựa trên các cụm từ n-gram, trong khi METEOR đánh giá dựa trên sự khớp từ đơn và cụm từ, có tính đến thứ tự và ngữ nghĩa. Cả hai đều phản ánh chất lượng mô tả.
Mô hình Transformer có ưu điểm gì so với LSTM trong bài toán này?
Transformer xử lý dữ liệu song song, ghi nhớ ngữ cảnh dài hạn hiệu quả hơn và cho kết quả chính xác hơn. Tuy nhiên, nó yêu cầu tài nguyên tính toán lớn hơn, gây khó khăn khi triển khai trên thiết bị hạn chế.
Làm thế nào để áp dụng mô hình sinh mô tả ảnh trong thực tế?
Có thể tích hợp mô hình vào hệ thống quản lý ảnh, trợ lý ảo, hoặc các ứng dụng chuyên ngành như giám sát giao thông, y tế. Cần tối ưu mô hình để phù hợp với yêu cầu thời gian thực và cấu hình phần cứng.

Kết luận

Luận văn đã nghiên cứu và đánh giá hiệu quả của một số mô hình học máy hiện đại trong sinh mô tả hình ảnh, bao gồm CNN-LSTM, mô hình kết hợp phát hiện đối tượng và cơ chế chú ý, cũng như các mô hình Transformer tiên tiến.
Kết quả thực nghiệm trên bộ dữ liệu COCO và bộ dữ liệu giao thông Việt Nam cho thấy mô hình kết hợp phát hiện đối tượng và Transformer đạt điểm BLEU-4 cao nhất, cải thiện đáng kể so với các mô hình truyền thống.
Nghiên cứu góp phần làm rõ vai trò của các kiến trúc mã hóa - giải mã và cơ chế chú ý trong việc nâng cao chất lượng mô tả ảnh, đồng thời đề xuất hướng phát triển phù hợp với các ứng dụng thực tế.
Các đề xuất về tích hợp mô hình phát hiện đối tượng hiện đại, tối ưu Transformer cho thiết bị nhúng và mở rộng bộ dữ liệu chuyên ngành được đưa ra nhằm nâng cao tính ứng dụng và hiệu quả của mô hình.
Các bước tiếp theo bao gồm phát triển mô hình nhẹ hơn, mở rộng dữ liệu và triển khai ứng dụng trong các lĩnh vực chuyên sâu, đồng thời tiếp nhận phản hồi để hoàn thiện nghiên cứu.

Để tiếp tục phát triển lĩnh vực này, các nhà nghiên cứu và chuyên gia công nghệ được khuyến khích áp dụng và thử nghiệm các mô hình đã được đề xuất, đồng thời đóng góp ý kiến để nâng cao chất lượng và tính ứng dụng của các hệ thống sinh mô tả hình ảnh.

Chủ đề

Học máy và xử lý ảnh

Mô tả hình ảnh tự động

Ứng dụng của AI trong multimedia

Nghiên cứu về deep learning trong image captioning