MỘT SỐ MÔ HÌNH HỌC MÁY TRONG MÔ TẢ HÌNH ẢNH

Chuyên ngành

Khoa Học Dữ Liệu

Người đăng

Ẩn danh

2023

104
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Tổng Quan Về Ứng Dụng Học Máy Trong Mô Tả Ảnh

Bài toán mô tả hình ảnh (image captioning) đang thu hút sự quan tâm lớn trong lĩnh vực thị giác máy tính. Mục tiêu là tự động tạo ra mô tả bằng ngôn ngữ tự nhiên cho hình ảnh, thường gói gọn trong một câu. Đây là sự kết hợp giữa Computer Vision (CV)Natural Language Processing (NLP). Ứng dụng rộng rãi, từ quản lý ảnh theo nội dung đến xây dựng trợ lý ảo. Nhu cầu khai thác dữ liệu ảnh thúc đẩy nghiên cứu, giúp máy tính diễn giải thế giới hình ảnh như con người. Tuy nhiên, nhiệm vụ này đòi hỏi hiểu biết sâu sắc về ngữ nghĩa hình ảnh và khả năng diễn đạt thông tin một cách tự nhiên.

1.1. Lịch sử Phát triển của Mô hình Học Máy trong Mô Tả Hình Ảnh

Từ những năm 2000, các cách tiếp cận ban đầu như hạn chế khuôn mẫu nội dung hình ảnh, dựa trên truy xuất hoặc khuôn mẫu, đều cho kết quả hạn chế. Bước đột phá chỉ đến khi các mạng học sâu ra đời và được ứng dụng rộng rãi. Nhiều tác giả tiếp cận theo hướng kết hợp các mô hình học sâu trích xuất đặc trưng hình ảnh như mạng nơ-ron tích chập (CNN) với các mô hình xử lý ngôn ngữ. Các mô hình này được sử dụng để kết xuất nội dung mô tả ảnh. Deep Learning đã thực sự thay đổi cách chúng ta tiếp cận bài toán này.

1.2. Ứng Dụng Tiềm Năng của Mô Tả Hình Ảnh trong Thực Tế

Vấn đề sinh mô tả hình ảnh có nhiều ứng dụng thực tế, trước hết do lượng dữ liệu ảnh số được thu thập và lưu trữ ngày càng nhiều. Có thể kể đến lập chỉ mục và quản lý hình ảnh theo nội dung, xây dựng hệ thống trợ lý ảo dựa trên dữ liệu hình ảnh, tạo báo cáo tự động từ dữ liệu ảnh trong các lĩnh vực chuyên sâu (y tế, môi trường, kỹ thuật), điều khiển phương tiện tự lái hay giúp đỡ người khiếm thị.

II. Thách Thức Trong Ứng Dụng Mô Hình Học Máy Mô Tả Ảnh

Việc sinh mô tả hình ảnh không chỉ yêu cầu mức độ hiểu biết cao về nội dung ngữ nghĩa của hình ảnh mà còn cần diễn đạt thông tin giống như con người. Xác định sự hiện diện, thuộc tính và mối quan hệ của các đối tượng trong ảnh không dễ. Tổ chức một câu để mô tả thông tin như vậy càng khó khăn hơn. Để đạt được mục tiêu này, nhiều nghiên cứu đã được thực hiện với nhiều cách tiếp cận khác nhau. Việc đánh giá hiệu quả của các mô hình cũng là một thách thức lớn, cần các Evaluation Metrics phù hợp.

2.1. Vấn đề Hiểu Ngữ Cảnh và Mối Quan Hệ Giữa Các Đối Tượng

Các câu mô tả, bên cạnh việc chỉ ra các đối tượng, còn cần có thông tin về sự liên hệ giữa chúng. Điều này khó có thể cung cấp bởi các mạng CNN, vì đầu ra của các mạng này thường chỉ chứa thông tin về phân loại đối tượng cũng như xác suất của chúng. Cần các mô hình có khả năng hiểu được ngữ cảnh chung của bức ảnh, từ đó đưa ra các mô tả chính xác và phù hợp.

2.2. Khó khăn trong việc diễn đạt thông tin chính xác và tự nhiên

Việc diễn đạt thông tin chính xác và tự nhiên là một thách thức lớn. Các mô hình cần tạo ra các câu mô tả không chỉ đúng về mặt nội dung mà còn phải có cấu trúc ngữ pháp tốt và sử dụng ngôn ngữ một cách mượt mà, giống như con người. Điều này đòi hỏi sự kết hợp giữa khả năng Computer VisionNatural Language Processing (NLP).

2.3. Hạn chế về Dataset và nguồn dữ liệu huấn luyện

Chất lượng và số lượng của Dataset ảnh hưởng lớn đến hiệu suất của các mô hình học máy. Việc thu thập và gán nhãn dữ liệu hình ảnh là tốn kém và mất thời gian. Hơn nữa, cần có các Dataset đa dạng, bao phủ nhiều loại hình ảnh khác nhau để mô hình có thể hoạt động tốt trong nhiều tình huống thực tế.

III. CNN LSTM Phương Pháp Phổ Biến Trong Mô Tả Hình Ảnh

Nhiều tác giả đã tiếp cận bài toán theo hướng kết hợp các mô hình học sâu trích xuất đặc trưng của hình ảnh, như mạng nơ-ron tích chập (CNN), với các mô hình xử lý ngôn ngữ để kết xuất nội dung mô tả. Với cảm hứng từ thành công của các mô hình học sâu áp dụng cho bài toán dịch máy, nhiều nhà nghiên cứu đã tiếp cận bài toán mô tả hình ảnh như một dạng dịch máy. Kiến trúc mã hóa – giải mã (encoder-decoder) được sử dụng rộng rãi, trong đó chúng ta cần “dịch” từ “ngôn ngữ hình ảnh” sang ngôn ngữ tự nhiên.

3.1. Ứng Dụng Mạng CNN để Trích Xuất Đặc Trưng Hình Ảnh Hiệu Quả

Trong kiến trúc mã hóa – giải mã, các mạng CNN được sử dụng cho phần mã hóa dựa trên việc các mạng này đã được sử dụng để trích xuất đặc trưng, là biểu diễn số của các nội dung trong ảnh như loại đối tượng, độ tin cậy của đối tượng đó. Các nghiên cứu giai đoạn này đơn giản lấy vec-tơ đặc trưng trích xuất từ ảnh qua một mạng CNN và coi đó như là vec-tơ nội dung để gửi sang phần mã hóa.

3.2. Sử dụng LSTM cho khả năng tạo mô tả văn bản tự nhiên

Nhiều nghiên cứu sử dụng các mô hình dạng mạng nơ-ron tái phát (RNN), sau đó là các mạng bộ nhớ dài ngắn (LSTM) đã sớm được áp dụng cho phần giải mã. Khi cơ chế chú ý (Attention) được đề xuất cho bài toán dịch máy, các nghiên cứu về vấn đề sinh mô tả ảnh cũng đã cố gắng áp dụng cơ chế này cho phần giải mã dưới dạng các tầng độc lập (attention layers).

3.3. Ưu Điểm và hạn chế của phương pháp CNN LSTM

Tiếp cận theo hướng CNN-LSTM đạt được những kết quả nhất định, nhưng cũng có những hạn chế. Đó là các câu mô tả bên cạnh chỉ ra các đối tượng thì còn cần có thông tin về sự liên hệ giữa chúng, nhưng điều này khó có thể cung cấp bởi các mạng CNN vì đầu ra của các mạng này thường chỉ chứa thông tin về phân loại đối tượng cũng như xác suất của chúng.

IV. Khai Thác Thông Tin Đối Tượng Giải Pháp Nâng Cao Mô Tả Ảnh

Một bài toán quan trọng khác của thị giác máy tính là vấn đề phát hiện đối tượng (object detection) đã đạt được nhiều tiến bộ đáng kể. Bài toán phát hiện đối tượng không chỉ đưa ra các đối tượng trong hình ảnh, mà còn chỉ ra vị trí của chúng. Một số nghiên cứu đã cố gắng sử dụng các mô hình phát hiện đối tượng như là phần mã hóa cho các mô hình sinh mô tả ảnh theo kiểu mã hóa – giải mã.

4.1. Kết hợp Thông Tin từ Mô Hình Phát Hiện Đối Tượng YOLO

Tiêu biểu cho hướng này có thể kể đến nghiên cứu kết hợp thông tin trích xuất từ một mạng CNN, kết hợp với thông tin từ mô hình phát hiện đối tượng YOLO như là thông tin nội dung (context vector) để gửi sang phần giải mã (sử dụng LSTM và cơ chế chú ý như tầng độc lập). Thực nghiệm cho thấy hướng tiếp cận này cho kết quả vượt trội so với các mô hình chỉ sử dụng mạng CNN, khi kết hợp với cùng kiến trúc giải mã.

4.2. Lợi ích của việc xác định vị trí đối tượng và thuộc tính hình ảnh

Việc xác định vị trí đối tượng giúp mô hình hiểu rõ hơn về bố cục và cấu trúc của hình ảnh. Thông tin về thuộc tính của đối tượng (ví dụ: màu sắc, kích thước, hình dạng) cung cấp thêm ngữ cảnh cho việc tạo mô tả. Sự kết hợp này giúp tạo ra các mô tả chi tiết và chính xác hơn.

4.3. Hạn chế của việc chỉ tập trung vào một số đối tượng chính

Mặc dù bản thân phần phát hiện đối tượng đã sử dụng các mạng CNN, các mô hình dạng này vẫn cần kết hợp thông tin với một nhánh CNN khác. Có thể giải thích một cách định tính là các mô hình phát hiện đối tượng được áp dụng ở đây chỉ nhằm vào một số đối tượng chính, do đó nhiều thông tin từ các mạng tích chập xương sống đã bị bỏ qua. Việc phải sử dụng thêm một mạng CNN để có thông tin bổ sung vẫn là một hạn chế.

V. Mô Hình Transformer Bước Tiến Mới Trong Mô Tả Hình Ảnh

Sự ra đời của mô hình transformer đã đem lại bước tiến bộ vượt bậc cho các mô hình xử lý ngôn ngữ nói chung và mô hình dịch máy nói riêng. Điều này trở thành sự cổ vũ cho nhiều nghiên cứu hướng vào việc tìm một phương pháp tương tự transformer cho các vấn đề trong xử lý hình ảnh, thị giác máy tính. Nhiều nghiên cứu cũng chỉ ra rằng phần giải mã đạt hiệu quả cao khi thông tin được gửi từ phần mã hóa đầy đủ.

5.1. Ứng Dụng Cơ Chế Chú Ý của Transformer trong Thị Giác Máy Tính

Các ý tưởng đầu tiên sử dụng việc khai thác các bản đồ đặc trưng (feature maps) ở đầu ra của mạng CNN, sau đó áp dụng các cơ chế chú ý của transformer như multi head self attention lên các đặc trưng này. Các nghiên cứu này đã cho thấy những hiệu quả nhất định, nhưng nó vẫn phải dựa trên một kiến trúc CNN nào đó.

5.2. Mô hình ViT Bỏ Qua Kiến Trúc CNN Truyền Thống

Năm 2021, mô hình ViT đề xuất một mô hình thực sự áp dụng dạng transformer cho thị giác máy tính, trong đó có thể bỏ qua các kiến trúc dạng như CNN. Trong nghiên cứu này, các tác giả đã chia ảnh thành các khối cùng kích thước, sau đó xử lý các khối này giống như là các đơn nguyên trong ngôn ngữ tự nhiên (token) bằng mô hình transformer.

5.3. Cải Tiến với Mô Hình Swin Transformer và Cửa Sổ Trượt

Để cải thiện, mô hình Swin Transformer ra đời, trong đó ý tưởng chính là sẽ chia ảnh theo nhiều độ phân giải khác nhau. Sau đó sử dụng cơ chế cửa sổ trượt để kết hợp các vùng lại và từ đó các đơn nguyên được đưa vào phần transformer sẽ đại diện cho các vùng có kích thước khác nhau. Cải tiến này đã đem lại hiệu quả hơn hẳn so với các mô hình ViT.

VI. Kết Luận Hướng Phát Triển Ứng Dụng Học Máy Mô Tả Ảnh

Bài toán tạo mô tả hình ảnh có tính thực tiễn, ý nghĩa khoa học và sự thú vị. Mặc dù đã có nhiều tiến bộ, vẫn còn nhiều thách thức cần vượt qua. Các hướng nghiên cứu tiếp theo có thể tập trung vào việc cải thiện khả năng hiểu ngữ cảnh, tăng cường tính sáng tạo của mô hình, và phát triển các phương pháp đánh giá hiệu quả hơn. Ứng dụng thực tế của bài toán này rất rộng mở và tiềm năng.

6.1. Tối Ưu Hóa Hiệu Năng và Giảm Yêu Cầu Tính Toán

Việc huấn luyện các mô hình transformer như ViT hay Swin Transformer là khá phức tạp và số tham số cũng như yêu cầu khối lượng tính toán lớn, đòi hỏi cấu hình thiết bị khá mạnh khi cài đặt và thực thi. Cần có các phương pháp tối ưu hóa để giảm yêu cầu tính toán và cho phép triển khai trên các thiết bị có cấu hình hạn chế.

6.2. Phát Triển Mô Hình Mô Tả Ảnh Phù Hợp Với Dữ Liệu Việt Nam

Nhiều lĩnh vực ứng dụng của vấn đề sinh mô tả ảnh lại đòi hỏi thời gian thực hiện nhanh, thậm chí tiệm cận thời gian thực, trong lúc đó cấu hình hệ thống lại hạn chế, thậm chí cho phép nhúng trên thiết bị. Cần phát triển các mô hình được huấn luyện trên dữ liệu ảnh Việt Nam để đạt hiệu suất tốt nhất.

6.3. Tiềm Năng Ứng Dụng Trong Các Lĩnh Vực Khác Nhau

Ứng dụng của mô tả hình ảnh có tiềm năng lớn trong nhiều lĩnh vực, bao gồm hỗ trợ người khuyết tật, tự động hóa quy trình sản xuất, giám sát an ninh, và phát triển các ứng dụng tương tác người-máy. Việc nghiên cứu và phát triển các mô hình hiệu quả và chính xác sẽ mở ra nhiều cơ hội mới.

15/05/2025

TÀI LIỆU LIÊN QUAN

Một số mô hình học máy trong mô tả hình ảnh
Bạn đang xem trước tài liệu : Một số mô hình học máy trong mô tả hình ảnh

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống