Kiến Trúc Transformer Đơn Giản Hóa Phát Hiện Tương Tác Giữa Người Và Đối Tượng

Trường đại học

Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

khóa luận tốt nghiệp

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: ĐỘNG LỰC NGHIÊN CỨU

1.1. Phát biểu bài toán

1.2. Các thách thức

1.3. Mục tiêu và phạm vi nghiên cứu

1.4. Đóng góp của nghiên cứu

1.5. Bố cục của luận văn

2. CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN

2.1. Các bài toán Nhận thức thị giác (Visual Perception Tasks)

2.2. Bài toán Phân loại hình ảnh (Image Classification)

2.3. Bài toán Phát hiện đối tượng (Object Detection)

2.4. Bài toán Ước lượng tư thế người (Human Pose Estimation)

2.5. Các bài toán Hiểu thị giác (Visual Understanding Tasks)

2.6. Bài toán Phát hiện tương tác giữa con người và đối tượng (Human-Object Interaction Detection)

2.6.1. Mô hình hoá bài toán

2.6.2. Các hướng tiếp cận chính

2.6.2.1. Hướng tiếp cận với các mô hình tuần tự

2.6.2.2. Hướng tiếp cận với các mô hình song song

2.6.2.3. Hướng tiếp cận với mô hình dựa trên Transformer

2.6.3. Bộ dữ liệu và độ đo

3. CHƯƠNG 3: PHƯƠNG PHÁP ĐỀ XUẤT

3.1. Tổng quan phương pháp đề xuất

3.2. Phương pháp cơ sở HOTR

3.3. Mô-đun Semantic-Guided

3.4. Mô-đun Multi-Level Cross-Attention

3.5. Mô-đun Enhanced Instance Pointers

3.6. Mô-đun Cross-Attention Semantic Queries

3.7. Bộ dữ liệu

3.7.1. Bộ dữ liệu V-COCO

3.7.2. Bộ dữ liệu HICO-DET

3.8. Intersection over Union (IOU)

3.9. Recall và Precision

3.10. True Positive trong bài toán phát hiện tương tác người vật

3.11. Cài đặt chi tiết

4. CHƯƠNG 4: CÁC KẾT QUẢ CHÍNH

4.1. Phân tích kết quả trực quan hóa

4.2. Nghiên cứu tác động của từng mô-đun

4.2.1. Enhanced Instance Pointers (EIP)

4.2.2. Semantic-guided mechanism (S)

4.2.3. Multi-level cross-attention (MCA)

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

PHỤ LỤC CÔNG TRÌNH NGHIÊN CỨU

Phụ lục 1: Toàn văn bài báo của nhóm tác giả tại tạp chí Pattern Recognition Letters (2023) (Đang phản biện round 2)

Phụ lục 2: Toàn văn bài báo của nhóm tác giả tại hội nghị MAPR 2023 (Đã Cuộc cố ẦỐ)

DANH MỤC CÔNG TRÌNH CỦA NHÓM TÁC GIẢ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Kiến Trúc Transformer Trong Phát Hiện Tương Tác

Kiến trúc Transformer đã trở thành một trong những công nghệ tiên tiến nhất trong lĩnh vực thị giác máy tính, đặc biệt là trong bài toán phát hiện tương tác giữa người và đối tượng (HOI). Mô hình này cho phép xử lý thông tin một cách hiệu quả, giúp nhận diện các mối quan hệ phức tạp giữa người và vật thể trong hình ảnh. Việc áp dụng kiến trúc này không chỉ cải thiện độ chính xác mà còn giảm thiểu thời gian xử lý, mở ra nhiều cơ hội mới cho các ứng dụng thực tiễn.

1.1. Khái Niệm Về Kiến Trúc Transformer

Kiến trúc Transformer là một mô hình học sâu được giới thiệu lần đầu tiên trong bài báo 'Attention is All You Need'. Mô hình này sử dụng cơ chế chú ý (attention mechanism) để xử lý thông tin, cho phép nó học được các mối quan hệ phức tạp giữa các đối tượng trong hình ảnh.

1.2. Lợi Ích Của Việc Sử Dụng Transformer Trong HOI

Việc sử dụng Transformer trong phát hiện tương tác giữa người và đối tượng mang lại nhiều lợi ích, bao gồm khả năng xử lý đồng thời nhiều thông tin và cải thiện độ chính xác trong việc nhận diện các hành động phức tạp.

II. Thách Thức Trong Phát Hiện Tương Tác Giữa Người Và Đối Tượng

Bài toán phát hiện tương tác giữa người và đối tượng gặp phải nhiều thách thức lớn. Các tương tác có thể rất đa dạng và phức tạp, từ việc một người tương tác với nhiều vật thể đến nhiều người cùng tương tác với một vật thể. Những thách thức này đòi hỏi các mô hình phải có khả năng nhận diện và phân tích chính xác các mối quan hệ trong bối cảnh đa dạng.

2.1. Độ Phức Tạp Của Tương Tác

Tương tác giữa người và vật thể có thể diễn ra trong nhiều bối cảnh khác nhau, từ đơn giản đến phức tạp. Điều này tạo ra khó khăn trong việc phát hiện và phân tích chính xác các hành động.

2.2. Hạn Chế Của Các Mô Hình Hiện Tại

Nhiều mô hình hiện tại vẫn gặp khó khăn trong việc xử lý các tương tác phức tạp, thường phải dựa vào các bước hậu xử lý bổ sung, dẫn đến hiệu suất không tối ưu.

III. Phương Pháp Đề Xuất Mô Hình HOI Dựa Trên Transformer

Mô hình HOST (Human-Object Semantic Transformer) được đề xuất nhằm cải thiện hiệu suất phát hiện tương tác giữa người và đối tượng. Mô hình này tích hợp các cơ chế mới như Semantic-Guided, Multi-Level Cross-Attention và Enhanced Instance Pointers để tối ưu hóa quá trình nhận diện và phân tích tương tác.

3.1. Cơ Chế Semantic Guided

Cơ chế này giúp mô hình tận dụng thông tin ngữ nghĩa từ nhãn đối tượng, cung cấp các tiên đề hữu ích cho việc nhận diện tương tác.

3.2. Multi Level Cross Attention

Kỹ thuật này cho phép mô hình kết hợp thông tin từ nhiều lớp khác nhau, giúp cải thiện khả năng nhận diện các mối quan hệ phức tạp giữa người và vật thể.

3.3. Enhanced Instance Pointers

Cơ chế này giúp cải thiện khả năng biểu diễn thể hiện của vật thể, từ đó nâng cao độ chính xác trong việc phát hiện tương tác.

IV. Ứng Dụng Thực Tiễn Của Mô Hình HOST

Mô hình HOST không chỉ có giá trị trong nghiên cứu mà còn có nhiều ứng dụng thực tiễn. Từ xe tự hành đến robot hợp tác, việc phát hiện chính xác tương tác giữa người và đối tượng có thể cải thiện hiệu suất và độ an toàn trong các hệ thống tự động.

4.1. Ứng Dụng Trong Xe Tự Hành

Việc phát hiện tương tác giữa người và đối tượng là rất quan trọng trong lĩnh vực xe tự hành, giúp hệ thống nhận diện và phản ứng kịp thời với các tình huống giao thông.

4.2. Ứng Dụng Trong Robot Hợp Tác

Robot hợp tác có thể sử dụng mô hình HOST để nhận diện và tương tác với con người một cách tự nhiên và hiệu quả hơn.

V. Kết Luận Và Hướng Phát Triển Tương Lai

Mô hình HOST đã chứng minh được tiềm năng trong việc phát hiện tương tác giữa người và đối tượng. Tuy nhiên, vẫn còn nhiều thách thức cần được giải quyết. Hướng phát triển tương lai có thể bao gồm việc cải thiện khả năng xử lý các tương tác phức tạp hơn và mở rộng ứng dụng của mô hình trong các lĩnh vực khác.

5.1. Cải Thiện Khả Năng Xử Lý

Cần nghiên cứu thêm để cải thiện khả năng xử lý các tương tác phức tạp giữa nhiều người và vật thể trong một hình ảnh.

5.2. Mở Rộng Ứng Dụng

Mô hình có thể được áp dụng trong nhiều lĩnh vực khác nhau, từ y tế đến giáo dục, giúp nâng cao hiệu quả và độ chính xác trong các hệ thống tự động.

10/07/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp khoa học máy tính kiến trúc transformer thống nhất cho bài toán phát hiện tương tác giữa người và đối tượng

Tải đầy đủ

Tài liệu "Kiến Trúc Transformer Đơn Giản Hóa Phát Hiện Tương Tác Giữa Người Và Đối Tượng" cung cấp cái nhìn sâu sắc về cách mà kiến trúc Transformer có thể được áp dụng để cải thiện khả năng phát hiện tương tác giữa con người và các đối tượng trong môi trường xung quanh. Bài viết nhấn mạnh những lợi ích của việc sử dụng mô hình này, bao gồm khả năng xử lý thông tin hiệu quả và chính xác hơn, từ đó nâng cao trải nghiệm người dùng trong các ứng dụng thực tế.

Để mở rộng kiến thức của bạn về các kỹ thuật liên quan, bạn có thể tham khảo tài liệu Khóa luận tốt nghiệp khoa học máy tính chuyển đổi phong cách ảnh dựa trên câu mô tả tự nhiên khai thác lớp ngữ nghĩa cục bộ, nơi khám phá cách chuyển đổi phong cách ảnh thông qua ngữ nghĩa. Ngoài ra, tài liệu Nghiên cứu một số kỹ thuật xử lý ảnh trong phát hiện và theo vết đối tượng dựa vào camera sẽ cung cấp thêm thông tin về các kỹ thuật xử lý ảnh hữu ích trong việc phát hiện và theo dõi đối tượng. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về lĩnh vực này và mở rộng kiến thức của mình.

#thị giác máy tính

#kiến trúc transformer

#Phát hiện tương tác người-vật

#Mô hình HOTR

#Đối tượng và hành động

#Cải tiến mô hình HOI

Chủ đề

Thách thức trong thị giác máy tính

Nghiên cứu về phát hiện tương tác

Ứng dụng của mô hình Transformer

Phương pháp cải tiến hiệu suất mô hình