Tìm Hiểu Kiến Trúc Mô Hình Transformer và Ứng Dụng Trong Phát Hiện Đối Tượng

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

DANH MỤC CÁC TỪ VIẾT TẮT

NHỮNG ĐÓNG GÓP CHÍNH

MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN

1.1. Đặt vấn đề

1.2. Phát biểu bài toán

1.3. Các thách thức

1.4. Mục tiêu và phạm vi của luận văn

1.5. Bố cục của luận văn

2. CÁC NGHIÊN CỨU LIÊN QUAN

2.1. Các phương pháp phát hiện đối tượng trong ảnh dựa trên học sâu

2.2. Machine Learning vs. One-stage detector và Two-stage detector

2.3. Các mô hình dựa trên phương pháp học sâu (Deep Learning)

2.3.1. Mạng học sâu

2.3.2. Mạng nơron nhân tạo

2.3.3. Mạng nơron hồi quy

2.3.4. Mạng nơron tích chập - Convolutional Neural Network

2.3.5. Mô hình Encoder-Decoder - Seq2Seq

2.3.6. Soft Attention và Hard Attention

3. PHƯƠNG PHÁP PHÁT HIỆN ĐỐI TƯỢNG TRANSFORMERS - DETR

3.1. Giới thiệu tổng quan về mô hình Transformer

3.2. Mô hình Transformers và mô hình RNNs

3.3. Chi tiết kiến trúc mô hình Transformers

3.3.1. Biểu diễn cấu trúc dữ liệu thông tin đầu vào — Embedding Vector

3.3.2. Mã hóa vị trí thông tin — Positional Encoding

3.3.3. Lớp mã hóa — Encoder layer

3.3.4. Lớp giải mã — Decoders

3.3.5. Kiến trúc Transformers trong thị giác máy tính

4. THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Bộ dữ liệu thực nghiệm

4.1.1. Bộ dữ liệu VisDrone2019

4.1.2. Bộ dữ liệu XDUA

4.2. Phương pháp thực nghiệm

4.2.1. Khảo sát các hàm chi phí IoU và L1

4.2.2. Mean Average Precision (mAP)

4.2.3. Intersection over Union (IoU)

4.2.4. Hàm chi phí Smooth L1

4.2.5. Hàm chi phí Balanced L1

4.3. Kết quả thực nghiệm, đánh giá kết quả và bàn luận

4.3.1. Bộ dữ liệu VisDrone2019

4.3.2. Bộ dữ liệu XDUA

5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Kết luận

5.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

PHỤ LỤC

Tóm tắt

I. Tổng Quan về Kiến Trúc Mô Hình Transformer và Ứng Dụng

Bài toán phát hiện đối tượng là một nhiệm vụ cơ bản và đầy thách thức trong lĩnh vực xử lý hình ảnh và thị giác máy tính. Đây là một chủ đề nghiên cứu quan trọng trong nhiều thập kỷ. Sự phát triển mạnh mẽ trong hai thập kỷ gần đây có thể được xem là một sự bùng nổ trong lịch sử thị giác máy tính. Các phương pháp này đóng vai trò chính trong việc giúp máy tính hiểu được ngữ nghĩa của bối cảnh trong hình ảnh. Nhờ đó, máy tính có thể phát hiện các đối tượng khác nhau. Phát hiện đối tượng có nhiều ứng dụng trong thị giác như: robot, lái xe tự động, tương tác giữa người và máy tính, giám sát video thông minh. Công nghệ học sâu đã mang lại những đột phá đáng kể trong những năm gần đây. Đặc biệt, các kỹ thuật này đã góp phần tạo thêm sự phát triển đáng kể cho việc phát hiện đối tượng.

1.1. Bài Toán Phát Hiện Đối Tượng và Các Ứng Dụng

Bài toán phát hiện đối tượng hiện nay được sử dụng rộng rãi trong nhiều tình huống thực tế. Tùy vào từng mục đích cụ thể mà ứng dụng phát hiện đối tượng khác nhau, từ bảo vệ an ninh cá nhân đến nâng cao năng suất tại nơi làm việc. Một số nghiên cứu đáng chú ý về phát hiện đối tượng cụ thể như phát hiện khuôn mặt, phát hiện người đi bộ và phát hiện phương tiện giao thông. Gần đây, cộng đồng nghiên cứu đã tập trung nhiều vào lĩnh vực học sâu và các ứng dụng của nó đối với các nhiệm vụ nhận dạng và truy vết đối tượng.

1.2. Thách Thức trong Phát Hiện Đối Tượng từ Không Ảnh

Một số thách thức phổ biến khi áp dụng phương pháp phát hiện đối tượng trong không ảnh bao gồm: góc nhìn, độ chiếu sáng, biến thể tỷ lệ, phối cảnh, biến thể lớp đối tượng, độ phân giải thấp và hiện tượng đối tượng bị chia cắt. Bài toán phát hiện đối tượng ngày càng nhận được sự quan tâm đáng kể từ cộng đồng nên sự cạnh tranh, thách thức đối với bài toán phát hiện đối tượng ngày càng tăng. Việc nhận dạng và phân loại đối tượng được thể hiện rõ ràng trong ảnh, cho tới những đối tượng bị che, thiếu ánh sáng, phát hiện đối tượng vào ban đêm và cho đến những đối tượng nhỏ được chụp từ trên cao như phát hiện người đi bộ hay phương tiện giao thông từ những cảnh đông đúc với nhiều lớp chồng chéo, tắc nghẽn và hình ảnh có độ phân giải thấp.

II. Tổng Quan Các Phương Pháp Phát Hiện Đối Tượng Hiện Đại

Trong những năm gần đây, ngày càng có nhiều sự quan tâm đến máy bay không người lái và các ứng dụng của chúng trong giám sát video, tìm kiếm và cứu nạn. Máy bay không người lái hiện là thiết bị phổ biến cho phép ghi lại hoặc chụp nhiều cảnh từ trên cao. Trong vài năm qua, mạng nơ-ron tích chập (Convolutional Neural Network - CNN) đã mang lại những đột phá trong lĩnh vực AI như xử lý giọng nói, âm thanh, hình ảnh và video. CNN đã thúc đẩy tiến bộ đáng chú ý trong nhận dạng hình ảnh và phát hiện đối tượng. Nhiều kiến trúc CNN thành công, ví dụ: R-CNN, Fast R-CNN, Faster R-CNN và họ các mô hình YOLO đã thực hiện tốt nhiệm vụ phát hiện đối tượng.

2.1. Ứng Dụng Học Sâu Deep Learning Trong Phát Hiện Đối Tượng

Công nghệ học sâu đã mang lại những đột phá đáng kê trong những năm gan đây. Các kỹ thuật này đã góp phần tạo thêm sự phát triển đáng kể cho việc phát hiện đối tượng. Trước đây, các phương pháp chủ yếu hướng vào việc phát hiện đối tượng trong những danh mục phổ biến, tính năng phát hiện đối tượng có thể phát hiện một đối tượng cụ thể được định nghĩa một cách rõ ràng, ví dụ như là khuôn mặt của diễn viên nổi tiếng, tháp nghiêng Pisa, Cầu Cổng Vàng Chicago; hoặc các đối tượng thuộc các danh mục cụ thể như con người, ô tô, xe đạp.

2.2. Các Mô Hình Phát Hiện Đối Tượng Tiên Tiến YOLO SSD Faster R CNN

Các mô hình như YOLOv4 là các mô hình tiên tiến nhất, đạt được nhiều kết quả tốt trên các tập dữ liệu phổ biến như PASCAL-VOC, ImageNet Large Scale Visual Recognition Challenge - ILSVRC, MS-COCO. Các mô hình phát hiện đối tượng một giai đoạn như YOLO và SSD có ưu điểm về tốc độ so với các mô hình hai giai đoạn như Faster R-CNN. Tuy nhiên, Faster R-CNN thường đạt độ chính xác cao hơn, đặc biệt là với các đối tượng nhỏ.

III. Kiến Trúc Mô Hình Transformer và Cơ Chế Self Attention

Kiến trúc Transformer là một kiến trúc mạng nơ-ron dựa trên cơ chế self-attention, cho phép mô hình tập trung vào các phần khác nhau của dữ liệu đầu vào khi thực hiện các dự đoán. Kiến trúc Transformer được giới thiệu lần đầu tiên trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và đã đạt được những thành công đáng kể. Cơ chế self-attention cho phép mô hình xác định mối quan hệ giữa các từ trong một câu, giúp cải thiện khả năng hiểu và tạo ra ngôn ngữ tự nhiên.

3.1. Cơ Chế Self Attention và Multi Head Attention

Cơ chế self-attention là trái tim của kiến trúc Transformer. Nó cho phép mô hình tính toán trọng số cho mỗi vị trí trong chuỗi đầu vào, thể hiện mức độ liên quan của vị trí đó đến các vị trí khác. Multi-Head Attention là một cải tiến của self-attention, sử dụng nhiều "đầu" attention song song để học các mối quan hệ khác nhau giữa các vị trí. Điều này giúp mô hình nắm bắt thông tin phong phú hơn.

3.2. Encoder Decoder trong Kiến Trúc Transformer

Kiến trúc Transformer thường bao gồm một encoder và một decoder. Encoder xử lý dữ liệu đầu vào và tạo ra một biểu diễn trung gian. Decoder sử dụng biểu diễn này để tạo ra dữ liệu đầu ra. Trong bài toán phát hiện đối tượng, encoder có thể được sử dụng để trích xuất các đặc trưng hình ảnh, và decoder có thể được sử dụng để dự đoán các bounding box và nhãn lớp của các đối tượng.

IV. Ứng Dụng Kiến Trúc Transformer Trong Phát Hiện Đối Tượng DETR

Năm 2020, Nicolas và các cộng sự đưa ra kiến trúc hoàn toàn khác biệt so với những mô hình đã đề cập. Tác giả đã dựa trên kiến trúc Transformer trong lĩnh vực xử lý ngôn ngữ tự nhiên vào trong bài toán phát hiện đối tượng trong ảnh và đã đạt được kết quả tốt hơn khi so sánh với phương pháp hai giai đoạn Faster-RCNN. Detection Transformer (DETR) là phương pháp một giai đoạn nên có ưu điểm vượt trội hơn về mặt thời gian khi so với Faster-RCNN và hiệu suất phát hiện đối tượng. Ngoài ra, DETR không sử dụng các vùng đề xuất (Region Proposals), các hộp neo (Anchor Box) và thuật toán Non Maximum Suppression.

4.1. DETR Giải Pháp Phát Hiện Đối Tượng Dựa Trên Transformer

DETR (DEtection TRansformer) là một mô hình phát hiện đối tượng dựa trên kiến trúc Transformer. DETR loại bỏ nhu cầu về các thành phần thủ công như anchor box và Non-Maximum Suppression (NMS), thay vào đó, sử dụng kiến trúc Transformer để dự đoán trực tiếp một tập hợp các đối tượng. Điều này giúp đơn giản hóa quy trình phát hiện đối tượng và có thể đạt được hiệu suất cạnh tranh với các phương pháp truyền thống.

4.2. Ưu Điểm Của DETR So Với Các Phương Pháp Truyền Thống

DETR có một số ưu điểm so với các phương pháp phát hiện đối tượng truyền thống. Thứ nhất, nó đơn giản hóa quy trình đào tạo và suy luận bằng cách loại bỏ các thành phần thủ công. Thứ hai, nó có thể xử lý các mối quan hệ toàn cục giữa các đối tượng trong một hình ảnh, cho phép nó dự đoán các đối tượng bị che khuất hoặc chồng chéo lên nhau tốt hơn. Thứ ba, nó có tiềm năng mở rộng quy mô để xử lý các nhiệm vụ phức tạp hơn như panoptic segmentation.

V. Thực Nghiệm và Đánh Giá Mô Hình DETR trên Dữ Liệu Không Ảnh

Nghiên cứu này tiến hành khảo sát hiệu quả của các hàm chi phí IoU và LI trên cùng phương pháp DETR được huấn luyện trên hai bộ dữ liệu VisDrone2019 và XDUAV để quan sát sự cải thiện của mô hình. Thực nghiệm thu được kết quả cao nhất là AP@50 = 94.9% khi sử dụng hàm mất mát GIoU và Balanced L1 trên bộ dữ liệu XDUAV.

5.1. Bộ Dữ Liệu VisDrone và XDUAV Cho Phát Hiện Đối Tượng

Luận văn sử dụng hai bộ dữ liệu không ảnh, VisDrone2019 và XDUAV, để đánh giá hiệu suất của mô hình DETR. VisDrone2019 là một bộ dữ liệu lớn bao gồm hình ảnh và video được thu thập từ máy bay không người lái, trong khi XDUAV là một bộ dữ liệu nhỏ hơn tập trung vào phát hiện phương tiện giao thông trong không ảnh.

5.2. Các Hàm Mất Mát IoU và LI Cho Bài Toán Phát Hiện Đối Tượng

Các hàm mất mát IoU (Intersection over Union) và LI (L1 loss) được sử dụng để tối ưu hóa mô hình DETR. IoU đo lường sự chồng chéo giữa các bounding box được dự đoán và bounding box thực tế, trong khi L1 loss đo lường khoảng cách giữa các tọa độ của các bounding box.

5.3. Đánh Giá Kết Quả Thực Nghiệm và Phân Tích

Kết quả thực nghiệm cho thấy rằng mô hình DETR có thể đạt được hiệu suất cạnh tranh trên cả hai bộ dữ liệu VisDrone2019 và XDUAV. Các hàm mất mát GIoU và Balanced L1 đã cải thiện hiệu suất của mô hình, đặc biệt là trong việc phát hiện các đối tượng nhỏ và bị che khuất.

VI. Kết Luận và Hướng Phát Triển Cho Kiến Trúc Transformer

Nội dung luận văn đã tóm tắt và hệ thống lại một số phương pháp rút trích đặc trưng hình ảnh, giới thiệu và phân tích xu hướng phát triển của các phương pháp phát hiện đối tượng trong ảnh sử dụng phương pháp học sâu. Trình bày kiến thức liên quan đến kiến trúc Transformer là một kiến trúc mới đang được áp dụng trong các mô hình dịch thuật và đã đạt nhiều kết quả tốt trong lĩnh vực xử lý ngôn ngữ tự nhiên. Mô hình DETR áp dụng kiến trúc Transformer vào lĩnh vực xử lý ảnh và thị giác máy tính cho bài toán phát hiện đối tượng đã được kết quả khả quan so sánh với các mô hình tiên tiến hiện nay.

6.1. Tổng Kết Về Ưu Điểm Của Mô Hình Transformer Trong Phát Hiện

Kiến trúc Transformer đã chứng minh được tiềm năng của nó trong lĩnh vực phát hiện đối tượng. Khả năng xử lý các mối quan hệ toàn cục và loại bỏ các thành phần thủ công giúp đơn giản hóa quy trình đào tạo và suy luận. DETR là một ví dụ điển hình về cách kiến trúc Transformer có thể được sử dụng để xây dựng các mô hình phát hiện đối tượng hiệu quả.

6.2. Các Hướng Nghiên Cứu và Phát Triển Tiềm Năng Trong Tương Lai

Có nhiều hướng nghiên cứu và phát triển tiềm năng cho kiến trúc Transformer trong lĩnh vực phát hiện đối tượng. Một hướng đi là cải thiện hiệu suất của mô hình trên các bộ dữ liệu lớn và phức tạp hơn. Một hướng khác là khám phá các kiến trúc Transformer mới và các kỹ thuật đào tạo để tăng cường độ chính xác và hiệu quả của mô hình. Cuối cùng, việc áp dụng kiến trúc Transformer cho các nhiệm vụ liên quan như segmentation và tracking cũng là một lĩnh vực hứa hẹn.

28/05/2025

Nội dung chính

Tổng quan nghiên cứu

Phát hiện đối tượng trong ảnh, đặc biệt là trong dữ liệu không ảnh (aerial images), là một bài toán quan trọng trong lĩnh vực thị giác máy tính với nhiều ứng dụng thực tiễn như giám sát giao thông, an ninh và quản lý đô thị. Theo ước tính, các bộ dữ liệu không ảnh như VisDrone2019 và XDUAV chứa hàng chục nghìn hình ảnh với đa dạng đối tượng phương tiện giao thông được chụp từ nhiều góc độ và điều kiện ánh sáng khác nhau, tạo nên thách thức lớn cho các phương pháp phát hiện đối tượng truyền thống. Mục tiêu chính của nghiên cứu là tìm hiểu kiến trúc mô hình Transformer, ứng dụng mô hình Detection Transformer (DETR) vào bài toán phát hiện phương tiện giao thông trong bộ dữ liệu không ảnh, đồng thời khai phá và đánh giá hiệu quả các hàm chi phí như GIoU, CIoU, Smooth L1 và Balanced L1 nhằm cải thiện độ chính xác phát hiện.

Phạm vi nghiên cứu tập trung vào hai bộ dữ liệu VisDrone2019 và XDUAV, thu thập trong khoảng thời gian gần đây tại các địa phương có điều kiện chụp ảnh từ máy bay không người lái. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao hiệu suất phát hiện đối tượng trong môi trường phức tạp, góp phần phát triển các hệ thống giám sát giao thông thông minh và ứng dụng trong các lĩnh vực an ninh, cứu hộ. Các chỉ số đánh giá như mean Average Precision (mAP) và Intersection over Union (IoU) được sử dụng làm thước đo chính để đánh giá hiệu quả mô hình.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai lý thuyết và mô hình chính: mạng nơron tích chập (Convolutional Neural Network - CNN) và kiến trúc Transformer. CNN là mô hình học sâu phổ biến trong xử lý ảnh, có khả năng tự động rút trích đặc trưng từ dữ liệu hình ảnh qua các lớp tích chập và pooling, giúp nhận dạng và phân loại đối tượng hiệu quả. Tuy nhiên, CNN gặp khó khăn khi xử lý các đối tượng nhỏ hoặc bị che khuất trong ảnh không ảnh do mất mát thông tin không gian.

Kiến trúc Transformer, được giới thiệu trong lĩnh vực xử lý ngôn ngữ tự nhiên, sử dụng cơ chế tự chú ý (Self-Attention) để mô hình hóa mối quan hệ giữa các phần tử dữ liệu đầu vào mà không cần xử lý tuần tự như mạng hồi quy (RNN). Mô hình Detection Transformer (DETR) kết hợp CNN để trích xuất đặc trưng ảnh với Transformer để thực hiện phát hiện đối tượng trong ảnh, loại bỏ các bước phức tạp như tạo vùng đề xuất (Region Proposal) và thuật toán Non-Maximum Suppression (NMS).

Các khái niệm chính bao gồm:

Embedding Vector: Biểu diễn dữ liệu đầu vào dưới dạng vector số thực để mô hình xử lý.
Positional Encoding: Mã hóa vị trí để giữ thông tin thứ tự trong dữ liệu đầu vào.
Encoder-Decoder: Kiến trúc gồm bộ mã hóa trích xuất đặc trưng và bộ giải mã dự đoán đối tượng.
Hàm chi phí IoU và các biến thể (GIoU, CIoU): Đo lường độ chồng lấp giữa hộp dự đoán và hộp thực tế, ảnh hưởng đến hiệu quả huấn luyện.
Hàm Smooth L1 và Balanced L1: Hàm mất mát điều chỉnh sai số hồi quy hộp giới hạn, giúp cải thiện độ chính xác.

Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm hai bộ dữ liệu không ảnh: VisDrone2019 với khoảng 10,000 hình ảnh và XDUAV với quy mô tương tự, chứa các đối tượng phương tiện giao thông được chụp từ nhiều góc độ và điều kiện ánh sáng khác nhau. Cỡ mẫu huấn luyện được lựa chọn dựa trên phân phối dữ liệu và khả năng tính toán, đảm bảo tính đại diện và hiệu quả.

Phương pháp phân tích sử dụng mô hình DETR, được huấn luyện trên hai bộ dữ liệu với các hàm chi phí khác nhau (GIoU, CIoU, Smooth L1, Balanced L1) để khảo sát ảnh hưởng đến hiệu suất phát hiện. Quá trình huấn luyện và đánh giá được thực hiện trong khoảng thời gian nghiên cứu từ đầu năm 2021 đến cuối năm 2022, sử dụng phần cứng GPU hiện đại tại phòng thí nghiệm Trường Đại học Công nghệ Thông tin, ĐHQG TP. Hồ Chí Minh.

Các chỉ số đánh giá chính bao gồm mean Average Precision (mAP) tại các ngưỡng IoU khác nhau (0.5, 0.75), thời gian phát hiện (FPS), và độ chính xác phân loại đối tượng. Phương pháp so sánh kết quả với các mô hình SOTA như Faster R-CNN và YOLOv4 được áp dụng để đánh giá ưu nhược điểm của DETR trong bối cảnh không ảnh.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất phát hiện đối tượng của DETR trên bộ dữ liệu VisDrone2019: Mô hình đạt mAP@0.5 khoảng 42%, vượt trội hơn so với Faster R-CNN (khoảng 40%) trên cùng bộ dữ liệu. Kết quả này cho thấy khả năng xử lý hiệu quả các đối tượng nhỏ và phức tạp trong ảnh không ảnh.
Ảnh hưởng của hàm chi phí GIoU và Balanced L1 trên bộ dữ liệu XDUAV: Khi sử dụng kết hợp hàm mất mát GIoU và Balanced L1, mô hình đạt mAP@0.5 cao nhất là 94.9%, cải thiện đáng kể so với các hàm chi phí khác như Smooth L1 hay CIoU, cho thấy sự phù hợp của các hàm này trong việc tối ưu hóa vị trí và kích thước hộp dự đoán.
Tác động của điều kiện ánh sáng và góc chụp: Qua quan sát trực quan, các ảnh bị lóa sáng hoặc có bóng mờ làm giảm hiệu suất phát hiện, với tỷ lệ sai lệch dự đoán lên đến 5-7% trong các trường hợp này. Điều này phản ánh thách thức trong việc xử lý ảnh không ảnh với điều kiện môi trường đa dạng.
So sánh tốc độ và độ phức tạp mô hình: DETR có tốc độ xử lý khoảng 10 FPS trên GPU hiện đại, chậm hơn so với YOLOv4 (khoảng 26 FPS) nhưng bù lại có độ chính xác cao hơn trong các trường hợp phức tạp, đặc biệt là khi phát hiện các đối tượng nhỏ và bị che khuất.

Thảo luận kết quả

Nguyên nhân chính của hiệu suất cao của DETR là nhờ kiến trúc Transformer với cơ chế tự chú ý đa đầu (Multi-head Attention) giúp mô hình tập trung vào các vùng quan trọng trong ảnh, đồng thời loại bỏ các bước xử lý thủ công như tạo vùng đề xuất và NMS. Việc khai phá các hàm chi phí GIoU và Balanced L1 giúp mô hình tối ưu hóa tốt hơn vị trí và kích thước hộp dự đoán, giảm sai số trong các trường hợp đối tượng nhỏ hoặc bị che khuất.

So với các nghiên cứu trước đây sử dụng Faster R-CNN hay YOLO, kết quả của luận văn cho thấy DETR có ưu thế rõ rệt về độ chính xác, mặc dù tốc độ xử lý còn hạn chế. Điều này phù hợp với xu hướng ứng dụng Transformer trong thị giác máy tính, mở ra hướng phát triển mới cho các bài toán phát hiện đối tượng trong ảnh không ảnh.

Dữ liệu có thể được trình bày qua biểu đồ so sánh mAP giữa các mô hình và các hàm chi phí, cũng như bảng thống kê tỷ lệ sai lệch dự đoán theo điều kiện ánh sáng và góc chụp, giúp minh họa rõ ràng hiệu quả và hạn chế của phương pháp.

Đề xuất và khuyến nghị

Tăng cường dữ liệu huấn luyện đa dạng: Thu thập thêm dữ liệu với các điều kiện ánh sáng, góc chụp và thời tiết khác nhau để cải thiện khả năng tổng quát của mô hình, hướng tới tăng mAP thêm 5-10% trong vòng 12 tháng tới. Chủ thể thực hiện: nhóm nghiên cứu và các đơn vị thu thập dữ liệu.
Tối ưu hóa kiến trúc mô hình DETR: Nghiên cứu và áp dụng các biến thể Transformer nhẹ hơn hoặc kết hợp với kỹ thuật pruning để tăng tốc độ xử lý lên ít nhất 15 FPS mà vẫn giữ nguyên độ chính xác, dự kiến hoàn thành trong 18 tháng. Chủ thể thực hiện: nhóm phát triển mô hình.
Phát triển hàm mất mát mới phù hợp hơn: Khai phá và thử nghiệm các hàm mất mát kết hợp giữa GIoU, CIoU và các hàm hồi quy mới nhằm giảm sai số dự đoán đối tượng nhỏ và bị che khuất, mục tiêu cải thiện mAP thêm 3-5% trong 1 năm. Chủ thể thực hiện: nhóm nghiên cứu thuật toán.
Ứng dụng mô hình vào hệ thống giám sát thực tế: Triển khai thử nghiệm mô hình trên hệ thống giám sát giao thông tại một số địa phương, đánh giá hiệu quả thực tế và điều chỉnh mô hình phù hợp với môi trường vận hành, dự kiến trong 24 tháng. Chủ thể thực hiện: các cơ quan quản lý giao thông và nhóm nghiên cứu.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Thị giác máy tính: Nghiên cứu sâu về kiến trúc Transformer và ứng dụng trong phát hiện đối tượng, có thể áp dụng làm cơ sở cho các đề tài nghiên cứu tiếp theo.
Chuyên gia phát triển hệ thống giám sát và an ninh: Áp dụng mô hình DETR để nâng cao hiệu quả phát hiện phương tiện giao thông trong các hệ thống giám sát video từ trên cao.
Doanh nghiệp công nghệ phát triển giải pháp AI cho giao thông thông minh: Tham khảo các kỹ thuật huấn luyện và tối ưu hàm mất mát để cải thiện sản phẩm phát hiện đối tượng trong môi trường thực tế.
Cơ quan quản lý giao thông và đô thị: Sử dụng kết quả nghiên cứu để triển khai các hệ thống giám sát tự động, hỗ trợ quản lý và điều phối giao thông hiệu quả hơn.

Câu hỏi thường gặp

Mô hình DETR có ưu điểm gì so với các mô hình phát hiện đối tượng truyền thống?
DETR loại bỏ bước tạo vùng đề xuất và thuật toán NMS, sử dụng cơ chế tự chú ý giúp phát hiện đối tượng hiệu quả hơn, đặc biệt với các đối tượng nhỏ và phức tạp. Ví dụ, trên bộ dữ liệu VisDrone2019, DETR đạt mAP cao hơn khoảng 2% so với Faster R-CNN.
Các hàm chi phí GIoU và CIoU ảnh hưởng thế nào đến kết quả phát hiện?
GIoU và CIoU cải thiện khả năng tối ưu vị trí và kích thước hộp dự đoán, giảm sai số trong các trường hợp hộp không giao nhau hoặc có hình dạng phức tạp. Kết quả thực nghiệm trên bộ dữ liệu XDUAV cho thấy mAP tăng lên đến 94.9% khi sử dụng GIoU kết hợp Balanced L1.
Tại sao ảnh không ảnh lại khó phát hiện đối tượng hơn ảnh thông thường?
Ảnh không ảnh có nhiều thách thức như đối tượng nhỏ, góc chụp đa dạng, điều kiện ánh sáng thay đổi và hiện tượng che khuất, làm giảm độ rõ nét và đặc trưng của đối tượng, gây khó khăn cho việc rút trích đặc trưng chính xác.
Mô hình DETR có thể áp dụng cho các bài toán phát hiện đối tượng khác không?
Có, kiến trúc Transformer trong DETR có tính tổng quát cao, có thể được điều chỉnh và huấn luyện cho nhiều bài toán phát hiện đối tượng khác nhau như phát hiện người, khuôn mặt, hoặc vật thể trong các môi trường khác nhau.
Làm thế nào để cải thiện tốc độ xử lý của mô hình DETR?
Có thể áp dụng các kỹ thuật như giảm chiều sâu mô hình, pruning, hoặc sử dụng biến thể Transformer nhẹ hơn để tăng tốc độ xử lý mà vẫn giữ được độ chính xác. Ngoài ra, tối ưu phần cứng và sử dụng GPU/TPU hiện đại cũng giúp cải thiện tốc độ.

Kết luận

Luận văn đã hệ thống và phân tích kiến trúc Transformer, ứng dụng mô hình DETR vào bài toán phát hiện phương tiện giao thông trong ảnh không ảnh với hai bộ dữ liệu VisDrone2019 và XDUAV.
Khai phá và đánh giá các hàm chi phí GIoU, CIoU, Smooth L1 và Balanced L1, trong đó kết hợp GIoU và Balanced L1 đạt hiệu quả cao nhất với mAP@0.5 lên đến 94.9%.
Kết quả thực nghiệm cho thấy DETR vượt trội về độ chính xác so với các mô hình truyền thống như Faster R-CNN, mặc dù tốc độ xử lý còn hạn chế.
Đề xuất các giải pháp nâng cao hiệu suất và tốc độ xử lý, đồng thời khuyến nghị ứng dụng mô hình trong các hệ thống giám sát thực tế.
Các bước tiếp theo bao gồm mở rộng dữ liệu huấn luyện, tối ưu kiến trúc mô hình và triển khai thử nghiệm thực tế nhằm hoàn thiện và ứng dụng rộng rãi hơn.

Quý độc giả và nhà nghiên cứu quan tâm có thể tiếp cận luận văn để khai thác sâu hơn về phương pháp và kết quả, đồng thời áp dụng vào các dự án phát hiện đối tượng trong thị giác máy tính.

Chủ đề

Khái niệm về mô hình Transformer

Ứng dụng của AI trong phát hiện đối tượng

Tổng quan về bộ dữ liệu VisDrone

Xu hướng công nghệ trong học sâu

Tìm Hiểu Kiến Trúc Mô Hình Transformer và Ứng Dụng Vào Phát Hiện Đối Tượng Trong Bộ Dữ Liệu VisDrone