Nghiên cứu dấu vết người đi bộ bằng công nghệ học sâu trong khoa học máy tính

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Giới thiệu đề tài

1.2. Mục tiêu đề tài

1.3. Phạm vi đề tài

1.4. Quá trình thực hiện

2. CHƯƠNG 2: CÔNG TRÌNH LIÊN QUAN

2.1. Towards Real-Time Multi-Object Tracking[1] - JDT

2.2. Mô hình học sâu FairMOT [2]

3. CHƯƠNG 3: KIẾN THỨC NỀN TẢNG

3.1. Mạng neural nhân tạo ANN

3.1.1. Mô hình neural cơ bản

3.2. ANN cơ bản và cách thức hoạt động

3.2.1. ANN nhiều lớp

3.2.2. Các hàm kích hoạt thường dùng

3.3. Mạng neural tích chập CNN

3.3.1. Nguyên nhân và cảm hứng cho sự ra đời của CNN

3.3.2. Kiến trúc CNN cơ bản

3.3.3. Lớp Fully-connected (Fully-connected Layer)

3.3.4. Deformable Convolutional Neural Network [4]

3.3.4.1. Deformable ROI Pooling

4. CHƯƠNG 4: MÔ HÌNH ĐỀ XUẤT

4.1. Tổng quan

4.2. Attentional Channel Spatial Multi-Object Tracking

4.3. Đầu Re-ID

5. CHƯƠNG 5: HIỆN THỰC

5.1. Chuẩn bị dữ liệu

5.2. Kết quả thí nghiệm

5.2.1. Thí nghiệm trên số epoch

6. CHƯƠNG 6: ĐÁNH GIÁ

6.1. Đánh giá định tính

6.1.1. Người đi bộ với kích thước khác nhau

6.2. Đánh giá định lượng

6.2.1. Các chỉ số đánh giá

6.2.2. Thí nghiệm ảnh hưởng của CAM

6.3. So sánh kết quả với các mô hình hiện tại

6.4. Các kết quả tham khảo

7. CHƯƠNG 7: TỔNG KẾT

7.1. Kết luận

7.2. Đánh giá ưu, nhược điểm

7.2.1. Nhược điểm

7.3. Hướng phát triển trong tương lai

DANH SÁCH CÁC CÔNG TRÌNH KHOA HỌC

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu

Trong bối cảnh phát triển nhanh chóng của công nghệ học sâu, việc nghiên cứu dấu vết người đi bộ trở thành một lĩnh vực quan trọng trong khoa học máy tính. Công nghệ học sâu đã mang lại nhiều ứng dụng tiềm năng trong lĩnh vực thị giác máy tính, từ đó mở ra cơ hội cho việc phát triển các hệ thống theo dõi người đi bộ hiệu quả. Đề tài này tập trung vào việc áp dụng các mô hình học sâu để phát hiện và theo dấu người đi bộ trong các tình huống giao thông phức tạp. Mục tiêu chính là phát triển một hệ thống có khả năng nhận diện và theo dõi người đi bộ một cách chính xác, từ đó hỗ trợ tài xế trong việc đưa ra quyết định an toàn khi tham gia giao thông.

1.1. Tính cấp thiết

Tình hình giao thông tại Việt Nam đang ngày càng trở nên phức tạp, với nhiều vụ tai nạn xảy ra do lỗi của người lái xe. Việc phát triển hệ thống theo dấu người đi bộ không chỉ giúp nâng cao tính an toàn cho người đi bộ mà còn hỗ trợ tài xế trong việc xử lý tình huống kịp thời. Hệ thống này cần phải có độ chính xác cao và khả năng hoạt động trong điều kiện thực tế, từ đó giảm thiểu rủi ro tai nạn giao thông.

1.2. Mục tiêu nghiên cứu

Mục tiêu nghiên cứu bao gồm việc tìm hiểu và phát triển mô hình học sâu có khả năng theo dấu người đi bộ. Nghiên cứu sẽ phân tích và đánh giá các mô hình hiện có, từ đó đưa ra những cải tiến phù hợp nhằm nâng cao hiệu suất của hệ thống. Kết quả cuối cùng sẽ là một mô hình có khả năng theo dấu nhiều người đi bộ cùng một lúc, đáp ứng yêu cầu thực tiễn trong giao thông.

II. Công trình liên quan

Nghiên cứu về dấu vết người đi bộ đã được thực hiện qua nhiều phương pháp khác nhau trong những năm gần đây. Hai hướng tiếp cận chính là Tracking-by-Detection (TBD) và Joint-Detection-And-Tracking (JDT). Phương pháp TBD chia bài toán thành hai tác vụ riêng biệt là nhận diện và định danh đối tượng, trong khi JDT kết hợp hai quá trình này để cải thiện hiệu suất. Các mô hình như SiamMOT, FairMOT và DEFT đã đạt được những kết quả khả quan, tuy nhiên vẫn tồn tại những hạn chế cần được khắc phục.

2.1. Phương pháp Tracking by Detection

Phương pháp TBD sử dụng các mô hình học sâu để nhận diện người đi bộ từ các khung hình. Sau đó, các kết quả này được định danh thông qua các kỹ thuật như Kalman Filter. Mặc dù phương pháp này cho kết quả tốt, nhưng thường gặp khó khăn trong việc duy trì độ chính xác khi số lượng đối tượng tăng lên.

2.2. Phương pháp Joint Detection And Tracking

JDT giải quyết bài toán theo dấu người đi bộ bằng cách kết hợp hai tác vụ học trong một quá trình duy nhất, từ đó giảm thiểu sự mất cân bằng trong việc học. Mô hình FairMOT là một ví dụ điển hình cho phương pháp này, giúp cải thiện đáng kể hiệu suất theo dấu người đi bộ trong thời gian thực.

III. Mô hình đề xuất

Mô hình được đề xuất trong nghiên cứu này là ACSMOT, một cải tiến từ mô hình FairMOT. Mô hình này sử dụng các mô-đun attention để tăng cường khả năng học các đặc trưng của người đi bộ, từ đó nâng cao độ chính xác trong việc theo dấu. Việc áp dụng các kỹ thuật học sâu trong mô hình giúp cải thiện khả năng phân loại và nhận diện đối tượng, đồng thời giảm thiểu thời gian xử lý, đáp ứng yêu cầu của các ứng dụng thực tế.

3.1. Kiến trúc mô hình ACSMOT

Mô hình ACSMOT được thiết kế với nhiều lớp học sâu, bao gồm các lớp convolution và pooling để trích xuất đặc trưng từ ảnh đầu vào. Các mô-đun attention được tích hợp để cải thiện khả năng nhận diện và theo dõi, giúp mô hình hoạt động hiệu quả hơn trong các tình huống phức tạp.

3.2. Đánh giá hiệu suất

Để đánh giá hiệu suất của mô hình ACSMOT, các thí nghiệm sẽ được thực hiện trên tập dữ liệu thực tế. Các chỉ số đánh giá như độ chính xác, tốc độ xử lý và khả năng theo dõi nhiều đối tượng sẽ được xem xét để đảm bảo rằng mô hình đáp ứng được các yêu cầu thực tiễn.

IV. Kết luận và hướng phát triển

Nghiên cứu này không chỉ cung cấp cái nhìn tổng quan về bài toán theo dấu người đi bộ mà còn đưa ra những giải pháp khả thi thông qua việc áp dụng công nghệ học sâu. Mô hình ACSMOT có tiềm năng lớn trong việc cải thiện sự an toàn giao thông và hỗ trợ tài xế trong việc xử lý các tình huống khẩn cấp. Hướng phát triển trong tương lai sẽ tập trung vào việc tối ưu hóa mô hình để nâng cao hiệu suất và khả năng áp dụng trong các điều kiện thực tế khác nhau.

4.1. Đánh giá tổng quan

Mô hình ACSMOT cho thấy những ưu điểm vượt trội so với các mô hình hiện tại, đặc biệt là trong khả năng theo dõi nhiều đối tượng. Sự kết hợp giữa các kỹ thuật học sâu và mô-đun attention đã giúp nâng cao độ chính xác và tốc độ xử lý.

4.2. Hướng phát triển tiếp theo

Trong tương lai, nghiên cứu sẽ tiếp tục hoàn thiện mô hình ACSMOT bằng cách tích hợp thêm các kỹ thuật mới trong học sâu và tối ưu hóa quy trình xử lý dữ liệu. Điều này sẽ giúp mô hình hoạt động hiệu quả hơn trong các tình huống giao thông phức tạp và đa dạng.

09/01/2025

Nội dung chính

Tổng quan nghiên cứu

Theo ước tính, tai nạn giao thông liên quan đến người đi bộ chiếm tỷ lệ cao trong các vụ tai nạn tại Việt Nam, gây ảnh hưởng nghiêm trọng đến tính mạng và tài sản. Trong bối cảnh đó, việc phát triển hệ thống theo dấu người đi bộ bằng công nghệ học sâu trở nên cấp thiết nhằm nâng cao an toàn giao thông, đặc biệt hỗ trợ tài xế trong việc nhận diện và dự đoán quỹ đạo người đi bộ. Mục tiêu chính của nghiên cứu là xây dựng mô hình học sâu có khả năng theo dấu nhiều người đi bộ trong các khung hình video, đảm bảo độ chính xác và tốc độ xử lý gần thời gian thực. Nghiên cứu tập trung vào dữ liệu thu thập từ camera hành trình xe hơi và các khu vực đông người như trung tâm thương mại, trong phạm vi thời gian từ năm 2021 đến 2022 tại Việt Nam. Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện các chỉ số đánh giá như Multi-Object Tracking Accuracy (MOTA) và Identity F1 Score (IDF1), góp phần giảm thiểu rủi ro tai nạn giao thông và nâng cao hiệu quả các hệ thống hỗ trợ lái xe tự động.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai lý thuyết và mô hình chính trong lĩnh vực thị giác máy tính và học sâu:

Mạng neural nhân tạo (Artificial Neural Network - ANN): Mô hình tính toán lấy cảm hứng từ cấu trúc tế bào thần kinh sinh học, gồm các lớp neural kết nối với trọng số học được qua quá trình huấn luyện. ANN nhiều lớp với các hàm kích hoạt như ReLU, Sigmoid được sử dụng để trích xuất đặc trưng từ dữ liệu hình ảnh.
Mạng neural tích chập (Convolutional Neural Network - CNN): Mạng CNN với các lớp convolution, pooling và fully-connected giúp trích xuất đặc trưng không gian từ ảnh đầu vào. Các kỹ thuật như deformable convolution được áp dụng để tăng khả năng thích ứng với biến đổi hình học của đối tượng.

Ngoài ra, mô hình học sâu FairMOT được chọn làm nền tảng, với kiến trúc joint-detection-and-tracking (JDT) kết hợp đồng thời hai tác vụ nhận diện và định danh đối tượng (Re-ID). Nghiên cứu cải tiến mô hình này bằng cách tích hợp các mô-đun attention gồm Spatial Attention Module (SAM) và Channel Attention Module (CAM) nhằm tăng cường khả năng học đặc trưng và giảm nhiễu nền.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập MOT challenge gồm các bộ dữ liệu MOT16, MOT17 và MOT20, với tổng cộng 18 video huấn luyện và đánh giá, ghi nhận người đi bộ trong nhiều môi trường khác nhau, từ ngoài trời đến trong nhà, với các mức độ đông đúc khác nhau. Dữ liệu được chuẩn hóa về kích thước 1088x608 pixel và áp dụng kỹ thuật augmentation như scaling, rotation, color jittering để tăng tính đa dạng.

Mô hình ACSMOT được xây dựng trên framework PyTorch, sử dụng mạng DLA-34 làm backbone để trích xuất đặc trưng. Quá trình huấn luyện sử dụng thuật toán Adam với learning rate ban đầu 10^-4, giảm xuống 10^-5 từ epoch 20, batch size 8, tổng thời gian huấn luyện khoảng 10 giờ cho MOT17 và 20 giờ cho MOT20 trên GPU NVIDIA P100 hoặc Tesla T4. Phương pháp phân tích bao gồm đánh giá định tính qua hình ảnh theo dấu và đánh giá định lượng qua các chỉ số MOTA, IDF1, IDs, MT, ML trên tập dữ liệu test.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Cải thiện độ chính xác theo dấu: Mô hình ACSMOT đạt MOTA 82.6% trên tập MOT16, tăng 0.2% so với baseline FairMOT, đồng thời giảm 10% số lần chuyển đổi ID (IDs), thể hiện qua bảng so sánh thí nghiệm ảnh hưởng của SAM.
Tăng cường khả năng phân biệt đối tượng: Việc tích hợp mô-đun CAM trong đầu Re-ID giúp tăng IDF1 lên 1.3% trên tập dữ liệu chia nhỏ MOT17, đồng thời cải thiện chỉ số MT (số đối tượng được theo dấu thường xuyên) tăng 1 đơn vị, cho thấy khả năng nhận diện và duy trì định danh đối tượng tốt hơn.
Hiệu quả trên môi trường đông đúc: Trên tập MOT20 với đám đông người đi bộ, ACSMOT vượt trội hơn FairMOT với MOTA tăng 2.5% và giảm 150 IDs, chứng minh tính hiệu quả của các mô-đun attention trong điều kiện phức tạp.
Khả năng nhận diện đa kích thước: Đánh giá định tính cho thấy mô hình nhận diện tốt các đối tượng người đi bộ có kích thước nhỏ trong ảnh, đảm bảo độ bao phủ và chính xác trong nhiều tình huống thực tế.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do việc áp dụng các mô-đun attention giúp mô hình tập trung vào các vùng ảnh quan trọng, giảm nhiễu từ nền và tăng cường đặc trưng nhận dạng. So với các nghiên cứu trước như FairMOT và CSTrack, ACSMOT giữ được tốc độ xử lý gần thời gian thực đồng thời nâng cao độ chính xác theo dấu. Biểu đồ loss trong quá trình huấn luyện cho thấy hàm mất mát giảm nhanh trong 15 epoch đầu, ổn định dưới 1 từ epoch 20, minh chứng cho sự hội tụ của mô hình. Bảng so sánh các chỉ số MOTA, IDF1, IDs, MT, ML được trình bày chi tiết giúp đánh giá khách quan hiệu quả mô hình.

Tuy nhiên, mô hình vẫn còn hạn chế trong việc theo dấu các đối tượng bị che khuất hoặc khi số lượng người đi bộ quá đông, dẫn đến nhầm lẫn ID. Đây là điểm cần cải tiến trong các nghiên cứu tiếp theo.

Đề xuất và khuyến nghị

Mở rộng dữ liệu huấn luyện: Tăng cường sử dụng các bộ dữ liệu đa dạng như Caltech Pedestrian, CityPersons, CUHK-SYSU để cải thiện khả năng tổng quát hóa của mô hình, dự kiến thực hiện trong 6-12 tháng tới bởi nhóm nghiên cứu và cộng tác viên.
Nghiên cứu và tích hợp các mô-đun attention mới: Thử nghiệm các kiến trúc attention tiên tiến hơn nhằm tăng cường khả năng học đặc trưng và giảm nhiễu, nâng cao hiệu quả theo dấu, thực hiện song song với việc mở rộng dữ liệu.
Cải tiến xử lý đối tượng bị che khuất: Phát triển các kỹ thuật dự đoán quỹ đạo và tái nhận diện đối tượng khi bị vật cản, giảm thiểu sai sót trong quá trình theo dấu, ưu tiên trong các dự án nghiên cứu tiếp theo.
Tối ưu hóa mô hình cho môi trường thực tế: Đưa mô hình vào thử nghiệm thực tế trên các hệ thống hỗ trợ lái xe, đánh giá hiệu quả và điều chỉnh tham số để phù hợp với điều kiện giao thông Việt Nam, phối hợp với các đơn vị phát triển công nghệ giao thông.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, thị giác máy tính: Nghiên cứu sâu về mô hình học sâu, attention và ứng dụng trong theo dấu đa đối tượng.
Chuyên gia phát triển hệ thống hỗ trợ lái xe tự động và an toàn giao thông: Áp dụng mô hình theo dấu người đi bộ để nâng cao tính năng cảnh báo và dự đoán hành vi người đi bộ.
Doanh nghiệp công nghệ và startup trong lĩnh vực AI và giao thông thông minh: Tham khảo giải pháp cải tiến mô hình để phát triển sản phẩm thương mại có tính cạnh tranh cao.
Cơ quan quản lý và hoạch định chính sách giao thông: Hiểu rõ công nghệ mới hỗ trợ giảm thiểu tai nạn giao thông, từ đó xây dựng các chính sách thúc đẩy ứng dụng công nghệ.

Câu hỏi thường gặp

Mô hình ACSMOT có thể áp dụng cho các đối tượng khác ngoài người đi bộ không?
Mô hình được thiết kế và huấn luyện chủ yếu trên dữ liệu người đi bộ, do đó hiệu quả với các đối tượng khác có thể giảm. Tuy nhiên, kiến trúc có thể được điều chỉnh và huấn luyện lại để theo dấu các đối tượng khác.
Tốc độ xử lý của mô hình có đáp ứng được yêu cầu thời gian thực không?
Mô hình ACSMOT kế thừa FairMOT với tốc độ xử lý từ 22 đến 44 FPS tùy độ phân giải, phù hợp với ứng dụng thời gian thực trong các hệ thống hỗ trợ lái xe.
Các mô-đun attention đóng vai trò như thế nào trong mô hình?
Spatial Attention Module giúp tập trung vào vùng ảnh quan trọng, giảm nhiễu nền; Channel Attention Module tăng cường đặc trưng định danh đối tượng, cải thiện độ chính xác theo dấu.
Mô hình xử lý thế nào khi người đi bộ bị che khuất hoặc mất tầm nhìn?
Hiện tại mô hình còn hạn chế trong trường hợp này, dẫn đến mất dấu hoặc nhầm lẫn ID. Đây là hướng nghiên cứu tiếp theo nhằm cải thiện khả năng dự đoán và tái nhận diện.
Làm thế nào để đánh giá hiệu quả mô hình theo dấu người đi bộ?
Sử dụng các chỉ số chuẩn như MOTA, MOTP, IDF1, số lần chuyển đổi ID (IDs), số đối tượng theo dấu thường xuyên (MT) và ít thành công (ML) trên các bộ dữ liệu chuẩn như MOT challenge.

Kết luận

Đã đề xuất mô hình ACSMOT cải tiến từ FairMOT bằng cách tích hợp các mô-đun attention không gian và kênh, nâng cao hiệu quả theo dấu người đi bộ.
Mô hình đạt được cải thiện đáng kể về các chỉ số MOTA và IDF1 trên các bộ dữ liệu MOT16, MOT17 và MOT20, đặc biệt trong môi trường đông đúc.
Phương pháp huấn luyện end-to-end giúp giảm thời gian và tăng tính đồng bộ giữa các tác vụ nhận diện và định danh.
Hạn chế hiện tại gồm xử lý kém với đối tượng bị che khuất và nhầm lẫn khi số lượng người đi bộ lớn.
Định hướng phát triển tương lai tập trung vào mở rộng dữ liệu, cải tiến mô-đun attention và xử lý các trường hợp phức tạp nhằm nâng cao độ chính xác và ứng dụng thực tế.

Khuyến khích các nhà nghiên cứu và doanh nghiệp ứng dụng mô hình ACSMOT trong các hệ thống hỗ trợ lái xe và an toàn giao thông, đồng thời tiếp tục phát triển các giải pháp nâng cao dựa trên nền tảng này.

Luận văn thạc sĩ mang tựa đề "Luận văn thạc sĩ về công nghệ học sâu trong việc theo dõi dấu vết người đi bộ" của tác giả Đặng Minh Chương, dưới sự hướng dẫn của TS. Nguyễn Đức Dũng tại Đại học Bách Khoa TP. Hồ Chí Minh, tập trung vào việc ứng dụng công nghệ học sâu để theo dõi và phân tích dấu vết của người đi bộ. Bài viết làm nổi bật sự phát triển của các phương pháp học máy trong việc nhận diện và theo dõi hành vi của con người, từ đó góp phần nâng cao hiệu quả trong các lĩnh vực như an ninh, giao thông và nghiên cứu hành vi.

Để mở rộng hiểu biết về công nghệ thông tin và học máy, bạn có thể tham khảo thêm các tài liệu liên quan như Nghiên cứu ứng dụng học sâu vào dịch từ vựng mà không cần dữ liệu song ngữ, nơi khám phá ứng dụng của học sâu trong lĩnh vực dịch thuật, và Luận văn thạc sĩ: Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ, tài liệu này cung cấp cái nhìn sâu sắc về cách học sâu được áp dụng trong nhận diện giọng nói. Cả hai tài liệu này đều liên quan đến việc ứng dụng công nghệ học sâu trong các lĩnh vực khác nhau, từ đó giúp bạn mở rộng kiến thức và hiểu biết về tiềm năng của công nghệ này.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#khoa học máy tính

#nhận diện hình ảnh

#công nghệ học sâu

#theo dõi dấu vết

Chủ đề

Nghiên cứu và phát triển trong lĩnh vực công nghệ

Công nghệ học sâu trong khoa học máy tính

Ứng dụng của học máy trong theo dõi hành vi

Phân tích và nhận diện hình ảnh

Luận văn thạc sĩ về công nghệ học sâu trong việc theo dõi dấu vết người đi bộ