Theo dõi người đi bộ sử dụng công nghệ học sâu

Tài liệu nghiên cứu Theo dấu người đi bộ sử dụng công nghệ học sâu, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên sâu về kỹ thuật.

Trường đại học

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Giới thiệu đề tài

1.2. Mục tiêu đề tài

1.3. Phạm vi đề tài

1.4. Quá trình thực hiện

2. CHƯƠNG 2: CÔNG TRÌNH LIÊN QUAN

2.1. Towards Real-Time Multi-Object Tracking[1] - JDT

2.2. Mô hình học sâu FairMOT [2]

3. CHƯƠNG 3: KIẾN THỨC NỀN TẢNG

3.1. Mạng neural nhân tạo ANN

3.1.1. Mô hình neural cơ bản

3.2. ANN cơ bản và cách thức hoạt động

3.2.1. ANN nhiều lớp

3.2.2. Các hàm kích hoạt thường dùng

3.3. Mạng neural tích chập CNN

3.3.1. Nguyên nhân và cảm hứng cho sự ra đời của CNN

3.3.2. Kiến trúc CNN cơ bản

3.3.2.1. Lớp Fully-connected (Fully-connected Layer)

3.3.3. Deformable Convolutional Neural Network [4]

3.3.3.1. Deformable ROI Pooling

4. CHƯƠNG 4: MÔ HÌNH ĐỀ XUẤT

4.1. Tổng quan

4.2. Attentional Channel Spatial Multi-Object Tracking

4.3. Đầu Re-ID

5. CHƯƠNG 5: HIỆN THỰC

5.1. Chuẩn bị dữ liệu

5.2. Kết quả thí nghiệm

5.2.1. Thí nghiệm trên số epoch

6. CHƯƠNG 6: ĐÁNH GIÁ

6.1. Đánh giá định tính

6.1.1. Người đi bộ với kích thước khác nhau

6.2. Đánh giá định lượng

6.2.1. Các chỉ số đánh giá

6.2.2. Thí nghiệm ảnh hưởng của CAM

6.3. So sánh kết quả với các mô hình hiện tại

6.4. Các kết quả tham khảo

7. CHƯƠNG 7: TỔNG KẾT

7.1. Kết luận

7.2. Đánh giá ưu, nhược điểm

7.2.1. Nhược điểm

7.3. Hướng phát triển trong tương lai

DANH SÁCH CÁC CÔNG TRÌNH KHOA HỌC

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về theo dõi người đi bộ bằng công nghệ học sâu

Theo dõi người đi bộ là một trong những ứng dụng quan trọng của công nghệ học sâu trong lĩnh vực thị giác máy tính. Công nghệ này cho phép nhận diện và theo dõi người đi bộ trong thời gian thực, từ đó hỗ trợ các hệ thống an ninh và giao thông. Việc phát triển các mô hình học sâu như ACSMOT đã mở ra nhiều cơ hội mới cho việc cải thiện độ chính xác và hiệu suất trong việc theo dõi người đi bộ.

1.1. Tầm quan trọng của theo dõi người đi bộ

Theo dõi người đi bộ không chỉ giúp nâng cao an ninh công cộng mà còn hỗ trợ trong việc phát triển các hệ thống giao thông thông minh. Việc nhận diện chính xác người đi bộ giúp giảm thiểu tai nạn giao thông và cải thiện an toàn cho cả người đi bộ và tài xế.

1.2. Công nghệ học sâu trong theo dõi người đi bộ

Công nghệ học sâu đã được áp dụng để phát triển các mô hình như FairMOT và ACSMOT, giúp cải thiện khả năng nhận diện và theo dõi người đi bộ. Những mô hình này sử dụng các kỹ thuật như nhận diện hình ảnh và phân tích dữ liệu để đạt được kết quả tốt hơn.

II. Vấn đề và thách thức trong theo dõi người đi bộ

Mặc dù công nghệ học sâu đã mang lại nhiều tiến bộ, nhưng vẫn còn nhiều thách thức trong việc theo dõi người đi bộ. Các vấn đề như độ chính xác, tốc độ xử lý và khả năng hoạt động trong điều kiện khác nhau vẫn cần được giải quyết. Những yếu tố này ảnh hưởng trực tiếp đến hiệu quả của hệ thống theo dõi.

2.1. Độ chính xác trong theo dõi người đi bộ

Độ chính xác là một trong những yếu tố quan trọng nhất trong việc theo dõi người đi bộ. Các mô hình cần phải được tối ưu hóa để giảm thiểu sai sót trong việc nhận diện và theo dõi, đặc biệt trong môi trường đông đúc.

2.2. Tốc độ xử lý và thời gian thực

Tốc độ xử lý là một thách thức lớn trong việc triển khai các hệ thống theo dõi người đi bộ. Các mô hình cần phải hoạt động trong thời gian thực để đảm bảo tính hiệu quả và an toàn cho người dùng.

III. Phương pháp chính trong theo dõi người đi bộ

Các phương pháp hiện tại trong việc theo dõi người đi bộ chủ yếu dựa trên hai hướng tiếp cận: Tracking-by-Detection và Joint-Detection-And-Tracking. Mỗi phương pháp có những ưu điểm và nhược điểm riêng, ảnh hưởng đến hiệu quả của việc theo dõi.

3.1. Tracking by Detection TBD

Phương pháp TBD chia bài toán thành hai tác vụ: nhận diện và định danh đối tượng. Mặc dù đạt được độ chính xác cao, nhưng phương pháp này thường gặp khó khăn trong việc xử lý thời gian thực.

3.2. Joint Detection And Tracking JDT

JDT kết hợp hai tác vụ nhận diện và theo dõi trong một mô hình duy nhất, giúp cải thiện tốc độ và độ chính xác. Mô hình này đã cho thấy hiệu quả vượt trội trong nhiều nghiên cứu gần đây.

IV. Ứng dụng thực tiễn của theo dõi người đi bộ

Công nghệ theo dõi người đi bộ có nhiều ứng dụng thực tiễn, từ an ninh công cộng đến giao thông thông minh. Việc áp dụng các mô hình học sâu giúp cải thiện khả năng nhận diện và theo dõi, từ đó nâng cao an toàn cho người đi bộ và tài xế.

4.1. Ứng dụng trong an ninh công cộng

Hệ thống theo dõi người đi bộ có thể được sử dụng để giám sát các khu vực công cộng, giúp phát hiện và ngăn chặn các hành vi phạm tội. Điều này không chỉ nâng cao an ninh mà còn tạo cảm giác an toàn cho người dân.

4.2. Ứng dụng trong giao thông thông minh

Công nghệ theo dõi người đi bộ cũng có thể được tích hợp vào các hệ thống giao thông thông minh, giúp tài xế đưa ra quyết định kịp thời khi phát hiện người đi bộ trên đường.

V. Kết luận và tương lai của theo dõi người đi bộ

Theo dõi người đi bộ bằng công nghệ học sâu đang trên đà phát triển mạnh mẽ. Các nghiên cứu hiện tại đã chỉ ra rằng việc cải tiến các mô hình học sâu có thể mang lại nhiều lợi ích cho cả an ninh và giao thông. Tương lai của công nghệ này hứa hẹn sẽ còn nhiều điều thú vị.

5.1. Xu hướng phát triển trong tương lai

Các nghiên cứu trong tương lai sẽ tập trung vào việc cải thiện độ chính xác và tốc độ của các mô hình theo dõi người đi bộ. Việc áp dụng các công nghệ mới như học sâu và trí tuệ nhân tạo sẽ mở ra nhiều cơ hội mới.

5.2. Tác động đến xã hội

Công nghệ theo dõi người đi bộ không chỉ ảnh hưởng đến an ninh mà còn có tác động lớn đến cách thức giao thông và cuộc sống hàng ngày của người dân. Việc phát triển công nghệ này sẽ góp phần tạo ra một môi trường sống an toàn hơn.

27/07/2025

Bạn đang xem trước tài liệu:

Theo dấu người đi bộ sử dụng công nghệ học sâu

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Theo ước tính, tai nạn giao thông liên quan đến người đi bộ chiếm tỷ lệ cao trong các vụ tai nạn tại Việt Nam, gây ra nhiều hậu quả nghiêm trọng về người và tài sản. Trong bối cảnh đó, việc phát triển hệ thống theo dấu người đi bộ bằng công nghệ học sâu nhằm hỗ trợ tài xế trong việc nhận diện và dự đoán quỹ đạo người đi bộ trên đường là rất cấp thiết. Mục tiêu nghiên cứu của luận văn là xây dựng và cải tiến mô hình học sâu để theo dấu nhiều người đi bộ trong các khung hình video, đảm bảo độ chính xác cao và tốc độ xử lý gần thời gian thực. Nghiên cứu tập trung vào dữ liệu thu thập từ camera hành trình xe hơi và các khu vực đông người như trung tâm thương mại, với phạm vi thời gian huấn luyện và đánh giá trên các tập dữ liệu MOT16, MOT17 và MOT20 trong khoảng thời gian từ năm 2021 đến 2022. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác của hệ thống theo dấu người đi bộ, góp phần giảm thiểu tai nạn giao thông và tăng cường an toàn cho người đi bộ cũng như tài xế.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai hướng tiếp cận chính trong bài toán theo dấu người đi bộ: Tracking-by-Detection (TBD) và Joint-Detection-And-Tracking (JDT). Trong đó, JDT được lựa chọn làm nền tảng do khả năng học đồng thời hai tác vụ nhận diện và định danh đối tượng, giúp cải thiện tốc độ và độ chính xác. Mô hình FairMOT là cơ sở được kế thừa, với kiến trúc encoder-decoder sử dụng mạng ResNet-34 và các lớp deformable convolution để trích xuất đặc trưng đa độ phân giải. Hai mô-đun attention chính được áp dụng là Spatial Attention Module (SAM) nhằm giảm nhiễu nền và tăng cường đặc trưng không gian, và Channel Attention Module (CAM) giúp cải thiện khả năng phân biệt các embedding định danh trong đầu Re-ID. Các khái niệm chính bao gồm mạng neural nhân tạo (ANN), mạng neural tích chập (CNN), deformable convolutional neural network, attention mechanism, và các chỉ số đánh giá theo dấu như MOTA, IDF1.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là các tập MOT16, MOT17 và MOT20 từ MOT Challenge, bao gồm video ghi hình người đi bộ trong nhiều môi trường khác nhau, cả trong nhà và ngoài trời, với dữ liệu được gán nhãn chính xác. Dữ liệu được chuẩn hóa về kích thước 1088x608 và áp dụng các kỹ thuật tăng cường dữ liệu như scaling, rotation, color jittering để tăng tính đa dạng. Mô hình ACSMOT được xây dựng dựa trên FairMOT với cải tiến attention, được huấn luyện trên Google Colab Pro sử dụng GPU NVIDIA P100 hoặc Tesla T4, với batch size 8, 30 epoch, và thuật toán tối ưu Adam với learning rate ban đầu 10^-4 giảm xuống 10^-5 từ epoch 20. Phân tích kết quả được thực hiện bằng các chỉ số định lượng như MOTA, IDF1, IDs, MT, ML và đánh giá định tính qua các trường hợp kích thước người đi bộ khác nhau và vật cản. Quá trình nghiên cứu kéo dài từ tháng 9/2021 đến tháng 5/2022.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Cải tiến mô hình với attention: Việc tích hợp mô-đun CAM trong đầu Re-ID giúp tăng chỉ số IDF1 lên 1.3% so với mô hình không sử dụng CAM, đồng thời cải thiện chỉ số MT (số đối tượng được theo dõi thường xuyên) tăng 1 điểm phần trăm. Mô-đun SAM khi đặt trong Feature Extractor làm tăng MOTA thêm 0.2% và giảm số lần chuyển đổi ID (IDs) khoảng 10%, trong khi đặt SAM trong Detection Head gây giảm IDF1 khoảng 1.7%.
Hiệu quả trên tập dữ liệu MOT: Mô hình ACSMOT đạt MOTA 82.6% và IDF1 67.5% trên tập MOT16, vượt trội hơn các mô hình như TubeTK (MOTA 63.5%), CTracker, CenterTrack và FairMOT với mức tăng MOTA và IDF1 từ 0.9% đến 2.5% tùy tập dữ liệu. Trên tập MOT20, mô hình cải thiện MOTA thêm 2.5% và giảm 150 lần chuyển đổi ID so với FairMOT.
Khả năng nhận diện đa kích thước và vật cản: Mô hình nhận diện tốt người đi bộ với kích thước nhỏ trong ảnh, tuy nhiên vẫn gặp khó khăn khi người đi bộ bị vật cản che khuất, ảnh hưởng đến quá trình theo dấu.

Thảo luận kết quả

Kết quả cho thấy việc áp dụng các mô-đun attention giúp mô hình học sâu tập trung hơn vào các đặc trưng quan trọng, giảm nhiễu nền và tăng khả năng phân biệt các đối tượng người đi bộ. So với các nghiên cứu trước đây, ACSMOT duy trì được ưu điểm của FairMOT về tốc độ và độ chính xác, đồng thời cải thiện khả năng theo dấu nhờ attention. Việc giảm số lần chuyển đổi ID và tăng MT cho thấy mô hình ổn định hơn trong việc duy trì định danh đối tượng qua các khung hình. Tuy nhiên, hạn chế về nhận diện khi có vật cản vẫn tồn tại, tương tự như các mô hình hiện hành, cho thấy cần tiếp tục nghiên cứu các kỹ thuật bổ sung như dữ liệu huấn luyện đa dạng hơn hoặc attention nâng cao. Dữ liệu có thể được trình bày qua biểu đồ so sánh MOTA, IDF1 giữa các mô hình và bảng thống kê ảnh hưởng của CAM, SAM trong các thành phần mô hình.

Đề xuất và khuyến nghị

Mở rộng dữ liệu huấn luyện: Tăng cường sử dụng các tập dữ liệu đa dạng như Caltech Pedestrian, CityPersons, CUHK-SYSU, PRW, ETHZ để cải thiện khả năng tổng quát và độ chính xác của mô hình trong nhiều điều kiện khác nhau.
Nghiên cứu và áp dụng các mô-đun attention mới: Khai thác các kỹ thuật attention tiên tiến hơn nhằm tăng cường khả năng học đặc trưng, giảm nhiễu và cải thiện hiệu quả theo dấu, đặc biệt trong môi trường phức tạp.
Cải tiến nhận diện đối tượng bị che khuất: Phát triển các phương pháp bổ sung như mô hình dự đoán quỹ đạo, sử dụng thông tin ngữ cảnh hoặc kỹ thuật học sâu đa luồng để xử lý các trường hợp vật cản che khuất người đi bộ.
Tối ưu hóa mô hình cho ứng dụng thực tế: Đẩy mạnh việc triển khai mô hình trên các thiết bị nhúng hoặc hệ thống xe tự hành với yêu cầu thời gian thực, đảm bảo cân bằng giữa độ chính xác và tốc độ xử lý.

Các giải pháp trên nên được thực hiện trong vòng 1-2 năm tới, phối hợp giữa nhóm nghiên cứu và các đơn vị ứng dụng công nghệ trong lĩnh vực giao thông và an toàn đường bộ.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Trí tuệ nhân tạo: Nghiên cứu về học sâu, thị giác máy tính, theo dấu đối tượng sẽ được cung cấp kiến thức chuyên sâu về mô hình JDT, attention và ứng dụng thực tiễn.
Chuyên gia phát triển hệ thống xe tự hành và hỗ trợ lái xe: Luận văn cung cấp giải pháp nâng cao khả năng nhận diện và theo dấu người đi bộ, hỗ trợ phát triển các hệ thống cảnh báo an toàn giao thông.
Doanh nghiệp công nghệ và startup trong lĩnh vực an toàn giao thông: Tham khảo để ứng dụng mô hình học sâu cải tiến vào sản phẩm giám sát giao thông, camera hành trình, hệ thống cảnh báo va chạm.
Cơ quan quản lý giao thông và an toàn đường bộ: Sử dụng kết quả nghiên cứu để đánh giá, triển khai các giải pháp công nghệ hỗ trợ giảm thiểu tai nạn liên quan đến người đi bộ.

Câu hỏi thường gặp

Mô hình ACSMOT khác gì so với FairMOT?
ACSMOT cải tiến FairMOT bằng cách tích hợp các mô-đun attention không gian (SAM) và kênh (CAM), giúp tăng khả năng học đặc trưng và giảm nhiễu nền, từ đó cải thiện độ chính xác theo dấu người đi bộ.
Tại sao chọn hướng tiếp cận Joint-Detection-And-Tracking (JDT)?
JDT cho phép học đồng thời hai tác vụ nhận diện và định danh trong một mô hình end-to-end, giúp cân bằng độ chính xác và tốc độ xử lý, phù hợp với yêu cầu theo dấu thời gian thực.
Các chỉ số đánh giá MOTA và IDF1 có ý nghĩa gì?
MOTA đo độ chính xác tổng thể của quá trình theo dấu, bao gồm phát hiện và liên kết đối tượng; IDF1 đánh giá tỷ lệ phát hiện đúng định danh đối tượng, phản ánh khả năng duy trì ID ổn định qua các khung hình.
Mô hình có thể xử lý tốt trong môi trường đông người không?
Trên tập dữ liệu MOT20 với đám đông người đi bộ, ACSMOT cải thiện MOTA và giảm số lần chuyển đổi ID so với các mô hình trước, cho thấy khả năng xử lý tốt hơn trong môi trường phức tạp.
Những hạn chế hiện tại của mô hình là gì?
Mô hình vẫn gặp khó khăn khi người đi bộ bị che khuất bởi vật cản và khi số lượng người đi bộ quá đông, dẫn đến nhầm lẫn trong theo dấu. Đây là điểm cần cải tiến trong các nghiên cứu tiếp theo.

Kết luận

Đã đề xuất mô hình ACSMOT cải tiến từ FairMOT bằng việc tích hợp các mô-đun attention không gian và kênh, nâng cao hiệu quả theo dấu người đi bộ.
Mô hình đạt kết quả tốt trên các tập dữ liệu MOT16, MOT17 và MOT20, cải thiện các chỉ số MOTA và IDF1 so với các mô hình cùng hướng tiếp cận.
Nghiên cứu chứng minh tính khả thi của việc áp dụng attention trong bài toán theo dấu đa đối tượng, góp phần nâng cao độ chính xác và ổn định.
Hạn chế về nhận diện khi có vật cản và trong môi trường đông người vẫn tồn tại, cần được khắc phục trong tương lai.
Đề xuất mở rộng dữ liệu huấn luyện, nghiên cứu các mô-đun attention mới và cải tiến nhận diện đối tượng bị che khuất là hướng phát triển tiếp theo.

Để tiếp tục phát triển, các nhà nghiên cứu và chuyên gia ứng dụng được khuyến khích triển khai mô hình trong các hệ thống thực tế, đồng thời mở rộng nghiên cứu về attention và dữ liệu đa dạng nhằm nâng cao hiệu quả và tính ứng dụng của hệ thống theo dấu người đi bộ.

Trích đoạn nội dung tài liệu

Chương 1 Giới thiệu 1 Giới thiệu đề tài Ngày nay, ngành trí tuệ nhân tạo có nhiều sự phát triển vượt bật, sự ra đời của những những phát kiến mới mẻ và đầy sáng tạo trong lĩnh vực máy học. Một trong những sự phát triển nhanh chóng và nhận được sự quan tâm từ cộng đồng nhất phải kể đến hướng nghiên cứu về thị giác máy tính, và những thành tựu từ đây cũng được sử dụng nhiều trong công nghiệp cũng như thực tiễn của đời sống, xã hội. Xe tự hành đang là lĩnh vực được sự quan tâm bởi tính ứng dụng cao của nó cũng như định hình hệ thống giao thông trong tương lại. Xe tự hành được hình thành từ rất nhiều bài toán sử dụng học máy, học sâu để nhằm huấn luyện cho một chiếc xe có khả năng đưa ra quyết định hợp lý và chính xác mà không có sự can thiệp từ con người.

Tuy nhiên, để hình thành nên mục đích lớn như vậy thì cần phải tạo ra được những bài toán nhỏ hơn có khả năng áp dụng vào thực tiễn. Đề tài này hướng tới phát hiện người đi bộ, phân vùng vào duy trì sự theo dấu người đi bộ đó. Hệ thống thống phát hiện người đi bộ hỗ trợ tài xế lái xe nhằm mục đích sẽ hỗ trợ tài xế ra quyết định điều khiển xe khi phát hiện người đi bộ trên đường như là dừng xe, tránh người đi bộ,. nhằm đảm bảo tính an toàn cho cả người đi bộ và tài xế lái xe.

Nhiệm vụ hệ thống này là xác định được người đi bộ trên đường và theo dấu đối tượng và dự đoán quỹ đạo của người đi bộ đến khi không nằm trong phạm vi quan sát của tài xế. Góc nhìn của tài xế được ghi nhận bởi camera hành trình. Bài toán yêu cầu tính chính xác cao để đảm bảo an toàn, cũng như là cung cấp thông tin để hỗ trợ tài xế ra quyết định hợp lí. Như chúng ta đã biết, tình hình giao thông ở Việt Nam rất là phức tạp, nguyên nhân chủ yếu của các vụ tai nạn xuất phát từ những lỗi của người lái xe.

Hơn thế nữa, những trường hợp tai nạn nghiêm trọng gây ảnh hưởng đến nhiều người cũng bắt nguồn từ những xe hơi, taxi hay ô tô tải,. Vì thế hệ thống cảnh báo, cung cấp những thông tin kịp thời và cần thiết cho các tài xe là nhu cầu thiết yếu tại thời điểm hiện tại. 2 Mục tiêu đề tài 1. Về kiến thức • Tìm hiểu các mô hình, các nghiên cứu nhằm giải quyết bài toán xây dựng hệ thống theo dấu người đi bộ sử dụng công nghệ máy học.

• Hiện thực, xây dựng mô hình mục tiêu. Sau đó, phân tích ưu, nhược điểm của các mô hình mục tiêu để đưa ra những hướng cải tiến mô hình mục tiêu phù hợp. Về sản phẩm • Xây dựng được hệ thống tập trung vào theo dấu nhiều người đi bộ cùng xuất hiện trong các khung hình. • Sử dụng kết quả từ việc phát hiện đi bộ để cải thiện kết quả theo dấu các đối tượng đối tượng.

Theo dấu người đi bộ sử dụng công nghệ học sâu Trang 1/43 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học và Kỹ Thuật Máy Tính • Xây dựng phương pháp đánh giá kết quả mô hình đã đề xuất. Hướng tiếp cận bài toán theo dấu nhiều đối tượng sử dụng các kết quả phân đoạn các đối tượng người đi bộ. Với hướng tiếp cận này cần được đề xuất một phương pháp đánh giá, cũng như đề xuất những thước đo nhằm đo đạt đánh giá kết quả mô hình mục tiêu. 3 Phạm vi đề tài Trong nghiên cứu này, ảnh đầu vào mong muốn là những ảnh được quan sát từ xe hơi trong điều kiện bình thường, không bị ảnh hưởng bởi môi trường và thời tiết xung quanh.

Nhưng vì tiếp cận được tập dữ liệu gán nhãn với nhiều dữ liệu hơn đặc biệt là dữ liệu cho đám đông, nên các ảnh về người đi bộ ở ở khu vực đông người và trung tâm thương mại cũng sẽ được sử dụng. Đối tượng phân tích chủ yếu là người đi bộ, theo dấu người đi bộ và sử dụng nhũng kết quả phân vùng của người đi bộ để cải thiện kết quả theo dấu. Chúng ta tập trung chủ yếu vào người đi bộ vì người đi bộ là một đối tượng lý tưởng và điển hình bởi sự đa dạng về ngoại hình, cử chỉ,. để nghiên cứu về MOT (multi-tracking object) so với nhiều đối tượng khác.

Ngoài ra, dữ liệu về người đi bộ cũng dễ dàng tìm kiếm bởi tính ứng dụng cao vì rất có tiềm năng trong nghiên cứu và thương mại. 4 Quá trình thực hiện Quá trình thực hiện luận văn này trải qua 4 bước: Bước 1: Thực hiện khảo sát những công trình liên quan đến bài toán theo dấu người đi bộ. Đối tượng khảo sát bao gồm những công trình liên quan đến đề tài trong những năm gần đây. Nội dung khảo sát gồm phương pháp đã được sử dụng, ý tưởng và kết quả của những phương pháp, tập dữ liệu được dùng và thước đo để đánh giá bài toán.

Bước 2: Xác định hướng tiếp cận bài toán và xây dựng mô hình học sâu theo dấu người đi bộ theo hướng tiếp cận đề xuất. Mô hình được xây dựng phải có tính mới và sự cải tiến so với các công trình trước đó. Bước 3: Thu thập dữ liệu. Chọn dữ liệu liên quan đến bài toán theo dấu người đi bộ đề tiến hành đánh giá kết quả hệ thống đề xuất.

Bước 4: Đánh giá kết quả: Chọn thước đo phù hợp với bài toán theo dấu người đi bộ, tiến hành đánh giá kết quả mô hình bằng cả phương pháp định tính và định lượng từ đó rút ra sự cải tiến cũng như hạn chế của mô hình và có định hướng phát triển phù hợp. Theo dấu người đi bộ sử dụng công nghệ học sâu Trang 2/43 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học và Kỹ Thuật Máy Tính Chương 2 Công trình liên quan Bài toán theo dấu người đi bộ là một bài toán quan trọng trong lĩnh vực thị giác máy tính (Computer Vision). Trong những năm gần đây, hướng tiếp cận chủ yếu của bài toán này có thể chia thành hai loại: • Tracking-by-Detection (TBD): phương pháp này sẽ chia bài toán thành hai tác vụ là nhận diện vật thể và xác định định danh đối tượng (Re-ID). Trong đó, tác vụ nhận diện vật thể sẽ đưa ra những nhận diện các đối tượng từ frame hình bằng các mô hình học sâu hiện đại với độ chính xác cao.

Sau đó, các kết quả này sẽ được xác định định danh bằng các kỹ thuật như Kalman Filter và giải thuật Hungarian để đảm bảo tốc độ cũng như độ chính xác. Các công trình nghiên cứu theo hướng này thường đạt kết quả rất tốt điển hình như SiamMOT[5], CenterMOT[6], EagerMOT[7]. • Joint-Detection-And-Tracking (JDT): hướng tiếp cận này sẽ giải quyết vấn đề học riêng lẻ của hai tác vụ chính trong bài toán theo dấu người đi bộ. Bằng cách kết hợp hai quá trình học, phương pháp này sẽ khắc phục những hạn chế như mất cân bằng trong quá trình học của bài toán.

Các công trình điển hình cho bài toán này như DEFT[8], FairMOT[2] cũng đạt được những kết quả đáng chú ý với tốc độ theo dấu vât thể tốt hơn so với TBD. 1 Towards Real-Time Multi-Object Tracking[1] - JDT Mô hình JDT[1] được tác giả đề xuất như một cách kết hợp hai tác vụ: học các đặc trưng ngoại hình của đối tượng và liên kết dữ liệu (data association) từ các đặc trưng đó với định danh của đối tượng. Hướng tiếp cận tác giả đề xuất nhằm xây dựng mô hình học một lần chia sẽ trọng số đồng thời cải thiện tốc độ theo dấu đối tượng của hệ thống MOT với 22 đến 44 FPS tùy theo độ phân giải của ảnh đầu vào. Hình 1: Kiến trúc mô hình JDT.

Kiến trúc của mô này JDT được minh họa như hình 1. Tác giả đã hiện thực mô hình dựa trên kiến trúc của Feature Pyramid Network (FPN) [9]. FPN sinh ra các đặc trưng dựa trên nhiều mức (scales) nhằm mang lại kết quả cao trong nhận diện người đi bộ ở đó người đi bộ sẽ được học ở nhiều mức. JDT đề xuất mô hình tổng quan như sau, ảnh đầu vào sẽ được truyền qua mạng cơ sở (backbone) để đạt được đặc trưng ở ba mức độ với các tỉ lệ down-sampling là 1:32, 1:16, 1:8.

Sau đó, các đặc trưng sẽ được kết hợp với nhau Theo dấu người đi bộ sử dụng công nghệ học sâu Trang 3/43 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học và Kỹ Thuật Máy Tính bằng các bước up-sampling và skip-connection để đưa về một ma trận đặc trưng chung. Cuối cùng các đầu dự đoán sẽ được thêm vào và chia thành 3 nhiệm vụ: • Phân loại box đối tượng:2A × H × W ; • Hồi quy kích thước box đối tượng:4A × H × W ; • Ma trận định danh của đối tượng:D × H × W ; Trong đó, A là số lượng mỏ neo (anchor), D là số chiều của một vector định danh cho đối tượng. Mô hình JDT đề xuất một độ lỗi tự cân bằng thường được dùng trong các bài toán với nhiều tác vụ (multi-task learning) theo công thức 1 M X X 1 1 Ltotal = i i L + sj sij j (1) i j=α,β,γ 2 e Trong đó, M là số lượng đầu dự đoán trong trường hợp này M = 1.3; sij là các tham số cần phải học để cân bằng độ lỗi các đầu dự đoán; i ∈ M ; j như là các tác vụ độc lập trong mỗi đầu đự đoán. Mô hình JDT được đề xuất mở ra một hướng nghiên cứu mới mẻ cho bài toán theo dấu người đi bộ.

Với cách thiết kế học một lần này thì mô hình đã đạt được mong muốn giảm được phần lớn thời gian chạy của hệ thống để đạt được tốc độ gần với thời gian thực. 2 Mô hình học sâu FairMOT [2] Mô hình FairMOT (Fairness Multi-Object Tracking) được biết đến như một mô hình học một lần (one-shot learning) cho việc theo dấu nhiều người đi bộ. Mô hình FairMOT đã đưa ra những phân tích về sự thiên vị của các tác vụ nhận diện đối tượng hơn các tác vụ re-identification (Re-ID) và đưa ra hướng tiếp cận để đảm bảo tính cân bằng của hai tác vụ này trong quá trình học với một kết quả đáng chú ý. Nghiên cứu này chỉ ra rằng việc sử dụng tác vụ nhận diện đối tượng với nhiều ROI-align sẽ dẫn đến các kết quả có nhiều switch-ID trong tác vụ re-ID và sự nhặp nhằn trong phân biệt giữa thực thể và nền ảnh.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ