Phát hiện phương tiện trong video giám sát: Luận văn tốt nghiệp khoa học máy tính

Mục lục chi tiết

COMMITMENT

ACKNOWLEDGEMENT

1. Structure of Thesis

1.1. Chapter 2 contains some background knowledges and related researches that are used in this thesis

1.2. Chapter 3 restates the problem and introduces the algorithms and methodologies that we use to build the system

1.3. Chapter 4 illustrates the results of the vehicle detection system and evaluates its performance

1.4. Chapter 5 summarizes the work and compares the pros and cons of the suggested method and proposes future development

2. Background & Related Works

2.1. Object detection

2.1.1. R-CNN Feature extraction

2.1.2. Run-time analysis

2.1.3. Fast R-CNN

2.1.4. The Region of Interest pooling layer

2.1.5. Two-stage detection algorithms

2.1.6. One-stage detection algorithms

2.2. Related Works

2.2.1. Vehicle detection

2.2.2. Vehicle Tracking

2.2.3. Vehicle Speed Estimation

2.2.4. License Plates Detection

3. Problem Statement

References

Tóm tắt

I. Giới thiệu luận văn

Luận văn 'Phát hiện phương tiện trong video giám sát' tập trung vào việc phát triển một hệ thống phát hiện phương tiện hiệu quả từ video giám sát. Trong bối cảnh gia tăng tai nạn giao thông, việc sử dụng công nghệ video để thu thập dữ liệu giao thông trở nên cần thiết. Hệ thống giám sát giao thông hiện tại gặp nhiều khó khăn trong việc phát hiện và phân loại phương tiện do điều kiện ánh sáng và thời tiết khác nhau. Luận văn này nhằm mục tiêu xây dựng một hệ thống phát hiện phương tiện nhẹ và có khả năng hoạt động thời gian thực, sử dụng các thuật toán học máy và thị giác máy tính. Hệ thống sẽ thực hiện các chức năng như phát hiện, phân loại và đếm số lượng phương tiện. Việc thu thập dữ liệu từ video giám sát sẽ giúp phân tích và tìm ra giải pháp giảm thiểu tai nạn giao thông trong tương lai.

II. Các thuật toán phát hiện

Luận văn phân tích hai loại thuật toán phát hiện: thuật toán hai giai đoạn và thuật toán một giai đoạn. Thuật toán hai giai đoạn, như R-CNN và Fast R-CNN, chia quá trình phát hiện thành hai bước: tạo ra các vùng ứng cử và phân loại chúng. Các thuật toán này cho kết quả chính xác nhưng không đạt được tốc độ thời gian thực. Ngược lại, thuật toán một giai đoạn như YOLO và RetinaNet thực hiện phát hiện trong một bước duy nhất, cho phép tốc độ nhanh hơn nhưng độ chính xác có thể thấp hơn. Việc lựa chọn thuật toán phù hợp là rất quan trọng để đảm bảo hiệu quả của hệ thống phát hiện phương tiện trong video giám sát.

2.1. Thuật toán hai giai đoạn

Thuật toán hai giai đoạn như R-CNN sử dụng mạng nơ-ron tích chập (CNN) để trích xuất đặc trưng từ các vùng ứng cử. Phương pháp này cho phép phát hiện chính xác nhưng yêu cầu thời gian xử lý lâu hơn. Fast R-CNN cải thiện hiệu suất bằng cách sử dụng lớp ROI pooling, giúp giảm thiểu tính toán trùng lặp. Tuy nhiên, tốc độ xử lý vẫn chưa đạt yêu cầu thời gian thực, điều này hạn chế khả năng ứng dụng trong các tình huống cần phản hồi nhanh.

2.2. Thuật toán một giai đoạn

Thuật toán một giai đoạn như YOLO thực hiện phát hiện trong một bước duy nhất, cho phép xử lý nhanh chóng và hiệu quả. YOLO sử dụng mạng CNN để thực hiện các phép toán trên toàn bộ hình ảnh, giúp tăng cường khả năng phát hiện và giảm thiểu nhầm lẫn với nền. Mặc dù tốc độ nhanh, độ chính xác của YOLO có thể thấp hơn so với các thuật toán hai giai đoạn. Tuy nhiên, với những cải tiến như Darknet-19 và các kỹ thuật huấn luyện đa quy mô, YOLO đã chứng minh được khả năng phát hiện hiệu quả trong nhiều tình huống thực tế.

III. Thực nghiệm và đánh giá kết quả

Luận văn tiến hành các thí nghiệm để đánh giá hiệu suất của hệ thống phát hiện phương tiện. Các thí nghiệm được thực hiện trên tập dữ liệu video từ các camera giám sát trong điều kiện thời tiết khác nhau. Kết quả cho thấy hệ thống có khả năng phát hiện và phân loại phương tiện với độ chính xác cao trong điều kiện ánh sáng tốt. Tuy nhiên, trong điều kiện thời tiết xấu, hiệu suất giảm sút rõ rệt. Việc phân tích kết quả cho thấy cần có các cải tiến trong thuật toán để nâng cao khả năng hoạt động trong các điều kiện khắc nghiệt.

3.1. Đánh giá hiệu suất

Hiệu suất của hệ thống được đánh giá dựa trên các chỉ số như độ chính xác, tốc độ phát hiện và khả năng phân loại. Kết quả cho thấy hệ thống đạt được độ chính xác cao trong điều kiện lý tưởng, nhưng gặp khó khăn trong việc phát hiện khi có nhiều phương tiện chồng chéo hoặc trong điều kiện ánh sáng yếu. Việc cải thiện thuật toán và tối ưu hóa quy trình xử lý là cần thiết để nâng cao hiệu suất tổng thể.

3.2. Ứng dụng thực tiễn

Hệ thống phát hiện phương tiện có thể được ứng dụng trong nhiều lĩnh vực như giám sát giao thông, phân tích lưu lượng và phát hiện tai nạn. Dữ liệu thu thập từ hệ thống có thể hỗ trợ các nhà quản lý giao thông trong việc đưa ra quyết định và cải thiện an toàn đường bộ. Hệ thống cũng có thể được tích hợp vào các giải pháp giao thông thông minh, góp phần giảm thiểu tai nạn và ùn tắc giao thông.

IV. Kết luận và hướng phát triển

Luận văn đã trình bày một hệ thống phát hiện phương tiện trong video giám sát với các thuật toán hiện đại. Kết quả cho thấy hệ thống có tiềm năng lớn trong việc cải thiện an toàn giao thông. Tuy nhiên, vẫn còn nhiều thách thức cần giải quyết, đặc biệt là trong việc phát hiện trong điều kiện thời tiết xấu. Hướng phát triển trong tương lai bao gồm việc cải tiến thuật toán, mở rộng tập dữ liệu và tích hợp thêm các công nghệ mới như trí tuệ nhân tạo để nâng cao hiệu suất và khả năng ứng dụng của hệ thống.

09/02/2025

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của công nghệ và nhu cầu quản lý giao thông ngày càng cao, hệ thống giám sát giao thông bằng video trở thành công cụ quan trọng để đảm bảo an toàn đường bộ. Theo báo cáo của ngành, tỷ lệ tai nạn giao thông tăng đáng kể hàng năm, đặt ra yêu cầu cấp thiết về việc thu thập thông tin giao thông chính xác và kịp thời. Nghiên cứu này tập trung vào phát triển hệ thống phát hiện phương tiện giao thông trong video giám sát, nhằm hỗ trợ các hệ thống giao thông thông minh và lái xe tự động.

Mục tiêu chính của luận văn là xây dựng hệ thống phát hiện phương tiện nhẹ, hoạt động theo thời gian thực, sử dụng các thuật toán thị giác máy tính trên dữ liệu video từ camera giám sát. Hệ thống này bao gồm các chức năng phát hiện phương tiện, phân loại loại phương tiện và đếm số lượng phương tiện. Phạm vi nghiên cứu tập trung vào các video giám sát tại Việt Nam, trong điều kiện thời tiết và ánh sáng đa dạng, từ trời nắng đến các điều kiện khắc nghiệt như mưa, sương mù, bão tuyết.

Ý nghĩa của nghiên cứu được thể hiện qua việc cung cấp dữ liệu giao thông chính xác, hỗ trợ phân tích ùn tắc, phát hiện tai nạn và quản lý giao thông hiệu quả. Hệ thống được kỳ vọng đạt tốc độ xử lý tối thiểu 24 khung hình/giây, tương đương tiêu chuẩn công nghiệp, đảm bảo khả năng ứng dụng thực tế trong các thành phố lớn như TP. Hồ Chí Minh.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình chính trong lĩnh vực phát hiện đối tượng và thị giác máy tính, bao gồm:

Thuật toán phát hiện đối tượng hai giai đoạn (Two-stage detection): Điển hình là Faster R-CNN, sử dụng mạng đề xuất vùng (RPN) để tạo các vùng đề xuất, sau đó phân loại và tinh chỉnh vị trí đối tượng. Ưu điểm là độ chính xác cao nhưng tốc độ xử lý chậm, không phù hợp thời gian thực.
Thuật toán phát hiện đối tượng một giai đoạn (One-stage detection): Đại diện là YOLOv7, thực hiện phát hiện và phân loại trực tiếp trên toàn bộ ảnh đầu vào trong một bước duy nhất. Ưu điểm là tốc độ nhanh, phù hợp ứng dụng thời gian thực, mặc dù độ chính xác có thể thấp hơn một chút so với hai giai đoạn.

Các khái niệm chính bao gồm:

Mean Average Precision (mAP): Chỉ số đánh giá độ chính xác trung bình của mô hình phát hiện đối tượng, tính trên nhiều ngưỡng Intersection over Union (IoU).
Frames Per Second (FPS): Tốc độ xử lý ảnh của mô hình, thể hiện số khung hình xử lý được trong một giây.
Region of Interest (RoI) Pooling: Kỹ thuật trích xuất đặc trưng cố định kích thước từ các vùng đề xuất trong Faster R-CNN.
E-ELAN Block: Thành phần kiến trúc nâng cao trong YOLOv7 giúp tăng hiệu quả học và tốc độ xử lý.

Phương pháp nghiên cứu

Nguồn dữ liệu chính sử dụng trong nghiên cứu là:

DAWN dataset: Bộ dữ liệu hình ảnh trong điều kiện thời tiết khắc nghiệt gồm mưa, tuyết, bão cát và sương mù, với tổng số khoảng 1.027 ảnh, hỗ trợ đánh giá khả năng phát hiện phương tiện trong môi trường thực tế khó khăn.
Dữ liệu video giám sát thực tế tại Việt Nam: Thu thập từ các camera CCTV trên đường cao tốc và các tuyến phố, được gán nhãn thủ công để kiểm thử mô hình.

Phương pháp phân tích bao gồm:

Huấn luyện và đánh giá các mô hình YOLOv7 và Faster R-CNN trên bộ dữ liệu DAWN, sử dụng các chỉ số mAP50, mAP50-95 và thời gian suy luận trung bình.
Thử nghiệm trên video độ phân giải cao (3840x2160) để đánh giá khả năng phát hiện trong các tình huống thực tế, bao gồm đường thẳng, đường cong và góc quay thấp.
So sánh hiệu năng giữa các phiên bản YOLOv7 (nhẹ, trung bình và nặng) và Faster R-CNN về độ chính xác và tốc độ xử lý.

Quá trình nghiên cứu kéo dài trong khoảng thời gian từ đầu năm 2022 đến cuối năm 2022, với việc thu thập dữ liệu, huấn luyện mô hình và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu năng phát hiện trên bộ dữ liệu DAWN:
- YOLOv7 đạt mAP50 khoảng 70.1% với ảnh đầu vào kích thước 640x640, trong khi phiên bản YOLOv7-W6 (kích thước 1280x1280) đạt mAP50 là 71.2%, cải thiện nhẹ 1.1%.
- Faster R-CNN đạt mAP50 khoảng 68.3%, thấp hơn so với YOLOv7-W6 nhưng có độ chính xác tương đương YOLOv7 bản nhẹ.
- Thời gian suy luận trung bình của YOLOv7 nhanh hơn gần 3 lần so với Faster R-CNN, phù hợp với yêu cầu xử lý thời gian thực.
Ảnh hưởng của điều kiện thời tiết:
- Mưa gây ảnh hưởng lớn nhất đến độ chính xác, làm giảm mAP khoảng 9.2% đối với YOLOv7 và 10% đối với YOLOv7-W6 so với điều kiện bình thường.
- Các điều kiện như sương mù, tuyết và bão cát cũng làm giảm hiệu năng nhưng mức độ nhẹ hơn.
Khả năng phát hiện trong video giám sát thực tế:
- Hệ thống phát hiện chính xác các phương tiện trên đường thẳng và góc quay thấp với độ tin cậy cao.
- Hiệu năng giảm khi phương tiện bị che khuất quá 50% hoặc ở các đoạn đường cong xa camera, do giới hạn góc nhìn và kích thước vật thể nhỏ.
So sánh giữa các phiên bản YOLOv7:
- Phiên bản nặng nhất (YOLOv7-E6E) có độ chính xác cao hơn đáng kể trong điều kiện thời tiết cực đoan, phát hiện được nhiều phương tiện bị che khuất hoặc mờ nhòe.
- Tuy nhiên, tốc độ xử lý của phiên bản này thấp hơn, không phù hợp cho ứng dụng thời gian thực trên phần cứng phổ thông.

Thảo luận kết quả

Kết quả cho thấy YOLOv7 là lựa chọn tối ưu cho hệ thống phát hiện phương tiện trong video giám sát nhờ sự cân bằng giữa độ chính xác và tốc độ xử lý. Việc sử dụng bộ dữ liệu DAWN giúp đánh giá thực tế khả năng hoạt động trong điều kiện thời tiết khắc nghiệt, một thách thức lớn đối với các hệ thống thị giác máy tính.

So với các nghiên cứu trước đây, kết quả của luận văn phù hợp với xu hướng phát triển các mô hình một giai đoạn nhằm đáp ứng yêu cầu thời gian thực trong giao thông thông minh. Việc giảm hiệu năng trong điều kiện mưa và che khuất phương tiện phản ánh giới hạn của dữ liệu đầu vào và kiến trúc mô hình, đồng thời mở ra hướng nghiên cứu cải tiến thuật toán và thu thập dữ liệu phong phú hơn.

Dữ liệu có thể được trình bày qua biểu đồ so sánh mAP và FPS giữa các mô hình, cũng như bảng thống kê hiệu năng theo từng điều kiện thời tiết, giúp minh họa rõ ràng sự khác biệt và ưu nhược điểm của từng phương pháp.

Đề xuất và khuyến nghị

Tăng cường thu thập và đa dạng hóa dữ liệu: Lắp đặt thêm camera giám sát trên nhiều tuyến đường tại TP. Hồ Chí Minh và các thành phố lớn để thu thập dữ liệu phong phú về các điều kiện giao thông và thời tiết, phục vụ huấn luyện và cải tiến mô hình.
Tối ưu hóa mô hình YOLOv7: Áp dụng các kỹ thuật như pruning (cắt tỉa mô hình), tối ưu cấu trúc backbone và tích hợp các thuật toán bổ trợ để nâng cao tốc độ xử lý và độ chính xác, đặc biệt trong điều kiện ánh sáng yếu và che khuất.
Phát triển hệ thống phân tán dựa trên điện toán đám mây: Xây dựng nền tảng xử lý phân tán giúp chia sẻ tải tính toán, tăng khả năng mở rộng và hỗ trợ xử lý thời gian thực cho nhiều camera cùng lúc.
Mở rộng chức năng hệ thống: Bổ sung các tính năng như phát hiện vi phạm giao thông (vượt đèn đỏ, chạy quá tốc độ), phân tích ùn tắc và cảnh báo tai nạn dựa trên dữ liệu phát hiện phương tiện, góp phần nâng cao hiệu quả quản lý giao thông.

Các giải pháp trên nên được triển khai theo lộ trình 1-3 năm, với sự phối hợp giữa các cơ quan quản lý giao thông, các viện nghiên cứu và doanh nghiệp công nghệ.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Thị giác Máy tính: Luận văn cung cấp kiến thức chuyên sâu về các thuật toán phát hiện đối tượng hiện đại, phương pháp đánh giá và ứng dụng thực tế trong giao thông.
Chuyên gia phát triển hệ thống giao thông thông minh (ITS): Tham khảo để áp dụng các giải pháp phát hiện phương tiện thời gian thực, cải thiện hiệu quả giám sát và quản lý giao thông.
Cơ quan quản lý giao thông và an toàn đường bộ: Sử dụng kết quả nghiên cứu để triển khai các hệ thống giám sát tự động, hỗ trợ giảm thiểu tai nạn và vi phạm giao thông.
Doanh nghiệp công nghệ phát triển phần mềm và thiết bị giám sát: Áp dụng các thuật toán và kiến trúc mô hình để phát triển sản phẩm phù hợp với điều kiện thực tế tại Việt Nam, nâng cao tính cạnh tranh trên thị trường.

Câu hỏi thường gặp

Tại sao chọn YOLOv7 thay vì Faster R-CNN cho hệ thống thời gian thực?
YOLOv7 có tốc độ xử lý nhanh hơn gần 3 lần so với Faster R-CNN, đạt trên 24 FPS, phù hợp với yêu cầu thời gian thực trong giám sát giao thông, trong khi Faster R-CNN có độ chính xác tương đương nhưng chậm hơn nhiều.
Hệ thống có thể hoạt động hiệu quả trong điều kiện thời tiết xấu không?
Mặc dù hiệu năng giảm trong mưa, sương mù và bão cát, YOLOv7 phiên bản nặng hơn vẫn duy trì khả năng phát hiện tốt, cho thấy hệ thống có thể ứng dụng trong nhiều điều kiện thời tiết khác nhau với một số hạn chế.
Làm thế nào để cải thiện độ chính xác khi phương tiện bị che khuất?
Có thể cải tiến bằng cách sử dụng mô hình có kiến trúc sâu hơn, thu thập thêm dữ liệu đa dạng về các tình huống che khuất, và áp dụng kỹ thuật tăng cường dữ liệu (data augmentation) trong huấn luyện.
Hệ thống có thể áp dụng cho các loại camera khác nhau không?
Hệ thống phù hợp với camera giám sát cố định (CCTV) do yêu cầu góc nhìn ổn định. Camera di động như dashcam không phù hợp vì thay đổi góc nhìn liên tục ảnh hưởng đến hiệu quả phát hiện.
Có thể mở rộng hệ thống để phát hiện các vi phạm giao thông không?
Có thể, bằng cách tích hợp thêm các module phân tích hành vi phương tiện dựa trên dữ liệu phát hiện, ví dụ như phát hiện vượt đèn đỏ, chạy quá tốc độ, giúp nâng cao hiệu quả quản lý giao thông.

Kết luận

Đã xây dựng và đánh giá thành công hệ thống phát hiện phương tiện trong video giám sát sử dụng YOLOv7 và Faster R-CNN, với ưu thế về tốc độ và độ chính xác của YOLOv7.
Bộ dữ liệu DAWN giúp kiểm chứng hiệu năng trong điều kiện thời tiết khắc nghiệt, phản ánh thực tế ứng dụng tại Việt Nam.
Hệ thống đạt tốc độ xử lý tối thiểu 24 FPS, đáp ứng yêu cầu thời gian thực trong giám sát giao thông.
Các hạn chế về dữ liệu và điều kiện che khuất mở ra hướng nghiên cứu cải tiến mô hình và thu thập dữ liệu phong phú hơn.
Đề xuất phát triển hệ thống phân tán, tối ưu mô hình và mở rộng chức năng để nâng cao hiệu quả quản lý giao thông thông minh.

Triển khai thử nghiệm thực tế trên các tuyến đường tại TP. Hồ Chí Minh, thu thập dữ liệu bổ sung và tiếp tục nghiên cứu cải tiến thuật toán nhằm hoàn thiện hệ thống phát hiện phương tiện phù hợp với điều kiện Việt Nam.

Bài viết "Phát hiện phương tiện trong video giám sát: Luận văn tốt nghiệp khoa học máy tính" trình bày một nghiên cứu sâu sắc về việc áp dụng công nghệ nhận diện và phân tích video để phát hiện các phương tiện trong các hệ thống giám sát. Luận văn không chỉ nêu rõ các phương pháp kỹ thuật mà còn chỉ ra những thách thức và giải pháp trong việc cải thiện độ chính xác và hiệu suất của hệ thống. Độc giả sẽ nhận được cái nhìn tổng quan về cách mà công nghệ này có thể được ứng dụng trong thực tiễn, từ việc tăng cường an ninh đến việc tối ưu hóa quản lý giao thông.

Nếu bạn muốn mở rộng kiến thức về các ứng dụng công nghệ trong lĩnh vực khoa học máy tính, hãy tham khảo thêm bài viết Luận văn thạc sĩ khoa học máy tính xây dựng ứng dụng monocular full slam, nơi bạn sẽ tìm thấy thông tin về các ứng dụng SLAM trong nhận diện không gian. Ngoài ra, bài viết Luận văn thạc sĩ khoa học máy tính nghiên cứu các phương pháp trích xuất thông tin trong ảnh tài liệu và ứng dụng sẽ giúp bạn hiểu rõ hơn về các phương pháp trích xuất thông tin từ hình ảnh, một khía cạnh quan trọng trong việc phát hiện và phân tích video. Cuối cùng, bài viết Luận văn thạc sĩ khoa học máy tính phát hiện bất thường trên chuỗi thời gian dựa vào mạng nơron học sâu lstm sẽ cung cấp thêm thông tin về việc phát hiện bất thường trong dữ liệu, một lĩnh vực có liên quan mật thiết đến việc phân tích video giám sát. Những tài liệu này sẽ giúp bạn mở rộng hiểu biết và khám phá sâu hơn về các ứng dụng công nghệ trong lĩnh vực này.

#luận văn tốt nghiệp

#khoa học máy tính

#nhận diện đối tượng

#công nghệ video

#video giám sát

#phát hiện phương tiện

Chủ đề

Nghiên cứu khoa học máy tính

Học máy và trí tuệ nhân tạo

Công nghệ giám sát

An ninh và bảo mật

Luận văn tốt nghiệp: Phát hiện phương tiện trong video giám sát