Tổng quan nghiên cứu

Tình trạng ùn tắc giao thông tại các đô thị lớn như Thành phố Hồ Chí Minh đang ngày càng trở nên nghiêm trọng với hơn 9 triệu phương tiện đăng ký, trong đó gần 7 triệu là xe máy và 1,5 triệu ô tô. Theo báo cáo của công ty TomTom năm 2020, chỉ số ùn tắc giao thông tại TP.HCM đạt 53%, nghĩa là thời gian di chuyển trung bình tăng hơn một nửa so với điều kiện thông thường. Sự gia tăng dân số vượt quá 10 triệu người cùng với hệ thống giao thông chật hẹp và thiếu đồng bộ càng làm trầm trọng thêm vấn đề này.

Trước thực trạng đó, nghiên cứu nhằm dự báo tình trạng giao thông đô thị bằng các kỹ thuật học máy, đặc biệt là phương pháp gom cụm dữ liệu, nhằm phân nhóm các đoạn đường có đặc điểm giao thông tương tự nhau dựa trên dữ liệu lịch sử thu thập từ camera an ninh và các ứng dụng bên thứ ba như TomTom. Mục tiêu là cung cấp cái nhìn tổng quan về tình trạng giao thông tại các khu vực khác nhau, dự đoán xu hướng ùn tắc và thời gian kéo dài của các đoạn đường bị ảnh hưởng. Nghiên cứu tập trung vào dữ liệu thu thập tại TP.HCM trong giai đoạn gần đây, với phạm vi phân tích trên khoảng 500 điểm giao thông (segment).

Kết quả nghiên cứu không chỉ hỗ trợ người tham gia giao thông lựa chọn tuyến đường phù hợp, giảm thiểu thời gian di chuyển và chi phí nhiên liệu, mà còn cung cấp công cụ quản lý hiệu quả cho các cơ quan chức năng nhằm giảm thiểu ùn tắc và ô nhiễm môi trường. Đây là một bước tiến quan trọng trong việc ứng dụng trí tuệ nhân tạo và khai phá dữ liệu lớn vào quản lý giao thông đô thị.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai nền tảng lý thuyết chính: khai phá dữ liệu (Data Mining) và học máy (Machine Learning). Khai phá dữ liệu là quá trình tìm kiếm các mẫu, quy luật tiềm ẩn trong tập dữ liệu lớn và phức tạp nhằm hỗ trợ dự báo và ra quyết định. Trong đó, dữ liệu lớn (Big Data) được đặc trưng bởi 5V: Volume (khối lượng), Velocity (tốc độ), Variety (đa dạng), Veracity (độ tin cậy) và Value (giá trị).

Về học máy, nghiên cứu áp dụng các thuật toán gom cụm (clustering) không giám sát, trong đó nổi bật là thuật toán K-Means Clustering. Thuật toán này phân nhóm dữ liệu dựa trên khoảng cách đến các tâm cụm (centroid), giúp phân loại các đoạn đường có đặc điểm giao thông tương đồng. Để dự báo chuỗi thời gian và xu hướng giao thông trong tương lai, mô hình mạng nơ-ron hồi tiếp dài hạn (Long Short-Term Memory - LSTM) được sử dụng, giúp xử lý hiệu quả các dữ liệu chuỗi phức tạp và có tính liên tục theo thời gian.

Ngoài ra, các kỹ thuật theo dõi đối tượng (Object Tracking) như YOLO (You Only Look Once) và Deep SORT được áp dụng để thu thập dữ liệu vận tốc và mật độ phương tiện từ hình ảnh camera giao thông, đảm bảo độ chính xác và thời gian thực trong quá trình thu thập dữ liệu.

Phương pháp nghiên cứu

Nguồn dữ liệu chính bao gồm hình ảnh từ camera an ninh giao thông của Sở Giao thông Vận tải TP.HCM và dữ liệu vận tốc, mật độ từ ứng dụng TomTom. Dữ liệu được thu thập liên tục tại khoảng 500 điểm giao thông (segment) trên địa bàn thành phố trong khoảng thời gian gần đây, đảm bảo tính đại diện và cập nhật.

Phương pháp chọn mẫu là lựa chọn các segment có dữ liệu đầy đủ và đại diện cho các khu vực có đặc điểm giao thông khác nhau. Cỡ mẫu khoảng 500 segment được đánh giá là phù hợp để xây dựng mô hình dự báo.

Quy trình phân tích gồm các bước: tiền xử lý dữ liệu (lọc nhiễu, chuẩn hóa biến), áp dụng thuật toán K-Means để gom cụm các đoạn đường theo vận tốc và thời gian kéo dài tình trạng ùn tắc, sau đó sử dụng mô hình LSTM để dự báo tình trạng giao thông tương lai dựa trên dữ liệu lịch sử. Quá trình huấn luyện và đánh giá mô hình được thực hiện trong vòng 4 tháng, từ tháng 2 đến tháng 6 năm 2023.

Kết quả được trực quan hóa qua các biểu đồ phân bố cụm, biểu đồ thời gian kéo dài ùn tắc và bảng so sánh độ chính xác dự báo giữa các mô hình.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Phân nhóm tình trạng giao thông thành 5 cụm chính dựa trên vận tốc và thời gian kéo dài ùn tắc, trong đó cụm có vận tốc dưới 5 km/h chiếm khoảng 20% tổng số segment, tương ứng với mức độ ùn tắc nghiêm trọng (LOS E). Các cụm còn lại thể hiện mức độ giao thông từ thông thoáng đến chậm, chiếm tỷ lệ lần lượt 15%, 25%, 25% và 15%.

  2. Thời gian kéo dài ùn tắc trung bình tại các cụm nghiêm trọng là khoảng 30 phút, trong khi các cụm giao thông thông thoáng có thời gian kéo dài dưới 5 phút. Dữ liệu này được xác định dựa trên so sánh vận tốc tại các thời điểm liên tiếp, cho thấy tính ổn định của các cụm.

  3. Mô hình LSTM dự báo tình trạng giao thông tương lai với độ chính xác trung bình đạt 87%, vượt trội so với các mô hình truyền thống như Support Vector Regression (SVR) hay Random Forest Regression, vốn chỉ đạt khoảng 75-80%. Mô hình này đặc biệt hiệu quả trong việc dự báo các đoạn đường thiếu dữ liệu vận tốc thực tế.

  4. Ứng dụng thuật toán YOLOv4 kết hợp Deep SORT giúp thu thập dữ liệu vận tốc với tốc độ xử lý đạt 20-30 khung hình/giây, đảm bảo dữ liệu thời gian thực và độ chính xác cao trong việc theo dõi phương tiện.

Thảo luận kết quả

Việc phân nhóm giao thông theo cụm giúp nhận diện rõ ràng các khu vực có tình trạng ùn tắc tương đồng, từ đó hỗ trợ việc quản lý và điều phối giao thông hiệu quả hơn. Thời gian kéo dài ùn tắc trung bình 30 phút tại các cụm nghiêm trọng phản ánh thực trạng ùn tắc kéo dài tại các tuyến đường chính của TP.HCM, phù hợp với báo cáo của ngành giao thông.

Mô hình LSTM thể hiện ưu thế vượt trội nhờ khả năng xử lý chuỗi thời gian dài và phức tạp, đồng thời dự báo chính xác ngay cả với các đoạn đường thiếu dữ liệu vận tốc, điều mà các mô hình truyền thống gặp khó khăn. Kết quả này tương đồng với các nghiên cứu quốc tế về ứng dụng mạng nơ-ron hồi tiếp trong dự báo giao thông.

Việc sử dụng YOLOv4 và Deep SORT trong thu thập dữ liệu vận tốc từ camera giao thông không chỉ nâng cao độ chính xác mà còn giảm thiểu thời gian xử lý, giúp hệ thống có thể vận hành gần như thời gian thực. Các biểu đồ phân bố cụm và bảng so sánh độ chính xác dự báo minh họa rõ nét hiệu quả của phương pháp nghiên cứu.

Tuy nhiên, nghiên cứu cũng nhận thấy một số hạn chế như phụ thuộc vào chất lượng dữ liệu đầu vào và khả năng mở rộng mô hình cho các thành phố khác có đặc điểm giao thông khác biệt.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống dự báo giao thông dựa trên mô hình gom cụm và LSTM tại các trung tâm điều hành giao thông TP.HCM nhằm cung cấp thông tin kịp thời cho người dân và cơ quan quản lý. Thời gian thực hiện dự kiến trong 12 tháng, do Sở Giao thông Vận tải chủ trì phối hợp với các đơn vị công nghệ.

  2. Mở rộng mạng lưới camera giao thông và tích hợp dữ liệu từ các ứng dụng di động để nâng cao chất lượng dữ liệu đầu vào, giúp cải thiện độ chính xác dự báo. Khuyến nghị thực hiện trong 18 tháng với sự phối hợp của các nhà cung cấp dịch vụ viễn thông và công nghệ.

  3. Phát triển ứng dụng di động cung cấp thông tin dự báo giao thông cá nhân hóa cho người dân, giúp họ lựa chọn tuyến đường tối ưu, giảm thiểu thời gian di chuyển và chi phí nhiên liệu. Thời gian phát triển dự kiến 6 tháng, do các công ty công nghệ thông tin đảm nhận.

  4. Tổ chức các khóa đào tạo và hội thảo nâng cao nhận thức về ứng dụng trí tuệ nhân tạo trong quản lý giao thông cho cán bộ quản lý và kỹ sư giao thông, nhằm thúc đẩy việc áp dụng các giải pháp công nghệ mới. Thời gian thực hiện liên tục hàng năm, do các trường đại học và viện nghiên cứu phối hợp tổ chức.

Đối tượng nên tham khảo luận văn

  1. Cơ quan quản lý giao thông đô thị: Nghiên cứu cung cấp công cụ dự báo và phân tích tình trạng giao thông, hỗ trợ ra quyết định điều hành hiệu quả, giảm ùn tắc và ô nhiễm.

  2. Các nhà phát triển công nghệ và phần mềm giao thông thông minh: Tham khảo các thuật toán gom cụm, mô hình LSTM và kỹ thuật thu thập dữ liệu từ camera để phát triển các sản phẩm ứng dụng thực tiễn.

  3. Nhà nghiên cứu và sinh viên ngành khoa học máy tính, trí tuệ nhân tạo: Tài liệu chi tiết về ứng dụng học máy trong lĩnh vực giao thông, từ thu thập dữ liệu đến xây dựng mô hình dự báo.

  4. Người tham gia giao thông và cộng đồng người dùng ứng dụng giao thông: Hiểu rõ hơn về cách thức dự báo và phân tích tình trạng giao thông, từ đó lựa chọn tuyến đường phù hợp, tiết kiệm thời gian và chi phí.

Câu hỏi thường gặp

  1. Phương pháp gom cụm dữ liệu giúp gì trong dự báo giao thông?
    Gom cụm giúp phân nhóm các đoạn đường có đặc điểm giao thông tương tự, từ đó nhận diện các khu vực ùn tắc và xu hướng chung, hỗ trợ dự báo chính xác hơn. Ví dụ, các đoạn đường có vận tốc thấp và thời gian ùn tắc dài được gom vào cùng một cụm để xử lý đặc thù.

  2. Tại sao chọn mô hình LSTM cho dự báo tình trạng giao thông?
    LSTM có khả năng xử lý dữ liệu chuỗi thời gian dài và phức tạp, tránh hiện tượng mất mát thông tin quan trọng, giúp dự báo chính xác các biến động giao thông theo thời gian. Đây là ưu điểm vượt trội so với các mô hình truyền thống.

  3. Dữ liệu thu thập từ camera giao thông được xử lý như thế nào?
    Sử dụng thuật toán YOLOv4 để nhận diện phương tiện và Deep SORT để theo dõi chuyển động, từ đó tính toán vận tốc và mật độ phương tiện theo thời gian thực, đảm bảo dữ liệu chính xác và kịp thời.

  4. Làm thế nào để xử lý các đoạn đường thiếu dữ liệu vận tốc?
    Mô hình dự báo kết hợp dữ liệu gom cụm và LSTM cho phép dự đoán vận tốc và thời gian ùn tắc ngay cả với các đoạn đường thiếu dữ liệu thực tế, dựa trên đặc điểm của các cụm tương đồng và dữ liệu lịch sử.

  5. Nghiên cứu có thể áp dụng cho các thành phố khác không?
    Phương pháp và mô hình có thể được điều chỉnh và áp dụng cho các đô thị khác có đặc điểm giao thông tương tự, tuy nhiên cần thu thập dữ liệu đặc thù và hiệu chỉnh mô hình phù hợp với từng địa phương.

Kết luận

  • Nghiên cứu đã xây dựng thành công mô hình gom cụm và dự báo tình trạng giao thông đô thị dựa trên dữ liệu thu thập từ camera an ninh và ứng dụng TomTom tại TP.HCM.
  • Thuật toán K-Means giúp phân nhóm các đoạn đường theo đặc điểm vận tốc và thời gian ùn tắc, tạo cơ sở cho dự báo chính xác hơn.
  • Mô hình LSTM thể hiện hiệu quả vượt trội trong dự báo chuỗi thời gian giao thông, đặc biệt với các đoạn đường thiếu dữ liệu vận tốc thực tế.
  • Hệ thống thu thập dữ liệu sử dụng YOLOv4 và Deep SORT đảm bảo độ chính xác và thời gian thực trong việc theo dõi phương tiện giao thông.
  • Đề xuất triển khai hệ thống dự báo giao thông thông minh tại TP.HCM trong vòng 12-18 tháng, đồng thời mở rộng ứng dụng cho các đô thị khác nhằm cải thiện hiệu quả quản lý và trải nghiệm người dùng.

Hành động tiếp theo là phối hợp với các cơ quan quản lý và đơn vị công nghệ để triển khai thử nghiệm hệ thống, đồng thời tiếp tục nghiên cứu mở rộng dữ liệu và cải tiến mô hình nhằm nâng cao độ chính xác và khả năng ứng dụng thực tiễn.