Tổng quan nghiên cứu
Giao thông công cộng đóng vai trò thiết yếu trong cơ sở hạ tầng đô thị hiện đại, với xe buýt là phương tiện phổ biến do tính linh hoạt và khả năng tiếp cận cao. Theo ước tính, hàng ngày có hàng triệu lượt hành khách sử dụng xe buýt, do đó việc dự đoán chính xác thời gian đến trạm của xe buýt là một yêu cầu cấp thiết nhằm nâng cao trải nghiệm người dùng và hiệu quả vận hành hệ thống. Tuy nhiên, dự đoán thời gian đến xe buýt gặp nhiều thách thức do ảnh hưởng của các yếu tố như tắc nghẽn giao thông, điều kiện thời tiết, và sự biến động trong lịch trình.
Mục tiêu nghiên cứu là phát triển một giải pháp dự đoán thời gian đến trạm dừng của xe buýt dựa trên dữ liệu lịch sử di chuyển, sử dụng mô hình mạng nơron truy hồi (RNN) với cấu trúc Bộ nhớ dài hạn ngắn hạn (LSTM). Phạm vi nghiên cứu tập trung vào dữ liệu GPS và GTFS của các tuyến xe buýt tại thành phố Dublin, Ireland, trong khoảng thời gian tháng 1 năm 2013 và tháng 12 năm 2016. Giải pháp đề xuất nhằm cung cấp dự đoán chính xác và đáng tin cậy, góp phần cải thiện độ tin cậy dịch vụ và sự hài lòng của hành khách, đồng thời hỗ trợ các cơ quan quản lý tối ưu hóa lịch trình và điều phối xe buýt.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên hai lý thuyết chính: bài toán hồi quy trong học máy và mô hình mạng nơron nhân tạo, đặc biệt là mạng nơron truy hồi (RNN) với kiến trúc LSTM.
Hồi quy tuyến tính: Là phương pháp cơ bản trong học máy để dự đoán giá trị số dựa trên mối quan hệ tuyến tính giữa biến đầu vào và đầu ra. Mô hình này được sử dụng làm cơ sở so sánh trong nghiên cứu.
Mạng nơron nhân tạo (ANN): Mạng MLP với các lớp ẩn giúp khai thác các mối quan hệ phi tuyến trong dữ liệu, tuy nhiên hạn chế trong việc xử lý dữ liệu chuỗi.
Mạng nơron truy hồi (RNN): Đặc biệt phù hợp với dữ liệu chuỗi nhờ khả năng duy trì trạng thái ẩn, nắm bắt các phụ thuộc tuần tự trong dữ liệu.
LSTM (Long Short-Term Memory): Là biến thể của RNN, giải quyết vấn đề tiêu biến gradient, cho phép mô hình học được các phụ thuộc dài hạn trong chuỗi dữ liệu. LSTM sử dụng các cổng đầu vào, quên, đầu ra và trạng thái cell để kiểm soát luồng thông tin.
Các khái niệm chính bao gồm: dữ liệu chuỗi thời gian, vector đặc trưng đầu vào, hàm mất mát trong hồi quy (MSE, RMSE, MAE, MAPE), và kỹ thuật biến đổi đặc trưng chu kỳ (Cyclical Features) để mã hóa thông tin thời gian.
Phương pháp nghiên cứu
Nguồn dữ liệu chính gồm dữ liệu GPS tháng 1 năm 2013 và dữ liệu GTFS tháng 12 năm 2016 của thành phố Dublin, Ireland. Dữ liệu GPS cung cấp thông tin vị trí, thời gian, tuyến xe, chuyến đi và xe buýt, trong khi dữ liệu GTFS cung cấp thông tin tĩnh về tuyến đường, trạm dừng và lịch trình.
Phương pháp nghiên cứu bao gồm các bước:
Tiền xử lý dữ liệu: Làm sạch dữ liệu GPS (loại bỏ điểm trùng lặp, ngoại lai, bổ khuyết dữ liệu thiếu), xác định đúng chuyến đi và thời gian đến từng trạm dừng dựa trên kỹ thuật định vị trong bán kính 50m quanh trạm.
Trích xuất đặc trưng: Xây dựng vector đặc trưng gồm thời gian xuất phát, thời gian đến trạm hiện tại, quãng đường đã đi, quãng đường đến trạm kế tiếp, và biến đổi các đặc trưng thời gian thành dạng chu kỳ.
Xây dựng mô hình dự đoán: Huấn luyện mô hình LSTM trên dữ liệu lịch sử đã xử lý, so sánh với mô hình cơ sở dựa trên vận tốc trung bình và mô hình hồi quy tuyến tính.
Phân tích và đánh giá: Sử dụng các chỉ số MSE, RMSE, MAE, MAPE để đánh giá độ chính xác dự đoán.
Quá trình nghiên cứu kéo dài từ tháng 9/2022 đến tháng 6/2023, với cỡ mẫu dữ liệu gồm hàng nghìn chuyến xe buýt và hàng chục nghìn điểm dữ liệu GPS được xử lý.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Mô hình LSTM vượt trội hơn mô hình cơ sở: Kết quả thực nghiệm trên tập dữ liệu 747_O và 747_I cho thấy mô hình LSTM giảm sai số trung bình tuyệt đối (MAE) khoảng 15-20% so với mô hình dự đoán dựa trên vận tốc trung bình.
Hiệu quả của biến đổi đặc trưng chu kỳ: Việc sử dụng kỹ thuật biến đổi cyclical features cho các đặc trưng thời gian (ngày trong tuần, giờ trong ngày) giúp cải thiện độ chính xác dự đoán khoảng 10% so với mã hóa one-hot truyền thống.
Khả năng nắm bắt phụ thuộc dài hạn của LSTM: Mô hình LSTM thể hiện khả năng dự đoán chính xác hơn ở các trạm dừng xa hơn trong tuyến, với sai số dự đoán tăng chậm hơn so với các mô hình khác.
Thách thức dữ liệu không đồng bộ: Việc không khớp thời gian giữa dữ liệu GPS (2013) và GTFS (2016) gây khó khăn trong việc xác định chính xác lịch trình, tuy nhiên mô hình vẫn duy trì hiệu suất tốt nhờ xử lý dữ liệu GPS chi tiết.
Thảo luận kết quả
Nguyên nhân chính của sự vượt trội của mô hình LSTM là khả năng xử lý dữ liệu chuỗi và nắm bắt các phụ thuộc thời gian dài hạn, điều mà các mô hình hồi quy tuyến tính hay dựa trên vận tốc trung bình không thể làm được. Kết quả này phù hợp với các nghiên cứu trước đây trong lĩnh vực dự đoán thời gian đến xe buýt.
Việc áp dụng kỹ thuật biến đổi đặc trưng chu kỳ giúp mô hình hiểu được tính tuần hoàn của dữ liệu thời gian, từ đó cải thiện dự đoán trong các khung giờ và ngày khác nhau. Kết quả có thể được minh họa qua biểu đồ so sánh sai số dự đoán giữa các mô hình theo từng trạm dừng, cho thấy LSTM duy trì sai số thấp hơn rõ rệt.
Mặc dù dữ liệu không đồng bộ giữa GPS và GTFS là một hạn chế, nhưng quá trình tiền xử lý và bổ khuyết dữ liệu đã giúp giảm thiểu ảnh hưởng này. Điều này cho thấy mô hình có tiềm năng ứng dụng thực tế trong các hệ thống xe buýt có dữ liệu không hoàn hảo.
Đề xuất và khuyến nghị
Triển khai mô hình LSTM trong hệ thống quản lý xe buýt: Áp dụng mô hình dự đoán thời gian đến trạm dựa trên LSTM để cung cấp thông tin chính xác cho hành khách và điều phối vận tải, ưu tiên trong vòng 6 tháng tới, do các cơ quan quản lý giao thông thực hiện.
Cải thiện thu thập và đồng bộ dữ liệu: Xây dựng hệ thống thu thập dữ liệu GPS và GTFS đồng bộ thời gian, đảm bảo dữ liệu đầu vào chất lượng cao, giảm thiểu sai lệch trong dự đoán, thực hiện trong 12 tháng tiếp theo bởi các đơn vị vận tải và công nghệ.
Mở rộng mô hình với dữ liệu thời tiết và giao thông thời gian thực: Tích hợp các yếu tố khách quan như điều kiện thời tiết, tình trạng giao thông để nâng cao độ chính xác dự đoán, nghiên cứu và thử nghiệm trong 1 năm, phối hợp giữa các viện nghiên cứu và cơ quan quản lý.
Phát triển giao diện người dùng và API dự đoán: Cung cấp thông tin dự đoán thời gian đến xe buýt qua ứng dụng di động và API cho các bên thứ ba, giúp hành khách và nhà quản lý dễ dàng tiếp cận dữ liệu, triển khai trong 6 tháng, do các công ty công nghệ thực hiện.
Đối tượng nên tham khảo luận văn
Các nhà quản lý giao thông công cộng: Nhận được giải pháp dự đoán thời gian đến xe buýt chính xác, hỗ trợ tối ưu lịch trình và điều phối phương tiện, giảm chi phí vận hành.
Các nhà phát triển phần mềm giao thông thông minh: Áp dụng mô hình LSTM và kỹ thuật xử lý dữ liệu chuỗi để phát triển các ứng dụng dự đoán thời gian thực, nâng cao trải nghiệm người dùng.
Các nhà nghiên cứu trong lĩnh vực học máy và kỹ thuật giao thông: Tham khảo phương pháp tiền xử lý dữ liệu GPS, GTFS và ứng dụng mạng nơron truy hồi trong bài toán dự đoán chuỗi thời gian.
Các cơ quan chính phủ và tổ chức quy hoạch đô thị: Sử dụng kết quả nghiên cứu để xây dựng chính sách phát triển giao thông công cộng hiệu quả, nâng cao chất lượng dịch vụ và giảm ùn tắc giao thông.
Câu hỏi thường gặp
Mô hình LSTM có ưu điểm gì so với các phương pháp truyền thống?
Mô hình LSTM có khả năng nắm bắt các phụ thuộc dài hạn trong dữ liệu chuỗi, giúp dự đoán chính xác hơn trong các tình huống có biến động phức tạp như giao thông và thời tiết. Ví dụ, LSTM giảm sai số dự đoán MAE khoảng 15-20% so với mô hình dựa trên vận tốc trung bình.Dữ liệu GPS và GTFS có vai trò như thế nào trong nghiên cứu?
Dữ liệu GPS cung cấp thông tin vị trí và thời gian thực tế của xe buýt, trong khi dữ liệu GTFS cung cấp thông tin tĩnh về tuyến đường và lịch trình. Kết hợp hai nguồn dữ liệu này giúp xây dựng mô hình dự đoán chính xác hơn.Làm thế nào để xử lý dữ liệu GPS bị thiếu hoặc nhiễu?
Luận văn áp dụng kỹ thuật làm sạch dữ liệu, loại bỏ điểm ngoại lai dựa trên ngưỡng vận tốc, bổ khuyết dữ liệu thiếu bằng cách sử dụng vận tốc trung bình giữa các trạm đã biết, giúp đảm bảo chất lượng dữ liệu đầu vào.Có thể áp dụng mô hình này cho các thành phố khác không?
Có thể, với điều kiện thu thập dữ liệu GPS và GTFS tương tự. Quá trình tiền xử lý được thiết kế không phụ thuộc quá nhiều vào cấu trúc dữ liệu cụ thể, giúp dễ dàng áp dụng cho các hệ thống xe buýt khác.Thời gian triển khai mô hình dự đoán trong thực tế là bao lâu?
Tùy thuộc vào quy mô dữ liệu và hạ tầng công nghệ, nhưng theo đề xuất, việc triển khai mô hình LSTM và tích hợp vào hệ thống quản lý có thể hoàn thành trong vòng 6 tháng đến 1 năm.
Kết luận
- Đề xuất thành công giải pháp dự đoán thời gian đến trạm xe buýt dựa trên mô hình mạng nơron truy hồi LSTM, sử dụng dữ liệu GPS và GTFS.
- Mô hình LSTM cho kết quả dự đoán chính xác hơn 15-20% so với các phương pháp truyền thống như vận tốc trung bình và hồi quy tuyến tính.
- Kỹ thuật biến đổi đặc trưng chu kỳ giúp cải thiện hiệu suất mô hình trong việc xử lý dữ liệu thời gian.
- Giải pháp có tiềm năng ứng dụng thực tế, góp phần nâng cao hiệu quả vận hành và sự hài lòng của hành khách.
- Các bước tiếp theo bao gồm triển khai mô hình trong hệ thống quản lý xe buýt, mở rộng tích hợp dữ liệu thời tiết và giao thông thời gian thực, đồng thời phát triển giao diện người dùng và API dự đoán.
Hành động tiếp theo là phối hợp với các cơ quan quản lý giao thông để thử nghiệm và triển khai mô hình, đồng thời tiếp tục nghiên cứu mở rộng để nâng cao độ chính xác và khả năng ứng dụng trong các môi trường khác nhau.