## Tổng quan nghiên cứu
Nền công nghiệp taxi đang trải qua sự chuyển đổi mạnh mẽ với sự xuất hiện của các công nghệ mới và đối thủ cạnh tranh ngày càng gia tăng. Một trong những thay đổi quan trọng là việc chuyển từ hệ thống điều phối taxi truyền thống bằng bộ đàm sang hệ thống điều phối điện tử hiện đại, trong đó mỗi taxi được trang bị thiết bị GPS để xác định vị trí và trao đổi thông tin với trung tâm điều phối. Theo báo cáo của ngành, dữ liệu thu thập từ hơn 1.7 triệu chuyến taxi tại thành phố Porto, Bồ Đào Nha trong vòng một năm cho thấy việc dự đoán điểm đích của một chuyến taxi là một bài toán phức tạp do số lượng điểm GPS đầu vào không cố định. Mục tiêu nghiên cứu là tối ưu hóa việc lựa chọn số lượng điểm đầu vào (k) khi áp dụng mạng nơron nhân tạo truyền thẳng nhiều tầng (MLP) để dự đoán điểm đích của chuyến taxi, nhằm nâng cao độ chính xác dự đoán và hiệu quả vận hành hệ thống taxi. Phạm vi nghiên cứu tập trung trên dữ liệu thu thập từ 442 taxi hoạt động tại Porto trong khoảng thời gian từ 01/07/2013 đến 30/06/2014, với mục tiêu giảm sai số dự đoán dưới 2 km, cải thiện ít nhất 10% so với mô hình hiện tại. Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao hiệu quả phân bổ taxi, giảm thời gian chờ đợi của khách hàng và tối ưu hóa hoạt động kinh doanh taxi.
## Cơ sở lý thuyết và phương pháp nghiên cứu
### Khung lý thuyết áp dụng
- **Mạng nơron nhân tạo truyền thẳng nhiều tầng (Multi-Layer Perceptron - MLP):** Mạng gồm nhiều tầng nơron, trong đó tầng đầu vào nhận dữ liệu cố định, các tầng ẩn xử lý thông tin qua các hàm phi tuyến như ReLU, và tầng đầu ra dự đoán tọa độ điểm đích. MLP được chứng minh có khả năng xấp xỉ các hàm toán học phức tạp và được ứng dụng rộng rãi trong dự báo.
- **Tối ưu siêu tham số (Hyperparameter Optimization):** Tập trung vào việc tìm giá trị tối ưu cho siêu tham số k - số lượng điểm đầu vào cố định cho mạng nơron, ảnh hưởng trực tiếp đến hiệu quả học và dự đoán.
- **Tối ưu Bayes (Bayesian Optimization):** Phương pháp dựa trên mô hình Gaussian Process để xây dựng mô hình xấp xỉ mối quan hệ giữa siêu tham số và kết quả huấn luyện, kết hợp hàm thu Expected Improvement để lựa chọn giá trị k tiếp theo một cách tự động và hiệu quả.
- **Khoảng cách Haversine và Equirectangular:** Được sử dụng để đánh giá sai số dự đoán tọa độ điểm đích, trong đó công thức equirectangular được áp dụng để đơn giản hóa tính toán phù hợp với quy mô thành phố Porto.
### Phương pháp nghiên cứu
- **Nguồn dữ liệu:** Sử dụng tập dữ liệu hơn 1.7 triệu chuyến taxi hoàn chỉnh của 442 taxi tại Porto, Bồ Đào Nha, thu thập trong một năm (01/07/2013 - 30/06/2014), cùng tập dữ liệu đánh giá gồm 320 chuyến taxi từ 5 thời điểm khác nhau.
- **Phương pháp phân tích:** Áp dụng mạng nơron nhân tạo truyền thẳng nhiều tầng với đầu vào là k điểm đầu tiên và k điểm cuối cùng của mỗi chuyến taxi, cùng các thông tin meta như ID khách hàng, ID taxi, thời gian. Sử dụng thuật toán tối ưu Bayes với Gaussian Process và hàm Expected Improvement để tự động tìm giá trị k tối ưu trong khoảng [2, 50].
- **Timeline nghiên cứu:** Mỗi mô hình huấn luyện với 2 triệu vòng lặp, mất khoảng 21 giờ trên cấu hình máy tính sử dụng GPU NVIDIA Tesla K80. Tổng thời gian huấn luyện cho toàn bộ giá trị k là khoảng 43 ngày, đảm bảo tính khả thi trong nghiên cứu.
- **Môi trường thực nghiệm:** Nghiên cứu được triển khai trên nền tảng Google Cloud Platform với cấu hình CPU 2 vCPUs, RAM 5GB, GPU NVIDIA Tesla K80 12GB, hệ điều hành Ubuntu 16.5 LTS, sử dụng Python và thư viện sklearn cho Gaussian Process.
## Kết quả nghiên cứu và thảo luận
### Những phát hiện chính
- **Giá trị k ảnh hưởng lớn đến độ chính xác dự đoán:** Khi k thay đổi trong khoảng từ 2 đến 50, sai số dự đoán điểm đích dao động từ khoảng 2.1 km đến trên 3 km, với giá trị k tối ưu giúp giảm sai số xuống dưới 2 km, cải thiện hơn 10% so với mô hình MILA lab sử dụng k=5.
- **Mô hình tối ưu Bayes hiệu quả trong tìm kiếm k tối ưu:** Việc sử dụng Gaussian Process kết hợp hàm Expected Improvement giúp tự động xác định giá trị k tối ưu mà không cần thử toàn bộ các giá trị, tiết kiệm thời gian huấn luyện đáng kể.
- **Mô hình MILA lab chưa hội tụ hoàn toàn:** Với gần 2 triệu vòng lặp, sai số trung bình đạt 2.035 km, trong khi kỳ vọng hội tụ sau 20 triệu vòng lặp sẽ cải thiện hơn nữa.
- **Dữ liệu thực tế chứa nhiều sai lệch:** Các điểm GPS bị thiếu, thời gian bắt đầu chuyến đi không chính xác, và quỹ đạo không thực tế ảnh hưởng đến độ chính xác dự đoán, tuy nhiên mô hình vẫn cho kết quả tốt mà không cần tiền xử lý dữ liệu phức tạp.
### Thảo luận kết quả
Nguyên nhân chính của sự khác biệt về độ chính xác dự đoán là do số lượng điểm đầu vào k ảnh hưởng trực tiếp đến khả năng mạng nơron học được các đặc trưng quan trọng của hành trình taxi. Việc chọn k quá nhỏ sẽ bỏ sót thông tin quan trọng, trong khi k quá lớn làm tăng độ phức tạp và thời gian huấn luyện. So sánh với các nghiên cứu trước, mô hình tối ưu Bayes cho phép tìm kiếm k hiệu quả hơn so với phương pháp tìm kiếm grid hoặc ngẫu nhiên truyền thống, đồng thời giảm thiểu công sức và thời gian tính toán. Kết quả có thể được trình bày qua biểu đồ sai số dự đoán theo từng giá trị k, minh họa rõ ràng điểm k tối ưu và xu hướng thay đổi sai số. Ý nghĩa của nghiên cứu là cung cấp một phương pháp tự động, chính xác để lựa chọn siêu tham số trong mạng nơron, góp phần nâng cao hiệu quả dự đoán trong các bài toán có dữ liệu đầu vào biến đổi.
## Đề xuất và khuyến nghị
- **Áp dụng phương pháp tối ưu Bayes trong huấn luyện mạng nơron:** Tự động tìm kiếm siêu tham số k tối ưu giúp giảm sai số dự đoán dưới 2 km, nâng cao hiệu quả vận hành hệ thống taxi trong vòng 6-12 tháng tới, do các nhóm nghiên cứu và doanh nghiệp taxi thực hiện.
- **Tiền xử lý dữ liệu GPS:** Triển khai các kỹ thuật làm sạch và chuẩn hóa dữ liệu để loại bỏ các điểm sai lệch, thiếu hụt nhằm cải thiện chất lượng dữ liệu đầu vào, giảm sai số dự đoán, thực hiện trong 3-6 tháng bởi bộ phận kỹ thuật dữ liệu.
- **Mở rộng nghiên cứu với các siêu tham số khác:** Nghiên cứu tối ưu thêm các siêu tham số như số tầng ẩn, tốc độ học để nâng cao độ chính xác mô hình, dự kiến trong 12 tháng tiếp theo bởi các nhà nghiên cứu chuyên sâu.
- **Triển khai mô hình trên hệ thống thực tế:** Áp dụng mô hình dự đoán điểm đích tối ưu vào hệ thống điều phối taxi điện tử để cải thiện phân bổ xe, giảm thời gian chờ đợi khách hàng, thực hiện thí điểm trong 6 tháng tại một số địa phương.
- **Đào tạo và nâng cao năng lực cho đội ngũ phát triển:** Tổ chức các khóa đào tạo về mạng nơron và tối ưu siêu tham số cho kỹ sư phần mềm nhằm nâng cao chất lượng phát triển và bảo trì hệ thống, thực hiện liên tục hàng năm.
## Đối tượng nên tham khảo luận văn
- **Nhà nghiên cứu và sinh viên ngành Kỹ thuật Phần mềm, Trí tuệ Nhân tạo:** Nghiên cứu sâu về mạng nơron nhân tạo, tối ưu siêu tham số, ứng dụng trong dự đoán dữ liệu chuỗi thời gian.
- **Doanh nghiệp taxi và các công ty công nghệ vận tải:** Áp dụng mô hình dự đoán điểm đích để tối ưu hóa hệ thống điều phối, nâng cao hiệu quả kinh doanh và trải nghiệm khách hàng.
- **Chuyên gia phân tích dữ liệu và kỹ sư dữ liệu:** Tham khảo phương pháp xử lý dữ liệu GPS, kỹ thuật tối ưu Bayes trong huấn luyện mô hình mạng nơron.
- **Nhà quản lý và hoạch định chính sách giao thông:** Hiểu rõ các công nghệ mới trong quản lý vận tải, từ đó xây dựng các chính sách hỗ trợ phát triển hệ thống taxi thông minh.
## Câu hỏi thường gặp
1. **Tại sao phải chọn số lượng điểm đầu vào cố định cho mạng nơron?**
Mạng nơron truyền thẳng nhiều tầng yêu cầu đầu vào có kích thước cố định để đảm bảo tính toán ổn định và hiệu quả. Việc chọn số lượng điểm đầu vào cố định giúp chuẩn hóa dữ liệu và giảm độ phức tạp của mô hình.
2. **Phương pháp tối ưu Bayes có ưu điểm gì so với tìm kiếm grid?**
Tối ưu Bayes sử dụng mô hình xấp xỉ để dự đoán hiệu quả của các siêu tham số, từ đó chọn giá trị tiếp theo một cách thông minh, giảm số lần huấn luyện cần thiết so với tìm kiếm grid thử tất cả các giá trị.
3. **Sai số dự đoán được tính như thế nào?**
Sai số được tính bằng khoảng cách Haversine hoặc công thức equirectangular giữa điểm đích thực tế và điểm dự đoán, phản ánh khoảng cách địa lý sai lệch trung bình của mô hình.
4. **Có thể áp dụng phương pháp này cho các bài toán khác không?**
Có, phương pháp tối ưu siêu tham số bằng tối ưu Bayes và Gaussian Process có thể áp dụng cho nhiều bài toán học máy khác có siêu tham số cần tối ưu, đặc biệt với dữ liệu đầu vào biến đổi.
5. **Thời gian huấn luyện mô hình có thể rút ngắn không?**
Có thể rút ngắn bằng cách sử dụng phần cứng mạnh hơn, song song hóa quá trình huấn luyện hoặc áp dụng các kỹ thuật giảm chiều dữ liệu và tăng tốc thuật toán huấn luyện.
## Kết luận
- Đã xác định được tầm quan trọng của việc lựa chọn số lượng điểm đầu vào k trong mạng nơron nhân tạo truyền thẳng nhiều tầng để dự đoán điểm đích chuyến taxi.
- Phương pháp tối ưu Bayes với Gaussian Process và hàm Expected Improvement được đề xuất và chứng minh hiệu quả trong việc tìm giá trị k tối ưu.
- Kết quả thực nghiệm trên dữ liệu thực tế cho thấy sai số dự đoán có thể giảm dưới 2 km, cải thiện hơn 10% so với mô hình hiện tại.
- Nghiên cứu góp phần nâng cao hiệu quả vận hành hệ thống taxi điện tử, giảm thời gian chờ đợi và tối ưu phân bổ xe.
- Đề xuất các bước tiếp theo bao gồm mở rộng tối ưu siêu tham số, tiền xử lý dữ liệu và triển khai mô hình thực tế, kêu gọi các nhà nghiên cứu và doanh nghiệp cùng hợp tác phát triển.
**Hành động tiếp theo:** Áp dụng mô hình tối ưu vào hệ thống taxi hiện tại, đồng thời nghiên cứu mở rộng các siêu tham số khác để nâng cao hiệu quả dự đoán và vận hành.