## Tổng quan nghiên cứu

Nền công nghiệp taxi đang trải qua sự chuyển đổi mạnh mẽ với sự xuất hiện của các công nghệ mới và đối thủ cạnh tranh ngày càng gia tăng. Theo ước tính, hơn 1.7 triệu chuyến taxi đã được ghi nhận trong một năm tại thành phố Porto, Bồ Đào Nha, tạo thành một kho dữ liệu lớn phục vụ cho việc nghiên cứu dự đoán điểm đích của các chuyến taxi. Vấn đề chính được đặt ra là làm thế nào để dự đoán chính xác điểm đích của một chuyến taxi dựa trên các điểm GPS đầu vào không cố định về số lượng, trong khi mạng nơron nhân tạo truyền thẳng nhiều tầng (MLP) yêu cầu kích thước đầu vào cố định. Mục tiêu cụ thể của nghiên cứu là tối ưu hóa số lượng điểm đầu vào (tham số k) được sử dụng trong mô hình mạng nơron để nâng cao độ chính xác dự đoán điểm đích taxi. Phạm vi nghiên cứu tập trung vào dữ liệu thu thập từ 442 taxi hoạt động tại Porto trong khoảng thời gian từ 01/07/2013 đến 30/06/2014, với dữ liệu đánh giá lấy từ năm thời điểm khác nhau trong năm 2014. Ý nghĩa của nghiên cứu được đo bằng các chỉ số sai số dự đoán, với mục tiêu giảm sai số trung bình xuống dưới 2 km, cải thiện ít nhất 10% so với mô hình hiện tại của đội MILA lab.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Mạng nơron nhân tạo truyền thẳng nhiều tầng (MLP):** Mạng gồm nhiều tầng nơron, trong đó tầng đầu vào nhận dữ liệu, các tầng ẩn xử lý thông tin và tầng ra cho kết quả dự đoán. MLP yêu cầu kích thước đầu vào cố định, điều này gây khó khăn khi dữ liệu đầu vào có độ dài biến đổi như chuỗi điểm GPS của taxi.
- **Tối ưu siêu tham số (Hyperparameter Optimization):** Quá trình tìm kiếm giá trị tối ưu cho các tham số cấu hình của mô hình, trong đó tham số k (số lượng điểm đầu vào) là siêu tham số quan trọng ảnh hưởng đến hiệu quả dự đoán.
- **Tối ưu Bayes (Bayesian Optimization):** Phương pháp dựa trên mô hình xác suất để tìm kiếm siêu tham số tối ưu, sử dụng Gaussian Process làm mô hình xấp xỉ và hàm Expected Improvement làm hàm thu để lựa chọn giá trị k tiếp theo cần thử nghiệm.
- **Khoảng cách Haversine và Equirectangular:** Các công thức tính khoảng cách giữa hai điểm trên bề mặt trái đất, dùng để đánh giá sai số dự đoán vị trí điểm đích taxi.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Sử dụng tập dữ liệu hơn 1.7 triệu chuyến taxi hoàn chỉnh tại Porto, Bồ Đào Nha, thu thập trong một năm, cùng tập dữ liệu đánh giá gồm 320 chuyến taxi từ năm thời điểm khác nhau.
- **Phương pháp phân tích:** Áp dụng mô hình mạng nơron nhân tạo truyền thẳng nhiều tầng của đội MILA lab, điều chỉnh tham số k (số điểm đầu vào) trong khoảng từ 2 đến 50. Sử dụng thuật toán tối ưu Bayes với Gaussian Process và hàm Expected Improvement để tự động tìm giá trị k tối ưu.
- **Timeline nghiên cứu:** Mỗi lần huấn luyện mạng nơron với một giá trị k mất khoảng 21 giờ trên máy ảo cấu hình CPU 2 vCPUs, RAM 5GB, GPU NVIDIA Tesla K80. Tổng thời gian dự kiến để huấn luyện toàn bộ các giá trị k là khoảng 43 ngày, đảm bảo tính khả thi cho nghiên cứu.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình MILA lab với k=5 điểm đầu và 5 điểm cuối cho sai số dự đoán trung bình khoảng 2.035 km trên tập dữ liệu kín.
- Việc tối ưu tham số k trong khoảng [2, 50] bằng phương pháp tối ưu Bayes giúp tìm ra giá trị k tối ưu làm giảm sai số dự đoán xuống còn khoảng 2.1 km hoặc thấp hơn, cải thiện đáng kể so với giá trị mặc định.
- Mô hình Gaussian Process kết hợp hàm Expected Improvement cho phép xác định giá trị k tiếp theo cần thử nghiệm một cách hiệu quả, giảm số lần huấn luyện mạng nơron cần thiết so với phương pháp tìm kiếm grid.
- Kết quả thực nghiệm cho thấy việc lựa chọn số lượng điểm đầu vào phù hợp có thể cải thiện độ chính xác dự đoán điểm đích taxi lên đến 10% so với mô hình gốc.

### Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do việc lựa chọn số lượng điểm đầu vào phù hợp giúp mạng nơron học được nhiều thông tin quan trọng hơn từ hành trình taxi, đặc biệt là các điểm đầu và cuối hành trình có ảnh hưởng lớn đến dự đoán điểm đích. So với phương pháp cố định k=5 của MILA lab, việc tối ưu k cho phép mô hình thích nghi tốt hơn với đặc điểm dữ liệu thực tế có độ dài biến đổi. Kết quả này phù hợp với các nghiên cứu trước đây về tầm quan trọng của siêu tham số trong mạng nơron và cho thấy phương pháp tối ưu Bayes là công cụ hiệu quả trong việc tìm kiếm siêu tham số tối ưu. Dữ liệu có thể được trình bày qua biểu đồ sai số theo từng giá trị k, minh họa rõ ràng xu hướng giảm sai số khi k được tối ưu. Ngoài ra, bảng tổng hợp sai số dự đoán cho từng giá trị k cung cấp cái nhìn chi tiết về hiệu quả của từng lựa chọn.

## Đề xuất và khuyến nghị

- **Áp dụng tối ưu Bayes trong huấn luyện mạng nơron:** Khuyến nghị các nhà nghiên cứu và doanh nghiệp taxi sử dụng phương pháp tối ưu Bayes để tự động tìm siêu tham số tối ưu, đặc biệt là số lượng điểm đầu vào, nhằm nâng cao độ chính xác dự đoán.
- **Tăng cường tiền xử lý dữ liệu:** Đề xuất thực hiện tiền xử lý dữ liệu GPS để loại bỏ các điểm sai lệch, dữ liệu thiếu nhằm cải thiện chất lượng đầu vào, từ đó nâng cao hiệu quả mô hình.
- **Mở rộng phạm vi siêu tham số:** Khuyến khích nghiên cứu thêm các siêu tham số khác như số tầng ẩn, số nơron mỗi tầng để tối ưu toàn diện mô hình mạng nơron.
- **Đầu tư hạ tầng tính toán:** Đề xuất sử dụng các dịch vụ điện toán đám mây với GPU mạnh để rút ngắn thời gian huấn luyện, tăng khả năng thử nghiệm nhiều giá trị siêu tham số.
- **Chủ thể thực hiện:** Các nhóm nghiên cứu trong lĩnh vực trí tuệ nhân tạo, các công ty taxi công nghệ, và các tổ chức phát triển phần mềm dự báo vận tải nên áp dụng các giải pháp trên trong vòng 6-12 tháng tới để nâng cao hiệu quả hoạt động.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành Kỹ thuật Phần mềm, Trí tuệ Nhân tạo:** Nắm bắt kiến thức về mạng nơron nhân tạo, tối ưu siêu tham số và ứng dụng thực tiễn trong dự đoán vận tải.
- **Doanh nghiệp taxi và vận tải:** Áp dụng mô hình dự đoán điểm đích để tối ưu phân bổ taxi, nâng cao hiệu quả phục vụ khách hàng.
- **Chuyên gia phát triển phần mềm dự báo:** Tham khảo phương pháp tối ưu Bayes và kỹ thuật huấn luyện mạng nơron để cải tiến các sản phẩm dự báo.
- **Nhà quản lý và hoạch định chính sách giao thông:** Hiểu rõ công nghệ dự đoán vận tải để xây dựng các chính sách hỗ trợ phát triển giao thông thông minh.

## Câu hỏi thường gặp

1. **Tại sao phải tối ưu số lượng điểm đầu vào k trong mạng nơron?**  
Việc tối ưu k giúp mạng nơron nhận đủ thông tin quan trọng từ hành trình taxi, tránh dư thừa hoặc thiếu dữ liệu, từ đó nâng cao độ chính xác dự đoán điểm đích.

2. **Phương pháp tối ưu Bayes có ưu điểm gì so với tìm kiếm grid?**  
Tối ưu Bayes giảm số lần huấn luyện cần thiết bằng cách dự đoán giá trị siêu tham số tiếp theo dựa trên mô hình xác suất, tiết kiệm thời gian và tài nguyên tính toán.

3. **Dữ liệu GPS có ảnh hưởng thế nào đến kết quả dự đoán?**  
Dữ liệu GPS bị thiếu hoặc sai lệch làm giảm độ chính xác mô hình. Tiền xử lý dữ liệu giúp loại bỏ các điểm không hợp lệ, cải thiện chất lượng đầu vào.

4. **Mô hình có thể áp dụng cho các thành phố khác không?**  
Có thể, nhưng cần điều chỉnh và huấn luyện lại với dữ liệu đặc thù của từng thành phố để đảm bảo hiệu quả dự đoán.

5. **Thời gian huấn luyện mô hình là bao lâu?**  
Trung bình khoảng 21 giờ cho mỗi giá trị k trên máy ảo cấu hình chuẩn, tổng thời gian huấn luyện toàn bộ khoảng 43 ngày nếu chạy tuần tự.

## Kết luận

- Đã phát triển thành công phương pháp tối ưu số lượng điểm đầu vào k cho mạng nơron nhân tạo trong bài toán dự đoán điểm đích taxi, cải thiện độ chính xác dự đoán khoảng 10%.  
- Áp dụng thuật toán tối ưu Bayes với Gaussian Process và hàm Expected Improvement giúp tự động hóa và tối ưu hóa quá trình tìm kiếm siêu tham số.  
- Kết quả thực nghiệm trên dữ liệu thực tế của thành phố Porto cho thấy mô hình có độ sai số dự đoán trung bình dưới 2.1 km, vượt trội so với mô hình gốc.  
- Nghiên cứu mở ra hướng phát triển cho các ứng dụng dự đoán vận tải thông minh và tối ưu hóa mạng lưới taxi.  
- Đề xuất triển khai áp dụng trong thực tế và tiếp tục nghiên cứu mở rộng các siêu tham số khác để nâng cao hiệu quả mô hình trong tương lai.

**Hành động tiếp theo:** Các nhà nghiên cứu và doanh nghiệp nên áp dụng phương pháp tối ưu Bayes để cải tiến mô hình dự đoán, đồng thời đầu tư vào tiền xử lý dữ liệu và hạ tầng tính toán để đạt hiệu quả tối ưu.