Tổng quan nghiên cứu
Theo thống kê của Tổng cục Hàng không Việt Nam (CAAV), thị trường hàng không Việt Nam đã đạt mức tăng trưởng ấn tượng với khoảng 52,2 triệu lượt hành khách trong năm 2016, tăng trên 29% so với năm 2015. Trong đó, lượng hành khách nội địa đạt khoảng 28 triệu lượt, tăng 30% so với năm trước. Việt Nam hiện có 4 hãng hàng không nội địa và 63 hãng hàng không quốc tế từ 25 quốc gia tham gia khai thác qua 11 cảng hàng không quốc tế và 12 cảng hàng không nội địa. Sự phát triển mạnh mẽ của ngành hàng không kéo theo sự biến động phức tạp của giá vé máy bay, do các hãng hàng không áp dụng các thuật toán thương mại phức tạp để điều chỉnh giá vé nhằm tối đa hóa lợi nhuận.
Vấn đề nghiên cứu tập trung vào việc xây dựng mô hình dự báo giá vé máy bay cho thị trường hàng không Việt Nam, nhằm hỗ trợ hành khách lựa chọn thời điểm mua vé tối ưu để tiết kiệm chi phí. Mục tiêu cụ thể là phân tích dữ liệu giá vé thu thập từ các chặng bay nội địa chính như TP.HCM - Hà Nội, TP.HCM - Đà Nẵng, TP.HCM - Phú Quốc, Hà Nội - Đà Nẵng và Hà Nội - Phú Quốc trong khoảng thời gian từ tháng 1 đến tháng 4 năm 2017. Ý nghĩa của nghiên cứu được thể hiện qua việc cung cấp một công cụ dự báo giá vé có độ tin cậy cao, giúp hành khách giảm thiểu chi phí và nâng cao hiệu quả lựa chọn vé trong bối cảnh thị trường cạnh tranh khốc liệt với mức tăng trưởng hành khách nội địa lên tới 30% mỗi năm.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Nghiên cứu dựa trên các lý thuyết và mô hình học máy trong lĩnh vực dự báo dữ liệu, bao gồm:
Mô hình hồi quy: Mô hình mô tả mối quan hệ giữa biến độc lập (các thuộc tính giá vé, thời gian mua vé, hãng hàng không, v.v.) và biến phụ thuộc (giá vé). Phương trình hồi quy được biểu diễn dưới dạng $Y = f(X, B)$, trong đó $X$ là biến dự báo, $Y$ là biến đáp ứng, và $B$ là hệ số hồi quy.
Cây quyết định (Decision Tree): Giải thuật học máy có giám sát, sử dụng phương pháp phân tách dựa trên giảm phương sai (Variance Reduction) để xây dựng mô hình hồi quy dự báo giá vé.
Random Forest: Kỹ thuật kết hợp nhiều cây quyết định để giảm phương sai và tăng độ chính xác dự báo.
Multilayer Perceptron (MLP): Mạng nơ-ron nhân tạo nhiều lớp, sử dụng các hàm kích hoạt như Logistic, TanH và ReLU, được huấn luyện bằng các thuật toán tối ưu như Stochastic Gradient Descent (SGD) và Adaptive Moment Estimation (Adam).
Support Vector Machines (SVM): Phương pháp học máy cho bài toán phân lớp và hồi quy, sử dụng các hàm kernel như Linear, Polynomial, RBF để tìm siêu mặt phẳng tối ưu.
K-Nearest Neighbors (KNN): Giải thuật phi tham số dựa trên khoảng cách Euclidean hoặc Minkowski để dự báo giá vé dựa trên các điểm dữ liệu gần nhất.
AdaBoost và Gradient Boosting: Các kỹ thuật Boosting nhằm kết hợp nhiều mô hình yếu để tạo thành mô hình mạnh, giảm bias và variance, đồng thời tránh overfitting bằng các kỹ thuật ràng buộc và regularization.
Các tiêu chí đánh giá độ chính xác dự báo bao gồm Mean Squared Error (MSE), Median Absolute Error (MAE) và hệ số xác định R-squared (R²).
Phương pháp nghiên cứu
Nguồn dữ liệu được thu thập tự động bằng công cụ bóc tách thông tin từ các trang web bán vé máy bay trực tuyến cho các chặng bay nội địa chính tại Việt Nam trong giai đoạn từ tháng 1 đến tháng 4 năm 2017. Bộ dữ liệu thu thập gồm hơn 50.000 giá vé của ba hãng hàng không lớn: Vietnam Airlines, Vietjet Air và Jetstar Pacific.
Quy trình nghiên cứu bao gồm các bước:
Tiền xử lý dữ liệu: Loại bỏ vé khuyến mãi, vé hạng thương gia, chuẩn hóa các thuộc tính giờ bay, ngày khởi hành, và chuyển đổi các thuộc tính dạng chữ sang dạng số phù hợp với công cụ học máy.
Chia bộ dữ liệu: Tỷ lệ 70% cho huấn luyện và 30% cho kiểm thử.
Đánh giá các giải thuật học máy truyền thống: Bao gồm Decision Tree, KNN, SVM, MLP, Random Forest, AdaBoost và Gradient Boosting, sử dụng thư viện scikit-learn trên hệ điều hành Ubuntu 16.04.
Tối ưu tham số: Sử dụng phương pháp vét cạn (GridSearchCV) để tìm bộ tham số tối ưu cho từng giải thuật.
Xây dựng mô hình dự báo kết hợp: Kết hợp Random Forest và MLP theo phương pháp xếp chồng (stacking) nhằm nâng cao hiệu quả dự báo.
Thời gian nghiên cứu kéo dài từ tháng 1 đến tháng 6 năm 2017, tập trung vào dữ liệu giá vé trong vòng 21 ngày trước ngày khởi hành.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu quả các giải thuật học máy truyền thống:
- Random Forest và MLP cho kết quả dự báo tốt hơn so với các giải thuật khác với hệ số R² lần lượt đạt khoảng 0.65 và 0.62, trong khi Decision Tree chỉ đạt 0.06.
- Mean Absolute Error (MAE) của Random Forest và MLP lần lượt là khoảng 45.000 VND và 48.000 VND, thấp hơn đáng kể so với các phương pháp còn lại.
Mô hình kết hợp Random Forest và MLP:
- Phương pháp xếp chồng giữa Random Forest và MLP cải thiện độ chính xác dự báo, giảm MAE xuống còn khoảng 40.000 VND, tăng R² lên khoảng 0.70 so với các mô hình đơn lẻ.
- Mô hình này cho phép dự báo chính xác hơn về biến động giá vé trong khoảng 21 ngày trước ngày khởi hành.
Ảnh hưởng của các thuộc tính đến biến động giá vé:
- Thuộc tính "số ngày mua vé trước ngày khởi hành" có ảnh hưởng lớn nhất đến sự biến động giá vé, chiếm tỷ trọng ảnh hưởng trên 50%.
- Các thuộc tính như giờ khởi hành, hãng hàng không và ngày lễ cũng đóng vai trò quan trọng, ảnh hưởng khoảng 20-30% đến biến động giá.
Phân bố biến động giá vé:
- Khoảng 70% giá vé có xu hướng không tăng không giảm trong các ngày gần ngày khởi hành, trong khi giá vé tăng chiếm tỷ lệ cao hơn so với giảm giá.
Thảo luận kết quả
Kết quả cho thấy các mô hình học máy truyền thống như Random Forest và MLP phù hợp với bài toán dự báo giá vé máy bay tại thị trường Việt Nam, đặc biệt khi kết hợp theo phương pháp xếp chồng giúp nâng cao hiệu quả dự báo. Điều này phù hợp với các nghiên cứu quốc tế đã áp dụng kỹ thuật ensemble learning để cải thiện độ chính xác dự báo.
Việc xác định "số ngày mua vé trước ngày khởi hành" là yếu tố quan trọng nhất phản ánh đúng thực tế thị trường, khi các hãng hàng không thường điều chỉnh giá vé dựa trên thời gian còn lại đến ngày bay nhằm tối đa hóa lợi nhuận. Các thuộc tính khác như giờ bay và ngày lễ cũng ảnh hưởng đến giá vé do nhu cầu khách hàng thay đổi theo thời gian và dịp lễ.
Dữ liệu thu thập trong khoảng 21 ngày trước ngày khởi hành cho thấy sự biến động giá vé khá phức tạp, với nhiều mức giá khác nhau cho cùng một loại vé, phản ánh chiến lược định giá phân biệt của các hãng hàng không. Mô hình dự báo có thể được trình bày qua biểu đồ so sánh giá vé thực tế và giá vé dự báo theo từng ngày trước ngày khởi hành, giúp người dùng dễ dàng nhận biết thời điểm mua vé tối ưu.
Đề xuất và khuyến nghị
Phát triển hệ thống dự báo giá vé trực tuyến:
- Xây dựng nền tảng dự báo giá vé máy bay dựa trên mô hình kết hợp Random Forest và MLP để cung cấp thông tin thời điểm mua vé tối ưu cho hành khách.
- Mục tiêu giảm MAE xuống dưới 40.000 VND trong vòng 12 tháng tới.
- Chủ thể thực hiện: Các công ty công nghệ trong lĩnh vực du lịch và hàng không.
Tăng cường thu thập và cập nhật dữ liệu liên tục:
- Mở rộng phạm vi thu thập dữ liệu giá vé cho nhiều chặng bay và thời gian dài hơn để nâng cao độ chính xác mô hình.
- Thời gian thực hiện: 6-12 tháng.
- Chủ thể thực hiện: Các tổ chức nghiên cứu và doanh nghiệp công nghệ.
Kết hợp dữ liệu bổ sung vào mô hình dự báo:
- Bổ sung các yếu tố như số ghế còn trống, lịch sử mua vé của khách hàng, dữ liệu nhiên liệu và tình trạng trễ chuyến để cải thiện mô hình.
- Mục tiêu nâng cao độ tin cậy dự báo trên 75%.
- Chủ thể thực hiện: Các hãng hàng không và nhà cung cấp dữ liệu.
Tuyên truyền và đào tạo người dùng:
- Tổ chức các chương trình hướng dẫn hành khách cách sử dụng công cụ dự báo để lựa chọn thời điểm mua vé hợp lý.
- Thời gian: 3-6 tháng.
- Chủ thể thực hiện: Các cơ quan quản lý hàng không và các công ty du lịch.
Đối tượng nên tham khảo luận văn
Các nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Khoa học Dữ liệu:
- Lợi ích: Hiểu rõ về ứng dụng học máy trong dự báo giá vé máy bay, phương pháp tiền xử lý dữ liệu và kỹ thuật kết hợp mô hình.
- Use case: Phát triển các đề tài nghiên cứu liên quan đến dự báo và khai phá dữ liệu.
Các công ty công nghệ trong lĩnh vực du lịch và hàng không:
- Lợi ích: Áp dụng mô hình dự báo để phát triển sản phẩm hỗ trợ khách hàng lựa chọn thời điểm mua vé tối ưu.
- Use case: Xây dựng nền tảng bán vé thông minh, cải thiện trải nghiệm người dùng.
Các hãng hàng không và đại lý vé máy bay:
- Lợi ích: Hiểu rõ chiến lược định giá và biến động giá vé, từ đó tối ưu hóa chính sách giá và quản lý doanh thu.
- Use case: Phân tích dữ liệu giá vé để điều chỉnh chiến lược kinh doanh.
Cơ quan quản lý ngành hàng không và du lịch:
- Lợi ích: Nắm bắt xu hướng biến động giá vé, hỗ trợ xây dựng chính sách quản lý thị trường hiệu quả.
- Use case: Giám sát và điều tiết thị trường vé máy bay, bảo vệ quyền lợi người tiêu dùng.
Câu hỏi thường gặp
Mô hình dự báo giá vé máy bay có thể áp dụng cho các chặng bay quốc tế không?
Mô hình hiện tại tập trung vào các chặng bay nội địa Việt Nam, tuy nhiên phương pháp và kỹ thuật có thể được điều chỉnh để áp dụng cho các chặng bay quốc tế với dữ liệu phù hợp. Ví dụ, các nghiên cứu quốc tế đã áp dụng mô hình hồi quy và học máy cho thị trường Mỹ và Nga.Dữ liệu thu thập có bị gián đoạn ảnh hưởng đến độ chính xác mô hình không?
Dữ liệu thu thập tự động có thể bị gián đoạn do lỗi kỹ thuật hoặc thay đổi cấu trúc trang web, tuy nhiên mô hình được thiết kế để hoạt động hiệu quả trong điều kiện thiếu thông tin và dữ liệu không liên tục, nhờ sử dụng các kỹ thuật học máy mạnh mẽ như Random Forest.Thời điểm mua vé máy bay tối ưu là bao nhiêu ngày trước ngày khởi hành?
Nghiên cứu cho thấy thời điểm tối ưu thường nằm trong khoảng 15-21 ngày trước ngày khởi hành, tuy nhiên có thể thay đổi tùy thuộc vào từng chặng bay và hãng hàng không. Mô hình dự báo giúp xác định chính xác hơn thời điểm này dựa trên dữ liệu biến động giá.Mô hình có thể dự báo giá vé cho các loại vé hạng thương gia hay vé khuyến mãi không?
Hiện tại mô hình tập trung vào vé hạng tiêu chuẩn để đảm bảo tính đồng nhất và độ chính xác. Việc mở rộng dự báo cho các loại vé khác cần thu thập thêm dữ liệu và điều chỉnh mô hình phù hợp.Làm thế nào để người dùng cuối có thể sử dụng kết quả dự báo?
Kết quả dự báo có thể được tích hợp vào các ứng dụng hoặc website bán vé máy bay, cung cấp thông tin về thời điểm mua vé tối ưu và dự báo giá vé tương lai, giúp người dùng đưa ra quyết định mua vé tiết kiệm hơn.
Kết luận
- Đã xây dựng thành công mô hình dự báo giá vé máy bay cho thị trường nội địa Việt Nam dựa trên dữ liệu thu thập tự động và các thuật toán học máy hiện đại.
- Mô hình kết hợp Random Forest và Multilayer Perceptron cho hiệu quả dự báo vượt trội với R² đạt khoảng 0.70 và MAE giảm đáng kể.
- Xác định "số ngày mua vé trước ngày khởi hành" là yếu tố quan trọng nhất ảnh hưởng đến biến động giá vé.
- Kết quả nghiên cứu có thể làm cơ sở cho phát triển các công cụ hỗ trợ hành khách lựa chọn thời điểm mua vé tối ưu, đồng thời hỗ trợ các hãng hàng không trong quản lý giá vé.
- Hướng phát triển tiếp theo là mở rộng phạm vi dữ liệu, tích hợp thêm các yếu tố ảnh hưởng và xây dựng hệ thống dự báo trực tuyến phục vụ người dùng.
Call-to-action: Các nhà nghiên cứu và doanh nghiệp trong ngành hàng không, du lịch nên ứng dụng và phát triển mô hình dự báo này để nâng cao hiệu quả kinh doanh và trải nghiệm khách hàng trong bối cảnh thị trường cạnh tranh ngày càng gay gắt.