Tổng quan nghiên cứu

Trong bối cảnh thị trường chứng khoán Việt Nam ngày càng phát triển và có tính biến động cao, việc dự đoán xu hướng giá cổ phiếu đóng vai trò quan trọng đối với nhà đầu tư và các tổ chức tài chính. Theo ước tính, dữ liệu lịch sử giá cổ phiếu và khối lượng giao dịch trong vòng 10 năm qua cung cấp nguồn thông tin quý giá để phân tích và dự báo xu hướng giá đóng cửa. Tuy nhiên, do tính phức tạp và ảnh hưởng của nhiều yếu tố kinh tế, chính trị, xã hội, việc dự đoán chính xác xu hướng giá cổ phiếu vẫn là một thách thức lớn.

Mục tiêu nghiên cứu của luận văn là tiếp cận, phân tích và ứng dụng các kỹ thuật học máy, đặc biệt là mô hình Long Short-Term Memory (LSTM) và AutoRegressive Integrated Moving Average (ARIMA), nhằm dự đoán xu hướng giá đóng cửa của cổ phiếu trên thị trường chứng khoán Việt Nam. Nghiên cứu tập trung vào dữ liệu của 20 cổ phiếu niêm yết trên Sở Giao dịch Chứng khoán Thành phố Hồ Chí Minh (HOSE) trong khoảng thời gian từ năm 2013 đến 2023. Ý nghĩa của nghiên cứu thể hiện qua việc cung cấp công cụ dự báo hỗ trợ nhà đầu tư đưa ra quyết định sáng suốt, tối ưu hóa lợi nhuận và giảm thiểu rủi ro trong đầu tư chứng khoán.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai mô hình chính trong lĩnh vực dự báo chuỗi thời gian và học máy:

  • Mô hình Long Short-Term Memory (LSTM): Là một dạng mạng nơ-ron hồi tiếp (RNN) đặc biệt, LSTM có khả năng ghi nhớ thông tin dài hạn và xử lý các chuỗi dữ liệu thời gian phức tạp. Mô hình này bao gồm các thành phần như trạng thái tế bào, cổng vào, cổng quên, cổng ra và trạng thái ẩn, giúp mô hình học được các phụ thuộc dài hạn trong dữ liệu giá cổ phiếu.

  • Mô hình AutoRegressive Integrated Moving Average (ARIMA): Là mô hình thống kê truyền thống dùng để phân tích và dự báo chuỗi thời gian. ARIMA kết hợp ba thành phần: tự hồi quy (AR), sai phân để đạt tính dừng (I), và trung bình động (MA). Mô hình này phù hợp với dữ liệu có tính dừng và có thể mô hình hóa các mối quan hệ tuyến tính trong chuỗi thời gian.

Các khái niệm chính bao gồm: chuỗi thời gian, tính dừng (stationarity), sai số trung bình bình phương căn bậc (RMSE), sai số trung bình tuyệt đối (MAE), và các kỹ thuật tiền xử lý dữ liệu như chuẩn hóa MinMax.

Phương pháp nghiên cứu

Nguồn dữ liệu chính được sử dụng là bộ dữ liệu lịch sử giá đóng cửa và khối lượng giao dịch của 20 cổ phiếu niêm yết trên HOSE, thu thập từ năm 2013 đến 2023 thông qua gói Python "vnstock" lấy dữ liệu từ TCBS và SSI. Dữ liệu gồm 7 cột: ngày giao dịch, giá mở cửa, giá cao nhất, giá thấp nhất, giá đóng cửa, khối lượng giao dịch và mã cổ phiếu.

Phương pháp phân tích bao gồm:

  • Tiền xử lý dữ liệu: chuẩn hóa dữ liệu về khoảng giá trị [0,1] bằng MinMaxScaler, tạo cấu trúc dữ liệu với 60 bước thời gian làm đầu vào cho mô hình LSTM.

  • Chia dữ liệu thành ba tập: 80% cho huấn luyện, 10% cho kiểm định, 10% cho kiểm thử.

  • Xây dựng và huấn luyện mô hình LSTM với 4 lớp LSTM và các lớp Dropout để tránh overfitting, sử dụng hàm mất mát mean squared error và bộ tối ưu Adam.

  • Xây dựng mô hình ARIMA với các tham số p, d, q được xác định qua phân tích dữ liệu.

  • Đánh giá hiệu suất mô hình bằng các chỉ số RMSE và MAE trên tập kiểm thử.

Thời gian nghiên cứu kéo dài từ tháng 9/2023 đến tháng 5/2024, với việc phát triển thêm ứng dụng web hỗ trợ dự đoán xu hướng giá cổ phiếu dựa trên mô hình đã xây dựng.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu suất dự đoán của LSTM vượt trội hơn ARIMA: Trên 20 cổ phiếu nghiên cứu, 16 cổ phiếu cho thấy mô hình LSTM có giá trị RMSE và MAE thấp hơn so với ARIMA, minh chứng cho khả năng dự báo chính xác hơn của LSTM trong hầu hết các trường hợp.

  2. Một số trường hợp ARIMA có hiệu quả hơn: 4 cổ phiếu còn lại có RMSE và MAE của ARIMA thấp hơn LSTM, cho thấy ARIMA vẫn có thể phù hợp với một số chuỗi thời gian có đặc điểm riêng biệt.

  3. Xu hướng dự đoán sát với thực tế: Biểu đồ so sánh giá đóng cửa thực tế và giá dự đoán của LSTM cho thấy mô hình có khả năng bắt kịp các xu hướng tăng, giảm và dao động giá trong khoảng thời gian từ 28/11/2022 đến 29/12/2023.

  4. Tác động của việc sử dụng dữ liệu khối lượng giao dịch: Việc kết hợp giá đóng cửa và khối lượng giao dịch làm đầu vào giúp mô hình LSTM học được các mẫu phức tạp hơn, cải thiện độ chính xác dự báo.

Thảo luận kết quả

Nguyên nhân chính khiến LSTM có hiệu suất tốt hơn ARIMA là do khả năng xử lý các phụ thuộc dài hạn và phi tuyến tính trong chuỗi thời gian, điều mà ARIMA với mô hình tuyến tính truyền thống khó có thể nắm bắt. Kết quả này phù hợp với các nghiên cứu gần đây trong lĩnh vực học máy ứng dụng cho dự báo tài chính, cho thấy mạng nơ-ron hồi tiếp và các biến thể của nó là công cụ mạnh mẽ cho phân tích chuỗi thời gian phức tạp.

Tuy nhiên, ARIMA vẫn giữ vai trò quan trọng trong các trường hợp dữ liệu có tính dừng cao và cấu trúc tuyến tính rõ ràng. Việc lựa chọn mô hình phù hợp cần dựa trên đặc điểm cụ thể của từng cổ phiếu và mục tiêu dự báo.

Dữ liệu có thể được trình bày qua biểu đồ so sánh giá thực tế và giá dự đoán, bảng tổng hợp chỉ số RMSE và MAE cho từng cổ phiếu, giúp trực quan hóa hiệu quả của từng mô hình.

Đề xuất và khuyến nghị

  1. Áp dụng mô hình LSTM cho dự báo xu hướng giá cổ phiếu: Khuyến nghị các tổ chức tài chính và nhà đầu tư sử dụng mô hình LSTM để nâng cao độ chính xác dự báo, đặc biệt với các cổ phiếu có biến động phức tạp. Thời gian triển khai trong vòng 6 tháng.

  2. Phát triển hệ thống ứng dụng web dự báo: Tiếp tục hoàn thiện và mở rộng ứng dụng web dự báo xu hướng giá cổ phiếu dựa trên mô hình LSTM và ARIMA, giúp người dùng dễ dàng tiếp cận và sử dụng. Chủ thể thực hiện là các nhóm phát triển công nghệ tài chính trong 12 tháng tới.

  3. Kết hợp mô hình hybrid: Nghiên cứu và phát triển các mô hình kết hợp giữa LSTM và ARIMA để tận dụng ưu điểm của cả hai, nhằm cải thiện hiệu suất dự báo trong các trường hợp đặc thù. Thời gian nghiên cứu 1 năm.

  4. Mở rộng dữ liệu đầu vào: Bổ sung thêm dữ liệu từ các nguồn khác như tin tức tài chính, mạng xã hội để tăng cường khả năng dự báo, đồng thời áp dụng các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) để khai thác dữ liệu phi cấu trúc. Chủ thể thực hiện là các nhà nghiên cứu và doanh nghiệp công nghệ trong 18 tháng.

Đối tượng nên tham khảo luận văn

  1. Nhà đầu tư cá nhân và tổ chức: Giúp hiểu rõ hơn về các phương pháp dự báo xu hướng giá cổ phiếu hiện đại, từ đó đưa ra quyết định đầu tư chính xác và hiệu quả hơn.

  2. Các nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Tài chính: Cung cấp cơ sở lý thuyết và thực nghiệm về ứng dụng học máy trong dự báo tài chính, làm nền tảng cho các nghiên cứu tiếp theo.

  3. Doanh nghiệp phát triển phần mềm tài chính (Fintech): Tham khảo để phát triển các sản phẩm dự báo và phân tích thị trường chứng khoán dựa trên trí tuệ nhân tạo.

  4. Cơ quan quản lý thị trường chứng khoán: Hỗ trợ trong việc đánh giá và giám sát các công cụ dự báo, từ đó nâng cao hiệu quả quản lý và minh bạch thị trường.

Câu hỏi thường gặp

  1. Mô hình LSTM có ưu điểm gì so với ARIMA trong dự báo giá cổ phiếu?
    LSTM có khả năng học các phụ thuộc dài hạn và phi tuyến tính trong dữ liệu chuỗi thời gian, giúp dự báo chính xác hơn trong các trường hợp biến động phức tạp, trong khi ARIMA chủ yếu xử lý các mối quan hệ tuyến tính.

  2. Dữ liệu nào được sử dụng để huấn luyện mô hình trong nghiên cứu này?
    Dữ liệu lịch sử giá đóng cửa và khối lượng giao dịch của 20 cổ phiếu niêm yết trên HOSE từ năm 2013 đến 2023, được thu thập qua gói Python "vnstock".

  3. Các chỉ số đánh giá hiệu suất mô hình là gì?
    Hai chỉ số chính là Root Mean Squared Error (RMSE) và Mean Absolute Error (MAE), trong đó giá trị thấp hơn thể hiện mô hình dự báo chính xác hơn.

  4. Tại sao cần chia dữ liệu thành tập huấn luyện, kiểm định và kiểm thử?
    Việc chia dữ liệu giúp đánh giá khách quan hiệu suất mô hình, tránh hiện tượng overfitting và đảm bảo mô hình có khả năng dự báo tốt trên dữ liệu mới.

  5. Ứng dụng thực tế của nghiên cứu này là gì?
    Nghiên cứu giúp phát triển các công cụ dự báo xu hướng giá cổ phiếu hỗ trợ nhà đầu tư đưa ra quyết định sáng suốt, đồng thời cung cấp nền tảng cho các ứng dụng fintech trong lĩnh vực tài chính.

Kết luận

  • Luận văn đã thành công trong việc áp dụng mô hình LSTM và ARIMA để dự đoán xu hướng giá đóng cửa của cổ phiếu trên thị trường chứng khoán Việt Nam trong vòng 10 năm qua.
  • Kết quả cho thấy LSTM có hiệu suất dự báo vượt trội hơn ARIMA trên phần lớn cổ phiếu nghiên cứu, với RMSE và MAE thấp hơn.
  • Một số trường hợp ARIMA vẫn có hiệu quả hơn, cho thấy việc lựa chọn mô hình cần dựa trên đặc điểm dữ liệu cụ thể.
  • Nghiên cứu đã phát triển thành công ứng dụng web hỗ trợ dự báo, góp phần nâng cao khả năng ra quyết định của nhà đầu tư.
  • Đề xuất các bước tiếp theo bao gồm mở rộng dữ liệu đầu vào, phát triển mô hình hybrid và hoàn thiện hệ thống ứng dụng trong vòng 1-2 năm tới.

Mời quý độc giả và các nhà nghiên cứu tiếp tục khai thác và phát triển các phương pháp học máy trong dự báo tài chính để nâng cao hiệu quả đầu tư và quản lý thị trường.