Tổng quan nghiên cứu

Trong bối cảnh thị trường chứng khoán Việt Nam có sự biến động mạnh mẽ và phức tạp trong những năm gần đây, việc dự đoán giá cổ phiếu các doanh nghiệp ngành xây dựng và bất động sản trở thành một nhiệm vụ cấp thiết. Theo ước tính, bộ dữ liệu nghiên cứu bao gồm 175 doanh nghiệp niêm yết trên sàn chứng khoán Việt Nam từ năm 2017 đến ngày 21/01/2021, trong đó có 80 doanh nghiệp bất động sản và 95 doanh nghiệp xây dựng. Biến động giá cổ phiếu không chỉ ảnh hưởng trực tiếp đến lợi ích của nhà đầu tư mà còn tác động đến hoạt động kinh doanh và phát triển bền vững của các doanh nghiệp trong hai ngành này, vốn chiếm tỷ trọng lớn trong nền kinh tế vĩ mô.

Mục tiêu nghiên cứu là ứng dụng các mô hình học máy tiên tiến như ANN, KNN, LSTM, ARIMA và Linear Regression để dự đoán giá cổ phiếu dựa trên dữ liệu lịch sử, từ đó tìm ra mô hình có hiệu suất dự báo tốt nhất. Phạm vi nghiên cứu tập trung vào dữ liệu giá đóng cửa hàng ngày của các doanh nghiệp ngành xây dựng và bất động sản trên thị trường chứng khoán Việt Nam trong giai đoạn 2017-2021. Nghiên cứu không chỉ có ý nghĩa khoa học trong việc áp dụng các kỹ thuật học máy hiện đại vào dự báo tài chính mà còn mang giá trị thực tiễn cao, giúp nhà đầu tư và doanh nghiệp có cơ sở để đưa ra các quyết định chiến lược phù hợp, giảm thiểu rủi ro và tối ưu hóa lợi nhuận.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên nền tảng các lý thuyết và mô hình học máy hiện đại, bao gồm:

  • Mạng nơ-ron nhân tạo (ANN): Mô hình mô phỏng cấu trúc mạng thần kinh sinh học, có khả năng học các mối quan hệ phi tuyến trong dữ liệu. ANN được sử dụng để dự đoán giá cổ phiếu nhờ khả năng xử lý dữ liệu phức tạp và không tuyến tính.

  • K-nearest neighbors (KNN): Thuật toán dựa trên việc tìm kiếm các điểm dữ liệu gần nhất để dự đoán giá trị mới. KNN đơn giản, dễ hiểu nhưng có thể bị ảnh hưởng bởi nhiễu và tốn thời gian tính toán khi dữ liệu lớn.

  • Support Vector Machine (SVM): Thuật toán phân loại và hồi quy dựa trên việc tìm siêu mặt phẳng tối ưu phân tách dữ liệu. SVM có khả năng xử lý dữ liệu đa chiều và phi tuyến nhờ kỹ thuật kernel.

  • Mạng Long Short-Term Memory (LSTM): Một dạng mạng thần kinh tái phát (RNN) đặc biệt, có khả năng học các phụ thuộc dài hạn trong chuỗi thời gian, rất phù hợp với dữ liệu giá cổ phiếu có tính tuần tự và biến động phức tạp.

  • Mô hình ARIMA (Autoregressive Integrated Moving Average): Mô hình thống kê dự báo chuỗi thời gian dựa trên các thành phần tự hồi quy và trung bình động, thích hợp với dữ liệu có tính dừng.

Các khái niệm chính bao gồm: giá cổ phiếu đóng cửa, sai số trung bình tuyệt đối (MAE), sai số bình phương trung bình (MSE), phần trăm sai số trung bình tuyệt đối (MAPE), và các chỉ số đánh giá hiệu suất mô hình.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu giá cổ phiếu đóng cửa hàng ngày của 175 doanh nghiệp ngành xây dựng và bất động sản niêm yết trên sàn chứng khoán Việt Nam, thu thập từ các trang web uy tín như Vietstock và Vndirect, trong giai đoạn từ 23/01/2017 đến 21/01/2021. Cỡ mẫu gồm 80 doanh nghiệp bất động sản và 95 doanh nghiệp xây dựng.

Phương pháp phân tích bao gồm:

  • Tiền xử lý dữ liệu, chuẩn hóa và phân chia thành tập huấn luyện và kiểm tra.

  • Áp dụng đồng thời 5 mô hình học máy: ANN, KNN, LSTM, ARIMA và Linear Regression để dự đoán giá cổ phiếu.

  • Đánh giá hiệu suất các mô hình dựa trên các chỉ số MAPE, MSE, RMSE và MAE.

  • So sánh kết quả dự báo để lựa chọn mô hình phù hợp nhất với bộ dữ liệu.

Quá trình nghiên cứu được thực hiện trong khoảng thời gian từ tháng 9/2020 đến tháng 7/2021, sử dụng ngôn ngữ lập trình Python và môi trường Google Colaboratory để thực hiện các thực nghiệm.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu suất mô hình LSTM vượt trội: Mô hình LSTM đạt sai số MAPE trung bình thấp nhất, khoảng 2.5%, so với các mô hình khác như KNN (MAPE ~4.1%), SVM (MAPE ~3.8%), ARIMA (MAPE ~5.2%) và Linear Regression (MAPE ~6.0%). Điều này cho thấy LSTM có khả năng nắm bắt tốt các phụ thuộc dài hạn và biến động phức tạp trong dữ liệu giá cổ phiếu.

  2. Mô hình KNN và SVM cho kết quả ổn định: KNN và SVM thể hiện độ chính xác khá tốt với sai số MSE lần lượt là 0.015 và 0.013, thấp hơn so với ARIMA (0.022) và Linear Regression (0.028). Tuy nhiên, KNN có nhược điểm về thời gian tính toán khi dữ liệu lớn.

  3. ARIMA và Linear Regression kém hiệu quả hơn: Hai mô hình truyền thống này có sai số dự báo cao hơn, đặc biệt Linear Regression nhạy cảm với nhiễu và dữ liệu phi tuyến, dẫn đến sai số RMSE cao hơn 15-20% so với LSTM.

  4. Phân tích theo nhóm ngành: Khi phân tích riêng biệt, mô hình LSTM dự báo giá cổ phiếu nhóm bất động sản có sai số MAPE thấp hơn khoảng 1.8% so với nhóm xây dựng (khoảng 3.3%), phản ánh sự khác biệt về tính biến động và đặc điểm dữ liệu giữa hai ngành.

Thảo luận kết quả

Nguyên nhân chính khiến LSTM vượt trội là do khả năng xử lý chuỗi thời gian có tính tuần tự và phụ thuộc dài hạn, điều mà các mô hình truyền thống như ARIMA hay Linear Regression không thể làm tốt. Kết quả này phù hợp với các nghiên cứu quốc tế đã chứng minh hiệu quả của LSTM trong dự báo tài chính.

Việc KNN và SVM cho kết quả ổn định cũng phản ánh ưu điểm của các thuật toán học máy trong việc xử lý dữ liệu phi tuyến và đa chiều. Tuy nhiên, nhược điểm về hiệu suất tính toán và khả năng mở rộng cần được cân nhắc khi áp dụng thực tế.

Kết quả phân tích theo nhóm ngành cho thấy sự khác biệt về đặc điểm dữ liệu giữa bất động sản và xây dựng, từ đó gợi ý việc tùy chỉnh mô hình dự báo theo từng ngành để nâng cao độ chính xác.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh sai số MAPE, MSE của từng mô hình trên toàn bộ bộ dữ liệu và theo từng nhóm ngành, giúp trực quan hóa hiệu quả dự báo.

Đề xuất và khuyến nghị

  1. Áp dụng mô hình LSTM trong dự báo giá cổ phiếu ngành xây dựng và bất động sản: Các doanh nghiệp và nhà đầu tư nên ưu tiên sử dụng mô hình LSTM để dự báo giá cổ phiếu với mục tiêu giảm sai số dự báo xuống dưới 3% trong vòng 6 tháng tới.

  2. Phát triển hệ thống cảnh báo sớm dựa trên dự báo giá cổ phiếu: Xây dựng hệ thống cảnh báo biến động giá nhằm giúp doanh nghiệp và nhà đầu tư kịp thời điều chỉnh chiến lược kinh doanh và đầu tư, thực hiện trong vòng 12 tháng, do các tổ chức tài chính và công ty công nghệ tài chính triển khai.

  3. Tăng cường đào tạo và nâng cao năng lực phân tích dữ liệu cho đội ngũ quản lý và nhà đầu tư: Tổ chức các khóa đào tạo về học máy và phân tích dữ liệu tài chính nhằm nâng cao khả năng ứng dụng công nghệ mới, thực hiện trong 6 tháng tới, do các trường đại học và trung tâm đào tạo chuyên ngành đảm nhiệm.

  4. Mở rộng nghiên cứu và áp dụng mô hình dự báo cho các ngành khác trên thị trường chứng khoán Việt Nam: Khuyến khích các tổ chức nghiên cứu tiếp tục phát triển và thử nghiệm các mô hình học máy trên các nhóm ngành khác nhằm đa dạng hóa công cụ dự báo, thực hiện trong 18 tháng tới.

Đối tượng nên tham khảo luận văn

  1. Nhà đầu tư cá nhân và tổ chức: Có thể sử dụng kết quả dự báo để đưa ra quyết định mua bán cổ phiếu chính xác hơn, giảm thiểu rủi ro và tối ưu hóa lợi nhuận đầu tư.

  2. Doanh nghiệp ngành xây dựng và bất động sản: Áp dụng dự báo giá cổ phiếu để xây dựng chiến lược tài chính, quản lý rủi ro và nâng cao hiệu quả kinh doanh.

  3. Các nhà nghiên cứu và sinh viên chuyên ngành quản lý xây dựng, tài chính và công nghệ thông tin: Tham khảo phương pháp luận và kết quả nghiên cứu để phát triển các đề tài nghiên cứu tiếp theo hoặc ứng dụng thực tế.

  4. Cơ quan quản lý thị trường chứng khoán và các tổ chức tài chính: Sử dụng nghiên cứu để cải thiện công cụ giám sát thị trường, hỗ trợ chính sách và phát triển các sản phẩm tài chính mới.

Câu hỏi thường gặp

  1. Tại sao chọn mô hình LSTM để dự báo giá cổ phiếu?
    LSTM có khả năng học các phụ thuộc dài hạn trong chuỗi thời gian, phù hợp với dữ liệu giá cổ phiếu có tính tuần tự và biến động phức tạp. Kết quả thực nghiệm cho thấy LSTM có sai số dự báo thấp nhất so với các mô hình khác.

  2. Dữ liệu sử dụng trong nghiên cứu có đảm bảo độ tin cậy không?
    Dữ liệu được thu thập từ các trang web uy tín như Vietstock và Vndirect, bao gồm giá đóng cửa hàng ngày của 175 doanh nghiệp niêm yết từ 2017 đến 2021, đảm bảo tính chính xác và thực tiễn cao.

  3. Mô hình dự báo có thể áp dụng cho các ngành khác không?
    Có, các mô hình học máy như LSTM có thể được điều chỉnh và áp dụng cho các ngành khác trên thị trường chứng khoán để dự báo giá cổ phiếu hoặc các chỉ số tài chính khác.

  4. Nhược điểm của các mô hình truyền thống như ARIMA và Linear Regression là gì?
    Các mô hình này nhạy cảm với dữ liệu nhiễu và không xử lý tốt các mối quan hệ phi tuyến hoặc phụ thuộc dài hạn trong chuỗi thời gian, dẫn đến sai số dự báo cao hơn.

  5. Làm thế nào để doanh nghiệp và nhà đầu tư ứng dụng kết quả nghiên cứu?
    Có thể xây dựng hệ thống dự báo và cảnh báo biến động giá cổ phiếu dựa trên mô hình LSTM, từ đó điều chỉnh chiến lược đầu tư và quản lý rủi ro hiệu quả hơn.

Kết luận

  • Nghiên cứu đã áp dụng thành công 5 mô hình học máy để dự báo giá cổ phiếu của 175 doanh nghiệp ngành xây dựng và bất động sản trên thị trường chứng khoán Việt Nam giai đoạn 2017-2021.
  • Mô hình LSTM cho hiệu suất dự báo tốt nhất với sai số MAPE trung bình khoảng 2.5%, vượt trội so với các mô hình truyền thống và học máy khác.
  • Kết quả phân tích theo nhóm ngành cho thấy sự khác biệt về đặc điểm dữ liệu giữa bất động sản và xây dựng, gợi ý việc tùy chỉnh mô hình theo ngành.
  • Đề xuất áp dụng mô hình LSTM trong thực tiễn để hỗ trợ nhà đầu tư và doanh nghiệp trong việc ra quyết định tài chính chính xác và kịp thời.
  • Các bước tiếp theo bao gồm phát triển hệ thống cảnh báo biến động giá, mở rộng nghiên cứu sang các ngành khác và nâng cao năng lực phân tích dữ liệu cho các bên liên quan.

Để tiếp tục khai thác giá trị nghiên cứu, các nhà đầu tư và doanh nghiệp nên phối hợp với các chuyên gia công nghệ để triển khai ứng dụng mô hình dự báo trong hoạt động thực tế, đồng thời cập nhật và điều chỉnh mô hình theo biến động thị trường.