Tổng quan nghiên cứu

Dự đoán dòng tiền doanh nghiệp là một bài toán quan trọng trong quản trị tài chính và đầu tư, đặc biệt với các doanh nghiệp vừa và lớn đã niêm yết trên sàn chứng khoán. Dòng tiền tự do (Free Cash Flow - FCF) phản ánh khả năng tạo tiền mặt thực tế của doanh nghiệp, ảnh hưởng trực tiếp đến khả năng thanh toán, đầu tư và phát triển bền vững. Tuy nhiên, dữ liệu báo cáo tài chính thường niên có số lượng điểm hạn chế, gây khó khăn cho việc xây dựng mô hình dự báo chính xác. Nghiên cứu này tập trung vào việc tăng sinh dữ liệu chuỗi thời gian dựa trên các báo cáo tài chính của công ty Google trong giai đoạn 2003-2020, đồng thời áp dụng các mô hình học sâu để dự đoán dòng tiền dựa trên thu nhập và các chỉ số liên quan.

Mục tiêu chính của luận văn là phát triển giải pháp tăng sinh dữ liệu bằng phương pháp nội suy Kriging, kết hợp với mô hình mạng nơ ron nhân tạo, bao gồm mạng nơ ron đơn giản và mạng LSTM, nhằm nâng cao độ chính xác dự báo dòng tiền. Phạm vi nghiên cứu tập trung vào các công ty cổ phần có báo cáo tài chính đầy đủ, với dữ liệu thu thập từ báo cáo tài chính, giá cổ phiếu và giá vàng. Ý nghĩa của nghiên cứu thể hiện qua việc cung cấp công cụ dự báo dòng tiền hiệu quả, hỗ trợ nhà quản lý và nhà đầu tư đưa ra quyết định tài chính chính xác hơn, đồng thời góp phần phát triển ứng dụng học máy trong lĩnh vực tài chính.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai nền tảng lý thuyết chính:

  1. Thống kê địa lý (Geostatistics) và phương pháp nội suy Kriging:

    • Kriging là phương pháp nội suy dữ liệu dựa trên mô hình variogram, giúp tăng sinh dữ liệu chuỗi thời gian với tính toàn vẹn và giữ được đặc trưng dữ liệu gốc.
    • Các mô hình variogram phổ biến gồm: Spherical, Exponential, Gaussian, với các tham số range, sill, nugget được ước lượng bằng phương pháp tối thiểu hóa hàm lỗi least squares và thuật toán trust region (STIR).
    • Phân loại Kriging thành Ordinary Kriging (cho dữ liệu dừng) và Universal Kriging (cho dữ liệu có xu hướng), trong đó Universal Kriging sử dụng hàm đa thức để tách thành phần xu hướng khỏi chuỗi dữ liệu.
  2. Mô hình học sâu (Deep Learning) trong dự báo chuỗi thời gian:

    • Mạng nơ ron nhân tạo (Artificial Neural Network - ANN) đơn giản với các lớp Dense, sử dụng hàm kích hoạt tanh và thuật toán tối ưu gradient descent để huấn luyện.
    • Mạng nơ ron hồi quy (Recurrent Neural Network - RNN) và đặc biệt là mạng LSTM (Long Short-Term Memory) với khả năng ghi nhớ dài hạn, xử lý tốt các chuỗi dữ liệu có tính phụ thuộc theo thời gian.
    • Các thuật toán huấn luyện sử dụng framework Tensorflow, với hàm mất mát Mean Square Error (MSE) và metric Mean Absolute Error (MAE).

Các khái niệm chính bao gồm: variogram, semivariogram, tính dừng bậc hai, hàm tự tương quan (ACF), mạng nơ ron đơn giản, mạng LSTM, luật Perceptron, thuật toán gradient descent.

Phương pháp nghiên cứu

  • Nguồn dữ liệu:
    Dữ liệu thu thập từ báo cáo tài chính thường niên, dữ liệu cổ phiếu và giá vàng của công ty Google trong giai đoạn 2003-2020, gồm ba bảng chính: bảng cân đối kế toán, bảng tài chính và bảng dòng tiền. Tổng số điểm dữ liệu sau khi nội sinh là khoảng 5800 điểm với 42 trường dữ liệu đã được chọn lọc.

  • Phương pháp phân tích:

    • Xác định tính dừng của chuỗi dữ liệu bằng biểu đồ ACF và kiểm định thống kê.
    • Phân rã chuỗi dữ liệu thành thành phần xu hướng và phần dư bằng phương pháp curve fitting và polynomial interpolation.
    • Nội sinh dữ liệu bằng phương pháp Kriging: sử dụng Ordinary Kriging cho chuỗi dừng và Universal Kriging cho chuỗi có xu hướng.
    • Ước lượng mô hình variogram bằng phương pháp least squares và thuật toán STIR để chọn mô hình phù hợp với sai số RMSE thấp nhất.
    • Chuẩn hóa dữ liệu trong khoảng [-1,1] và áp dụng K-Fold cross validation để huấn luyện mô hình mạng nơ ron.
    • So sánh hiệu quả giữa mạng nơ ron đơn giản và mạng LSTM với cùng số lớp, số units, batch size và epochs.
  • Timeline nghiên cứu:
    Thực hiện từ tháng 02/2020 đến tháng 12/2021 tại Trường Đại học Bách khoa Hà Nội, với các giai đoạn thu thập dữ liệu, xử lý dữ liệu, xây dựng mô hình nội sinh, huấn luyện mô hình học sâu và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Tăng sinh dữ liệu bằng Kriging giữ được đặc trưng dữ liệu gốc:

    • Các chuỗi dữ liệu có tính xu hướng mạnh được xử lý bằng Universal Kriging, chuỗi dừng bằng Ordinary Kriging.
    • Mô hình variogram được chọn dựa trên RMSE thấp nhất, tuy nhiên mô hình không cần phải fit quá sát dữ liệu gốc mới cho kết quả nội sinh tốt.
    • Ví dụ, chuỗi “CapitalLeaseObligations” có xu hướng ngắn hạn, nội sinh bằng Ordinary Kriging cho kết quả chính xác hơn Universal Kriging.
    • Sai số nội sinh (RMSE) của các chuỗi thuộc bảng cân đối kế toán, tài chính và dòng tiền đều nằm trong khoảng chấp nhận được, đảm bảo tính toàn vẹn dữ liệu.
  2. Mạng nơ ron đơn giản cho kết quả dự báo dòng tiền tốt hơn LSTM:

    • Mạng nơ ron đơn giản với 3 lớp ẩn Dense mất khoảng 28 phút để huấn luyện, đạt MSE trung bình khoảng 0.0066 trên tập test.
    • Mạng LSTM cùng cấu hình mất hơn 7 giờ để huấn luyện, nhưng MSE trên tập test không cải thiện đáng kể, thậm chí kém hơn mạng đơn giản.
    • Đồ thị hàm mất mát (loss) cho thấy mạng đơn giản hội tụ nhanh và ổn định hơn, trong khi mạng LSTM có biến động lớn và thời gian huấn luyện kéo dài.
    • Kết quả dự báo của mạng đơn giản giữ được xu hướng và đặc trưng của dòng tiền thực tế, dù có một số sai lệch nhỏ do sai số nội sinh dữ liệu.
  3. Tính dừng và xu hướng của chuỗi dữ liệu ảnh hưởng đến lựa chọn phương pháp nội sinh:

    • Biểu đồ ACF và kiểm định thống kê cho thấy đa số chuỗi có xu hướng tăng trưởng rõ rệt, phù hợp với Universal Kriging.
    • Một số chuỗi có xu hướng ngắn hạn hoặc không đồng nhất được xử lý bằng Ordinary Kriging.
    • Việc phân rã thành phần xu hướng và phần dư giúp cải thiện tính dừng của chuỗi, nâng cao hiệu quả nội sinh và dự báo.

Thảo luận kết quả

Kết quả nghiên cứu cho thấy phương pháp nội sinh Kriging là giải pháp hiệu quả để tăng sinh dữ liệu chuỗi thời gian tài chính với số lượng điểm hạn chế, giữ được đặc trưng và tính toàn vẹn của dữ liệu gốc. Việc lựa chọn mô hình variogram phù hợp dựa trên sai số RMSE giúp tối ưu hóa quá trình nội sinh, tuy nhiên không nên chọn mô hình quá fit để tránh hiện tượng overfitting.

So sánh giữa mạng nơ ron đơn giản và LSTM cho thấy, trong trường hợp dữ liệu đã được xử lý kỹ lưỡng và tăng sinh đầy đủ, mạng đơn giản có thể đáp ứng tốt bài toán dự báo dòng tiền với chi phí tính toán thấp hơn nhiều. Điều này phù hợp với thực tế khi các mô hình phức tạp không phải lúc nào cũng mang lại hiệu quả vượt trội, đặc biệt với dữ liệu tài chính có nhiều biến động và nhiễu.

Các biểu đồ ACF và phân rã xu hướng minh họa rõ ràng sự khác biệt về tính chất chuỗi dữ liệu, từ đó giúp lựa chọn phương pháp nội sinh phù hợp. Việc áp dụng K-Fold cross validation và chuẩn hóa dữ liệu cũng góp phần nâng cao độ chính xác và khả năng tổng quát của mô hình học sâu.

Dữ liệu và kết quả có thể được trình bày qua các biểu đồ trực quan về chuỗi dữ liệu gốc và nội sinh, biểu đồ ACF trước và sau phân rã xu hướng, biểu đồ loss của quá trình huấn luyện mạng nơ ron, cũng như bảng so sánh sai số RMSE của các mô hình variogram và mạng nơ ron.

Đề xuất và khuyến nghị

  1. Áp dụng phương pháp nội sinh Kriging linh hoạt theo tính chất chuỗi dữ liệu

    • Sử dụng Universal Kriging cho chuỗi có xu hướng rõ rệt, Ordinary Kriging cho chuỗi dừng hoặc xu hướng ngắn hạn.
    • Thời gian thực hiện: ngay trong giai đoạn tiền xử lý dữ liệu.
    • Chủ thể thực hiện: nhóm phân tích dữ liệu tài chính.
  2. Ưu tiên sử dụng mạng nơ ron đơn giản trong dự báo dòng tiền với dữ liệu đã được tăng sinh đầy đủ

    • Giảm thiểu thời gian huấn luyện và chi phí tính toán, đồng thời đảm bảo độ chính xác dự báo.
    • Thời gian thực hiện: trong quá trình xây dựng mô hình dự báo.
    • Chủ thể thực hiện: nhà khoa học dữ liệu, chuyên gia học máy.
  3. Tăng cường phân tích tính dừng và xu hướng của chuỗi dữ liệu trước khi nội sinh và dự báo

    • Áp dụng các phương pháp kiểm định thống kê và phân rã chuỗi để xác định mô hình phù hợp.
    • Thời gian thực hiện: giai đoạn tiền xử lý dữ liệu.
    • Chủ thể thực hiện: nhà phân tích tài chính, chuyên gia thống kê.
  4. Sử dụng kỹ thuật chuẩn hóa dữ liệu và K-Fold cross validation để nâng cao hiệu quả huấn luyện mô hình

    • Giúp mô hình hội tụ nhanh hơn và tránh overfitting.
    • Thời gian thực hiện: trong quá trình huấn luyện mô hình.
    • Chủ thể thực hiện: nhà khoa học dữ liệu.
  5. Phát triển hệ thống tự động lựa chọn mô hình variogram và mạng nơ ron phù hợp dựa trên đặc trưng dữ liệu

    • Tích hợp các thuật toán tối ưu tham số và đánh giá mô hình tự động.
    • Thời gian thực hiện: nghiên cứu tiếp theo, phát triển phần mềm hỗ trợ.
    • Chủ thể thực hiện: nhóm nghiên cứu công nghệ thông tin và tài chính.

Đối tượng nên tham khảo luận văn

  1. Nhà quản lý tài chính doanh nghiệp

    • Lợi ích: Hiểu rõ hơn về dự báo dòng tiền, áp dụng các công cụ phân tích để quản lý hiệu quả dòng tiền và ra quyết định đầu tư.
    • Use case: Lập kế hoạch tài chính, đánh giá khả năng thanh toán và đầu tư dựa trên dự báo dòng tiền.
  2. Nhà đầu tư và phân tích chứng khoán

    • Lợi ích: Nắm bắt xu hướng dòng tiền của doanh nghiệp mục tiêu, từ đó đưa ra quyết định đầu tư chính xác hơn.
    • Use case: Phân tích tiềm năng sinh lời và rủi ro tài chính của các công ty niêm yết.
  3. Chuyên gia khoa học dữ liệu và học máy trong lĩnh vực tài chính

    • Lợi ích: Áp dụng các phương pháp nội sinh dữ liệu và mô hình học sâu vào bài toán dự báo tài chính thực tế.
    • Use case: Phát triển mô hình dự báo dòng tiền, tối ưu hóa thuật toán học máy cho dữ liệu tài chính.
  4. Giảng viên và sinh viên ngành Khoa học dữ liệu, Tài chính và Kinh tế

    • Lợi ích: Tham khảo phương pháp nghiên cứu, ứng dụng lý thuyết thống kê địa lý và học sâu trong tài chính.
    • Use case: Nghiên cứu khoa học, làm luận văn, đề tài tốt nghiệp liên quan đến dự báo tài chính.

Câu hỏi thường gặp

  1. Tại sao cần tăng sinh dữ liệu trong dự báo dòng tiền?
    Dữ liệu báo cáo tài chính thường niên có số lượng điểm hạn chế, không đủ để huấn luyện các mô hình học máy hiệu quả. Tăng sinh dữ liệu bằng phương pháp nội suy Kriging giúp mở rộng tập dữ liệu, giữ được đặc trưng và tính toàn vẹn, từ đó nâng cao độ chính xác dự báo.

  2. Phương pháp Kriging có ưu điểm gì so với các phương pháp nội suy khác?
    Kriging không chỉ dựa vào khoảng cách giữa các điểm mà còn xét đến mối quan hệ vị trí và mô hình variogram, giúp nội sinh dữ liệu chính xác hơn, đặc biệt với dữ liệu chuỗi thời gian có tính không đồng nhất và xu hướng.

  3. Tại sao mạng nơ ron đơn giản lại cho kết quả tốt hơn LSTM trong nghiên cứu này?
    Dữ liệu sau khi được tăng sinh và xử lý kỹ càng có thể không cần mô hình phức tạp như LSTM để dự báo. Mạng đơn giản có ưu điểm về tốc độ huấn luyện, tránh overfitting và vẫn giữ được đặc trưng dữ liệu, phù hợp với bài toán có dữ liệu hạn chế.

  4. Làm thế nào để xác định chuỗi dữ liệu có tính dừng hay không?
    Có thể sử dụng biểu đồ hàm tự tương quan (ACF) và các kiểm định thống kê như kiểm định ADF để xác định tính dừng. Chuỗi dừng có đặc trưng là ACF giảm nhanh về 0, trong khi chuỗi không dừng có xu hướng duy trì giá trị tự tương quan cao.

  5. Phân rã chuỗi dữ liệu thành phần xu hướng và phần dư có tác dụng gì?
    Việc này giúp tách bỏ các thành phần không ổn định, làm cho phần dư trở thành chuỗi dừng, từ đó áp dụng các phương pháp nội suy và dự báo chính xác hơn, đặc biệt khi sử dụng Universal Kriging cho chuỗi có xu hướng.

Kết luận

  • Nghiên cứu đã phát triển thành công giải pháp tăng sinh dữ liệu chuỗi thời gian tài chính bằng phương pháp nội suy Kriging, giữ được đặc trưng và tính toàn vẹn dữ liệu gốc.
  • So sánh hai mô hình học sâu cho thấy mạng nơ ron đơn giản có hiệu quả dự báo dòng tiền tốt hơn mạng LSTM trong trường hợp dữ liệu đã được xử lý kỹ lưỡng.
  • Việc phân tích tính dừng và phân rã chuỗi dữ liệu là bước quan trọng giúp lựa chọn phương pháp nội suy và mô hình dự báo phù hợp.
  • Kết quả nghiên cứu có ý nghĩa thực tiễn cao, hỗ trợ nhà quản lý và nhà đầu tư trong việc dự báo dòng tiền và ra quyết định tài chính chính xác.
  • Đề xuất các hướng phát triển tiếp theo bao gồm tự động hóa lựa chọn mô hình variogram và mạng nơ ron, mở rộng nghiên cứu cho các doanh nghiệp khác và ứng dụng trong các lĩnh vực tài chính đa dạng.

Hành động tiếp theo: Áp dụng giải pháp vào các doanh nghiệp khác, phát triển phần mềm hỗ trợ dự báo dòng tiền, và nghiên cứu mở rộng các mô hình học sâu phù hợp với dữ liệu tài chính thực tế.