Ứng dụng Machine Learning và Phân tích Xúc cảm cho Giao dịch Cổ phiếu Việt Nam

Ứng dụng Machine Learning và phân tích xúc cảm để dự đoán giá cổ phiếu Việt Nam. Tối ưu hóa giao dịch chứng khoán thông minh, hiệu quả. Tìm hiểu ngay!

Trường đại học

Trường Đại học Công Nghiệp Thành phố Hồ Chí Minh

Chuyên ngành

Khoa Máy Học Tính

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN THẠC SĨ

1. CHƯƠNG 1: TỔNG QUAN VỀ CHỨNG KHOÁN VÀ CỔ PHIẾU

1.1. Tổng quan về thị trường chứng khoán Việt Nam

1.2. Vai trò của thị trường chứng khoán

1.3. Phân loại thị trường chứng khoán

1.4. Tổng quan về thông tin của giá cổ phiếu

1.5. Các nhân tố ảnh hưởng đến tính thông tin của giá cổ phiếu

1.5.1. Các nhân tố vĩ mô

1.5.2. Các nhân tố vi mô

1.6. Phân tích chứng khoán

1.6.1. Phân tích cơ bản (Fundamental analysis)

1.6.2. Phân tích kỹ thuật (Technical analysis)

1.7. Các chỉ số của chứng khoán Việt Nam

1.7.1. Chỉ số VN-index

1.7.2. Chỉ số VN30

1.7.3. Chỉ số HXN-index

1.7.4. Chỉ số UPCOM-index

1.8. Các chỉ số phân tích cơ bản của chứng khoán

1.8.1. Chỉ số EPS - Thu nhập trên một cổ phiếu

1.8.2. Chỉ số PE - Hệ số giá trên thu nhập

1.8.3. Chỉ số P/B - Giá thị trường/Giá trị sổ sách

1.9. Các chỉ số phân tích kỹ thuật của chứng khoán

1.9.1. Chỉ số SMA - Simple Moving Average

1.9.2. MACD - Moving Average Convergence Divergence

1.9.3. RSI - Relative Strength Index

2. CHƯƠNG 2: KỸ THUẬT MÁY HỌC VÀ PHÂN TÍCH TIN TỨC TRONG THỊ TRƯỜNG CHỨNG KHOÁN

2.1. Các công trình nghiên cứu liên quan

2.2. Các phương pháp máy học được sử dụng trong đề tài

2.2.1. Phương pháp Logistic Regression

2.2.2. Phương pháp Random forest

2.2.3. Phương pháp Xgboost

2.2.3.1. Thuật toán LightGBM

2.2.3.2. Thuật toán CatBoost

2.2.4. Phương pháp Support Vector Machine

2.3. Phân tích xúc cảm từ tin tức ảnh hưởng đến cổ phiếu chứng khoán

2.3.1. Giới thiệu BERT

2.3.2. Giới thiệu FinancialBERT

2.4. Một số thư viện được sử dụng trong đề tài

2.4.1. Thư viện TA-lib

2.4.2. Thư viện Vnstock

2.4.3. Thư viện TensorFlow

2.4.4. Thư viện beautifulsoup

3. CHƯƠNG 3: THỰC NGHIỆM ĐÁNH GIÁ KẾT QUẢ

3.1. Mô hình đề xuất

3.2. Thu thập dữ liệu

3.2.1. Dữ liệu quá khứ cổ phiếu

3.2.2. Dữ liệu chỉ số kỹ thuật và dữ liệu chỉ số cơ bản của cổ phiếu

3.2.3. Dữ liệu tin tức

3.3. Phương tiện và công cụ triển khai

3.4. Phương thức

3.4.1. Gán nhãn dữ liệu

3.4.2. Truy xuất và phân tích dữ liệu tin tức

3.4.3. Chuẩn hóa dữ liệu

3.4.4. Phương thức đánh giá mô hình

3.5. Thử nghiệm mô hình

3.5.1. Mô hình thử nghiệm RandomForest chưa có các dữ liệu phân tích xúc cảm

3.5.2. Mô hình thử nghiệm Logistic Regression với tất cả tập dữ liệu

3.5.3. Mô hình thử nghiệm Support Vector Machine với tất cả tập dữ liệu

3.5.4. Mô hình thử nghiệm XGBoost với tất cả tập dữ liệu

3.5.5. Mô hình thử nghiệm Randomforest với tất cả tập dữ liệu

3.5.6. Điều chỉnh các tham số trong mô hình phân loại dự đoán

3.6. Đánh giá kết quả

KẾT LUẬN VÀ KIẾN NGHỊ

DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA HỌC VIÊN

LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN

Tóm tắt

I. Tổng Quan Dự Đoán Giá Cổ Phiếu Việt Nam Bằng Machine Learning

Dự đoán và phân tích dữ liệu thị trường chứng khoán đóng vai trò quan trọng trong nền kinh tế hiện đại. Thị trường này chịu ảnh hưởng bởi nhiều yếu tố phức tạp như tình hình kinh tế, chính trị, biến động doanh nghiệp và tâm lý nhà đầu tư. Việc dự đoán chính xác xu hướng giá cổ phiếu có ý nghĩa lớn đối với các nhà đầu tư. Các thông tin này thường được thể hiện qua các bài báo và tin tức, do đó, việc phân tích dữ liệu từ các nguồn này là vô cùng quan trọng. Nghiên cứu này tập trung vào việc áp dụng và cải tiến các mô hình xử lý ngôn ngữ tự nhiên (NLP) kết hợp với Machine Learning (ML) để dự đoán giá cổ phiếu. Theo luận văn, các yếu tố vĩ mô và vi mô đều ảnh hưởng đến giá cổ phiếu, đòi hỏi một phương pháp phân tích toàn diện. Việc áp dụng các mô hình AI dự đoán cổ phiếu có thể giúp giảm thiểu rủi ro và tối đa hóa lợi nhuận, biến đầu tư chứng khoán trở nên thông minh hơn.

1.1. Tầm Quan Trọng của Dự Đoán Giá Cổ Phiếu Chính Xác

Dự đoán giá cổ phiếu chính xác giúp nhà đầu tư đưa ra quyết định đầu tư sáng suốt, giảm thiểu rủi ro và tối đa hóa lợi nhuận. Thị trường chứng khoán Việt Nam, với sự biến động liên tục, đòi hỏi các công cụ phân tích mạnh mẽ. Sự kết hợp giữa phân tích kỹ thuật cổ phiếu và phân tích cơ bản cổ phiếu là cần thiết. Dự báo giá cổ phiếu Việt Nam không chỉ giúp nhà đầu tư cá nhân mà còn hỗ trợ các tổ chức tài chính trong việc quản lý danh mục đầu tư và đưa ra các quyết định chiến lược.

1.2. Tổng Quan Về Ứng Dụng Machine Learning Trong Chứng Khoán

Machine Learning cung cấp các công cụ mạnh mẽ để phân tích lượng lớn dữ liệu cổ phiếu Việt Nam, tìm ra các mô hình và xu hướng ẩn. Các thuật toán như Random Forest, Logistic Regression, và XGBoost có thể được sử dụng để xây dựng các mô hình dự đoán giá cổ phiếu. Việc tích hợp phân tích xúc cảm cổ phiếu từ tin tức và mạng xã hội có thể cải thiện đáng kể độ chính xác của dự đoán. Mô hình này được thử nghiệm trên nhiều mã cổ phiếu thuộc nhóm vốn hóa lớn trên thị trường chứng khoán Việt Nam.

II. Thách Thức Trong Dự Báo Giá Cổ Phiếu Thị Trường Việt Nam

Dự đoán giá cổ phiếu là một bài toán phức tạp do sự ảnh hưởng của nhiều yếu tố khác nhau. Thị trường chứng khoán Việt Nam có những đặc thù riêng, chẳng hạn như tính thanh khoản thấp ở một số cổ phiếu, sự biến động mạnh do ảnh hưởng từ tâm lý nhà đầu tư, và sự hạn chế về dữ liệu lịch sử. Theo luận văn, thị trường chứng khoán không chỉ bị ảnh hưởng bởi một yếu tố duy nhất mà là sự kết hợp của nhiều yếu tố như doanh nghiệp, tình hình kinh tế, biến động chính trị và quan điểm của nhà đầu tư. Việc thu thập và xử lý dữ liệu cổ phiếu Việt Nam cũng là một thách thức lớn. Cần có phương pháp phù hợp để làm sạch và chuẩn hóa dữ liệu trước khi đưa vào mô hình Machine Learning.

2.1. Tính Biến Động và Yếu Tố Tâm Lý Ảnh Hưởng Đến Cổ Phiếu

Thị trường chứng khoán Việt Nam dễ bị ảnh hưởng bởi các yếu tố tâm lý, tin đồn và các sự kiện bất ngờ. Điều này khiến cho việc dự đoán xu hướng cổ phiếu trở nên khó khăn hơn. Các mô hình dự đoán giá cổ phiếu cần phải tính đến các yếu tố này để tăng độ chính xác. Việc kết hợp phân tích kỹ thuật với phân tích xúc cảm có thể giúp nhà đầu tư hiểu rõ hơn về tâm lý thị trường và đưa ra quyết định đầu tư hợp lý.

2.2. Hạn Chế Về Dữ Liệu Lịch Sử Và Chất Lượng Dữ Liệu

So với các thị trường chứng khoán phát triển, dữ liệu lịch sử của thị trường chứng khoán Việt Nam còn hạn chế. Chất lượng dữ liệu cũng là một vấn đề cần quan tâm, với các lỗi và thiếu sót có thể ảnh hưởng đến hiệu quả của mô hình dự đoán. Cần có các phương pháp xử lý dữ liệu hiệu quả để đảm bảo tính chính xác và độ tin cậy của các dự báo giá cổ phiếu.

III. Ứng Dụng Machine Learning Dự Đoán Giá Cổ Phiếu Việt Nam

Luận văn đã áp dụng nhiều thuật toán Machine Learning khác nhau để dự đoán giá cổ phiếu Việt Nam. Các thuật toán này bao gồm Logistic Regression, Random Forest, XGBoost, và Support Vector Machine (SVM). Mô hình được thử nghiệm trên nhiều mã cổ phiếu thuộc nhóm có vốn hóa lớn trên thị trường chứng khoán Việt Nam. Theo tóm tắt luận văn, các mô hình xử lý ngôn ngữ tự nhiên (NLP) được sử dụng để xử lý dữ liệu đầu vào và gán nhãn dữ liệu. Kết quả cho thấy rằng mô hình được đề xuất đạt được hiệu suất cao trên cả bộ dữ liệu được sử dụng để huấn luyện và đánh giá.

3.1. Sử Dụng Thuật Toán Random Forest Trong Dự Đoán Cổ Phiếu

Random Forest là một thuật toán mạnh mẽ và linh hoạt, có thể được sử dụng để dự đoán giá cổ phiếu. Thuật toán này có khả năng xử lý dữ liệu phi tuyến tính và các tương tác phức tạp giữa các yếu tố khác nhau. Kết quả thực nghiệm cho thấy rằng Random Forest có thể đạt được độ chính xác cao trong việc dự đoán xu hướng giá cổ phiếu.

3.2. Ứng Dụng XGBoost Cho Bài Toán Dự Báo Cổ Phiếu Việt Nam

XGBoost là một thuật toán học tăng cường mạnh mẽ, thường được sử dụng trong các bài toán dự đoán. XGBoost có khả năng xử lý dữ liệu lớn và phức tạp, đồng thời cung cấp các công cụ để kiểm soát quá trình huấn luyện và tránh overfitting. Ứng dụng XGBoost giúp nhà đầu tư dự đoán chính xác giá cổ phiếu và đưa ra quyết định thông minh.

IV. Phân Tích Xúc Cảm Từ Tin Tức Ảnh Hưởng Giá Cổ Phiếu

Phân tích xúc cảm từ tin tức và mạng xã hội có thể cung cấp thông tin giá trị về tâm lý thị trường và ảnh hưởng của các sự kiện đến giá cổ phiếu. Luận văn sử dụng các mô hình NLP như BERT và FinancialBERT để phân tích tình cảm cổ phiếu trong các bài báo và tin tức tài chính. Theo luận văn, các bài báo tin tức tài chính được cho là có tác động đến lợi nhuận giá cổ phiếu. Kết quả cho thấy rằng việc tích hợp phân tích xúc cảm có thể cải thiện đáng kể độ chính xác của mô hình dự đoán.

4.1. Giới Thiệu Mô Hình BERT Trong Phân Tích Tình Cảm Cổ Phiếu

BERT (Bidirectional Encoder Representations from Transformers) là một mô hình NLP mạnh mẽ, có khả năng hiểu ngữ cảnh và ý nghĩa của văn bản. BERT có thể được sử dụng để phân tích tình cảm cổ phiếu trong các bài báo và tin tức tài chính, giúp nhà đầu tư hiểu rõ hơn về tâm lý thị trường.

4.2. Ưu Điểm Của FinancialBERT So Với BERT Thông Thường

FinancialBERT là một phiên bản được tinh chỉnh của BERT, được huấn luyện trên dữ liệu tài chính. Điều này giúp cho FinancialBERT có khả năng hiểu rõ hơn về ngôn ngữ và thuật ngữ chuyên ngành trong lĩnh vực tài chính, từ đó cải thiện độ chính xác của phân tích xúc cảm cổ phiếu.

V. Đánh Giá Hiệu Quả Mô Hình Dự Đoán Giá Cổ Phiếu Việt Nam

Luận văn đã đánh giá hiệu quả của các mô hình dự đoán giá cổ phiếu bằng cách sử dụng các độ đo như độ chính xác, giá trị F1, và giá trị AUC. Theo tóm tắt luận văn, các mô hình thử nghiệm cho thấy rằng mô hình được đề xuất đạt được hiệu suất cao trên cả bộ dữ liệu được sử dụng để huấn luyện và đánh giá. Kết quả cho thấy rằng việc tích hợp phân tích xúc cảm có thể cải thiện đáng kể độ chính xác của mô hình dự đoán. Thử nghiệm nhiều mô hình và hiệu quả của các mô hình chú ý so với các phương pháp khác để tối ưu mô hình.

5.1. Các Độ Đo Đánh Giá Mô Hình Dự Đoán Cổ Phiếu Chính Xác

Độ chính xác, giá trị F1, và giá trị AUC là các độ đo phổ biến được sử dụng để đánh giá hiệu quả của mô hình dự đoán. Độ chính xác cho biết tỷ lệ dự đoán đúng trên tổng số dự đoán. Giá trị F1 là trung bình điều hòa giữa độ chính xác và độ bao phủ. Giá trị AUC đo khả năng phân biệt giữa các lớp khác nhau.

5.2. So Sánh Hiệu Quả Của Các Thuật Toán Machine Learning

Luận văn đã so sánh hiệu quả của các thuật toán Machine Learning khác nhau, bao gồm Logistic Regression, Random Forest, XGBoost, và SVM. Kết quả cho thấy rằng XGBoost và Random Forest có xu hướng đạt được hiệu suất cao hơn so với các thuật toán khác. Tuy nhiên, hiệu quả của từng thuật toán có thể khác nhau tùy thuộc vào đặc điểm của dữ liệu và các tham số được sử dụng.

VI. Kết Luận và Hướng Phát Triển Cho Dự Đoán Cổ Phiếu Việt Nam

Luận văn đã trình bày một phương pháp tiếp cận hiệu quả để dự đoán giá cổ phiếu Việt Nam bằng cách sử dụng Machine Learning và phân tích xúc cảm. Kết quả nghiên cứu cho thấy rằng việc tích hợp phân tích xúc cảm có thể cải thiện đáng kể độ chính xác của mô hình dự đoán. Trong tương lai, có thể mở rộng nghiên cứu bằng cách sử dụng các mô hình Deep Learning phức tạp hơn và tích hợp thêm nhiều nguồn dữ liệu khác nhau.

6.1. Tóm Tắt Kết Quả Nghiên Cứu Về Dự Báo Cổ Phiếu

Nghiên cứu này đã chứng minh tính khả thi và hiệu quả của việc sử dụng Machine Learning và phân tích xúc cảm để dự đoán giá cổ phiếu Việt Nam. Kết quả cho thấy rằng các mô hình được đề xuất có thể đạt được độ chính xác cao và có tiềm năng ứng dụng trong thực tế.

6.2. Hướng Phát Triển Nghiên Cứu Về Dự Đoán Xu Hướng Cổ Phiếu

Trong tương lai, có thể mở rộng nghiên cứu bằng cách sử dụng các mô hình Deep Learning phức tạp hơn và tích hợp thêm nhiều nguồn dữ liệu khác nhau, chẳng hạn như dữ liệu kinh tế vĩ mô, dữ liệu giao dịch và dữ liệu từ mạng xã hội. Bên cạnh đó, cũng cần nghiên cứu các phương pháp để xử lý dữ liệu không cân bằng và giảm thiểu ảnh hưởng của các yếu tố nhiễu.

21/05/2025

Bạn đang xem trước tài liệu:

Ứng dụng machine learning và phân tích xúc cảm cho giao dịch cổ phiếu việt nam

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Thị trường chứng khoán Việt Nam đã trải qua hơn 20 năm phát triển với quy mô ngày càng mở rộng và đa dạng, đóng góp quan trọng vào cơ cấu tài chính quốc gia. Tính đến cuối năm 2020, vốn hóa thị trường đạt khoảng 84,1% GDP, gấp 7,3 lần so với năm 2010, với hơn 1.000 cổ phiếu niêm yết và đăng ký giao dịch. Tuy nhiên, thị trường cũng chứng kiến nhiều biến động mạnh, như năm 2022 chỉ số VN-Index giảm 34,12% so với đỉnh đầu năm, phản ánh sự ảnh hưởng phức tạp của nhiều yếu tố kinh tế, chính trị và tâm lý nhà đầu tư.

Giá cổ phiếu là chỉ số quan trọng phản ánh sức khỏe và triển vọng của doanh nghiệp, chịu tác động bởi các yếu tố vĩ mô như chính sách tiền tệ, biến động kinh tế, cũng như các yếu tố vi mô như báo cáo tài chính, quản trị công ty. Việc dự đoán biến động giá cổ phiếu không chỉ giúp nhà đầu tư tối ưu hóa lợi nhuận mà còn góp phần nâng cao hiệu quả phân bổ vốn trong nền kinh tế.

Luận văn tập trung nghiên cứu ứng dụng các kỹ thuật Machine Learning (ML) kết hợp với phân tích xúc cảm (Sentiment Analysis) từ dữ liệu tin tức tài chính nhằm xây dựng mô hình dự đoán giá cổ phiếu trên thị trường Việt Nam. Phạm vi nghiên cứu bao gồm các cổ phiếu có vốn hóa lớn như Techcombank, Vinamilk, và Công ty chứng khoán SSI, với dữ liệu lịch sử giá cổ phiếu và tin tức liên quan thu thập trong nhiều ngày giao dịch. Mục tiêu chính là phát triển mô hình dự đoán giá đóng cửa hàng ngày với độ chính xác cao, góp phần hỗ trợ quyết định đầu tư hiệu quả trong bối cảnh thị trường biến động phức tạp.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai khung lý thuyết chính: phân tích kỹ thuật và phân tích cơ bản trong chứng khoán, kết hợp với các mô hình Machine Learning và xử lý ngôn ngữ tự nhiên (NLP).

Phân tích kỹ thuật và cơ bản:
- Phân tích kỹ thuật sử dụng các chỉ số như SMA (Simple Moving Average), MACD (Moving Average Convergence Divergence), RSI (Relative Strength Index) để nhận diện xu hướng giá và điểm mua bán.
- Phân tích cơ bản tập trung vào các chỉ số tài chính như EPS (Earning Per Share), P/E (Price to Earnings ratio), P/B (Price to Book ratio), ROE (Return on Equity) và ROA (Return on Assets) nhằm đánh giá giá trị nội tại của cổ phiếu.
Mô hình Machine Learning:
- Các thuật toán hồi quy và phân loại như Logistic Regression, Random Forest, XGBoost, LightGBM và CatBoost được áp dụng để dự đoán biến động giá cổ phiếu dựa trên dữ liệu lịch sử và đặc trưng kỹ thuật.
- Mô hình học sâu như LSTM (Long Short Term Memory) được tham khảo để xử lý chuỗi thời gian, trong khi các mô hình chú ý (Attention Models) và BERT (Bidirectional Encoder Representations from Transformers) được sử dụng trong phân tích xúc cảm từ dữ liệu tin tức tài chính.
Phân tích xúc cảm (Sentiment Analysis):
- Sử dụng các mô hình NLP để gán nhãn cảm xúc cho các bài báo, tin tức tài chính liên quan đến cổ phiếu, từ đó tích hợp thông tin phi cấu trúc này vào mô hình dự đoán giá cổ phiếu nhằm nâng cao độ chính xác.

Phương pháp nghiên cứu

Nguồn dữ liệu:
Dữ liệu được thu thập từ các trang web chuyên về tài chính và chứng khoán Việt Nam, bao gồm:
- Lịch sử giá cổ phiếu (giá mở cửa, đóng cửa, cao nhất, thấp nhất, khối lượng giao dịch).
- Các chỉ số kỹ thuật và cơ bản của cổ phiếu.
- Tin tức tài chính liên quan đến các mã cổ phiếu nghiên cứu.
Phương pháp phân tích:
- Tiền xử lý dữ liệu: Chuẩn hóa, làm sạch dữ liệu, trích xuất đặc trưng kỹ thuật và tài chính.
- Gán nhãn dữ liệu tin tức bằng mô hình phân tích xúc cảm dựa trên BERT và các biến thể chuyên biệt cho lĩnh vực tài chính.
- Xây dựng và huấn luyện các mô hình ML như Logistic Regression, Random Forest, XGBoost, LightGBM, CatBoost trên tập dữ liệu kết hợp giữa dữ liệu lịch sử và dữ liệu xúc cảm.
- Đánh giá mô hình dựa trên các chỉ số Accuracy, F1-score, AUC để so sánh hiệu quả từng mô hình.
Timeline nghiên cứu:
- Thu thập và xử lý dữ liệu: 3 tháng.
- Xây dựng mô hình và huấn luyện: 4 tháng.
- Thử nghiệm, đánh giá và điều chỉnh mô hình: 2 tháng.
- Tổng hợp kết quả và hoàn thiện luận văn: 1 tháng.
Cỡ mẫu và chọn mẫu:
- Dữ liệu gồm chuỗi giá cổ phiếu và tin tức trong khoảng thời gian nhiều năm, tập trung vào các cổ phiếu có vốn hóa lớn và giao dịch sôi động.
- Phương pháp chọn mẫu ngẫu nhiên có kiểm soát nhằm đảm bảo tính đại diện và đa dạng của dữ liệu.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả mô hình kết hợp dữ liệu lịch sử và phân tích xúc cảm:
Mô hình Random Forest kết hợp dữ liệu lịch sử giá cổ phiếu và điểm xúc cảm từ tin tức đạt độ chính xác khoảng 85%, cao hơn 7-10% so với mô hình chỉ sử dụng dữ liệu lịch sử. Giá trị F1 và AUC cũng được cải thiện tương ứng, cho thấy vai trò quan trọng của dữ liệu phi cấu trúc trong dự đoán.
So sánh các thuật toán ML:
- XGBoost và LightGBM cho kết quả dự đoán tốt với độ chính xác lần lượt đạt khoảng 87% và 88%, vượt trội hơn so với Logistic Regression (khoảng 75%) và Support Vector Machine (khoảng 80%).
- CatBoost thể hiện khả năng xử lý dữ liệu phân loại và phi cấu trúc hiệu quả, đạt độ chính xác gần 89%, đồng thời giảm thiểu hiện tượng quá khớp nhờ kỹ thuật regularization.
Ảnh hưởng của tin tức tài chính đến biến động giá cổ phiếu:
Phân tích xúc cảm cho thấy các tin tức tích cực có xu hướng thúc đẩy giá cổ phiếu tăng trong vòng 1-3 ngày tiếp theo, trong khi tin tức tiêu cực có tác động ngược lại. Mức độ ảnh hưởng được đo bằng hệ số tương quan khoảng 0,6, cho thấy mối liên hệ chặt chẽ giữa cảm xúc thị trường và biến động giá.
Tính ổn định và khả năng ứng dụng mô hình:
Mô hình đề xuất duy trì hiệu suất ổn định trên các tập dữ liệu kiểm thử khác nhau, với sai số dự đoán trung bình (MAE) giảm khoảng 15% so với các mô hình truyền thống. Điều này chứng tỏ tính khả thi và ứng dụng thực tiễn cao trong việc hỗ trợ quyết định đầu tư.

Thảo luận kết quả

Kết quả nghiên cứu khẳng định rằng việc tích hợp dữ liệu lịch sử giá cổ phiếu với phân tích xúc cảm từ tin tức tài chính giúp nâng cao đáng kể độ chính xác dự đoán. Nguyên nhân là do thị trường chứng khoán phản ứng nhanh với các thông tin mới, đặc biệt là các tin tức có tính cảm xúc cao, ảnh hưởng đến tâm lý và hành vi nhà đầu tư.

So với các nghiên cứu trước đây tập trung chủ yếu vào dữ liệu lịch sử hoặc mô hình LSTM, nghiên cứu này mở rộng phạm vi bằng cách áp dụng đa dạng thuật toán ML hiện đại như XGBoost, LightGBM và CatBoost, đồng thời khai thác hiệu quả dữ liệu phi cấu trúc. Các biểu đồ ROC và bảng so sánh hiệu suất mô hình minh họa rõ sự vượt trội của mô hình kết hợp.

Ý nghĩa của nghiên cứu không chỉ nằm ở việc cải thiện dự đoán giá cổ phiếu mà còn góp phần phát triển các công cụ hỗ trợ đầu tư thông minh, giảm thiểu rủi ro trong bối cảnh thị trường biến động phức tạp. Kết quả cũng phù hợp với xu hướng ứng dụng AI và ML trong lĩnh vực tài chính toàn cầu, đồng thời đáp ứng nhu cầu thực tiễn của thị trường chứng khoán Việt Nam.

Đề xuất và khuyến nghị

Phát triển hệ thống dự báo tích hợp đa nguồn dữ liệu
- Động từ hành động: Xây dựng, tích hợp
- Mục tiêu: Tăng độ chính xác dự báo giá cổ phiếu lên trên 90% trong vòng 12 tháng
- Chủ thể thực hiện: Các công ty công nghệ tài chính, tổ chức nghiên cứu thị trường
Ứng dụng mô hình phân tích xúc cảm trong quản lý rủi ro đầu tư
- Động từ hành động: Áp dụng, triển khai
- Mục tiêu: Giảm thiểu rủi ro đầu tư thông qua cảnh báo sớm biến động giá dựa trên tin tức tiêu cực
- Chủ thể thực hiện: Quỹ đầu tư, công ty chứng khoán, nhà quản lý tài sản
Đào tạo và nâng cao năng lực sử dụng công nghệ AI cho nhà đầu tư cá nhân và tổ chức
- Động từ hành động: Tổ chức, đào tạo
- Mục tiêu: Nâng cao nhận thức và kỹ năng phân tích dữ liệu tài chính bằng ML trong 6 tháng
- Chủ thể thực hiện: Các trường đại học, trung tâm đào tạo tài chính, hiệp hội nhà đầu tư
Cải tiến và mở rộng mô hình dự báo cho các nhóm cổ phiếu nhỏ và trung bình
- Động từ hành động: Nghiên cứu, mở rộng
- Mục tiêu: Mở rộng phạm vi áp dụng mô hình dự báo cho ít nhất 50% cổ phiếu trên thị trường trong 18 tháng
- Chủ thể thực hiện: Các viện nghiên cứu, doanh nghiệp công nghệ

Đối tượng nên tham khảo luận văn

Nhà đầu tư cá nhân và tổ chức
- Lợi ích: Hiểu rõ hơn về các yếu tố ảnh hưởng đến giá cổ phiếu, áp dụng mô hình dự báo để tối ưu hóa chiến lược đầu tư.
- Use case: Sử dụng kết quả phân tích xúc cảm để đưa ra quyết định mua bán kịp thời.
Các công ty chứng khoán và quỹ đầu tư
- Lợi ích: Nâng cao hiệu quả quản lý danh mục đầu tư, giảm thiểu rủi ro thông qua dự báo chính xác hơn.
- Use case: Tích hợp mô hình ML vào hệ thống giao dịch tự động và phân tích thị trường.
Nhà nghiên cứu và học viên ngành tài chính, công nghệ thông tin
- Lợi ích: Tham khảo phương pháp kết hợp ML và NLP trong lĩnh vực tài chính, phát triển nghiên cứu sâu hơn.
- Use case: Áp dụng mô hình và thuật toán trong các đề tài nghiên cứu tiếp theo.
Cơ quan quản lý thị trường và chính sách
- Lợi ích: Hiểu rõ hơn về tác động của tin tức và cảm xúc thị trường đến biến động giá cổ phiếu, từ đó xây dựng chính sách phù hợp.
- Use case: Sử dụng kết quả nghiên cứu để giám sát và điều tiết thị trường hiệu quả hơn.

Câu hỏi thường gặp

Mô hình Machine Learning nào phù hợp nhất để dự đoán giá cổ phiếu?
Các mô hình như XGBoost, LightGBM và CatBoost cho kết quả dự đoán tốt hơn so với Logistic Regression và SVM nhờ khả năng xử lý dữ liệu phức tạp và giảm thiểu quá khớp. Ví dụ, LightGBM cải thiện tốc độ và hiệu suất nhờ phương pháp phát triển cây theo lá.
Phân tích xúc cảm từ tin tức ảnh hưởng thế nào đến dự đoán giá cổ phiếu?
Tin tức tích cực thường thúc đẩy giá cổ phiếu tăng, trong khi tin tức tiêu cực có thể gây giảm giá. Mức độ ảnh hưởng được đo bằng hệ số tương quan khoảng 0,6, cho thấy dữ liệu phi cấu trúc này rất quan trọng trong mô hình dự báo.
Dữ liệu nào được sử dụng để huấn luyện mô hình dự đoán?
Dữ liệu bao gồm lịch sử giá cổ phiếu, các chỉ số kỹ thuật và cơ bản, cùng với dữ liệu tin tức tài chính được gán nhãn xúc cảm. Việc kết hợp dữ liệu cấu trúc và phi cấu trúc giúp mô hình dự đoán chính xác hơn.
Làm thế nào để đánh giá hiệu quả của mô hình dự đoán?
Hiệu quả được đánh giá qua các chỉ số như Accuracy, F1-score, AUC và MAE. Ví dụ, mô hình Random Forest kết hợp dữ liệu xúc cảm đạt độ chính xác khoảng 85%, cao hơn đáng kể so với mô hình chỉ dùng dữ liệu lịch sử.
Mô hình này có thể áp dụng cho các cổ phiếu nhỏ và trung bình không?
Hiện tại mô hình được thử nghiệm chủ yếu trên các cổ phiếu vốn hóa lớn. Tuy nhiên, với việc mở rộng và điều chỉnh, mô hình có tiềm năng áp dụng cho các nhóm cổ phiếu nhỏ và trung bình nhằm nâng cao phạm vi ứng dụng.

Kết luận

Luận văn đã phát triển thành công mô hình dự đoán giá cổ phiếu kết hợp dữ liệu lịch sử và phân tích xúc cảm từ tin tức tài chính, đạt độ chính xác cao trên thị trường Việt Nam.
Các thuật toán ML hiện đại như XGBoost, LightGBM và CatBoost thể hiện hiệu quả vượt trội so với các phương pháp truyền thống.
Phân tích xúc cảm đóng vai trò quan trọng trong việc nâng cao độ chính xác dự báo, phản ánh tác động của thông tin phi cấu trúc đến biến động giá cổ phiếu.
Mô hình có tính ổn định và khả năng ứng dụng thực tiễn cao, hỗ trợ nhà đầu tư và tổ chức quản lý rủi ro hiệu quả.
Đề xuất mở rộng nghiên cứu và ứng dụng mô hình cho các nhóm cổ phiếu đa dạng hơn, đồng thời phát triển hệ thống dự báo tích hợp đa nguồn dữ liệu trong tương lai.

Khuyến khích các tổ chức tài chính và nhà đầu tư áp dụng mô hình vào thực tế, đồng thời tiếp tục nghiên cứu cải tiến để nâng cao hiệu quả dự báo và mở rộng phạm vi ứng dụng.

Trích đoạn nội dung tài liệu

CHƯƠNG 1 TỔNG QUAN VỀ CHỨNG KHOÁN VÀ CỎ PHIẾU Chương này giới thiệu tổng quan về cổ phiếu, các chỉ số và tin tức liên quan đến cổ phiếu. Ngoài ra, chương này cũng trình bày một số cơ sỡ lý thuyết liên quan.1 Tổng quan về thị trường chứng khoán Việt Nam Theo điều 6 của Luật chứng khoán Việt Nam thì: “Chứng khoán là bằng chứng xác nhận quyền và lợi ích hợp pháp của người sở hữu đoi với tài sản hoặc phần von của tổ chức phát hành. Chứng khoán thể hiện dưới hình thức chứng chỉ, bút toán ghi sổ hoặc dữ liệu điện tử, bao gồm: cổ phiếu, trái phiếu, chứng chỉ quỹ, quyền mua cổ phần, chứng quyền, quyền chọn mua, quyền chọn bán, hợp đong tương lai, nhóm chứng khoán hoặc chỉ so chứng khoán \ Thị trường chứng khoán giúp những người thiếu vốn huy động được vốn và người có vốn chuyển vốn của mình thành vốn đầu tư. Vì thế, thị trường chứng khoán còn được gọi là thị trường vốn Thực trạng thị trường chứng khoán Việt Nam các năm gần đây: Thị trường chứng khoán Việt Nam đã đi vào hoạt động từ năm 2000, đến nay, sau hơn 20 năm hoạt động đã trở thành một kênh huy động vốn dài hạn cho đầu tư phát triển.

Quy mô huy động vốn qua thị trường chứng khoán giai đoạn 2011 - 2020 đạt gần 2,9 triệu đồng, gấp gần 10 lần so với giai đoạn 2000 - 2010, đóng góp bình quân 19,5% tổng mức đầu tư toàn xã hội, góp phần cơ cấu lại hệ thống tài chính Việt Nam theo hướng cằn đối, bền vững hơn. Thị trường chứng khoán ngày càng đa dạng về mặt hàng hóa giao dịch. Trên thị trường cổ phiếu hiện có hơn 1.000 cổ phiếu niêm yết và đăng ký giao dịch (tính đến cuối năm 2020 có 745 cổ phiếu niêm yết và 910 cổ phiếu đăng ký giao dịch), bao gồm đa dạng các cổ phiếu từ các lĩnh vực kinh doanh khác nhau. Đặc biệt, quá trình 1 cổ phần hóa các doanh nghiệp nhà nước (DNNN) quy mô lớn gắn với niêm yết trên thị trường chứng khoán đã tạo ra một lượng hàng hóa có chất lượng trên thị trường.

Tổng giá trị vốn hóa thị trường cổ phiếu và dư nợ thị trường trái phiếu cuối năm 2020 ước đạt khoảng 131,95% GDP, chiếm tỷ trọng 47% tổng tài sản hệ thống tài chính. Tính đến cuối năm 2020, vốn hóa thị trường đạt 64,1% GDP, gấp 7,3 lần so vói năm 2010. Thị trường chứng khoán Việt Nam đã không ngừng hoàn thiện về cấu trúc thông qua việc hình thành các khu vực thị trường: thị trường cổ phiếu, thị trường trái phiếu và thị trường chứng khoán phái sinh. Dù mói thành lập trong thời gian ngắn, nhưng thị trường chứng khoán phái sinh đã phát triển nhanh chóng với mức tăng trưởng giao dịch bình quân đạt 3,3 lần/năm, cung cấp thêm các công cụ đầu tư và quản lý rủi ro hữu hiệu.

Thị trường trường chứng khoán Việt Nam đã phát triển mạnh mẽ, trở thành kênh huy động vốn quan trọng cho nền kinh tế, với quy mô huy động vốn qua thị trường chứng khoán (TTCK) giai đoạn 2011 - 2020 đạt gần 2,9 triệu tỷ đồng, gấp gần 10 lần so với giai đoạn 2000 - 2010, đóng góp bình quân 19,5% tổng vốn đầu tư toàn xã hội, góp phần cơ cấu lại hệ thống tài chính Việt Nam theo hướng cân đối, bền vững hơn. Tính đến cuối năm 2020, vốn hóa thị trường đạt 84,1% GDP, gấp 7,3 lần so với năm 2010,. [2] Hoạt động của thị TTCK ngày càng được công khai, minh bạch, phù hợp với các tiêu chuẩn và thông lệ về quản trị công ty, năng lực quản lý, giám sát, thanh tra và thực thi của các cơ quan quản lý nhà nước được tăng cường. Họat động quản lý và giám sát luôn lấy việc ổn định, an toàn của thị trường và quyền lợi của công chúng đầu tư làm trung tâm.

Các chính sách quản lý TTCK đã thực hiện được mục tiêu tăng cường tính công khai, minh bạch thông tin,. Tiếp nối đà tăng của năm 2021, chỉ số thị trường đã duy trì được mức tăng mạnh mẽ trong những tháng đầu năm, trong đó đạt mức đỉnh lịch sử mới với 1.528,57 điểm vào ngày 6/1/2022. Tuy nhiên, sau đó trước những ảnh hưởng đến từ tình hình kinh 2 tế -xã hội trong và ngoài nước, TTCK Việt Nam bước vào giai đoạn điều chỉnh mạnh và đạt mức thấp nhất vào ngày 15/11/2022 vói chỉ số VN-Index đóng cửa ở mức 911,9 điểm; sau đó đã có nhũng tuần hồi phục tích cực.Tính đến ngày 30/12/2022, chỉ số VNIndex đạt 1007,09 điểm, giảm 34,12% so với mức đỉnh được thiết lập đầu năm và giảm 32,8% so vói cuối năm 2021. Bên cạnh đó, chỉ số HNX-Index cũng giảm diễm mạnh, tính đến cuối năm 2022, chỉ số HNX-Index đạt 205,31 điểm, giảm 56,7% so vói cuối năm 2021 [3] Bảng 1.1 Diễn biến chỉ sốVN-INDEX năm 2022 Trong năm 2022, khối lượng cổ phiếu NY/ĐKGDmới đạt 3.329 triệu cổ phiếu, giảm 43% so với năm 2021.

Trong khi đó, khối lượng cổ phiếu hủy NY/ĐKGD đạt 3.804 triệu cổ phiếu, tăng 70% so vói năm 2021 .Tính đến cuối tháng 12/2022, thị trường có 757 cổ phiếu, CCQ niêm yết trên 2 Sở GDCK và 856 cổ phiếu ĐKGD trên UPCoM với tổng giá trị niêm yết, ĐKGD đạt 1.983 nghìn tỷ đồng, tăng 14% với cuối năm 2021 (tương đương 20,8% GDP ước tính năm 2022).2 Giá trị vốn hóa thị trường cổ phiếu ■ HOSE ■■HNX ■UPCOM —•—%GDP ỉ.1 Vai trò của thị trường chứng khoán Thị trường chứng khoán có nhiều vai trò quan trọng ảnh hưởng đến tinh hình kinh tế cũng như sự phát triển của doanh nghiệp, nó ảnh hưởng đến vi mô và ảnh hưởng đến cả tầm vĩ mô của kinh tế Việt Nam. Thị trường này hoạt động thu hút nhũng nhà giao dịch đầu tư từ cá nhân, doanh nghiệp trong nước và ngoài nước cho những công ty để phát triển, mở rộng quy mô, đồng thời phát triển, nâng cao được cơ sở hạ tầng xã hội Cung cấp cho các nhà đầu tư một nơi để đầu tư an toàn và lành mạnh, thị trường này phân biệt rất rõ, vói những ai có nhiều kiến thức và kinh nghiệm sẽ được trả công bằng lợi nhuận họ kiếm được. Những người mói cần học hỏi nhiếu hơn thì mới có thề đứng vững ở thị trường biến động này. Thị trường cũng cung cấp rất nhiều sản phẩm đầu tư khác nhau nên nó sẽ đáp ứng được nhiều nhu cầu đầu tư, cũng như mục đích và phù hợp vói chiến lược kinh doanh mà họ mong muốn.

4 Thị trường chứng khoán được nhiều người đầu tư vào thì nó sẽ tạo được một thị trường có thanh khoản lớn, họ có thể đổi được tiền mặt hoặc giao dịch chứng khoán một cách dễ dàng và an toàn. Tính thanh khoản của thị trường càng cao thì điều này cũng cho thấy được sự năng động và được nhiều người an tâm đầu tư. Qua sự biến động của TTCK, có thể xem xét được sự phát triển của một doanh nghiệp đang hoạt động trên thị trường có tốt hay không, giúp các nhà đầu tư có thể biết cách sử dụng vốn đầu tư một cách hiệu quả hon. Yeu tố thông tin là yếu tố cạnh tranh trên thị trqờng sẽ đảm bảo cho việc phân phối vốn một cách hiệu quả.

Thị trường tài chính là noi tiên phong áp dụng công nghệ mới và nhạy cảm với môi trường thường xuyên thay đổi. Trên thị trường chứng khoán, tất cả các thông tin được cập nhật và được chuyển tải tới tất cả các nhà đầu tư để họ có thể phân tích và định giá cho các chứng khoán. TTCK đó tạo ra một sự cạnh tranh có hiệu quả trên thị trường tài chính, do đó các ngân hàng thưong mại và các tổ chức tài chính phải quan tâm tói hoạt động tài chính của họ và làm giảm chi phí tài chính. Việc huy động vốn trên thị trường chứng khoán có thể làm tăng vốn tự có của các công ty và giúp họ tránh các khoản vay có chi phí TTCK tạo điều kiện cho Chính phủ huy động các nguồn tài chính tiền tệ của chính phủ.

Đồng thời, TTCK cũng cung cấp một dự báo tuyệt vời về các chu kỳ kinh doanh trong tưong lai giúp Chính phủ và các công ty đánh giá kế hoạch đầu tư cũng như việc phân bổ các nguồn lực của họ. TTCK cũng tạo điều kiện tái cấu trúc nền kinh tế. Ngoài những tác động tích cực trên, TTCK cũng có những tác động tiêu cực nhất định như hiện tượng đầu co, hiện tượng xung đột quyền lực, bong bóng giá,.làm giảm thiệt hại cho quyền lợi của các cổ đông thiểu số, việc mua bán nội gián, thao túng thị trường làm nản lòng các nhà đầu tư tác động tiêu cực tói tiết kiệm và đầu tư. Nhiệm vụ của các nhà quản lý thị trường là giảm thiểu các tiêu cực của thị trường nhằm bảo vệ quyền lọi của các nhà đầu tư và đảm bảo tính hiệu quả của TTCK 5 Như vậy, vai trò của TTCK được thể hiện ở nhiều khía cạnh khác nhau.

Song để vai trò đó thật sự phát huy được hiệu quả thì phụ thuộc đáng kể vào các chủ thể tham gia vào thị trường và sự quản lý của nhà nước ĩ.2 Phân loại thị trường chứng khoán Thị trường so cấp: Là thị trường mua bán các chứng khoán mới phát hành. Trên thị trường này, vốn từ nhà đầu tư sẽ được chuyển sang nhà phát hành thông qua việc nhà đầu tư mua các chứng khoán mới phát hành Thị trường thứ cấp: Là noi giao dịch các chứng khoán đã được phát hành trên thị trường so cấp.Thị trường thứ cấp đảm bảo tính thanh khoản cho các chứng khoán đã phát hành.3 Co phiếu Khi một công ty gọi vốn, số vốn cần gọi đó được chia thành nhiều phần nhỏ bằng nhau gọi là cổ phần. Người mua cổ phần gọi là cổ đông, cổ đông được cấp một giấy chứng nhận sở hữu cổ phần gọi là cổ phiếu và chỉ có công ty cổ phần mới phát hành cổ phiếu. Như vậy, cổ phiếu chính là một chứng thư chứng minh quyền sở hữu của một cổ đông đối với một công ty cổ phần và cổ đông là người có cổ phần thể hiện bằng cổ phiếu.

Thông thường hiện nay các công ty cổ phần thường phát hành 02 dạng cổ phiếu: cổ phiếu thường và cổ phiếu ưu đãi: Các cổ đông sở hữu cổ phiếu thông thường có quyền hạn và trách nhiệm đối vói công ty như: Được chia cổ tức theo kết quả kinh doanh, được quyền bầu cử, ứng cử vào bộ máy quản trị và kiểm sóat công ty và phải chịu trách nhiệm về sự thua lồ hoặc phá sản tưong ứng vói phần vốn góp của mình.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Dự đoán giá cổ phiếu Việt Nam: Ứng dụng Machine Learning và Phân tích Xúc cảm" cung cấp cái nhìn sâu sắc về cách mà công nghệ Machine Learning và phân tích xúc cảm có thể được áp dụng để dự đoán giá cổ phiếu trên thị trường Việt Nam. Bài viết nhấn mạnh tầm quan trọng của việc sử dụng dữ liệu lớn và các thuật toán học máy để cải thiện độ chính xác trong dự đoán, từ đó giúp các nhà đầu tư đưa ra quyết định thông minh hơn.

Để mở rộng kiến thức của bạn về chủ đề này, bạn có thể tham khảo thêm tài liệu Luận văn thạc sĩ hệ thống thông tin quản lý ứng dụng mô hình mạng neural trong dự đoán giá chứng khoán việt nam, nơi trình bày chi tiết về mô hình mạng neural trong dự đoán giá cổ phiếu. Ngoài ra, tài liệu Luận văn thạc sĩ ứng dụng mô hình mạng thần kinh nhân tạo trong dự báo kinh tế trường hợp thị trường chứng khoán việt nam cũng sẽ giúp bạn hiểu rõ hơn về ứng dụng của mạng thần kinh trong bối cảnh kinh tế. Cuối cùng, tài liệu Luận văn tìm hiểu ngôn ngữ lập trình python viết chương trình thử nghiệm dự báo sự biến động của giá chứng khoán sẽ cung cấp cho bạn cái nhìn về cách lập trình có thể hỗ trợ trong việc dự đoán giá cổ phiếu. Những tài liệu này sẽ giúp bạn mở rộng hiểu biết và khám phá sâu hơn về lĩnh vực dự đoán giá cổ phiếu.

#phân tích dữ liệu tài chính