Xây Dựng Hệ Thống Thu Thập và Xử Lý Tin Tức Tài Chính

Đồ án kinh tế nghiên cứu cuối kì xây dựng hệ thống thu thập vàxử lí tin tức tài chính, thiết kế chi tiết, tính toán kỹ thuật theo tiêu chuẩn, đánh giá tính khả thi dự án.

Người đăng

Ẩn danh

Phí lưu trữ

30 Point

Tóm tắt

I. Giải Mã Hệ Thống Thu Thập và Xử Lý Tin Tức Tài Chính 4

Trong bối cảnh kinh tế số, thông tin là tài sản vô giá, đặc biệt trong lĩnh vực tài chính. Khả năng tiếp cận và phân tích thông tin nhanh chóng quyết định đến 80% thành công của các quyết định đầu tư. Một hệ thống thu thập và xử lý tin tức tài chính hiện đại ra đời như một giải pháp tất yếu. Hệ thống này không chỉ đơn thuần là công cụ lưu trữ, mà là một bộ não thông minh, sử dụng trí tuệ nhân tạo (AI) trong tài chính để sàng lọc, phân tích và cung cấp những hiểu biết sâu sắc từ hàng triệu nguồn tin tức. Mục tiêu cốt lõi là biến dữ liệu phi cấu trúc như các bài báo, báo cáo, và tin tức trên mạng xã hội thành thông tin có cấu trúc, dễ hiểu và có giá trị dự báo. Nghiên cứu từ Đại học Công nghiệp TP.HCM nhấn mạnh, việc xây dựng một nền tảng tổng hợp tin tức tự động giúp nhà đầu tư, từ cá nhân đến tổ chức, có cái nhìn toàn cảnh về thị trường. Thay vì tốn hàng giờ đọc và phân tích thủ công, hệ thống cho phép người dùng nắm bắt xu hướng và rủi ro tiềm ẩn chỉ trong vài phút. Nền tảng của hệ thống này là sự kết hợp giữa khai phá dữ liệu (data mining), xử lý ngôn ngữ tự nhiên (NLP), và học máy (machine learning). Các công nghệ này cho phép hệ thống hiểu được ngữ cảnh, sắc thái và cả những ẩn ý trong từng bản tin. Từ đó, hệ thống có thể thực hiện phân tích cảm tính (sentiment analysis) để đánh giá tác động của tin tức là tích cực hay tiêu cực đến một cổ phiếu hay toàn bộ thị trường. Đây là một bước tiến vượt bậc so với các phương pháp phân tích tài chính truyền thống, mở ra một kỷ nguyên mới cho ngành công nghệ tài chính (Fintech), nơi quyết định được đưa ra dựa trên dữ liệu và bằng chứng xác thực, giảm thiểu yếu tố cảm tính và sai sót con người.

1.1. Tầm quan trọng của dữ liệu thời gian thực trong đầu tư

Thị trường tài chính biến động không ngừng, mỗi giây đều có thể tạo ra sự khác biệt lớn. Dữ liệu thời gian thực (real-time data) là yếu tố sống còn, cho phép các nhà đầu tư phản ứng tức thì với các sự kiện. Một hệ thống hiện đại phải có khả năng thu thập thông tin ngay khi chúng xuất hiện trên các trang tin tức, mạng xã hội, hoặc các báo cáo được công bố. Việc chậm trễ dù chỉ vài phút có thể dẫn đến mất cơ hội hoặc không kịp thời quản lý rủi ro tài chính. Theo tài liệu nghiên cứu, sự gia tăng kỷ lục của nhà đầu tư cá nhân tại Việt Nam (gần 2,6 triệu tài khoản mới trong năm 2022) cho thấy nhu cầu cấp thiết về các công cụ theo dõi thị trường nhanh nhạy và chính xác. Dữ liệu real-time giúp nhà đầu tư không bị bỏ lại phía sau, cung cấp lợi thế cạnh tranh đáng kể trong một môi trường đầy biến động.

1.2. Vai trò của nền tảng tổng hợp tin tức tự động hóa

Một nền tảng tổng hợp tin tức hiệu quả đóng vai trò như một bộ lọc thông minh. Nó tự động hóa quá trình thu thập thông tin từ nhiều nguồn khác nhau, từ các trang báo chính thống đến các diễn đàn đầu tư. Quá trình này giúp loại bỏ nhiễu thông tin và tin giả, chỉ giữ lại những dữ liệu đáng tin cậy. Hơn nữa, việc tự động hóa báo cáo và phân tích giúp tiết kiệm thời gian và nguồn lực. Thay vì để các chuyên gia phân tích đọc từng bài báo, hệ thống có thể tóm tắt và phân loại hàng ngàn tin tức mỗi ngày, giúp họ tập trung vào việc ra quyết định chiến lược. Đây chính là giá trị cốt lõi mà một hệ thống hỗ trợ quyết định đầu tư hiện đại mang lại, biến dữ liệu thô thành trí tuệ kinh doanh.

II. Thách Thức Khi Xử Lý Big Data Tài Chính và Dữ Liệu Phi Cấu Trúc

Việc xây dựng một hệ thống xử lý tin tức tài chính phải đối mặt với nhiều thách thức lớn, trong đó nổi bật là vấn đề Big Data tài chính và tính chất phức tạp của dữ liệu phi cấu trúc. Mỗi ngày, hàng terabyte dữ liệu mới được tạo ra từ các nguồn tin tức, báo cáo phân tích, và bình luận trên mạng xã hội. Dữ liệu này không tuân theo một khuôn mẫu cố định, chứa đựng ngôn ngữ tự nhiên với nhiều sắc thái, thuật ngữ chuyên ngành, và cả các lỗi chính tả. Việc trích xuất thông tin có giá trị từ mớ dữ liệu hỗn độn này là một bài toán khó. Một thách thức khác là tốc độ lan truyền thông tin. Tin tức tiêu cực có thể gây ra biến động thị trường chỉ trong vài phút, đòi hỏi hệ thống phải có khả năng xử lý gần như tức thời. Thêm vào đó, việc đánh giá độ tin cậy của nguồn tin cũng là một vấn đề nan giải. Hệ thống phải có cơ chế để phân biệt giữa tin chính thống và tin đồn thất thiệt. Nghiên cứu gốc chỉ ra rằng, “đa số các nhà đầu tư mới chỉ tập trung vào phân tích kỹ thuật, điều này khiến nhà đầu tư không nắm rõ thông tin về cổ phiếu đang đầu tư và dẫn đến những phán đoán thiếu cơ sở”. Điều này nhấn mạnh sự cần thiết của một công cụ có khả năng thực hiện phân tích dữ liệu tài chính một cách toàn diện, kết hợp cả yếu tố cơ bản từ tin tức. Quá trình lưu trữ và truy xuất dữ liệu cũng là một thách thức kỹ thuật, đòi hỏi cơ sở hạ tầng mạnh mẽ để xử lý các truy vấn phức tạp trên tập dữ liệu khổng lồ một cách hiệu quả.

2.1. Vấn đề quá tải thông tin và dữ liệu phi cấu trúc

Quá tải thông tin là rào cản lớn nhất. Nhà đầu tư bị “nhấn chìm” trong một biển dữ liệu, không biết đâu là thông tin quan trọng. Phần lớn dữ liệu này là dữ liệu phi cấu trúc, ví dụ như văn bản trong các bài báo. Máy tính không thể hiểu trực tiếp loại dữ liệu này. Do đó, cần áp dụng các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) để “dịch” văn bản thành dạng mà máy có thể phân tích. Các kỹ thuật như Tokenization (tách từ), Stop Words Removal (loại bỏ từ dừng) và Word Embeddings là những bước đầu tiên và cơ bản trong việc chuẩn hóa dữ liệu này, giúp mô hình tập trung vào các từ khóa mang ý nghĩa.

2.2. Yêu cầu phân tích cảm tính và dự báo xu hướng thị trường

Tin tức không chỉ mang thông tin mà còn chứa đựng cảm xúc. Phân tích cảm tính (sentiment analysis) là một nhiệm vụ quan trọng để xác định thái độ (tích cực, tiêu cực, trung lập) của một bài báo đối với một công ty hoặc một sự kiện. Việc này giúp xây dựng các mô hình dự báo tài chính chính xác hơn, vì cảm tính của thị trường thường ảnh hưởng trực tiếp đến giá cổ phiếu. Thách thức ở đây là ngôn ngữ tài chính rất phức tạp, một từ có thể mang nhiều nghĩa tùy thuộc vào ngữ cảnh. Ví dụ, từ “biến động” có thể là tích cực nếu đi kèm với “tăng trưởng” nhưng lại tiêu cực nếu đi kèm với “rủi ro”. Do đó, mô hình cần được huấn luyện trên một bộ dữ liệu lớn và chuyên biệt cho lĩnh vực tài chính Việt Nam.

III. Phương Pháp Thu Thập và Tiền Xử Lý Dữ Liệu Tin Tức Tài Chính

Để xây dựng một mô hình dự báo tài chính hiệu quả, bước đầu tiên và quan trọng nhất là thu thập và chuẩn bị dữ liệu. Quá trình này quyết định đến chất lượng đầu vào và do đó ảnh hưởng trực tiếp đến độ chính xác của mô hình. Trong dự án nghiên cứu, nhóm tác giả đã sử dụng công cụ Selenium để thực hiện thu thập dữ liệu web (web scraping) từ các trang thông tin tài chính uy tín như Cafef.vn. Lựa chọn này đảm bảo nguồn dữ liệu đầu vào có tính cập nhật và độ tin cậy cao. Sau khi thu thập, dữ liệu thô ở dạng dữ liệu phi cấu trúc cần trải qua một quy trình tiền xử lý nghiêm ngặt. Các bước chính bao gồm: Tokenization để tách văn bản thành các đơn vị từ, loại bỏ các ký tự đặc biệt và dấu câu, chuẩn hóa văn bản về chữ thường (Lowercase), và loại bỏ các từ dừng (stopwords) không mang nhiều ý nghĩa. Một kỹ thuật quan trọng được áp dụng là Word Embeddings, sử dụng FastText cho tiếng Việt, để biểu diễn các từ dưới dạng vector số học. Kỹ thuật này giúp máy tính hiểu được mối quan hệ ngữ nghĩa giữa các từ, ví dụ “lợi nhuận” sẽ gần với “doanh thu” trong không gian vector. Quá trình này là nền tảng của việc phân tích dữ liệu tài chính dựa trên văn bản, chuyển đổi ngôn ngữ con người thành dữ liệu mà các mô hình học máy (machine learning) có thể xử lý. Việc xử lý dữ liệu cẩn thận giúp giảm nhiễu và tăng cường tín hiệu, cho phép mô hình tập trung học các mẫu thông tin quan trọng.

3.1. Kỹ thuật thu thập dữ liệu web web scraping và API

Việc thu thập dữ liệu web (web scraping) được thực hiện một cách có hệ thống để lấy nội dung các bài báo tài chính. Công cụ như Selenium cho phép tự động hóa trình duyệt, mô phỏng hành vi của người dùng để trích xuất dữ liệu từ các trang web có cấu trúc phức tạp. Bên cạnh đó, việc sử dụng các API dữ liệu tài chính (nếu có) cũng là một phương pháp hiệu quả để nhận dữ liệu có cấu trúc và sạch hơn. Sự kết hợp giữa hai phương pháp này đảm bảo nguồn dữ liệu đa dạng và toàn diện, là bước khởi đầu vững chắc cho toàn bộ hệ thống.

3.2. Quy trình làm sạch và gán nhãn dữ liệu bằng NLP

Sau khi thu thập, dữ liệu thô rất nhiễu. Quy trình làm sạch bao gồm các bước đã nêu như loại bỏ stop words, chuẩn hóa văn bản. Điểm đột phá trong nghiên cứu là việc sử dụng API của OpenAI (ChatGPT) để gán nhãn ban đầu cho dữ liệu. Cụ thể, hệ thống yêu cầu AI đánh giá mức độ tác động (từ -1 đến 1) của một bài báo lên 8 khía cạnh tài chính quan trọng như ‘Danh tiếng’, ‘Tài chính’, ‘Rủi ro’. Để đảm bảo tính khách quan, nhóm nghiên cứu đã thực hiện gán nhãn nhiều lần và tính toán phương sai, chỉ giữ lại những dữ liệu có độ lệch thấp. Phương pháp này tận dụng sức mạnh của các mô hình ngôn ngữ lớn để tạo ra bộ dữ liệu huấn luyện chất lượng cao, một bước quan trọng trong xử lý ngôn ngữ tự nhiên (NLP).

IV. Hướng Dẫn Xây Dựng Mô Hình Học Máy Phân Tích Tin Tức Tài Chính

Sau khi có bộ dữ liệu sạch và được gán nhãn, bước tiếp theo là xây dựng và huấn luyện mô hình học máy (machine learning). Đây là trái tim của hệ thống hỗ trợ quyết định đầu tư, có nhiệm vụ học các mẫu từ dữ liệu lịch sử để dự đoán tác động của các tin tức mới. Nghiên cứu đã tập trung thử nghiệm ba kiến trúc mạng nơ-ron hồi quy (RNN) phổ biến, rất phù hợp cho dữ liệu dạng chuỗi như văn bản: RNN (Recurrent Neural Network), GRU (Gated Recurrent Unit) và LSTM (Long Short-Term Memory). Các mô hình này có khả năng ghi nhớ thông tin từ các phần trước của văn bản để hiểu ngữ cảnh, một yếu tố cực kỳ quan trọng trong xử lý ngôn ngữ tự nhiên (NLP). Để tìm ra cấu hình tốt nhất cho mỗi mô hình, kỹ thuật Grid Search đã được áp dụng. Kỹ thuật này tự động thử nghiệm nhiều sự kết hợp của các siêu tham số như kích thước batch (batch size), số lớp ẩn, số nơ-ron mỗi lớp, và thuật toán tối ưu (Adam, SGD). Quá trình khai phá dữ liệu (data mining) và huấn luyện này đã tạo ra tổng cộng 1458 mô hình khác nhau để so sánh. Kết quả cho thấy mô hình GRU với bộ siêu tham số tối ưu đã đạt hiệu suất tốt nhất trên tập dữ liệu thử nghiệm. Việc lựa chọn mô hình phù hợp và tối ưu hóa cẩn thận là chìa khóa để xây dựng một công cụ theo dõi thị trường đáng tin cậy, cung cấp những dự báo có độ chính xác cao.

4.1. So sánh kiến trúc mô hình học sâu RNN GRU và LSTM

Cả ba mô hình RNN, GRU, và LSTM đều được thiết kế để xử lý dữ liệu tuần tự. Tuy nhiên, RNN cơ bản thường gặp vấn đề “mất mát thông tin dài hạn”. LSTM và GRU là các phiên bản cải tiến với các “cổng” (gates) cho phép kiểm soát luồng thông tin, giúp mô hình ghi nhớ các phụ thuộc xa tốt hơn. GRU có cấu trúc đơn giản hơn LSTM, giúp quá trình huấn luyện nhanh hơn mà vẫn giữ được hiệu suất cao. Trong thực nghiệm, GRU đã chứng tỏ sự vượt trội, cho thấy sự cân bằng tốt giữa độ phức tạp và hiệu quả cho bài toán phân tích dữ liệu tài chính này.

4.2. Tối ưu siêu tham số và vai trò của thuật toán Adam

Tối ưu siêu tham số là quá trình tinh chỉnh các thiết lập của mô hình để đạt hiệu suất cao nhất. Grid Search là một phương pháp vét cạn để tìm ra bộ tham số tốt nhất từ một danh sách các giá trị định trước. Trong quá trình này, thuật toán tối ưu Adam được lựa chọn. Adam là một phương pháp hiệu quả, kết hợp ưu điểm của hai thuật toán khác, giúp mô hình hội tụ nhanh và ổn định. Kết quả thực nghiệm cho thấy, mô hình GRU tối ưu có cấu trúc gồm 2 lớp ẩn, 256 nơ-ron mỗi lớp, và sử dụng batch size là 64. Việc tối ưu này giúp mô hình đạt được sai số thấp nhất trên tập kiểm tra, chứng minh hiệu quả của nó.

V. Kết Quả Thực Nghiệm Ứng Dụng Hệ Thống Vào Thực Tiễn

Hiệu quả của một hệ thống lý thuyết phải được chứng minh bằng kết quả thực tiễn. Hệ thống thu thập và xử lý tin tức tài chính được đề xuất đã trải qua quá trình đánh giá khắt khe trên tập dữ liệu kiểm tra (test set) độc lập. Các chỉ số đo lường sai số phổ biến như MSE (Mean Square Error) và MAE (Mean Absolute Error) đã được sử dụng. Kết quả cuối cùng cho thấy mô hình GRU, sau khi được tối ưu, đã đạt được kết quả vượt trội so với RNN và LSTM. Cụ thể, mô hình GRU có chỉ số MSE và MAE thấp nhất, chứng tỏ khả năng dự báo mức độ tác động của tin tức tài chính một cách chính xác nhất. Một trong những ứng dụng quan trọng của hệ thống là trực quan hóa dữ liệu. Thay vì chỉ đưa ra những con số khô khan, hệ thống có thể biểu diễn kết quả dự đoán dưới dạng biểu đồ, giúp người dùng dễ dàng nắm bắt tác động của tin tức lên các khía cạnh khác nhau của một doanh nghiệp. Ví dụ, một bài báo có thể có tác động tích cực đến khía cạnh ‘Tài chính’ nhưng lại tiêu cực đến khía cạnh ‘Rủi ro’. Việc trực quan hóa này biến hệ thống thành một công cụ theo dõi thị trường mạnh mẽ, hỗ trợ nhà đầu tư trong việc quản lý rủi ro tài chính. Nó cung cấp một cái nhìn đa chiều, giúp đưa ra các quyết định đầu tư sáng suốt và toàn diện hơn, đúng với mục tiêu của một hệ thống hỗ trợ quyết định đầu tư hiện đại.

5.1. Đánh giá hiệu suất mô hình dự báo tài chính đề xuất

Kết quả đánh giá trên tập test cho thấy mô hình GRU đạt chỉ số MSE là 0.224 và MAE là 0.231. Đây là những con số ấn tượng, cho thấy sai số trung bình giữa dự đoán của mô hình và giá trị thực tế là rất nhỏ. Điều này khẳng định rằng mô hình dự báo tài chính được xây dựng có độ tin cậy cao và có thể ứng dụng trong thực tế. So với các nghiên cứu trước đó, kết quả này cho thấy sự cải thiện đáng kể, đặc biệt khi áp dụng cho ngôn ngữ tiếng Việt trong lĩnh vực tài chính, một lĩnh vực còn nhiều tiềm năng khai phá.

5.2. Trực quan hóa dữ liệu để quản lý rủi ro tài chính

Một hình ảnh đáng giá hơn ngàn lời nói. Trực quan hóa dữ liệu là bước cuối cùng nhưng không kém phần quan trọng, giúp chuyển hóa các kết quả phân tích phức tạp thành những biểu đồ dễ hiểu. Hệ thống có thể tạo ra các biểu đồ cột thể hiện mức độ tác động của tin tức lên 8 khía cạnh khác nhau. Điều này giúp các nhà quản lý rủi ro nhanh chóng xác định các mối đe dọa tiềm ẩn hoặc các cơ hội mới. Ví dụ, khi một loạt tin tức cho thấy khía cạnh 'Regulatory' (Quản lý/Chính sách) có điểm số tiêu cực, đó có thể là dấu hiệu sớm về những thay đổi pháp lý bất lợi, giúp doanh nghiệp và nhà đầu tư có sự chuẩn bị kịp thời.

VI. Tương Lai Của Fintech Hướng Phát Triển Hệ Thống Tin Tức

Dự án xây dựng hệ thống thu thập và xử lý tin tức tài chính đã đạt được những kết quả ban đầu đáng khích lệ, nhưng đây mới chỉ là bước khởi đầu. Tương lai của ngành công nghệ tài chính (Fintech) nằm ở việc liên tục cải tiến và tích hợp các công nghệ mới để tạo ra những công cụ thông minh hơn. Một trong những hạn chế của nghiên cứu hiện tại là quy mô bộ dữ liệu còn giới hạn, phần lớn do chi phí cho việc gán nhãn bằng API. Trong tương lai, việc xây dựng các bộ dữ liệu lớn hơn và chất lượng hơn, có thể kết hợp cả việc gán nhãn tự động và sự thẩm định của các chuyên gia tài chính, sẽ giúp mô hình trở nên chính xác hơn. Hướng phát triển tiếp theo là tích hợp các loại dữ liệu khác vào hệ thống. Thay vì chỉ phân tích văn bản tin tức, hệ thống có thể kết hợp thêm dữ liệu giá cổ phiếu, khối lượng giao dịch, và các chỉ số tài chính của công ty. Sự kết hợp này sẽ tạo ra một mô hình dự báo tài chính toàn diện hơn, có khả năng nắm bắt mối tương quan phức tạp giữa tin tức và biến động thị trường. Việc khám phá các kiến trúc mô hình tiên tiến hơn như Transformer (nền tảng của ChatGPT) cũng là một hướng đi đầy hứa hẹn. Những mô hình này có khả năng hiểu ngữ cảnh sâu hơn và có thể mang lại những đột phá mới trong việc phân tích dữ liệu tài chính.

6.1. Hạn chế của mô hình và tiềm năng cải tiến trong tương lai

Mô hình hiện tại hoạt động tốt nhất với các tin tức có độ dài từ 66 đến 365 từ, vì đây là khoảng dữ liệu chiếm đa số trong tập huấn luyện. Đây là một hạn chế cần được khắc phục. Hướng cải tiến là sử dụng các kỹ thuật xử lý văn bản dài hiệu quả hơn hoặc xây dựng một bộ dữ liệu đa dạng hơn về độ dài. Ngoài ra, việc gán nhãn bằng AI dù hiệu quả nhưng vẫn có thể có sai sót. Một hệ thống kết hợp (human-in-the-loop) nơi chuyên gia có thể kiểm tra và sửa lỗi của AI sẽ giúp nâng cao chất lượng dữ liệu và độ tin cậy của mô hình.

6.2. Tích hợp mô hình Transformer và dữ liệu thị trường đa dạng

Tương lai của xử lý ngôn ngữ tự nhiên (NLP) đang hướng về các mô hình Transformer. Việc áp dụng các mô hình này cho bài toán phân tích tin tức tài chính có thể giúp hệ thống hiểu được những mối quan hệ tinh vi và phức tạp hơn trong ngôn ngữ. Đồng thời, việc tích hợp dữ liệu giá cổ phiếu, dữ liệu vĩ mô và các chỉ số kinh tế khác sẽ cho phép hệ thống không chỉ phân tích tin tức mà còn dự báo được tác động định lượng của nó lên thị trường. Đây là mục tiêu cuối cùng: tạo ra một hệ thống hỗ trợ quyết định đầu tư toàn diện và thông minh.

10/07/2025

Bạn đang xem trước tài liệu:

Đồ án cuối kì xây dựng hệ thống thu thập vàxử lí tin tức tài chính

Tải đầy đủ

Trích đoạn nội dung tài liệu

CHƯƠNG 1.1 Tổng quan Trong chương này, chúng tôi sẽ trình bày sơ lược qua về bối cảnh chọn đề tài, lý do chọn đề tài, mục tiêu và phạm vi của nghiên cứu, ý nghĩa khoa học và thực tiễn mà đề tài.1 Bối cảnh Trong thời đại ngày nay, việc tham gia vào môi trường kinh doanh tài chính và đưa ra quyết định đầu tư dễ dàng hơn đối với người dùng, ngay cả khi họ chưa có quá nhiều kiến thức cũng như kinh nghiệm trong lĩnh vực, môi trường này. Một trong những vấn đề mà họ gặp phải trong trường hợp này là thiếu đi những thông tin cần thiết cũng như việc đánh giá chính xác các ảnh hưởng của các thông tin đến thị trường. Để hỗ trợ người dùng trong việc đưa ra quyết định đầu tư, chúng tôi đề xuất cung cấp thêm thông tin cho người dùng bằng cách phân tích xúc cảm nhiều khía cạnh trong tin tức tài chính. Để dự đoán mức độ tác động của một tin tức, bài báo đối với các khía cạnh tài chính được nhắc đến cần thực hiện một quá trình phân tích cẩn thận về nội dung bài viết.

Bao gồm việc xác định thông tin chính, nguồn tin, ngữ cảnh thị trường và các tài sản tài chính khác liên quan hay được đề cập, nhắc đến trong nội dung bài báo, tin tức. Điều này giúp người đọc đánh giá được mức độ quan trọng của các thông tin trong bài báo đối với việc định hình quyết định đầu tư và các hành động có liên quan tác động đến thị trường tài chính. Hiện nay, sự phổ biến của công nghệ và Internet đã thay đổi cách thức người dùng tiếp cận với các thông tin kinh tế. Họ có thể dễ dàng truy cập, tìm kiếm các thông tin từ nhiều nguồn khác nhau thông qua các công cụ, thiết bị di động, mạng xã hội và các trang web tin tức.vn, số liệu từ Trung tâm lưu ký Chứng khoán Việt Nam (VSD), lũy kế cả năm 2022, nhà đầu tư cá nhân trong nước đã mở mới gần 2,6 triệu tài khoản chứng khoán.

Đây là con số kỷ lục trong 22 năm hoạt động [1]. Tuy nhiên cùng với sự tiện lợi và phổ biến đó, là việc có quá nhiều thông tin mà người dùng cần tiếp nhận đòi hỏi người dùng phải có sự hiểu biết và một lượng kiến thức nhất định về tài chính để có thể hiểu được chính xác những Phạm Minh Tuấn – 19469421 1 Trương Nguyễn Duy Tân – 19485441 Khóa luận tốt nghiệp chuyên ngành Khoa Học Dữ Liệu tác động của Phạm Minh Tuấn – 19469421 2 Trương Nguyễn Duy Tân – 19485441 Khóa luận tốt nghiệp chuyên ngành Khoa Học Dữ Liệu những thông tin trên đối với nền kinh tế, đa số các nhà đầu tư mới chỉ tập trung vào phân tích kỹ thuật, điều này khiến nhà đầu tư không nắm rõ thông tin về cổ phiếu đang đầu tư và dẫn đến những phán đoán thiếu cơ sở. Để tránh rủi ro này, cần phải áp dụng kết hợp thông minh cả phân tích kỹ thuật và phân tích cơ bản [17], sử các nguồn thông tin truyền thống và trực tuyến để có cái nhìn tổng quan và đảm bảo tính chính xác của các thông tin kinh tế để đưa ra các quyết định đúng đắn. Các tác động, ảnh hưởng mạnh mẽ của các tin tức đối với nền kinh tế, thị trường tài chính.

Điển hình như các tin tức tích cực thường thúc đẩy sự đầu tư và tạo tin tưởng trong thị trường, trong khi đó tin tức tiêu cực dễ dàng có thể gây nên các biến động và làm giảm lòng tin của nhà đầu tư đối với thị trường. Sự lan truyền của thông tin qua các phương tiện truyền thông và mạng xã hội diễn ra một cách nhanh chóng và mạnh mẽ đã làm cho thị trường trở nên nhạy cảm hơn với sự biến động và tạo ra môi trường đầu tư phức tạp. Vì thế, việc xây dựng một công cụ để có thể xác định chính xác các tác động, ảnh hưởng của từng khía cạnh trong tin tức kinh tế đóng vai trò rất quan trọng trong việc hỗ trợ hình thành quyết định đầu tư và quản lý rủi ro trong môi trường kinh doanh hiện nay.2 Lý do chọn đề tài Như đã đề cập ở bối cảnh trước đó, do sự dễ dàng tiếp cận thị trường đầu tư, chúng tôi mong muốn mang đến một công cụ hữu ích để giúp, hỗ trợ người dùng dễ dàng hơn trong việc tiếp cận và đưa ra những quyết định đầu tư hợp lý. Số lượng thông tin các bài báo kinh tế hiện tại có rất nhiều tuy nhiên việc phân tích các khía cạnh để khai thác các ảnh hưởng của bài báo đấy đến thị trường lại ít được phổ biến và khai thác đối với các tin tức kinh tế ở Việt Nam.2 Mục tiêu nghiên cứu  Tìm hiểu về kiến trúc mô hình Recurrent Neural Network (RNN), Gated Recurrent Unit (GRU), Long-Short Term Memory (LSTM) trong bài toán xử lý ngôn ngữ tự nhiên.

 Tìm hiểu về các mô hình xử lý ngôn ngữ tự nhiên (NLP) áp dụng các mô hình học máy (RNN, GRU, LSTM) cho nhiệm vụ xử lý ngôn ngữ tiếng Việt ở lĩnh vực tài chính. Phạm Minh Tuấn – 19469421 3 Trương Nguyễn Duy Tân – 19485441 Khóa luận tốt nghiệp chuyên ngành Khoa Học Dữ Liệu  Tìm hiểu về kỹ thuật Supervised Learning.  Tìm hiểu về các công cụ hỗ trợ chat GPT.  Áp dụng kết hợp công cụ chat GPT trong việc xử lý nhãn dữ liệu, sau đó đưa vào mô hình LSTM để thực hiện quá trình huấn luyện đối với các tin tức của các bài báo kinh tế ở Việt Nam.

 Đề xuất phương pháp xây dựng mô hình dự đoán mức độ tác động tin tức tài chính trên nhiều khía cạnh để giải quyết vấn đề cung cấp thêm thông tin từ tin tức tài chính cho quyết định đầu tư.3 Phạm vi nghiên cứu  Kiến thức và hiểu biết về các phương pháp phân tích thống kê để áp dụng trong việc xử lý dữ liệu.  Kiến thức và hiểu biết về các mô hình Recurrent Neural Network, Gated Recurrent Unit, Long-Short Term Memory.  Nguồn dữ liệu được sử dụng để nghiên cứu được thu thập từ các trang báo về tin tức kinh tế của các công ty hoạt động ở Việt Nam cũng như các công ty có ảnh hưởng đến thị trường Việt Nam.4 Ý nghĩa khoa học và thực tiễn  Ý nghĩa khoa học: đề xuất mô hình phân tích các khía cạnh của bài báo.  Ý nghĩa thực tế: cung cấp giải pháp giúp nhà đầu tư có cái nhìn tổng quan và rõ ràng hơn về các khía cạnh và ảnh hưởng của các khía cạnh đó trong bài báo, từ đó hỗ trợ đưa ra quyết định cho nhà đầu tư.

 Mở rộng: Nghiên cứu này góp phần làm tiền đề cho nghiên cứu về bài toán ABSA trong tin tức & dự đoán tài chính. Phạm Minh Tuấn – 19469421 4 Trương Nguyễn Duy Tân – 19485441 Khóa luận tốt nghiệp chuyên ngành Khoa Học Dữ Liệu CHƯƠNG 2.1 Bài toán Chúng tôi tiến hành trình bày tổng quát về bài toán xử lý ngôn ngữ tự nhiên về phân tích xúc cảm trong lĩnh vực tài chính đối với ngôn ngữ tiếng Việt.1 Khái niệm Phân tích xúc cảm (SA) là nhiệm vụ phân loại nhãn/dự đoán giá trị xúc cảm dựa theo một đoạn văn bản. Ví dụ, một đoạn văn bản bình luận trên mạng xã hội có thể được phân loại thành nhãn “tích cực”, “tiêu cực”, “bình thường” hay một giá trị thực cụ thể trong khoảng từ -1 đến 1 [16].2 Các nghiên cứu trước đó Nhiệm vụ nghiên cứu và phân tích xúc cảm (SA) trong văn bản hiện nay đóng vai trò hết sức quan trọng và rất cần thiết trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và phát triển trí tuệ nhân tạo. Mục tiêu là trích xuất thông tin có giá trị liên quan đến các khía cạnh được đề cập trong nhận xét của người dùng.

Vấn đề này có thể được chia thành ba nhiệm vụ phụ: trích xuất thuật ngữ, phát hiện khía cạnh và phát hiện phân cực. Ở nghiên cứu của Minh-Hao Nguyen và cộng sự đã thực hiện đối với hai nhiệm vụ phụ là phát hiện khía cạnh và phát hiện phân cực trong nhận xét của người dùng [14]. Hay ở nghiên cứu của Quang-Linh Tran và cộng sự đã sử dụng các mô hình học sâu như Bi-GRU, Bi-LSTM để xây dựng mô hình phân loại khía cạnh của đánh giá và phân loại cảm tính của từng khía cạnh trong lĩnh vực thương mại điện tử đối với các đánh giá sản phẩm của người dùng [18]. Còn đối với lĩnh vực tài chính, ở nghiên cứu của Hitkul Jangid và cộng sự cũng đã sử dụng các mô hình học sâu như LSTM để phân tích khía cạnh trong văn bản, nhưng có sự chọn lọc trong các khía cạnh để tập trung vào một lĩnh vực cụ thể [8].

Tuy nhiên, đối với tiếng Việt, các mô hình dùng cho phân tích các khía cạnh tài chính vẫn chưa được áp dụng rộng rãi mặc dù lượng thông tin tài chính ở Việt Nam rất phổ biến và số lượng người dùng đầu tư vào thị trường tài chính ngày càng tăng. Vì thế, sẽ rất hứa hẹn khi áp dụng một mô hình học sâu để có thể phân tích được những khía Phạm Minh Tuấn – 19469421 5 Trương Nguyễn Duy Tân – 19485441 Khóa luận tốt nghiệp chuyên ngành Khoa Học Dữ Liệu cạnh, yếu tố ảnh hưởng của các tin Phạm Minh Tuấn – 19469421 6 Trương Nguyễn Duy Tân – 19485441 Khóa luận tốt nghiệp chuyên ngành Khoa Học Dữ Liệu tức tài chính ở Việt Nam, giúp hỗ trợ người dùng trong việc đưa ra các quyết định trong đầu tư.1 Tokenization Tokenization là quá trình chia nhỏ văn bản thành các đơn vị được gọi là “token”, tương ứng với mỗi token có thể là một từ, một cụm từ hay đoạn văn tuỳ vào cách thực hiện của tokenization. Đây là một quá trình quan trọng và cần thiết để chuẩn bị xây dựng đầu vào cho mô hình máy học trong nhiệm vụ xử lý ngôn ngữ tự nhiên [9], cho phép hệ thống có thể hiểu được và xử lý một cách hiệu quả hơn. Mô tả cách thức hoạt động của tokenization.2 Stop Words Removal Kỹ thuật Stop Words Removal là quá trình loại bỏ các từ không có quá nhiều ý nghĩa trong văn bản, các từ ngữ phổ biến không mang lại, đóng góp nhiều thông tin.

Ví dụ: và", "hay", "hoặc", "nếu",. Mục tiêu của việc áp dụng kỹ thuật trên là để cải thiện hiệu quả của mô hình bằng cách đào tạo tập trung vào các từ khoá hiệu quả hơn và cũng để giảm kích thước của tập dữ liệu đào tạo.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Ứng dụng khoa học dữ liệu trong tài chính

Xây dựng hệ thống thu thập dữ liệu tài chính

Phân tích và xử lý tin tức thị trường

Công nghệ thông tin tài chính

Xây Dựng Hệ Thống Thu Thập và Xử Lý Tin Tức Tài Chính

I. Giải Mã Hệ Thống Thu Thập và Xử Lý Tin Tức Tài Chính 4

1.1. Tầm quan trọng của dữ liệu thời gian thực trong đầu tư

1.2. Vai trò của nền tảng tổng hợp tin tức tự động hóa

II. Thách Thức Khi Xử Lý Big Data Tài Chính và Dữ Liệu Phi Cấu Trúc

2.1. Vấn đề quá tải thông tin và dữ liệu phi cấu trúc

2.2. Yêu cầu phân tích cảm tính và dự báo xu hướng thị trường

III. Phương Pháp Thu Thập và Tiền Xử Lý Dữ Liệu Tin Tức Tài Chính

3.1. Kỹ thuật thu thập dữ liệu web web scraping và API

3.2. Quy trình làm sạch và gán nhãn dữ liệu bằng NLP

IV. Hướng Dẫn Xây Dựng Mô Hình Học Máy Phân Tích Tin Tức Tài Chính

4.1. So sánh kiến trúc mô hình học sâu RNN GRU và LSTM

4.2. Tối ưu siêu tham số và vai trò của thuật toán Adam

V. Kết Quả Thực Nghiệm Ứng Dụng Hệ Thống Vào Thực Tiễn

5.1. Đánh giá hiệu suất mô hình dự báo tài chính đề xuất

5.2. Trực quan hóa dữ liệu để quản lý rủi ro tài chính

VI. Tương Lai Của Fintech Hướng Phát Triển Hệ Thống Tin Tức

6.1. Hạn chế của mô hình và tiềm năng cải tiến trong tương lai

6.2. Tích hợp mô hình Transformer và dữ liệu thị trường đa dạng

THÔNG TIN CHI TIẾT

Đề tài: Hệ Thống Thu Thập và Xử Lý Tin Tức Tài Chính Hiện Đại

Xây Dựng Hệ Thống Thu Thập và Xử Lý Tin Tức Tài Chính

I. Giải Mã Hệ Thống Thu Thập và Xử Lý Tin Tức Tài Chính 4

1.1. Tầm quan trọng của dữ liệu thời gian thực trong đầu tư

1.2. Vai trò của nền tảng tổng hợp tin tức tự động hóa

II. Thách Thức Khi Xử Lý Big Data Tài Chính và Dữ Liệu Phi Cấu Trúc

2.1. Vấn đề quá tải thông tin và dữ liệu phi cấu trúc

2.2. Yêu cầu phân tích cảm tính và dự báo xu hướng thị trường

III. Phương Pháp Thu Thập và Tiền Xử Lý Dữ Liệu Tin Tức Tài Chính

3.1. Kỹ thuật thu thập dữ liệu web web scraping và API

3.2. Quy trình làm sạch và gán nhãn dữ liệu bằng NLP

IV. Hướng Dẫn Xây Dựng Mô Hình Học Máy Phân Tích Tin Tức Tài Chính

4.1. So sánh kiến trúc mô hình học sâu RNN GRU và LSTM

4.2. Tối ưu siêu tham số và vai trò của thuật toán Adam

V. Kết Quả Thực Nghiệm Ứng Dụng Hệ Thống Vào Thực Tiễn

5.1. Đánh giá hiệu suất mô hình dự báo tài chính đề xuất

5.2. Trực quan hóa dữ liệu để quản lý rủi ro tài chính

VI. Tương Lai Của Fintech Hướng Phát Triển Hệ Thống Tin Tức

6.1. Hạn chế của mô hình và tiềm năng cải tiến trong tương lai

6.2. Tích hợp mô hình Transformer và dữ liệu thị trường đa dạng

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Đề tài: Hệ Thống Thu Thập và Xử Lý Tin Tức Tài Chính Hiện Đại