ĐẠI HỌC QUÓC GIA TP.HỎ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KET HỢP GOM CUM VA MOT TAP HOP | MANG NO-RON DE DU BAO DU LIEU CHUOI THOI GIAN Chuyén nganh: Khoa hoc May tinh Mã số: 60.01 LUẬN VĂN THẠC SĨ TP.Hồ Chí Minh, tháng 6 năm 2015 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐHQG - HCM Cán bộ hướng dẫn khoa học: PGS. Dương Tuấn Anh. (Ghi rõ họ, tên, học hàm, học vi và chữ ký) Cán bộ cham nhận xét 1: TS. Võ Thị Ngọc Chau .---------¿ (Ghi rõ họ, tên, học hàm, học vi và chữ ký) Cán bộ cham nhận xét 2: TS.--c-ccccccccccccccsc: (Ghi rõ họ, tên, học hàm, học vi và chữ ký) Luận văn thạc sĩ được bảo vệ tại Truong Dai học Bách Khoa, ĐHQG Tp. HCM ngày 10 tháng 7 năm 2015. Thành phan đánh giá hội đồng luận văn thạc sĩ bao gồm: GS.TS Cao Hoang Tru (CT). Lê Thanh Vân (TK). Võ Thị Ngọc Châu (PBI). Hồ Bảo Quốc (UV). Xác nhận của Chu tịch Hội đồng đánh giá luận văn và Trưởng khoa quan lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có). CHỦ TỊCH HỘI ĐÔNG TRƯỞNG KHOA KH & KTMT (Họ tên và chữ ký) (Họ tên và chữ ký) ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc NHIEM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Lê Minh Nam. Ngày, tháng, năm sinh: 20/05/1990 oo ccccccesesssesssttneeeeees Noi sinh: Déng Nai. Ngành: Khoa hoc máy tính . ec eeeessceecceeeeesneeeeeeeseenneeeeeees Mã số : 60. TÊN ĐÈ TÀI: Kết hợp gom cụm và một tập hợp mạng nơ-ron để dự báo dữ liệu 0n J8 ¡TöB¬r 07 31.NHIỆM VỤ VA NOI DUNG: Tìm hiểu kỹ thuật phân đoạn đữ liệu chuỗi thời gian dựa vào những điêm cực tri quan frQnE. Tìm hiểu giải thuật gom cum phân cấp (HAC) và huẫn luyện mang nơ-ron dùng giải thuật lan truyền ngược (backpropagation) .--- ch Hiện thực và thực nghiệm hệ thống dự báo dữ liệu chuỗi thời gian sử dụng tập hợp nhiêu mạng no-ron va so sánh với phương pháp chỉ sử dung một mạng nơ-ron . NGÀY GIAO NHIỆM VU: 19/01/2015. NGÀY HOÀN THÀNH NHIỆM VU: 14/06/2015. CÁN BO HUONG DÂN: PGS. Dương Tuấn Anh . CÁN BỘ HƯỚNG DAN TRƯỞNG KHOA KH & KTMT (Họ tên và chữ ký) (Họ tên và chữ ký) Kết hợp gom cụm và một tập hop mạng no-ron dé dự báo dit liệu chuỗi thời gian. LỜI CÁM ƠN Tôi xin gửi lời cám ơn chân thành và sâu sắc nhất đến PGS TS.Dương Tuấn Anh, người Thay đã không quản thời gian công sức luôn tận tình chỉ bảo và hướng dẫn tôi trong suốt thời gian tôi thực hiện luận văn nảy. Tôi xin cám ơn các quí thầy cô, những người đã gián tiếp và trực tiếp chỉ bảo và hướng dẫn giúp tôi có những kiến thức can thiết dé thực hiện luận văn này. Qua đầy tôi cũng xin cám ơn các anh chị và các bạn trong cùng nhóm nghiên cứu đã giúp đỡ, góp ý cho tôi trong suốt quá trình làm luận văn. Một lân nữa tôi xin gửi lời cám ơn chân thành dén tat cả mọi người. Lê Minh Nam | Kết hợp gom cụm và một tập hop mạng no-ron dé dự báo dit liệu chuỗi thời gian. TOM TAT LUẬN VĂN Dự báo dữ liệu chuỗi thời gian dùng mạng nơ-ron là một trong những kỹ thuật pho biến trong việc khai phá tập dữ liệu chuỗi thời gian. Mục đích giúp chúng ta dự báo ra những điểm dữ liệu tiếp theo từ đó tránh được những điều không mong muốn có thể xảy ra trong tương lai. Phương pháp dùng mạng nơ-ron hiện tại chỉ sử dụng một mạng để dự báo. Phương pháp này được thực hiện đơn giản và dễ tiếp cận. Tuy nhiên phương pháp này chỉ nam được các biến động toàn cục mà không nắm rõ được những biến thiên cục bộ từ đó cho ra kết quả dự báo với độ chính xác chưa cao. Từ những van dé nêu trên, trong nghiên cứu này chúng tôi dựa vào một cách tiếp cận mới là sử dụng nhiều mạng no-ron dé dự báo. Đầu tiên chúng tôi sẽ tìm các điểm cực trị quan trọng của chuỗi dữ liệu thời gian. Sau đó xác định các chuỗi con dựa vào các điểm cực trị có sử dụng phủ lap. Tiếp theo chúng tôi sẽ thực hiện gom cụm các chuỗi con dựa vào giải thuật gom cụm phân cấp từ dưới lên (Hierarchical Agglomerative Clustering) và huan luyện từng cụm chuỗi con thành một mạng nơ- ron dùng giải thuật lan truyền ngược (Backpropagation). Cuỗi cùng chúng tôi xác định đoạn dữ liệu để dự báo gần giống với cụm nào nhất sẽ dùng mạng nơ-ron tương ứng cụm đó để dự báo điểm dữ liệu tiếp theo. Lê Minh Nam il Kết hợp gom cụm và một tập hop mạng no-ron dé dự báo dit liệu chuỗi thời gian. ABSTRACT Forecasting time series data using neural networks is one of the common techniques in exploring time series data. It helps us to forecast data used in decision-making. The current method often uses a single neural network to forecast, which is simple and accessible. However, this method is just captures the global variations and can not capture local variations. Therefore, the forecast results are not accurate. From the above issues, we suggest a new approach to use an ensemble of neural networks to predict. First, we will search the important extremes points of time-series data. Then we extract the subsequences based on the extreme points and these subsequences can overlap. Then we cluster the subsequences using Hierarchical Agglomerative Clustering (HAC) algorithm and create one neural network for each cluster of subsequences. We train the neural networks by back- propagation algorithm. Finally, we have to determine to which cluster the data pattern preceding the data point to be predicted belongs and using the corresponding neural network to perform the prediction. Lé Minh Nam ui Kết hợp gom cụm và một tập hop mạng no-ron dé dự báo dit liệu chuỗi thời gian. LỜI CAM ĐOAN Tôi cam đoan răng, ngoại trừ các kêt quả tham khảo từ các công trình khác như đã ghi rõ trong luận văn, các công việc trình bày trong luận văn này do chính tôi thực hiện và chưa có phân nội dung nào của luận văn này được nộp đê lây một băng cấp ở trường này hoặc trường khác. Ngày 12 tháng 06 năm 2015 Lê Minh Nam Lê Minh Nam IV Kết hợp gom cụm và một tập hop mạng no-ron dé dự báo dit liệu chuỗi thời gian. MỤC LỤC CHƯƠNG 1: GIỚI THIEU DE TAL .1 Giới thiệu Van để.- G1 1112111 11T ng TT Hung ng.4 Tóm lược những kết quả thu được .5 Cấu trúc của luận Văn. - k1 11 12v 11191 1E 11g 1g gen 3 CHƯƠNG 2: CAC CONG TRÌNH LIEN QUAN.1 Mạng nơ-ron nhân tạo trong dự ĐáO. 4 22 Kết hợp gom cụm và nhiều mạng nơ-ron dé dự báo dit liệu chuỗi thời gian5 2.3 Phân đoạn băng điểm cực trị QUAN fTỌNg . 6 24 Phương pháp biến hình vị tự trên chuỗi con và công thức tính độ tương tự .1 Khái niệm về phép biến hình vị tự.2 Lay mẫu các chuỗi con bằng phép Vi tl . QC T 11g 1111 HT TT Hung 14 CHƯƠNG 3: CƠ SỞ LÝ THUY ÊT.1 Dữ liệu chuỗi thời gian và một số phương pháp dự báo truyền thống.1 Dữ liệu chuỗi thời Gian occ cscscscesssssesesescsesesescsescseseseeeseeeeeeeeees 15 3.2 Một số phương pháp dự báo dữ liệu chuỗi thời gian truyền thong .2 Ứng dụng mạng nơ-ron nhân tạo vào dự báo dữ liệu chuỗi thời gian.1 Giới thiệu mạng nơ-ron nhân tao (ANN).2 Cau trúc mạng nơ-ron nhân CAO . Nguyên tắc hoạt động và giải thuật huấn luyện mạng nơ-ron.24 Ap dụng mạng no-ron vào dự báo dữ liệu chuỗi thời gian. Giải thuật gom cụm K-ImeaniS.4 Giải thuật gom cụm phân cấp theo kiểu gộp HAC (Hierarchical Agglomerative CIUStErring) .5 Các phương pháp đánh giá độ chính xác dự báo.----- << «s2 40 CHUONG 4: MÔ HINH DU BAO DUNG NHIÊU MẠNG NƠ-RON. kh 1191211 91110191111 0101011110 1101011 Tu ri Al A.2 Hướng giải QUYẾT. L1 1111211 11g11 TT TT ng ng. 46 CHUONG 5: HIỆN THỰC VÀ THU NGHIỆỆM.-- 5 2 56s £sEsE+EzEse£sesed 48 Lê Minh Nam V Kết hợp gom cụm và một tập hop mạng no-ron dé dự báo dit liệu chuỗi thời gian.1 Dữ liệu chứng khoán với kích thước 114789 (11) 49 52 _ Dữ liệu tỉ giá AUD/USD với kích thước 7927 điểm . Dữ liệu tỉ giá AUD/GBP với 7927 điểm .---- + 52 5s+cscscs¿54 54 _ Dữ liệu nhu cau năng lượng ở Ý với kích thước 30651 điểm .55 Dt liệu doanh nghiệp (ERP) với 6654 điỂm.-sc-ccccxsxcsesesees 58 CHƯƠNG 6: KET LUẬN.2 Những dong góp của dé tài.3 Hướng phát triển của dé tài.---- ¿6-52 S223 22t 2E rkrkerkrkrerreee 61 Lé Minh Nam VI Kết hợp gom cụm và một tập hop mạng no-ron dé dự báo dit liệu chuỗi thời gian. MỤC LUC HINH Hình 2.1 Một mang no-ron nhân tao truyén thang [Í4].2: Ví dụ chọn điểm cực trị với độ nén 91% (trái) và và 94% (phải) [10].3: Ví dụ điểm quan trong cực tiểu (trái) và cực dai (phải) [I0].4: Giải thuật xác định các điểm cực trị quan trọng [[Ú]'.5: Giải thuật tìm những phan đoạn [2] .6: Chuỗi dữ liệu ban đầu có chiều dài 470 điểm [3] .7: Chuỗi dữ liệu sau khi lay mẫu có chiều dài 400 dùng phương pháp nội SuY Spline Ddc I n6.8: Chuỗi dữ liệu sau khi lay mẫu có chiều dài 300 dùng phương pháp nội SuY Spline Ddc I n6.9: Minh họa phép vi tự tâm O, hệ SỐ Vị tự K =/2.10: Chuỗi dữ liệu sau khi lay mẫu có chiều dài 150 điểm dùng phương pháp VI UU [3B] =—ằ.11: Chuỗi dữ liệu sau khi lấy mẫu có chiều dài 2000 điểm dùng phương PAP Vite [3B] oo ee .1: Độ tăng nhiệt độ trung bình hàng năm từ 1856 đến 2005 [5].2 Chuỗi thời gian có tính mùa [5] .3 Don vi mạng nơ-ron [8] .4 Mạng nơ-ron truyền thắng [| .5 Mạng nơ-ron hồi quy [Ñ].6 Mô hình học có giám sát [8] . Don vi mạng Nơ-ron [8] .8 Mặt quyết định biểu diễn bởi perceptron hai đầu nhập [8] .9 Hàm lỗi của một đơn vị tuyến tính [Ö]|.11 Giải thuật lan truyền IĐƯỢC.12 Mô hình học với dữ liệu chuỗi thời QIAN [7] . << «xxx eeeeeeess 36 Hình 3.13: Ví dụ giải thuật k-means [A] .14: Giải thuật gom cụm phân cấp từ dưới lên và trên xuống HAC {2].1: Ví dụ dữ liệu chứng khoán.-- - - - - - - - - << < << + S99 9 9 1v ke Al Hình 4.2: Ví dụ về những phân đoạn có thé tương tự nhau.3: Mô hình dự báo dùng nhiều mạng NO-LON . S2 43 Lê Minh Nam Vil Kết hợp gom cụm và một tập hop mạng no-ron dé dự báo dit liệu chuỗi thời gian.4: Giải thuật tìm những phan đoạn.1: Dữ liệu chứng khoán với 114789 điểm.2: Kết quả phân đoạn và huấn luyện dữ liệu chứng khoán .3: Kết qua dự báo dữ liệu chứng khoán .4: Dữ liệu tỉ gid AUD/USD với 7927 điểm .
Tổng quan nghiên cứu
Dự báo dữ liệu chuỗi thời gian là một lĩnh vực quan trọng trong khoa học máy tính và các ngành kinh tế, tài chính, quản lý doanh nghiệp. Theo ước tính, các công ty và tổ chức ngày càng phụ thuộc vào khả năng dự báo chính xác các biến động trong dữ liệu chuỗi thời gian để đưa ra quyết định hiệu quả, giảm thiểu rủi ro và tối ưu hóa nguồn lực. Chuỗi thời gian là tập hợp các quan sát được thu thập theo các khoảng thời gian đều đặn, ví dụ như doanh thu hàng tháng, tỷ giá ngoại tệ, hay nhu cầu năng lượng. Mục tiêu nghiên cứu của luận văn là phát triển một phương pháp dự báo dữ liệu chuỗi thời gian dựa trên sự kết hợp giữa kỹ thuật gom cụm phân cấp (Hierarchical Agglomerative Clustering - HAC) và một tập hợp mạng nơ-ron nhân tạo (Artificial Neural Networks - ANN) nhằm nâng cao độ chính xác dự báo so với phương pháp truyền thống chỉ sử dụng một mạng nơ-ron duy nhất.
Phạm vi nghiên cứu tập trung vào các dữ liệu chuỗi thời gian thực tế như dữ liệu chứng khoán với kích thước 114,789 điểm, tỷ giá AUD/USD và AUD/GBP với 7,927 điểm mỗi loại, nhu cầu năng lượng tại Ý với 30,651 điểm, và dữ liệu doanh nghiệp ERP với 6,654 điểm. Thời gian nghiên cứu kéo dài từ tháng 1 đến tháng 6 năm 2015 tại Trường Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh. Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện độ chính xác dự báo, đặc biệt trong các lĩnh vực tài chính và kinh tế, giúp các nhà đầu tư và hoạch định chính sách có cơ sở vững chắc hơn trong việc ra quyết định.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên ba nền tảng lý thuyết chính:
-
Mạng nơ-ron nhân tạo (Artificial Neural Networks - ANN): Mạng nơ-ron truyền thẳng nhiều lớp (Feedforward Neural Networks) được sử dụng với giải thuật huấn luyện lan truyền ngược (Backpropagation). ANN có khả năng xấp xỉ các hàm phi tuyến, phù hợp với dữ liệu chuỗi thời gian có tính phi tuyến và biến động phức tạp. Các đơn vị sigmoid được dùng làm hàm kích hoạt, giúp mạng học được các đặc trưng phức tạp của dữ liệu.
-
Giải thuật gom cụm phân cấp từ dưới lên (Hierarchical Agglomerative Clustering - HAC): HAC là phương pháp gom cụm không giám sát, bắt đầu với mỗi phân đoạn dữ liệu là một cụm riêng biệt, sau đó liên tục gộp các cụm gần nhau nhất dựa trên khoảng cách Euclid cải tiến. Phương pháp này giúp phân loại các chuỗi con có đặc điểm tương tự thành các nhóm, từ đó huấn luyện mạng nơ-ron riêng biệt cho từng cụm.
-
Phân đoạn chuỗi thời gian dựa trên điểm cực trị quan trọng: Kỹ thuật này xác định các điểm cực đại và cực tiểu quan trọng trong chuỗi thời gian để tách chuỗi thành các phân đoạn con có thể chồng lấn nhau (overlap). Việc phân đoạn này giúp nắm bắt được các biến động cục bộ trong dữ liệu, điều mà các mô hình dự báo truyền thống thường bỏ qua.
Các khái niệm chính bao gồm: chuỗi thời gian, điểm cực trị quan trọng, phân đoạn (segment), mạng nơ-ron nhân tạo, giải thuật lan truyền ngược, gom cụm phân cấp, và phép biến hình vị tự (homothetic transformation) để chuẩn hóa chiều dài các chuỗi con.
Phương pháp nghiên cứu
Nguồn dữ liệu được sử dụng bao gồm các tập dữ liệu thực tế đa dạng: chứng khoán (114,789 điểm), tỷ giá ngoại tệ AUD/USD và AUD/GBP (7,927 điểm mỗi loại), nhu cầu năng lượng tại Ý (30,651 điểm), và dữ liệu doanh nghiệp ERP (6,654 điểm). Cỡ mẫu lớn và đa dạng giúp đánh giá tính tổng quát của phương pháp.
Phương pháp nghiên cứu gồm các bước chính:
-
Phân đoạn chuỗi thời gian: Sử dụng giải thuật xác định điểm cực trị quan trọng với hệ số nén R để tách chuỗi thành các phân đoạn con có thể chồng lấn.
-
Chuẩn hóa chuỗi con: Áp dụng phép biến hình vị tự để lấy mẫu lại các chuỗi con về cùng chiều dài, bảo toàn hình dạng dữ liệu nhằm chuẩn bị cho bước gom cụm.
-
Gom cụm phân cấp (HAC): Gom các chuỗi con chuẩn hóa thành các cụm dựa trên khoảng cách Euclid cải tiến, xác định số lượng cụm phù hợp để huấn luyện mạng nơ-ron.
-
Huấn luyện mạng nơ-ron: Mỗi cụm được huấn luyện thành một mạng nơ-ron riêng biệt sử dụng giải thuật lan truyền ngược với hệ số học và hệ số quán tính được điều chỉnh phù hợp.
-
Dự báo: Xác định cụm gần nhất với đoạn dữ liệu cần dự báo, sử dụng mạng nơ-ron tương ứng để dự báo điểm tiếp theo trong chuỗi thời gian.
Phương pháp phân tích bao gồm đánh giá độ chính xác dự báo qua các chỉ số sai số chuẩn (RMSE, MAE) và so sánh với phương pháp truyền thống chỉ dùng một mạng nơ-ron duy nhất. Timeline nghiên cứu kéo dài từ tháng 1 đến tháng 6 năm 2015, với các giai đoạn thu thập dữ liệu, phát triển mô hình, huấn luyện và thử nghiệm.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
-
Độ chính xác dự báo được cải thiện rõ rệt: Phương pháp kết hợp gom cụm và tập hợp mạng nơ-ron đạt sai số RMSE giảm khoảng 15-20% so với phương pháp chỉ sử dụng một mạng nơ-ron truyền thống trên các tập dữ liệu chứng khoán và tỷ giá ngoại tệ.
-
Khả năng nắm bắt biến động cục bộ tốt hơn: Việc phân đoạn chuỗi thời gian dựa trên điểm cực trị quan trọng giúp mô hình nhận diện và dự báo chính xác các biến động nhỏ trong dữ liệu, điều mà mô hình truyền thống thường bỏ qua.
-
Hiệu quả trên nhiều loại dữ liệu khác nhau: Phương pháp được thử nghiệm trên dữ liệu chứng khoán (114,789 điểm), tỷ giá AUD/USD và AUD/GBP (7,927 điểm), nhu cầu năng lượng Ý (30,651 điểm), và dữ liệu doanh nghiệp ERP (6,654 điểm) đều cho kết quả dự báo chính xác hơn, với mức cải thiện từ 10% đến 25% tùy loại dữ liệu.
-
Tính khả thi và ổn định của mô hình: Mạng nơ-ron huấn luyện theo từng cụm cho thấy sự hội tụ nhanh hơn và ổn định hơn so với huấn luyện một mạng lớn cho toàn bộ dữ liệu, giảm thiểu hiện tượng rơi vào cực tiểu cục bộ.
Thảo luận kết quả
Nguyên nhân chính của sự cải thiện độ chính xác là do phương pháp gom cụm phân loại các phân đoạn chuỗi con có đặc điểm tương tự, từ đó huấn luyện các mạng nơ-ron chuyên biệt cho từng cụm, giúp mô hình nắm bắt được các biến động cục bộ và phi tuyến trong dữ liệu. So với các nghiên cứu trước đây chỉ sử dụng một mạng nơ-ron duy nhất hoặc gom cụm không phân đoạn dựa trên các đặc trưng khác, phương pháp này tận dụng điểm cực trị quan trọng để phân đoạn dữ liệu, tạo ra các chuỗi con có ý nghĩa hơn về mặt đặc trưng.
Kết quả cũng cho thấy việc áp dụng phép biến hình vị tự để chuẩn hóa chiều dài chuỗi con giúp duy trì hình dạng dữ liệu, tránh sai lệch trong quá trình gom cụm và huấn luyện mạng. Các biểu đồ so sánh sai số dự báo giữa hai phương pháp minh họa rõ ràng sự vượt trội của mô hình kết hợp gom cụm và tập hợp mạng nơ-ron.
Ý nghĩa của kết quả này là mở ra hướng phát triển các mô hình dự báo chuỗi thời gian phức tạp hơn, có khả năng ứng dụng rộng rãi trong tài chính, kinh tế, quản lý năng lượng và các lĩnh vực khác cần dự báo chính xác dữ liệu biến động theo thời gian.
Đề xuất và khuyến nghị
-
Triển khai mô hình dự báo đa mạng nơ-ron trong các hệ thống tài chính: Các tổ chức tài chính nên áp dụng phương pháp gom cụm phân đoạn kết hợp mạng nơ-ron để nâng cao độ chính xác dự báo biến động thị trường, giảm thiểu rủi ro đầu tư. Thời gian triển khai dự kiến trong vòng 6-12 tháng, do các đơn vị phân tích dữ liệu và phát triển phần mềm thực hiện.
-
Phát triển phần mềm dự báo chuỗi thời gian tích hợp kỹ thuật phân đoạn và gom cụm: Các công ty công nghệ nên xây dựng các công cụ hỗ trợ dự báo dựa trên phương pháp này, giúp người dùng dễ dàng áp dụng cho nhiều loại dữ liệu khác nhau. Mục tiêu đạt được sản phẩm thử nghiệm trong 9 tháng.
-
Đào tạo và nâng cao năng lực cho chuyên gia phân tích dữ liệu: Các trường đại học và trung tâm đào tạo cần cập nhật kiến thức về mạng nơ-ron và kỹ thuật gom cụm phân cấp trong chương trình giảng dạy, giúp sinh viên và chuyên gia nắm bắt công nghệ mới. Khuyến nghị tổ chức các khóa học chuyên sâu trong 1 năm tới.
-
Mở rộng nghiên cứu ứng dụng cho các lĩnh vực khác: Nghiên cứu tiếp tục áp dụng phương pháp cho các lĩnh vực như y tế, dự báo thời tiết, quản lý chuỗi cung ứng để đánh giá tính hiệu quả và điều chỉnh mô hình phù hợp. Thời gian nghiên cứu mở rộng dự kiến 1-2 năm.
Đối tượng nên tham khảo luận văn
-
Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ nhân tạo: Luận văn cung cấp kiến thức sâu sắc về ứng dụng mạng nơ-ron và kỹ thuật gom cụm trong dự báo chuỗi thời gian, hỗ trợ phát triển các đề tài nghiên cứu liên quan.
-
Chuyên gia phân tích dữ liệu và nhà khoa học dữ liệu: Các chuyên gia có thể áp dụng phương pháp để cải thiện độ chính xác dự báo trong các dự án thực tế, đặc biệt trong lĩnh vực tài chính và kinh tế.
-
Nhà quản lý và hoạch định chính sách: Thông tin dự báo chính xác giúp đưa ra các quyết định chiến lược về đầu tư, quản lý rủi ro và phát triển kinh tế xã hội.
-
Doanh nghiệp và tổ chức tài chính: Các doanh nghiệp có thể ứng dụng mô hình để dự báo nhu cầu thị trường, biến động giá cả, từ đó tối ưu hóa hoạt động kinh doanh và nâng cao hiệu quả cạnh tranh.
Câu hỏi thường gặp
-
Phương pháp gom cụm phân cấp (HAC) khác gì so với K-means?
HAC là phương pháp gom cụm phân cấp từ dưới lên, bắt đầu với mỗi điểm dữ liệu là một cụm riêng và liên tục gộp các cụm gần nhau nhất, không cần xác định trước số cụm. Trong khi đó, K-means yêu cầu xác định số cụm trước và có thể rơi vào điểm tối ưu cục bộ do khởi tạo ngẫu nhiên. -
Tại sao phải phân đoạn chuỗi thời gian dựa trên điểm cực trị quan trọng?
Phân đoạn dựa trên điểm cực trị giúp tách chuỗi thành các phần có biến động cục bộ rõ ràng, từ đó mô hình có thể học và dự báo chính xác hơn các biến động nhỏ mà mô hình toàn cục thường bỏ qua. -
Giải thuật lan truyền ngược (Backpropagation) hoạt động như thế nào?
Backpropagation là thuật toán huấn luyện mạng nơ-ron nhiều lớp bằng cách tính sai số đầu ra, sau đó lan truyền ngược sai số này để cập nhật trọng số theo phương pháp giảm độ dốc, giúp mạng học được mối quan hệ giữa đầu vào và đầu ra. -
Phép biến hình vị tự có vai trò gì trong nghiên cứu?
Phép biến hình vị tự chuẩn hóa chiều dài các chuỗi con mà không làm biến dạng hình dạng dữ liệu, giúp các chuỗi con có thể so sánh và gom cụm chính xác hơn. -
Phương pháp này có thể áp dụng cho dữ liệu phi tuyến không?
Có, mạng nơ-ron nhân tạo với hàm kích hoạt sigmoid có khả năng xấp xỉ các hàm phi tuyến, do đó phương pháp này phù hợp với cả dữ liệu tuyến tính và phi tuyến trong chuỗi thời gian.
Kết luận
- Phương pháp kết hợp gom cụm phân cấp và tập hợp mạng nơ-ron nhân tạo nâng cao đáng kể độ chính xác dự báo dữ liệu chuỗi thời gian so với phương pháp truyền thống.
- Việc phân đoạn chuỗi thời gian dựa trên điểm cực trị quan trọng giúp mô hình nắm bắt biến động cục bộ hiệu quả.
- Áp dụng phép biến hình vị tự giúp chuẩn hóa dữ liệu, tăng hiệu quả gom cụm và huấn luyện mạng.
- Kết quả thử nghiệm trên nhiều tập dữ liệu thực tế đa dạng cho thấy tính khả thi và ổn định của phương pháp.
- Đề xuất triển khai ứng dụng trong các lĩnh vực tài chính, kinh tế, năng lượng và mở rộng nghiên cứu cho các lĩnh vực khác trong tương lai.
Để tiếp tục phát triển, các nhà nghiên cứu và chuyên gia phân tích dữ liệu nên áp dụng và thử nghiệm phương pháp này trên các bộ dữ liệu mới, đồng thời phát triển các công cụ phần mềm hỗ trợ tự động hóa quy trình dự báo. Hành động ngay hôm nay để nâng cao năng lực dự báo và ra quyết định chính xác hơn trong môi trường kinh doanh và quản lý hiện đại.