chương I thì dự báo chuỗi thời gian là một trong những vấn đề quan trọng đối với tất cả các lĩnh vực: kinh tế, xã hội, giáo dục, bệnh viện,… Hiện có nhiều công trình nghiên cứu các khía cạnh liên quan đến các lĩnh vực đã nêu. Trong luận văn có thể chia thành các nhóm chính trong dự báo chuỗi thời gian được phân thành hai nhánh: mô hình Neural Network và các mô hình phân tích trong thống kê.1 Mô hình Neural Network Mạng nơ-ron nhân tạo (ANN) là một lĩnh vực nghiên cứu rất lớn trong lĩnh vực trí tuệ nhân tạo, ANN được xem như một hệ thống kết nối tập hợp các ngõ vào (inputs) đến tập hợp các ngõ ra (outputs) qua một hay nhiều lớp nơ-ron, các lớp này được gọi là các lớp ẩn. Việc xác định có bao nhiêu ngõ vào, ngõ ra, số lớp ẩn cũng như số lượng nơ-ron của mỗi lớp tạo thành kiến trúc của mạng. Kiến trúc của một ANN cho dự báo chuỗi thời gian được mô phỏng ở Hình 2.1 với 3 ngõ vào, một lớp ẩn hai nơ-ron và một ngõ ra (là giá trị dự báo).1 Kiến trúc của một ANN cho dự báo chuỗi thời gian với 3 ngõ vào, một lớp ẩn hai nơ-ron và một ngõ ra (là giá trị dự báo) ([4]) 9 Trong ngữ cảnh chuỗi thời gian, ngõ ra là giá trị của chuỗi thời gian được dự báo, ngõ vào có thể là có giá trị quan sát trước thời điểm dự báo (xác định bởi độ trễ) của chuỗi thời gian và các biến giải thích khác.
Đối với các ANN một lớp ẩn có H nơ-ron, phương trình tổng quát để tính giá trị dự báo xt (ngõ ra) sử dụng đến các mẫu quan sát quá khứ , , …, làm ngõ vào được viết dưới dạng sau: (2.1) Trong đó: • ,,…, biểu thị các trọng số cho kết nối giữa hằng số ngõ vào và các nơ- ron lớp ẩn. • là trọng số kết nối trực tiế giữa ngõ vào hằng số và ngõ ra, • và là các trọng số của các kết nối khác giữa các ngõ vào và các nơ- ron lớp ẩn giữa các nơ-ron lớp ẩn với ngõ ra. • và là hai hàm kích hoạt lần lượt được sử dụng tại ngõ ra và tại các nơ-ron lớp ẩn. ANN được áp dụng trong dự báo chuỗi thời gian bởi rất nhiều nhà nghiên cứu.Yeh và các cộng sự năm 2008 ([4]) đã sử dụng mô hình mạng nơ-ron nhân tạo để dự báo về chi tiêu y tế tại Đài Loan.Hadavandi và các cộng sự năm 2011 ([5]) đã phát triển mô hình mạng nơ-ron để ứng dụng cho việc dự báo số lượng bệnh nhân tới khám tại bệnh viện.2 Các mô hình phân tích thống kê 2.1 Các mô hình xu thế Tổng quan về hàm xu thế Xu thế là sự vận động tăng hay giảm của dữ liệu trong một thời gian dài.
Sự vận động này có thể được mô tả bằng một đường thằng (xu thế tuyến tính) hoặc bởi một vài dạng đường cong toán học (xu thế phi tuyến tính). Phân tích hồi quy là cách thức mô hình hóa mối quan hệ giữa Yt và t (biến thời gian t sử dụng như một biến giải 10 thích). Phần này giới thiệu hai mô hình xu thế thường được sử dụng trong phân tích, dự báo kinh tế, xã hội. Đó là Mô hình xu thế tuyến tính và Mô hình tăng trưởng mũ.1 Các hàm xu thế STT Mô hình Phương trình Hình thức tuyến tính 1 Linear (tuyến tính) Y = bo + b1t 2 Logarit Y = b0 + b1 ln(t ) 3 Quadratic (bậc 2) Y = bo + b1t + b2t 2 5 Exponential growth (tăng trưởng mũ) Yt = b0eb1t ln(Y ) = ln(bo ) + b1t T R O Beringer và các cộng sự năm 2000 ([6]) đã tiến hành nghiên cứu xu hướng và dự báo số lượng người bị gãy xương của các bệnh nhân tại Northern Ireland.
Phân tích độ tuổi và giới tính được thực hiện hồi qui tuyến tính, hồi qui Poisson và các hàm xu thế.2 Dự báo (2001-2020) số lượng người bị gãy xương tại Northern Ireland của những người trên 50 tuổi và phân theo giới tính.2 thể hiện cả dữ liệu quá khứ và dữ liệu dự đoán số người bị gãy xương đến năm 2016, dựa vào dữ liệu từ năm 1985 đến năm 1997 của nam và nữ từ độ tuổi 50 trở lên và sử dụng ba phương pháp trên để dự đoán.2 Dự báo bằng phương pháp phân tích Các phương pháp phân tích (Decomposition methods) hay các mô hình phân tích chuỗi thời gian (Time-series decomposition medols) được sử dụng cả trong dự báo ngắn hạn và dài hạn. Phương pháp này là một trong những phương pháp ra đời sớm nhất trong lịch sử của các kỹ thuật dự báo, và hiện nay vẫn còn được sử dụng phổ biến ở các nước phát triển. Phân tích chuỗi thời gian cổ điển là cách thức thực hiện chủ yếu dựa trên nền tảng của các phương pháp trung bình di động và dự báo theo hàm xu thế. Robert Champion và các cộng sự năm 2007 ([7]), nghiên cứu về dự báo số ngày điều trị nội trú cho mỗi tháng của bệnh nhân tại tiểu bang Victoria, Úc.
Để thực hiện nghiên cứu này, nhóm tác giả sử dụng kỹ thuật làm trơn và mô hình ARIMA, nhưng trong quá trình thực hiện đã sử dụng kết hợp với phương pháp phân tích có yếu tố mùa vụ để tìm ra số lượng bệnh nhân cho mỗi giờ của tuần. Bốn thành phần của chuỗi thời gian: Xu thế: là thành phần thể hiện sự tăng (hoặc giảm) ẩn bên trong của một chuỗi thời gian. Thành phần này thường được ký hiệu là Tr, hay T. Chu kỳ là một chuỗi những sự dao động giống như hình sóng và sự dao động này sẽ lặp lại sau một thời kỳ dài hơn một năm.
Ký hiệu chu kỳ là CI, hay C. Mùa: những dao động mùa vụ rất thường được tìm thấy với dữ liệu theo quý, theo tháng, hoặc thậm chí theo tuần. nếu chỉ có dữ liệu theo năm thì không có biến động mùa. Sự dao động mùa vụ liên quan đến kiểu thay đổi khá ổn định xuất hiện hàng năm hoặc kiểu thay đổi đó lại được lặp lại ở năm sau, và các năm sau nữa.
Yếu tố mùa xảy ra do ảnh hưởng của thời tiết, các sự kiện hàng năm kiên quan đến lịch như nghỉ hè, ngày lễ. Ký hiệu mùa là Sn, hay S. Ngẫu nhiên/ bất thường: thành phần ngẫu nhiên bao gồm những thay đổi ngẫu nhiên, hay không dự đoán được. Thành phần bất thường này xuất hiện có thể 12 do ảnh hưởng của tin đồn, thiên tai, động đất, ….
Ký hiệu ngẫu nhiên/bất thường là Ir, hay I. Phương pháp phân tích được thể hiện ở hai mô hình: mô hình nhân tính và mô hình cộng tính. Mô hình nhân tính xem các giá trị của một chuỗi thời gian (biến Y) được tạo thành bởi tích số của từng thành phần Tr, Cl, Sn, Ir.2) Mô hình cộng tính xem các giá trị của một chuỗi thời gian (biến Y) được tạo thành bởi tổng của các thành phần Tr, Cl, Sn, Ir. Yt = Trt + Clt + Snt + Irt (2.3) Mô hình nhân tính sẽ phù hợp khi sự biến thiên của chuỗi thời gian tăng dần theo thứ tự của thời gian.
Mô hình cộng tính có hiệu quả khi chuỗi dữ liệu đang được phân tích có sự biến thiên xấp xỉ đều nhau suốt độ dài của chuỗi thời gian.3 Dự báo bằng phân tích hồi quy J.Boyle và các cộng sự năm 2008([2]), dự báo số lượng bệnh nhân nhập viện. Dự báo này được nhóm tác giả phân tích dữ liệu và dự báo dữ liệu bằng phân tích hồi quy (Regression). Dữ liệu được tạo ra từ mô hình này sẽ được so sánh với dữ liệu nhập liệu trên 6 tháng. Phương pháp này thực hiện hiệu quả với 11 biến giả để mô hình biến hàng tháng (MAPE=1.
Mô hình hồi quy đơn Phân tích hồi quy có thể giúp cho người phân tích: ước lượng giá trị trung bình của biến phụ thuộc khi cho trước giá trị một hoặc các biến giải thích; kiểm định các giả thuyết về bản chất của sự phụ thuộc giữa biến độc lập và biến phụ thuộc; dự báo giá trị trung bình của biến phụ thuộc khi cho trước các giá trị của các biến giải thích; dự báo tác động biên hoặc độ co giãn của một biến độc lập lên biến phụ thuộc thông qua hệ số hồi quy. Mô hình hồi quy tuyến tính cổ điển E(Yt) = β1 + β2Xt (2. Mô hình hồi quy bội Thông thường trong các mối quan hệ kinh tế hay quản trị, biến phụ thuộc, Y, phụ thuộc vào nhiều biến giải thích khác nhau. Mô hình hồi quy bội được thể hiện như sau: Yt = β1 + β2X2t + … + βkXkt + ut t=1,2,3,…,n (2.5) Trong đó, β1 là hệ số cắt, β2 , …, βk là các hệ số hồi quy riêng, ut là hạng nhiễu ngẫu nhiên, và t là quan sát thứ t, n là quy mô toàn bộ của tổng thể.4 Các mô hình dự báo bằng phương pháp Box – Jenkins Mô hình ARIMA liên quan đến mô hình tự hồi quy (AR) và mô hình trung bình di động (MA).
Biến Yt của mô hình AR chỉ ảnh hưởng bởi hạng nhiễu trắng ut, và cũng chịu ảnh hưởng bới các biến Yt-1, Yt-2, Yt-3, … thường được tạo ra MA(q). Nếu mô hình MA(1), Yt đại diện không chỉ chịu ảnh hưởng của nhiễu trắng, mà bằng cách nào đó có mối liên hệ với các giá trị Yt-1, Yt-2, Yt-3. Nếu mô hình ARMA không được chấp nhận, vi phân lần “d” có thể được dùng để tạo ra sự chấp thuận, sau đó ta có được mô hình ARIMA(p,d,q). Được diễn tả bởi hai phương trình sau: Dt = γ1Dt-1 + … + γpDt-p + ut + θ1ut-1 + … + θqut-q (2.1) (1-L)dYt = γ1(1-L)d Yt-1 + … + γp(1-L)d Dt-p + ut + θ1ut-1 + … + θqut-q (2.3) Dt là thông tin được chuyển đổi sau khi lấy sai phân lần thứ t; γp , θq là các giá trị được ước tính, ut là giá trị sau khi lấy sai phân lần thứ t, L là giá trị làm suy thoái.Yeh và các cộng sự năm 2008 ([4]) bên cạnh sử dụng mô hình mạng nơ- ron nhân tạo để dự báo về chi tiêu y tế tại Đài Loan thì nhóm tác giả này cũng đã sử dụng mô hình ARIMA cho dự báo này.
Qua quá trình thực hiện nghiên cứu thì 14 nhóm tác giả này kết luận mô hình ARIMA dự báo cho ra kết quả tốt hơn mô hình mạng nơ-ron nhân tạo về dự báo chi tiêu y tế.