Chương 1: Tổng quan đề tài. Giới thiệu về nội dung đề tài bao gồm động lực nghiên cứu, phát biểu bài toán, thách thức, mục tiêu, phạm vi — đối tượng nghiên cứu, và những đóng góp chính trong nghiên cứu. — Chương 2: Cơ sở lý thuyết. Trình bày tổng quan về các lý thuyết cơ sở trong dịch bệnh với bệnh nhiệt đới bị lãng quên, phương pháp xác định bùng nỗ dịch bệnh.
Trình bày các khảo sát về hướng tiếp cận dự báo va phát hiện bùng né dịch bệnh trong khu vực từ các công trình đi trước. — Chương 3: Phương pháp thực nghiệm. Trình bày về các khái niệm về dự báo hồi quy và dự báo phân lớp. Trình bày các thuật toán máy học thong kê truyền thống và các thuật toán học sâu tiên tiến.
— Chương 4: Xử lý dữ liệu. Trình bày quy trình tiền xử lý dữ liệu với các phương pháp xử ly dit liệu cơ bản và xử lý dit liệu chuỗi thời gian. — _ Chương 5: Thực nghiệm và đánh gia. Trình bày quy trình xử lý dữ liệu và thực nghiệm.
Trình bày các thông số chi tiết cho quá trình thực nghiệm. Trình bày các phương pháp đánh giá. Báo cáo kết quả thực nghiệm và phân tích kết quả. — _ Chương 6: Kết luận và hướng phát triển.
Tổng kết các kết quả chính đã đạt được trong đề tài và hướng phát triển của đề tài trong tương lai. TONG QUAN DE TÀI 1. Động lực nghiên cứu: Việt Nam là quốc gia nằm hoàn toàn trong vành đai khí hậu nhiệt đới. Mà đây lại là vùng có nguy cơ cao chịu sự bùng né của hàng loạt các loại bệnh lý liên quan đến khí hậu và điều kiện sống, có thể ké đến như: Sốt Xuất Huyết, Tiêu Chảy, Cảm cúm, Bệnh dại,.
Những loại bệnh nêu trên được WHO chính thức đưa vào danh sách cảnh báo “Các loại bệnh nhiệt đới bị lãng quên” - NTDs (Neglected Tropical Diseases)[41]. Sở di quy về cùng một nhóm bệnh nhiệt đới bị lãng quên là vì những loại bệnh này có thể dễ dàng điều trị với sự phát triển của y học hiện đại. Tuy nhiên, xét về nguy cơ bùng nỗ, việc chủ quan trọng khâu nhận biết sớm và điều trị là rất nguy hiểm và có thể dẫn đến tử vong ngay cả trong điều kiện y học phát triển mạnh mẽ như hiện nay. Dac biét, trong thoi buổi biến đôi khí hậu toàn cầu, các hiện tượng thời tiết cực đoan ngày càng khó đoán, mà Việt Nam là một trong các quốc gia bị ảnh hưởng nặng nè nhất bởi biến đôi khí hậu [17], thì nguy cơ tiềm ấn cho sự bùng phat của loại bệnh nhiệt đới này càng dé phát sinh hơn và có thé phát sinh tại bat kỳ thời điểm nào [41].
Do đó nhu cầu về phát triển một hệ thống có khả năng dự báo và phát hiện nguy cơ bùng phát các căn bệnh nhiệt đới này, hiện nay, là rất cấp thiệt tại Việt Nam. Với sự phát triển mạnh mẽ của CNTT, các thuật toán máy học đã và đang chứng minh được sức mạnh rất lớn của chúng qua nhiêu lĩnh vực như kinh tế, giáo dục và cả y tế. Nhiều công trình trong nước lẫn quốc tế đã được công bồ [10]-[24], tuy nhiên chưa có nghiên cứu nào áp dụng và đánh giá cả 2 hướng tiếp cận máy học là Phân lớp và Hồi quy chuỗi thời gian cho nhiệm phát hiện bùng nổ dịch bệnh thông qua các đặc trưng về thời tiết và khí hậu trên các vùng địa lý tại Việt Nam. Những cơ hội và hiện trạng vừa đề cập ở trên chính là động lực thúc đây sinh viên thực hiện đề tài “Xây dựng mô hình dự báo số lượng ca nhiễm và thời điểm bùng phát bệnh nhiệt đới bị lãng quên” này.
Phát biểu bài toán: — Đầu vào: Dữ liệu về các đặc trưng khí hậu Việt Nam bao gồm các yếu tố về độ âm, lượng bốc hơi, lượng mưa, nhiệt độ, sé gid nang và tỷ lỆ ca mắc bệnh nhiệt đới trên từng địa phương của Việt Nam. — Xử lý: Nhiệm vụ được thực hiện được chia làm hai hướng tiếp cận: + Xây dựng mô hình hồi quy dự báo ca nhiễm trên từng tỉnh. Từ giá trị ca nhiễm được dự báo, tính toán và xác định các điểm bùng nô dịch bệnh trong phạm vi tỉnh đang xét. + Tính toán và xác định các điểm bùng nổ dịch bệnh.
Xây dựng mô hình phân lớp dự báo bùng nổ cho từng thời điểm trên từng tỉnh. — Pau ra: Điểm bùng nổ dịch bệnh cho từng thời điểm trên từng tinh. 5 Yy Đặc trưng $ ' khi hậu của ⁄ cs Đặc trưng khi hậu của = 4 từng tinh 4 Es Ì 4 Huan luyện và ts Z1 sir dung mô hình dự báo ca nhiễm L ¬ các diém bùng nố > / : | từtilệcanhiễm [is 4 4 | trong tập quan sát Ps 2 Tiléca Khuê nhiễm bệnh iP của từng tỉnh ⁄ Ei 7 : / = 2 ⁄⁄⁄⁄⁄4 : Huấn luyénva igs" 2 Tinh toá 4 ` ng sử dụmô hình 5? £# các điểm bùng nổ 1⁄4 inh toán ⁄ dự ự báo bùng g phat phát b |„Š từ ti lệ ca nhiễm được dự báo on 5 ⁄⁄⁄ Điểm bùng nổ Điểm bùng nổ a dich bénh dịch bệnh 3 trên từng tinh trên từng tỉnh Hình 1-1; Phát biểu bài toán với Đầu vào (Input), Các bước xử lý, Đầu ra (Output) của hai hướng tiép cận a và b 1. Thách thức: Vấn đề về thiếu dữ liệu: Dữ liệu gốc nhận không đầy đủ số liệu cho các trường cần thiết.
Vấn đề hạn chế về số lượng mẫu trong dit liệu: Việc thiếu thốn dữ liệu gây khó khăn không những trong quá trình huấn luyện mà còn khó khăn trong khâu đánh giá lại tính đúng đắn của mô hình thực nghiệm. Van đề về mắt cân bang dữ liệu: Do tính chất của bài toán phát hiện bùng no dịch bệnh mà tỷ lệ số thang bùng né so với số tháng 6n định có sự chênh lệch rất cao. Dẫn đến mô hình học sau cùng mặc dù có độ chính xác khá cao, tuy nhiên dự đoán hầu hết nghiêng về các tháng không bùng nổ, làm thiếu ý nghĩa ban đầu của việc xây dụng một mô hình dự báo bùng né dịch bệnh. Đánh giá tính chính xác của mô hình trong ngữ cảnh hiện tại trở nên khắt khe hơn trên cơ sở các tháng bùng nô dịch bệnh bị mô hình dự báo bỏ sót là rất nguy hiểm trong thực tế.
Trong khi đó việc dự báo giả cũng gây tôn hại rất lớn trong công tác chuẩn bị đối phó với dịch bệnh khi áp dụng trên thực tế. Mục tiêu đề tài: Hiểu được kiến thức cơ bản về các căn bệnh nhiệt đới, các thống kê về nguyên nhân và mức độ nguy hiểm của loại bệnh này, cách xác định điểm bùng phat dịch bệnh trong phạm vi nghiên cứu. Có được kiến thức tổng quan đến chỉ tiết cho các thuật toán máy học hướng thống kê truyền thống và hướng học sâu. Có được kiến thức chuỗi thời gian và các kỹ thuật tiền xử lý đữ liệu.
Xử lý và xây dựng các mẫu dit liệu có thé huấn luyện từ một bộ đữ liệu về các đặc trưng khí hậu, tỷ lệ ca nhiễm bệnh nhiệt đới và điểm bùng phát dịch bệnh theo thời gian trên từng vùng địa lý tại Việt Nam. Cài đặt và thực nghiệm được thuật toán dự báo hồi quy và phân lớp trên bộ dữ liệu được xây dựng. Phân tích, đánh giá và tổng hợp được kết quả nghiên cứu vào báo cáo. Đối tượng và Phạm vi nghiên cứu: Đối tượng nghiên cứu: Bệnh Sốt Xuất Huyết, Tiêu Chảy.
Trên các tỉnh thành tại Việt Nam từ 1997 — 2016. Phạm vi nghiên cứu: + Nghiên cứu và khảo sát các công trình đã được công bô vé cách các đặc trưng cũng như phương pháp được chọn đề dự báo và phát hiện được nguy cơ bùng phát bệnh nhiệt đới bị lãng quên. Nghiên cứu các đặc trưng khí hậu có khả năng ảnh hưởng đến sự bùng phát bệnh nhiệt đới và xây dựng bộ dữ liệu tương ứng. Nghiên cứu phương pháp xác định bùng nô dich bệnh.
Nghiên cứu phương pháp dự báo hồi quy và phân lớp. Nghiên cứu mô hình máy học dự báo chuỗi thời gian theo hướng thống kê (Random Forest, K-Nearest Neighbors, Decision Tree, Extra Trees, Multi-layer Perceptron, Adaptive Boosting, SVM, XGBoost, Ridge, SGD, GaussianNB, MultinomialNB, BernoulliNB, ComplementNB, Deep Belief Networks, LightGBM, CatBoost). Nghiên cứu mô hình may hoc dự báo chuỗi thời gian theo hướng tiếp cận học sâu (LSTM, LSTM-ATT, CNN, Transformer) Thực nghiệm các phương pháp đã được khảo sát trên hai hướng tiếp cận. Tiên hành đánh giá va so sánh kêt quả.
Đóng góp nghiên cứu Giới thiệu về các phương pháp tiếp cận dự đoán và phát hiện bùng nỗ dịch bệnh trong khu vực cho các loại bệnh nhiệt đới lãng quên — loại dịch bệnh thường bị chủ quan bỏ qua nhưng lại có mức độ ảnh hưởng cực kỳ cao đến xã hội loài người khi bùng phát trên diện rộng. Giới thiệu về các đặc trưng khí hậu có mức độ ảnh hưởng cao đến tình trạng bùng phát dịch bệnh — cơ sở cho mô hình dự báo được xây dựng. Trình bày các thuật toán hồi quy, phân lớp từ máy học thống kê truyền thống đến học sâu tiên tiến hiện nay. Thực nghiệm, huấn luyện phương pháp trên bộ dit liệu được xây dung và so sánh hiệu quả của 2 hướng tiếp cận: Dự báo hồi quy ca nhiễm sau đó tính toán điểm bùng phát và Dự báo phân lớp bùng phát ngay từ các điểm bùng phát được tính toán từ các ca nhiễm quan sát được.
Theo hiểu biết hiện tại, đây là đề tài đầu tiên khảo sát và so sánh đồng thời tính hiệu quả của hai hướng tiếp cận này trên miền đữ liệu dịch bệnh tại Việt Nam. Nghiên cứu liên quan: 2. Các nghiên cứu trước: Năm 2022, Do, T. và cộng sự [15] nghiên cứu về dự đoán ca nhiễm Tiêu Chay trên 6 tinh tại Việt Nam (Điện Biên, Thái Bình, Lào Cai, Kon Tum, Cao Bằng, Dak Lắk) sử dung 12 đặc trưng về khí hậu bao gồm các đặc trưng về lượng mưa, nhiệt độ, độ 4m, số giờ năng trên địa phương được xét.
Tác giả tiếp cận bài toán theo hướng dự báo hồi quy số lượng ca nhiễm Tiêu Chảy trong tương lai ngắn hạn — trong 1 tháng liền kề, và dự đoán trong tương lai đài hạn — trong 2 đến 3 tháng sau, để đánh giá mức độ đúng đắn của mô hình theo thời gian.