Tổng quan nghiên cứu

Ô nhiễm không khí là một trong những vấn đề môi trường nghiêm trọng toàn cầu, ảnh hưởng trực tiếp đến sức khỏe con người và chất lượng cuộc sống. Theo dữ liệu của Tổ chức Y tế Thế giới (WHO), khoảng 90% dân số thế giới đang hít phải không khí bị ô nhiễm nặng, với gần bảy triệu người tử vong mỗi năm do các bệnh liên quan đến ô nhiễm không khí. Tại Việt Nam, đặc biệt ở các đô thị lớn như Hà Nội và Thành phố Hồ Chí Minh, tình trạng ô nhiễm không khí ngày càng gia tăng do mật độ phương tiện giao thông cao và các hoạt động công nghiệp phát triển. Tính đến đầu năm 2020, cả nước có khoảng 45 triệu xe máy và gần 4 triệu ô tô đang lưu hành, trong đó Hà Nội và TP. Hồ Chí Minh lần lượt có 6 triệu và 8 triệu xe máy. Nồng độ bụi mịn PM2.5 tại nhiều khu vực đô thị thường xuyên vượt ngưỡng an toàn, gây ra các bệnh về hô hấp và tim mạch.

Trước thực trạng này, việc dự báo chất lượng không khí trong tương lai gần trở nên cấp thiết nhằm hỗ trợ người dân và các nhà quản lý chủ động trong việc phòng tránh và điều chỉnh các hoạt động. Mục tiêu nghiên cứu của luận văn là xây dựng và đánh giá các mô hình dự báo chất lượng không khí sử dụng dữ liệu thực tế thu thập tại Hà Nội trong khoảng thời gian từ 19/11/2021 đến 19/12/2021. Luận văn tập trung vào chỉ số chất lượng không khí theo giờ (main AQI) theo quy chuẩn Việt Nam, đồng thời so sánh hiệu quả giữa các mô hình truyền thống (tự hồi quy, ARIMA, Holt-Winters) và các mô hình mạng nơ ron nhân tạo (ANN, RNN, LSTM). Kết quả nghiên cứu không chỉ góp phần nâng cao độ chính xác dự báo mà còn cung cấp cơ sở khoa học cho các chính sách quản lý môi trường và bảo vệ sức khỏe cộng đồng.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

  • Chỉ số chất lượng không khí (AQI): Được tính toán dựa trên các thông số ô nhiễm như SO2, CO, NO2, O3, PM10, PM2.5 theo quy chuẩn quốc gia Việt Nam (QCVN 05:2013/BTNMT). AQI phản ánh mức độ ô nhiễm và ảnh hưởng đến sức khỏe con người, được phân loại thành các mức từ "Tốt" đến "Nguy hại" với các ngưỡng cụ thể.

  • Chuỗi thời gian và tính chất: Dữ liệu AQI theo giờ được xem là chuỗi thời gian có tính xu hướng và chu kỳ. Việc xác định tính dừng, tự tương quan và nhiễu trắng là cơ sở để lựa chọn mô hình dự báo phù hợp.

  • Mô hình thống kê truyền thống:

    • Mô hình tự hồi quy (AR): Dự báo giá trị hiện tại dựa trên các giá trị quá khứ.
    • Mô hình ARIMA: Kết hợp tự hồi quy, lấy sai phân và trung bình trượt để xử lý chuỗi không dừng.
    • Mô hình Holt-Winters: Làm mượt dữ liệu có xu hướng và chu kỳ bằng cách sử dụng các hệ số α, β, γ.
  • Mạng nơ ron nhân tạo (ANN): Mô hình học máy lấy cảm hứng từ mạng thần kinh sinh học, gồm các lớp perceptron với hàm kích hoạt phi tuyến như ReLU, sigmoid.

  • Mạng nơ ron hồi quy (RNN) và LSTM: Mạng có khả năng ghi nhớ thông tin chuỗi thời gian dài, khắc phục hạn chế của ANN truyền thống trong xử lý dữ liệu tuần tự.

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Dữ liệu được thu thập từ hệ thống AirNet tại Hà Nội, gồm 5 trạm quan trắc chính (s1037, s1046, s1081, s1090, s1091) trong khoảng thời gian 19/11/2021 đến 19/12/2021, với mật độ một giờ một bản ghi. Tổng số bản ghi tối đa là 720 cho mỗi trạm.

  • Tiền xử lý dữ liệu: Loại bỏ dữ liệu trùng lặp, xử lý dữ liệu thiếu bằng nội suy tuyến tính, kiểm định chuỗi nhiễu trắng và bước ngẫu nhiên để đảm bảo tính hợp lệ của chuỗi thời gian.

  • Phân chia dữ liệu: Tập dữ liệu được chia thành 75% dùng để huấn luyện và 25% để kiểm tra mô hình. Dữ liệu cho mạng nơ ron được tạo thành các tập con đầu vào (trainX/testX) và đầu ra (trainY/testY) với kỹ thuật cửa sổ trượt.

  • Xây dựng mô hình: Triển khai các mô hình AR, ARIMA, Holt-Winters, ANN, RNN và LSTM với các tham số tối ưu. Mạng nơ ron sử dụng hàm mất mát MSE, hàm kích hoạt ReLU và thuật toán tối ưu Adam.

  • Đánh giá mô hình: Sử dụng các chỉ số RMSE (thô, 50%, điều chỉnh) và MAE tương ứng để so sánh độ chính xác dự báo. Thí nghiệm được thực hiện với các kịch bản dự báo 12, 24 và 48 giờ tiếp theo.

  • Mở rộng mô hình: Thử nghiệm sử dụng dữ liệu thô (CO, PM10, PM2.5) làm đầu vào dự báo AQI và dự báo chéo giữa các trạm lân cận dựa trên ma trận khoảng cách địa lý.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả mô hình mạng nơ ron nhân tạo vượt trội: Các mô hình ANN, RNN và LSTM cho sai số dự báo thấp hơn đáng kể so với các mô hình truyền thống. Ví dụ, trong thí nghiệm dự báo 12 giờ tiếp theo, RMSE của LSTM thấp hơn khoảng 15-20% so với ARIMA và Holt-Winters.

  2. Mô hình LSTM có khả năng ghi nhớ dài hạn tốt nhất: LSTM duy trì độ chính xác cao hơn khi dự báo xa hơn (24 và 48 giờ), trong khi các mô hình khác có xu hướng sai số tăng nhanh theo thời gian dự báo.

  3. Dữ liệu thô CO, PM10, PM2.5 có thể cải thiện dự báo AQI: Khi sử dụng tổ hợp các thông số này làm đầu vào, mô hình ANN và LSTM cho kết quả dự báo AQI chính xác hơn so với chỉ dùng AQI lịch sử, giảm sai số RMSE khoảng 10%.

  4. Dự báo chéo giữa các trạm lân cận khả thi nhưng giảm độ chính xác theo khoảng cách: Dự báo AQI tại trạm s1037, s1081 và s1090 dựa trên dữ liệu trạm s1046 cho kết quả tốt nhất với trạm gần nhất (khoảng cách 2-4 km), sai số tăng lên khi khoảng cách lớn hơn 10 km.

Thảo luận kết quả

Nguyên nhân chính khiến các mô hình mạng nơ ron nhân tạo vượt trội là khả năng học được các đặc trưng phi tuyến và phụ thuộc dài hạn trong chuỗi thời gian AQI, điều mà các mô hình thống kê truyền thống khó nắm bắt. Đặc biệt, LSTM với cấu trúc bộ nhớ dài-ngắn hạn giúp duy trì thông tin quan trọng qua nhiều bước thời gian, phù hợp với tính chất chuỗi thời gian có chu kỳ và xu hướng như AQI.

So sánh với các nghiên cứu trước đây, kết quả tương đồng với báo cáo tổng hợp cho thấy mạng nơ ron nhiều lớp truyền thẳng và LSTM là các mô hình phổ biến và hiệu quả trong dự báo chất lượng không khí. Việc sử dụng dữ liệu thô đa chiều (CO, PM10, PM2.5) làm đầu vào cũng phù hợp với xu hướng ứng dụng học máy đa biến nhằm nâng cao độ chính xác dự báo.

Kết quả dự báo chéo giữa các trạm cho thấy tính không gian của ô nhiễm không khí có ảnh hưởng rõ rệt, tuy nhiên độ chính xác giảm dần theo khoảng cách địa lý. Điều này gợi ý cần kết hợp dữ liệu từ nhiều trạm để xây dựng mô hình dự báo khu vực tổng thể.

Dữ liệu và kết quả có thể được trình bày qua các biểu đồ so sánh RMSE, MAE giữa các mô hình theo từng kịch bản dự báo, cũng như biểu đồ chuỗi thời gian dự báo và thực tế để minh họa độ chính xác.

Đề xuất và khuyến nghị

  1. Triển khai mô hình LSTM trong hệ thống dự báo chất lượng không khí đô thị: Tập trung phát triển hệ thống dự báo theo giờ sử dụng mô hình LSTM với dữ liệu đa chiều (AQI, CO, PM10, PM2.5) nhằm nâng cao độ chính xác và khả năng dự báo xa. Thời gian thực hiện: 6-12 tháng; chủ thể: các trung tâm quan trắc môi trường và viện nghiên cứu.

  2. Mở rộng mạng lưới quan trắc và tích hợp dữ liệu đa trạm: Tăng cường số lượng trạm quan trắc, đặc biệt tại các khu vực có mật độ dân cư cao, để thu thập dữ liệu đa dạng phục vụ mô hình dự báo khu vực. Thời gian: 1-2 năm; chủ thể: Bộ Tài nguyên và Môi trường, chính quyền địa phương.

  3. Phát triển giao diện cảnh báo và ứng dụng di động cho người dân: Cung cấp thông tin dự báo chất lượng không khí theo thời gian thực và dự báo trong ngày giúp người dân chủ động điều chỉnh hoạt động ngoài trời, đặc biệt nhóm nhạy cảm. Thời gian: 6 tháng; chủ thể: các công ty công nghệ, tổ chức phi chính phủ.

  4. Nghiên cứu kết hợp mô hình học máy với mô hình khuếch tán vật chất: Kết hợp dữ liệu dự báo từ mô hình động lực học khí quyển với mô hình học máy để cải thiện độ chính xác và khả năng dự báo đa chiều. Thời gian: 1-2 năm; chủ thể: viện nghiên cứu môi trường, trường đại học.

Đối tượng nên tham khảo luận văn

  1. Nhà quản lý môi trường và chính sách công: Sử dụng kết quả nghiên cứu để xây dựng các chính sách kiểm soát ô nhiễm không khí, quy hoạch đô thị và giao thông nhằm giảm thiểu tác động đến sức khỏe cộng đồng.

  2. Các nhà nghiên cứu và học giả trong lĩnh vực môi trường và khoa học máy tính: Tham khảo phương pháp luận, mô hình dự báo và kết quả thực nghiệm để phát triển các nghiên cứu tiếp theo về dự báo chất lượng không khí và ứng dụng học máy.

  3. Các đơn vị vận hành hệ thống quan trắc môi trường: Áp dụng mô hình dự báo để nâng cao hiệu quả giám sát, cảnh báo sớm và quản lý chất lượng không khí tại các khu vực đô thị.

  4. Cộng đồng người dân và nhóm nhạy cảm về sức khỏe: Nhận thông tin dự báo chất lượng không khí để chủ động điều chỉnh hoạt động ngoài trời, bảo vệ sức khỏe, đặc biệt trong các đợt ô nhiễm cao.

Câu hỏi thường gặp

  1. Mô hình nào cho kết quả dự báo chất lượng không khí chính xác nhất?
    Mô hình mạng nơ ron LSTM cho kết quả dự báo chính xác nhất, đặc biệt khi dự báo dài hạn 24-48 giờ, nhờ khả năng ghi nhớ thông tin chuỗi thời gian dài và xử lý phi tuyến hiệu quả.

  2. Dữ liệu đầu vào nào quan trọng nhất để dự báo AQI?
    Ngoài chỉ số AQI lịch sử, các thông số thô như CO, PM10 và PM2.5 cũng rất quan trọng, giúp mô hình học máy dự báo chính xác hơn khi kết hợp đa chiều dữ liệu.

  3. Có thể sử dụng dữ liệu từ trạm quan trắc khác để dự báo cho khu vực lân cận không?
    Có thể, nhưng độ chính xác giảm dần theo khoảng cách địa lý. Dự báo chéo hiệu quả nhất khi các trạm gần nhau trong phạm vi vài km.

  4. Tại sao mô hình ARIMA không hiệu quả bằng mạng nơ ron nhân tạo?
    ARIMA là mô hình tuyến tính, khó xử lý các đặc trưng phi tuyến và phụ thuộc dài hạn trong chuỗi thời gian, trong khi mạng nơ ron nhân tạo có khả năng học các mối quan hệ phức tạp hơn.

  5. Làm thế nào để áp dụng kết quả nghiên cứu vào thực tiễn?
    Có thể triển khai hệ thống dự báo tự động sử dụng mô hình LSTM, tích hợp dữ liệu từ các trạm quan trắc, và cung cấp cảnh báo cho người dân qua ứng dụng di động hoặc website.

Kết luận

  • Luận văn đã xây dựng và đánh giá thành công các mô hình dự báo chất lượng không khí tại Hà Nội, trong đó mô hình mạng nơ ron LSTM cho hiệu quả vượt trội so với các mô hình truyền thống.
  • Việc sử dụng dữ liệu đa chiều (CO, PM10, PM2.5) làm đầu vào giúp nâng cao độ chính xác dự báo AQI.
  • Dự báo chéo giữa các trạm lân cận khả thi nhưng cần cân nhắc khoảng cách địa lý để đảm bảo độ tin cậy.
  • Kết quả nghiên cứu cung cấp cơ sở khoa học cho việc phát triển hệ thống dự báo chất lượng không khí phục vụ quản lý môi trường và bảo vệ sức khỏe cộng đồng.
  • Các bước tiếp theo bao gồm mở rộng mạng lưới quan trắc, phát triển hệ thống dự báo thời gian thực và tích hợp mô hình học máy với mô hình khuếch tán vật chất.

Hành động ngay hôm nay để ứng dụng mô hình dự báo chất lượng không khí, góp phần xây dựng môi trường sống trong lành và bền vững!