Tổng quan nghiên cứu

Ô nhiễm không khí là một trong những vấn đề môi trường nghiêm trọng nhất hiện nay, ảnh hưởng trực tiếp đến sức khỏe cộng đồng trên toàn thế giới. Theo ước tính, khoảng 91% dân số toàn cầu đang sống trong các khu vực có chất lượng không khí vượt quá giới hạn cảnh báo của Tổ chức Y tế Thế giới (WHO). Thành phố Hồ Chí Minh, với mật độ dân số cao, nhiều khu công nghiệp và giao thông đông đúc, đang phải đối mặt với thách thức lớn về ô nhiễm không khí. Việc đo lường và dự báo chỉ số chất lượng không khí (AQI) cục bộ với độ phân giải cao là rất cần thiết để bảo vệ sức khỏe người dân và hỗ trợ các chính sách quản lý môi trường hiệu quả.

Mục tiêu nghiên cứu của luận văn là phát triển các phương pháp nội suy và tiên đoán giá trị AQI dựa trên dữ liệu cảm biến di động nhằm tạo ra bản đồ ô nhiễm môi trường thời gian thực có độ chi tiết cao cho Thành phố Hồ Chí Minh. Nghiên cứu tập trung vào việc khai thác dữ liệu từ các cảm biến di động gắn trên xe máy tình nguyện viên, kết hợp với dữ liệu từ các trạm cố định và nguồn dữ liệu mở công cộng. Phạm vi nghiên cứu bao gồm dữ liệu thu thập từ tháng 7 đến tháng 8 năm 2020 tại nhiều tuyến đường trong thành phố, với các chỉ số ô nhiễm như PM2.5, NO2, SO2, CO, O3 và các yếu tố thời tiết đi kèm.

Ý nghĩa của nghiên cứu thể hiện qua việc cung cấp một công cụ dự báo và nội suy AQI chính xác, giúp người dân và các cơ quan quản lý có thể theo dõi chất lượng không khí theo thời gian thực, từ đó đưa ra các biện pháp phòng ngừa và ứng phó kịp thời. Ngoài ra, nghiên cứu còn góp phần nâng cao hiểu biết về mối quan hệ giữa ô nhiễm không khí, giao thông và sức khỏe cá nhân trong môi trường đô thị.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình nghiên cứu về chất lượng không khí và ứng dụng máy học trong dự báo môi trường. Hai lý thuyết chính được áp dụng gồm:

  1. Lý thuyết chỉ số chất lượng không khí (AQI): AQI là chỉ số tổng hợp phản ánh mức độ ô nhiễm không khí dựa trên nồng độ của các chất ô nhiễm chính như PM2.5, PM10, NO2, SO2, CO và O3. AQI được tính toán theo các tiêu chuẩn quốc gia và quốc tế, trong đó giá trị AQI càng cao thì mức độ ô nhiễm càng nghiêm trọng và nguy cơ ảnh hưởng đến sức khỏe càng lớn.

  2. Mô hình máy học dự báo và nội suy dữ liệu không gian-thời gian: Sử dụng các thuật toán như Random Forest, XGBoost, CatBoost và kỹ thuật Stacking Generalization để xây dựng mô hình hồi quy dự đoán giá trị AQI tại các vị trí và thời điểm không có dữ liệu đo trực tiếp. Các khái niệm chính bao gồm:

    • Nội suy dữ liệu (Interpolation): Ước lượng giá trị AQI tại các điểm không có cảm biến dựa trên dữ liệu từ các điểm lân cận.
    • Tiên đoán dữ liệu (Prediction): Dự báo giá trị AQI trong tương lai dựa trên dữ liệu lịch sử và các đặc trưng môi trường.
    • Đặc trưng thời gian và không gian: Bao gồm dấu thời gian (Part-Of-Day, giờ cao điểm), vị trí địa lý (khoảng cách đến sân bay, mật độ giao thông), và dữ liệu thời tiết (nhiệt độ, độ ẩm, áp suất).

Phương pháp nghiên cứu

Nguồn dữ liệu chính được sử dụng là bộ dữ liệu MNR-Air thu thập từ tháng 7 đến tháng 8 năm 2020 tại Thành phố Hồ Chí Minh. Dữ liệu bao gồm:

  • Dữ liệu cảm biến di động đo các chất ô nhiễm PM2.5, PM10, NO2, SO2, CO, O3.
  • Dữ liệu vị trí GPS và thời gian thu thập.
  • Dữ liệu thời tiết công cộng cập nhật 30 phút một lần.
  • Dữ liệu cảm xúc cá nhân và hình ảnh lifelog từ người thu thập.

Cỡ mẫu gồm nhiều tình nguyện viên sử dụng xe máy gắn cảm biến di động, thu thập dữ liệu trên các tuyến đường dài khoảng 30 km, đi qua 6 quận của thành phố. Dữ liệu được xử lý tiền xử lý để loại bỏ nhiễu, nội suy các giá trị bị thiếu và chuẩn hóa theo phút.

Phương pháp phân tích sử dụng các thuật toán máy học hồi quy như Linear Regression, Support Vector Machine (SVM), Random Forest, Extra Trees, XGBoost, CatBoost và kỹ thuật Stacking Generalization. Quá trình huấn luyện và đánh giá mô hình được thực hiện bằng kỹ thuật 5-fold cross-validation, chia dữ liệu thành 80% để huấn luyện và 20% để kiểm tra. Các chỉ số đánh giá hiệu suất gồm Root Mean Square Error (RMSE), Mean Absolute Error (MAE), hệ số xác định (R²), Accuracy và F1-score.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả của phương pháp nội suy và tiên đoán dữ liệu bị thiếu: Phương pháp lọc thời gian và bán kính quét tăng dần cho phép dự đoán giá trị PM2.5 bị thiếu với độ chính xác cao. Trên bộ dữ liệu Testing, phương pháp đạt điểm số Euclidean distance (L2) thấp nhất khoảng 0.00046, vượt trội hơn so với một số nhóm nghiên cứu khác.

  2. Đo lường chỉ số chất lượng không khí cá nhân (PAQI): Phương pháp điều chỉnh PAQI dựa trên AQI, user’s tag (đánh giá cảm xúc), mật độ giao thông và mật độ cây xanh cho kết quả chính xác hơn so với phương pháp sử dụng giá trị trung bình user’s tag và đặc trưng tuyến đường. Trên bộ dữ liệu Training, phương pháp đạt điểm số đánh giá khoảng 0.8, thể hiện độ tin cậy cao.

  3. Hiệu suất các mô hình máy học trong dự đoán AQI cục bộ: Khi chỉ sử dụng dữ liệu cảm biến thô, mô hình Extra Trees đạt RMSE khoảng 45 và R² tương ứng. Khi kết hợp thêm đặc trưng thời gian và vị trí, CatBoost đạt RMSE giảm xuống còn 36.79 và R² tăng lên đáng kể. Kịch bản kết hợp đầy đủ dữ liệu cảm biến, thời gian, vị trí và dữ liệu thời tiết công cộng, kỹ thuật Stacking đạt hiệu suất tốt nhất với RMSE khoảng 17 và R² cao nhất.

  4. So sánh với các nhóm nghiên cứu khác: Phương pháp dự đoán dữ liệu bị thiếu của luận văn đạt điểm số cao hơn nhóm DCU và chỉ thấp hơn nhóm Healthism sử dụng LightGBM. Trong đo lường PAQI, phương pháp đạt điểm số tốt hơn nhóm DCU nhưng thấp hơn nhóm Healthism, cho thấy tiềm năng cải tiến.

Thảo luận kết quả

Nguyên nhân của hiệu quả cao trong dự đoán dữ liệu bị thiếu và đo lường PAQI là do việc kết hợp đa dạng các nguồn dữ liệu không đồng nhất, bao gồm dữ liệu cảm biến di động, dữ liệu cảm xúc cá nhân và đặc trưng môi trường. Việc sử dụng thuật toán lọc thời gian và bán kính quét tăng dần giúp tận dụng tối đa dữ liệu gần kề về không gian và thời gian, giảm thiểu sai số nội suy.

So sánh với các nghiên cứu khác, phương pháp sử dụng kỹ thuật Stacking kết hợp nhiều mô hình máy học đã nâng cao độ chính xác dự báo AQI cục bộ, phù hợp với đặc thù dữ liệu đô thị phức tạp của Thành phố Hồ Chí Minh. Kết quả này cũng cho thấy việc bổ sung dữ liệu thời tiết công cộng và đặc trưng vị trí có tác động tích cực đến hiệu suất mô hình.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh RMSE, MAE và R² giữa các mô hình và kịch bản khác nhau, cũng như bảng so sánh điểm số dự đoán với các nhóm nghiên cứu khác để minh họa rõ ràng hiệu quả của phương pháp đề xuất.

Đề xuất và khuyến nghị

  1. Triển khai mạng lưới cảm biến di động quy mô lớn: Hành động gắn các hộp cảm biến cá nhân trên xe máy của người dân, như xe GrabBike, để thu thập dữ liệu AQI liên tục trên toàn thành phố. Mục tiêu tăng độ phủ sóng dữ liệu, cải thiện độ chi tiết bản đồ ô nhiễm trong vòng 12 tháng. Chủ thể thực hiện: Sở Tài nguyên và Môi trường phối hợp với các doanh nghiệp vận tải công nghệ.

  2. Phát triển ứng dụng cảnh báo chất lượng không khí cá nhân: Xây dựng ứng dụng di động cung cấp thông tin AQI cá nhân dựa trên vị trí và cảm xúc người dùng, giúp người dân chủ động phòng tránh tác động ô nhiễm. Mục tiêu nâng cao nhận thức và bảo vệ sức khỏe cộng đồng trong 6 tháng. Chủ thể thực hiện: Các công ty công nghệ và tổ chức y tế.

  3. Tích hợp dữ liệu cảm biến với hệ thống quản lý đô thị thông minh: Kết nối dữ liệu AQI với hệ thống GIS và quản lý giao thông để hỗ trợ ra quyết định giảm thiểu ô nhiễm, như điều chỉnh luồng giao thông và quy hoạch cây xanh. Mục tiêu giảm mức độ ô nhiễm tại các điểm nóng trong 18 tháng. Chủ thể thực hiện: UBND thành phố và các đơn vị quản lý đô thị.

  4. Nâng cao năng lực nghiên cứu và đào tạo chuyên sâu về công nghệ cảm biến và phân tích dữ liệu môi trường: Tổ chức các khóa đào tạo, hội thảo chuyên ngành nhằm phát triển nguồn nhân lực chất lượng cao phục vụ nghiên cứu và ứng dụng công nghệ trong quản lý môi trường. Mục tiêu trong 24 tháng. Chủ thể thực hiện: Các trường đại học và viện nghiên cứu.

Đối tượng nên tham khảo luận văn

  1. Các nhà quản lý môi trường đô thị: Luận văn cung cấp phương pháp và công cụ dự báo AQI cục bộ giúp họ ra quyết định chính sách, quy hoạch và kiểm soát ô nhiễm hiệu quả.

  2. Các nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Môi trường: Tài liệu chi tiết về ứng dụng máy học trong xử lý dữ liệu cảm biến di động, mô hình dự báo và nội suy dữ liệu không gian-thời gian.

  3. Doanh nghiệp công nghệ phát triển giải pháp IoT và cảm biến môi trường: Tham khảo để phát triển các thiết bị cảm biến di động và hệ thống thu thập dữ liệu thông minh, nâng cao độ chính xác và hiệu quả thu thập.

  4. Cơ quan y tế và tổ chức bảo vệ sức khỏe cộng đồng: Sử dụng kết quả nghiên cứu để đánh giá tác động ô nhiễm không khí đến sức khỏe cá nhân, xây dựng các chương trình phòng ngừa và cảnh báo kịp thời.

Câu hỏi thường gặp

  1. Phương pháp nội suy dữ liệu bị thiếu trong nghiên cứu này có gì đặc biệt?
    Phương pháp sử dụng thuật toán lọc thời gian kết hợp bán kính quét tăng dần để chọn dữ liệu gần nhất về không gian và thời gian, từ đó dự đoán giá trị PM2.5 bị thiếu với độ chính xác cao. Ví dụ, bán kính quét tối ưu là 20m giúp giảm nhiễu và tăng độ tin cậy.

  2. Dữ liệu cảm biến di động được thu thập như thế nào?
    Dữ liệu được thu thập từ các hộp cảm biến gắn trên xe máy của tình nguyện viên, đo các chất ô nhiễm và yếu tố môi trường theo chu kỳ 2-3 giây, đồng thời ghi lại vị trí GPS và thời gian. Quá trình thu thập diễn ra trên nhiều tuyến đường dài khoảng 30 km.

  3. Tại sao cần kết hợp dữ liệu cảm xúc cá nhân trong đo lường PAQI?
    Cảm xúc cá nhân phản ánh nhận thức và tác động thực tế của ô nhiễm không khí đến sức khỏe và tâm trạng người dân. Việc kết hợp user’s tag giúp điều chỉnh chỉ số PAQI phù hợp hơn với trải nghiệm thực tế, nâng cao tính ứng dụng của bản đồ ô nhiễm.

  4. Các mô hình máy học nào được sử dụng và ưu điểm của kỹ thuật Stacking?
    Các mô hình gồm Linear Regression, SVM, Random Forest, Extra Trees, XGBoost, CatBoost. Kỹ thuật Stacking kết hợp dự đoán của nhiều mô hình cơ bản để tạo ra mô hình meta-level, giúp cải thiện độ chính xác và khả năng tổng quát hóa so với từng mô hình đơn lẻ.

  5. Ứng dụng thực tế của bản đồ AQI cục bộ trong quản lý đô thị là gì?
    Bản đồ AQI cục bộ giúp xác định các điểm nóng ô nhiễm, hỗ trợ điều chỉnh luồng giao thông, quy hoạch cây xanh, cảnh báo người dân và các nhóm nhạy cảm, từ đó giảm thiểu tác động tiêu cực đến sức khỏe và nâng cao chất lượng cuộc sống đô thị.

Kết luận

  • Phương pháp nội suy và tiên đoán dựa trên dữ liệu cảm biến di động và máy học cho kết quả chính xác trong việc xây dựng bản đồ ô nhiễm không khí cục bộ tại Thành phố Hồ Chí Minh.
  • Kỹ thuật Stacking kết hợp nhiều mô hình máy học vượt trội hơn so với các mô hình đơn lẻ về RMSE, MAE và hệ số xác định R².
  • Việc tích hợp dữ liệu cảm xúc cá nhân và đặc trưng môi trường giúp đo lường chỉ số chất lượng không khí cá nhân (PAQI) sát thực tế hơn.
  • Nghiên cứu đã được công bố trên nhiều hội nghị quốc tế, góp phần nâng cao hiểu biết về ứng dụng công nghệ thông tin trong quản lý môi trường đô thị.
  • Hướng phát triển tiếp theo là mở rộng mạng lưới cảm biến di động quy mô lớn, tích hợp dữ liệu hình ảnh và âm thanh để nâng cao độ chính xác và tính ứng dụng của bản đồ AQI.

Hành động tiếp theo: Khuyến khích các cơ quan quản lý và doanh nghiệp công nghệ phối hợp triển khai hệ thống cảm biến di động và phát triển ứng dụng cảnh báo chất lượng không khí cá nhân nhằm bảo vệ sức khỏe cộng đồng.