Đồ án tốt nghiệp: Dự đoán bụi mịn PM2.5, PM10 Hà Nội bằng học sâu (Nguyễn Minh Hiếu)

Khám phá đồ án tốt nghiệp xuất sắc của Minh Hiếu, tập trung vào giải pháp công nghệ đột phá. Bài viết phân tích sâu các phương pháp, kết quả và ứng dụng thực

2019

63
0
0

Phí lưu trữ

30 Point

Tóm tắt

I. Tổng quan về dự đoán bụi mịn Hà Nội bằng học sâu

Hà Nội đang đối mặt với tình trạng ô nhiễm không khí nghiêm trọng, đặc biệt là chỉ số bụi mịn PM2.5 và PM10 ảnh hưởng trực tiếp đến sức khỏe người dân. Các bệnh về hô hấp, mạch máu và phổi ngày càng gia tăng do bụi mịn vượt ngưỡng cho phép. Việc dự đoán trước chỉ số bụi mịn giúp cơ quan chức năng đưa ra cảnh báo kịp thời và có biện pháp bảo vệ cộng đồng. Phương pháp học sâu, đặc biệt là mạng BiLSTM Encoder-Decoder, đã chứng minh hiệu quả vượt trội trong việc xử lý dữ liệu chuỗi thời gian. Mô hình này có khả năng học cả mối quan hệ xuôi và ngược trong dữ liệu quan trắc môi trường. Bài nghiên cứu áp dụng kỹ thuật Feature Engineering kết hợp với kiến trúc mạng nơ-ron sâu để cải thiện độ chính xác dự báo. Kết quả thực nghiệm trên bộ dữ liệu Hà Nội cho thấy tiềm năng lớn trong việc ứng dụng trí tuệ nhân tạo vào quản lý chất lượng không khí.

1.1. Thực trạng ô nhiễm bụi mịn tại Hà Nội

Hà Nội thường xuyên ghi nhận mức bụi mịn PM2.5 và PM10 vượt ngưỡng an toàn do Tổ chức Y tế Thế giới khuyến nghị. Nguyên nhân chính đến từ giao thông, xây dựng, đốt rơm rạ và hoạt động công nghiệp. Chỉ số AQI tại nhiều thời điểm chạm mức báo động đỏ, ảnh hưởng nghiêm trọng đến nhóm người nhạy cảm như trẻ em và người già. Hệ thống quan trắc môi trường đã thu thập dữ liệu liên tục nhưng chưa có công cụ dự báo hiệu quả. Việc xây dựng mô hình dự đoán chính xác là nhu cầu cấp thiết để hỗ trợ ra quyết định phòng ngừa.

1.2. Vai trò của học sâu trong dự báo môi trường

Học sâu là nhánh của trí tuệ nhân tạo sử dụng mạng nơ-ron nhiều lớp để học biểu diễn dữ liệu phức tạp. Trong lĩnh vực môi trường, học sâu xử lý tốt dữ liệu chuỗi thời gian với nhiều biến đầu vào. Các kiến trúc như LSTM, GRU có khả năng ghi nhớ thông tin dài hạn, phù hợp với dữ liệu quan trắc có tính chu kỳ. Mạng BiLSTM mở rộng thêm chiều ngược, giúp mô hình nắm bắt cả xu hướng quá khứ và tương lai. Phương pháp này vượt trội hơn các mô hình thống kê truyền thống trong việc dự đoán chất lượng không khí.

II. Thách thức trong dự đoán chỉ số bụi mịn PM2

Bài toán dự đoán bụi mịn đối mặt nhiều thách thức kỹ thuật đáng kể. Dữ liệu quan trắc môi trường thường chứa giá trị thiếu do lỗi thiết bị hoặc gián đoạn thu thập. Các thuộc tính trong bộ dữ liệu có mối quan hệ phi tuyến tính phức tạp, đòi hỏi phương pháp xử lý phù hợp. Số chiều dữ liệu lớn làm tăng thời gian huấn luyện và có thể gây hiện tượng quá khớp. Ngoài ra, bụi mịn chịu ảnh hưởng từ nhiều yếu tố như nhiệt độ, độ ẩm, tốc độ gió và hoạt động con người. Việc xác định đúng các biến quan trọng là bước tiền xử lý then chốt. Độ chính xác mô hình còn phụ thuộc vào cửa sổ thời gian đầu vào và khoảng dự báo. Những thách thức này yêu cầu quy trình kỹ thuật đặc trưng toàn diện trước khi áp dụng mô hình học sâu.

2.1. Vấn đề dữ liệu thiếu và nhiễu

Dữ liệu quan trắc môi trường thu thập từ các trạm đo thường xuyên có giá trị thiếu hoặc bất thường. Thiết bị cảm biến có thể hỏng hoặc bị ảnh hưởng bởi thời tiết khắc nghiệt. Việc xử lý dữ liệu thiếu bằng phương pháp giá trị trung bình là cách tiếp cận phổ biến nhưng có hạn chế. Phương pháp này có thể làm mất thông tin biến động quan trọng trong chuỗi thời gian. Dữ liệu nhiễu nếu không được lọc đúng cách sẽ khiến mô hình học sai quy luật. Cần kết hợp nhiều kỹ thuật tiền xử lý để đảm bảo chất lượng dữ liệu đầu vào.

2.2. Bài toán lựa chọn và trích xuất thuộc tính

Bộ dữ liệu môi trường chứa nhiều thuộc tính, không phải tất cả đều liên quan đến chỉ số bụi mịn. Các thuộc tính dư thừa làm tăng độ phức tạp tính toán và giảm hiệu suất mô hình. Phương pháp hệ số tương quan như Spearman giúp đánh giá mối quan hệ giữa các biến. Tuy nhiên việc đặt ngưỡng tương quan phù hợp đòi hỏi nhiều thực nghiệm. XGBoost cung cấp thứ bậc tầm quan trọng của thuộc tính dựa trên cấu trúc cây quyết định. Kết hợp nhiều phương pháp lựa chọn thuộc tính giúp tối ưu hóa dữ liệu đầu vào hiệu quả hơn.

III. Giải pháp dự đoán bụi mịn với BiLSTM Encoder Decoder

Kiến trúc BiLSTM Encoder-Decoder là giải pháp hiệu quả cho bài toán dự đoán chuỗi thời gian bụi mịn. Phần Encoder đọc dữ liệu đầu vào theo cả chiều xuôi và chiều ngược, tạo biểu diễn ngữ cảnh phong phú. Phần Decoder sử dụng biểu diễn này để sinh ra chuỗi dự báo cho các bước thời gian tương lai. Mô hình được huấn luyện với dữ liệu đã qua xử lý Feature Engineering kỹ lưỡng. Kỹ thuật Feature Selection sử dụng XGBoost giúp xác định tập thuộc tính tối ưu cho mô hình. Quá trình thực nghiệm với nhiều cửa sổ thời gian đầu ra khác nhau đánh giá tính linh hoạt của mô hình. Kết quả cho thấy BiLSTM Encoder-Decoder vượt trội hơn các mô hình cơ sở về các chỉ số đánh giá RMSE và MAE. Phương pháp này mở ra hướng tiếp cận mới cho hệ thống cảnh báo ô nhiễm không khí tại Hà Nội.

3.1. Kiến trúc mạng BiLSTM Encoder Decoder

BiLSTM là biến thể của LSTM xử lý dữ liệu cả hai chiều xuôi và ngược cùng lúc. Encoder mã hóa chuỗi đầu vào thành vector ngữ cảnh chứa thông tin toàn bộ chuỗi. Decoder giải mã vector này thành chuỗi dự báo mục tiêu theo từng bước thời gian. Cơ chế attention có thể được tích hợp để tập trung vào các thời điểm quan trọng. Kiến trúc này xử lý tốt mối quan hệ dài hạn trong dữ liệu quan trắc. Mô hình được tối ưu bằng thuật toán Adam với hàm mất mát MSE.

3.2. Kỹ thuật Feature Engineering cho dữ liệu môi trường

Feature Engineering bao gồm điền dữ liệu thiếu, chuẩn hóa và xây dựng đặc trưng mới. Phương pháp điền giá trị trung bình được áp dụng ban đầu cho các ô dữ liệu trống. Feature Selection sử dụng XGBoost đánh giá tầm quan trọng từng thuộc tính theo cấu trúc cây. Phương pháp Spearman với ngưỡng từ -0.2 đến -1 được thử nghiệm để lọc tương quan. Đặc trưng mới từ biến thời gian như giờ, ngày, mùa giúp mô hình học quy luật chu kỳ. Quy trình này cải thiện đáng kể chất lượng dữ liệu đầu vào cho mô hình học sâu.

IV. Kết luận và ứng dụng mô hình dự đoán bụi mịn Hà Nội

Nghiên cứu chứng minh hiệu quả của mô hình BiLSTM Encoder-Decoder trong dự đoán chỉ số bụi mịn PM2.5 và PM10 tại Hà Nội. Mô hình đạt kết quả khả quan trên các chỉ số đánh giá RMSE, MAE và R-squared so với phương pháp truyền thống. Kỹ thuật Feature Engineering đóng vai trò quan trọng trong việc cải thiện độ chính xác dự báo. Việc xác định đúng các yếu tố ảnh hưởng giúp mô hình tập trung học quy luật thực tế. Hệ thống dự đoán có thể triển khai thực tế để cảnh báo sớm cho người dân và cơ quan quản lý. Ứng dụng này hỗ trợ ra quyết định về các biện pháp giảm thiểu ô nhiễm kịp thời. Hướng phát triển tương lai bao gồm tích hợp thêm dữ liệu vệ tinh và mở rộng phạm vi dự báo. Công nghệ trí tuệ nhân tạo sẽ ngày càng đóng vai trò quan trọng trong bảo vệ môi trường sống.

4.1. Kết quả đánh giá hiệu suất mô hình

Mô hình BiLSTM Encoder-Decoder được đánh giá qua các chỉ số RMSE, MAE và R-squared trên tập kiểm tra. Kết quả cho thấy mô hình dự đoán chính xác xu hướng biến động bụi mịn theo thời gian. So sánh với các mô hình cơ sở như ARIMA, Random Forest, BiLSTM Encoder-Decoder cho hiệu suất vượt trội. Trường hợp đầu vào 24 giờ và đầu ra 1 giờ đạt kết quả ổn định nhất. Mô hình hoạt động tốt với cả chỉ số PM2.5 và PM10 trên bộ dữ liệu Hà Nội.

4.2. Ứng dụng thực tế và hướng phát triển

Mô hình dự đoán bụi mịn có thể tích hợp vào hệ thống cảnh báo môi trường đô thị. Cơ quan chức năng sử dụng kết quả dự báo để phát thông báo sức khỏe cộng đồng. Người dân chủ động bảo vệ bản thân bằng cách hạn chế hoạt động ngoài trời khi AQI cao. Hướng phát triển bao gồm áp dụng mô hình cho các thành phố lớn khác tại Việt Nam. Tích hợp dữ liệu thời tiết thực tế và bản đồ vệ tinh giúp cải thiện độ chính xác.

28/05/2026