Luận văn Thạc sĩ Bách Khoa HN: Dự đoán PM2.5 bằng GA và Encoder-Decoder

Luận văn thạc sĩ tiếng Anh Đại học Bách Khoa Hà Nội: Tổng hợp các nghiên cứu chuyên sâu, tài liệu tham khảo giá trị cho học viên cao học.

Trường đại học

Hanoi University of Science and Technology

Chuyên ngành

Data Science and Artificial Intelligence

Người đăng

Ẩn danh

Thể loại

Luận văn Thạc sĩ

2021

Phí lưu trữ

30 Point

Mục lục chi tiết

ACKNOWLEDGEMENTS

ABSTRACT

LIST OF FIGURES

LIST OF TABLES

LIST OF EQUATIONS

ABBREVIATIONS AND TERMS

1. CHƯƠNG 1: INTRODUCTION

1.1. Forecasting problem

1.2. Existing solutions and problems

1.3. Goals and approaches

1.4. Structure of thesis

2. CHƯƠNG 2: RELATED WORKS

3. CHƯƠNG 3: BACKGROUND KNOWLEDGE

3.1. Artificial Intelligence

3.2. Machine learning overview

3.3. Deep learning overview

3.4. Long short-term memory

3.5. Encoder-Decoder model

4. CHƯƠNG 4: PROPOSED METHOD

4.1. The importance of features

4.2. Proposed Forecasting Framework (OFFGED)

4.2.1. GA-based feature selection

4.2.2. Encoder-Decoder model-based prediction

5. CHƯƠNG 5: PERFORMANCE EVALUATION

5.1. Dataset and evaluation settings

5.2. Impact of the GA’s number of generations

5.3. Comparing feature selection algorithms

5.4. Comparing prediction models

5.4.1. Comparing ED-LSTM, AE-BiLSTM, and AC-LSTM

5.4.2. Comparing ED-LSTM and ST-DNN

5.5. Novel Training Strategy (LTS2)

6. CHƯƠNG 6: CONCLUSION

REFERENCES

Tóm tắt

I. Luận văn Thạc sĩ Bách Khoa Định Hình PM2

Ô nhiễm không khí, đặc biệt là bụi mịn PM2.5 (particulate matter), đã nổi lên như một thách thức môi trường cấp bách, có tác động sức khỏe cộng đồng nghiêm trọng và ảnh hưởng đến chất lượng cuộc sống đô thị. Các hạt PM2.5, với đường kính nhỏ hơn 2.5 micromet, có khả năng đi sâu vào hệ hô hấp và máu, gây ra các bệnh tim mạch, hô hấp và các vấn đề sức khỏe mãn tính khác. Tổ chức Y tế Thế giới (WHO) đã nhiều lần cảnh báo về nguy cơ này, nhấn mạnh sự cần thiết của các chiến lược kiểm soát ô nhiễm không khí hiệu quả. Trong bối cảnh đó, khả năng dự báo chất lượng không khí, đặc biệt là dự đoán PM2.5 chính xác, đóng vai trò then chốt trong việc bảo vệ người dân và hoạch định chính sách môi trường. Một luận văn Thạc sĩ tiếng Anh Bách Khoa gần đây, thực hiện tại Đại học Bách Khoa Hà Nội, đã trình bày một hướng tiếp cận tiên tiến, hứa hẹn tạo ra một bước ngoặt trong lĩnh vực PM2.5 prediction models.

Nghiên cứu này không chỉ là một luận văn Thạc sĩ thông thường mà còn là một nỗ lực sâu sắc trong việc ứng dụng các kỹ thuật tiên tiến của học máy cho chất lượng không khí và học sâu PM2.5 để giải quyết vấn đề dự báo PM2.5. Mục tiêu chính của luận văn Thạc sĩ tiếng Anh Bách Khoa này là khắc phục hai hạn chế lớn trong các mô hình dự đoán PM2.5 hiện tại: sự ràng buộc giữa độ dài đầu vào và đầu ra của mô hình, cũng như việc thiếu một phương pháp chọn lọc đặc trưng tối ưu. Các nghiên cứu trước đây thường gặp khó khăn trong việc dự đoán xa hơn độ dài dữ liệu đầu vào, hoặc sử dụng tất cả các yếu tố môi trường mà không cân nhắc về mức độ liên quan, dẫn đến giảm độ chính xác và tăng thời gian tính toán. Luận văn Thạc sĩ tiếng Anh Bách Khoa này đã đề xuất một phương pháp luận luận văn Thạc sĩ dự đoán PM2.5 mới, kết hợp thuật toán di truyền (GA) để tuyển chọn đặc trưng và mô hình Encoder-Decoder dựa trên LSTM, nhằm đạt được độ chính xác cao và linh hoạt hơn trong việc xử lý dữ liệu chuỗi thời gian.

Giá trị của việc dự đoán PM2.5 chính xác được thể hiện rõ trong khả năng cung cấp thông tin kịp thời cho các chiến lược kiểm soát ô nhiễm không khí và các quyết định y tế công cộng. Chẳng hạn, một hệ thống dự báo chất lượng không khí đáng tin cậy có thể cảnh báo người dân về những ngày có nồng độ bụi mịn cao, cho phép họ thực hiện các biện pháp phòng ngừa như đeo khẩu trang hoặc hạn chế hoạt động ngoài trời. Đồng thời, nó hỗ trợ các cơ quan quản lý môi trường trong việc đánh giá hiệu quả của các chính sách và điều chỉnh chúng khi cần thiết. Đây là một ví dụ điển hình về phân tích dữ liệu môi trường và phân tích dự đoán môi trường ứng dụng vào một vấn đề thực tế, mang lại lợi ích thiết thực cho xã hội. Luận văn Thạc sĩ tiếng Anh Bách Khoa: PM2.5 Prediction này không chỉ đóng góp vào kho tàng nghiên cứu khoa học khí quyển mà còn mở ra tiềm năng cho các ứng dụng thực tiễn trong việc quản lý môi trường đô thị và bảo vệ sức khỏe cộng đồng.

1.1. Tầm quan trọng của Dự báo Chất lượng Không khí và Tác động Sức khỏe Cộng đồng

Chỉ số chất lượng không khí, đặc biệt là nồng độ PM2.5, là thước đo sống còn để đánh giá mức độ nghiêm trọng của ô nhiễm không khí. Các hạt bụi mịn PM2.5 có khả năng đi sâu vào phổi và hệ thống tim mạch, gây ra những hậu quả sức khỏe nghiêm trọng như đột quỵ, đau tim và các bệnh hô hấp mãn tính. Việc dự báo chất lượng không khí chính xác, đặc biệt là dự đoán PM2.5, không chỉ giúp cộng đồng nhận thức được rủi ro mà còn cung cấp cơ sở để chính phủ và người dân chủ động triển khai các chiến lược kiểm soát ô nhiễm không khí phù hợp. Điều này giảm thiểu tối đa tác động sức khỏe cộng đồng tiêu cực. Sự quan tâm ngày càng tăng đối với dự báo chất lượng không khí đã thúc đẩy nghiên cứu khoa học khí quyển và phân tích dữ liệu môi trường phát triển mạnh mẽ, nhằm cung cấp các mô hình dự đoán PM2.5 hiệu quả hơn cho các khu vực ô nhiễm không khí đô thị.

1.2. Thách thức Hiện tại trong Mô hình Dự đoán PM2.5

Mặc dù đã có nhiều nỗ lực đáng kể, các mô hình dự đoán PM2.5 hiện tại vẫn phải đối mặt với hai vấn đề chính. Thứ nhất, tồn tại sự hạn chế về độ dài đầu vào và đầu ra của mô hình. Điều này có nghĩa là số bước thời gian trong đầu ra của mô hình không thể vượt quá số bước thời gian của đầu vào, giới hạn khả năng dự báo dài hạn. Thứ hai, việc chọn lọc đặc trưng chưa được tối ưu. Dữ liệu môi trường về chất lượng không khí bao gồm hàng chục yếu tố khác ngoài PM2.5, như nồng độ các chất gây ô nhiễm khác, nhiệt độ và độ ẩm. Việc sử dụng không phù hợp các yếu tố này không chỉ làm giảm độ chính xác mà còn tăng thêm thời gian tính toán. Do đó, việc lựa chọn sự kết hợp đặc trưng tối ưu là yếu tố thiết yếu để nâng cao hiệu suất của các mô hình dự đoán PM2.5 và đảm bảo phân tích dữ liệu môi trường hiệu quả.

II. Bí quyết Tối ưu Chọn Lọc Đặc trưng GA Encoder Decoder PM2

Để giải quyết các thách thức còn tồn tại trong lĩnh vực dự đoán PM2.5, luận văn Thạc sĩ tiếng Anh Bách Khoa này đã đề xuất một phương pháp tiếp cận mới đầy hứa hẹn, kết hợp sức mạnh của thuật toán di truyền (GA) trong chọn lọc đặc trưng và khả năng của mô hình Encoder-Decoder dựa trên LSTM cho dự báo chất lượng không khí. Sự kết hợp này mang lại khả năng vượt trội trong việc xử lý dữ liệu chuỗi thời gian phức tạp và cải thiện đáng kể độ chính xác của mô hình dự đoán PM2.5. Đặc biệt, phương pháp này tập trung vào việc tạo ra sự linh hoạt tối đa về độ dài đầu vào và đầu ra, một yếu tố then chốt cho các ứng dụng dự báo chất lượng không khí trong thế giới thực.

Thuật toán di truyền (GA) được tận dụng để thực hiện chọn lọc đặc trưng theo một cách gần như tối ưu. Thay vì dựa vào các phương pháp truyền thống có thể bỏ sót các mối quan hệ phức tạp, GA sử dụng cơ chế tiến hóa tự nhiên để tìm kiếm tổ hợp đặc trưng tốt nhất, giúp loại bỏ các yếu tố ngoại lai và cải thiện độ chính xác dự đoán. Đây là một ứng dụng tiêu biểu của học máy cho chất lượng không khí nhằm tinh chỉnh dữ liệu đầu vào. Các mô hình dự đoán PM2.5 thường gặp phải vấn đề nhiễu từ các đặc trưng không liên quan; GA giải quyết vấn đề này một cách hiệu quả, đóng góp vào việc tạo ra một mô hình dự đoán PM2.5 mạnh mẽ hơn.

Bên cạnh đó, mô hình Encoder-Decoder dựa trên LSTM là cốt lõi của giải pháp dự đoán. LSTM (Long Short-Term Memory) là một loại mạng thần kinh hồi quy (RNN) có khả năng vượt trội trong việc học các phụ thuộc dài hạn trong dữ liệu chuỗi thời gian, điều mà các RNN truyền thống thường thất bại do vấn đề gradient biến mất. Mô hình Encoder-Decoder với LSTM cho phép mô hình xử lý các chuỗi đầu vào có độ dài tùy ý và tạo ra các chuỗi đầu ra có độ dài khác nhau, loại bỏ hoàn toàn hạn chế về độ dài đầu vào/đầu ra mà các mô hình dự đoán PM2.5 khác thường gặp. Cụ thể, encoder sẽ thu thập thông tin từ chuỗi đầu vào, nén thành một 'trạng thái ngữ cảnh', sau đó decoder sẽ sử dụng trạng thái này để tạo ra chuỗi dự đoán PM2.5 trong tương lai. Sự tích hợp này không chỉ nâng cao độ chính xác mà còn tăng cường tính linh hoạt cho phân tích chuỗi thời gian PM2.5.

Tổng thể, sự kết hợp giữa GA và mô hình Encoder-Decoder là một bước tiến quan trọng trong nghiên cứu khoa học khí quyển và phân tích dự đoán môi trường. Nó không chỉ cung cấp một phương pháp luận luận văn Thạc sĩ dự đoán PM2.5 mạnh mẽ mà còn mở ra cánh cửa cho việc phát triển các hệ thống dự báo chất lượng không khí thông minh hơn, có khả năng thích ứng cao hơn với các điều kiện môi trường biến đổi.

2.1. Vai trò của Thuật toán Di truyền trong Chọn Lọc Đặc trưng PM2.5

Thuật toán di truyền (GA) là một phương pháp tìm kiếm và tối ưu meta-heuristic, mô phỏng quá trình chọn lọc tự nhiên để tìm ra các giải pháp tối ưu. Trong luận văn Thạc sĩ tiếng Anh Bách Khoa này, GA được sử dụng để giải quyết vấn đề chọn lọc đặc trưng cho dự đoán PM2.5. Mỗi 'cá thể' trong GA đại diện cho một tổ hợp các đặc trưng (ví dụ: nhiệt độ, độ ẩm, tốc độ gió, nồng độ các chất ô nhiễm khác). GA sẽ đánh giá 'sự phù hợp' của từng tổ hợp đặc trưng dựa trên hiệu suất của mô hình dự đoán PM2.5, thường là qua chỉ số MAE (Mean Absolute Error). Qua các thế hệ lặp lại với các phép toán di truyền như lai ghép (crossover) và đột biến (mutation), GA tìm kiếm tổ hợp đặc trưng tối ưu nhất. Điều này giúp loại bỏ các đặc trưng không liên quan hoặc gây nhiễu, giảm độ phức tạp tính toán và cải thiện đáng kể độ chính xác của dự báo chất lượng không khí, biến nó thành một công cụ mạnh mẽ trong phân tích dữ liệu môi trường.

2.2. Kiến trúc Encoder Decoder dựa trên LSTM cho Dự báo Chất lượng Không khí

Mô hình Encoder-Decoder là một kiến trúc mạnh mẽ, ban đầu được phát triển cho các bài toán xử lý ngôn ngữ tự nhiên, nay đã được chứng minh hiệu quả trong dự báo chất lượng không khí, đặc biệt là dự đoán PM2.5. Kiến trúc này bao gồm hai phần chính: Encoder và Decoder. Encoder nhận một chuỗi đầu vào (ví dụ: dữ liệu chất lượng không khí lịch sử trong một khoảng thời gian l nhất định), xử lý nó qua các đơn vị LSTM để tạo ra một 'trạng thái ngữ cảnh' (context vector) chứa thông tin tóm tắt của toàn bộ chuỗi đầu vào. Trạng thái ngữ cảnh này sau đó được truyền cho Decoder. Decoder, cũng gồm các đơn vị LSTM, sử dụng trạng thái ngữ cảnh và các dự đoán ở bước thời gian trước đó để tạo ra chuỗi dự đoán PM2.5 cho h bước thời gian trong tương lai. Ưu điểm lớn nhất của mô hình này là khả năng 'nới lỏng' các ràng buộc về độ dài giữa chuỗi đầu vào và đầu ra, giúp mô hình dự đoán PM2.5 linh hoạt hơn rất nhiều trong việc dự báo nhiều bước về phía trước, tối ưu hóa cho phân tích chuỗi thời gian PM2.5.

III. Cách Phân tích Dữ liệu Môi trường và Đánh giá Dự đoán PM2

Việc xây dựng một mô hình dự đoán PM2.5 chính xác đòi hỏi một quy trình tỉ mỉ từ thu thập và tiền xử lý dữ liệu đến đánh giá hiệu suất mô hình một cách khách quan. Luận văn Thạc sĩ tiếng Anh Bách Khoa này đã đặt trọng tâm vào các bước quan trọng này để đảm bảo độ tin cậy của kết quả dự báo chất lượng không khí. Dữ liệu môi trường có thể rất đa dạng và phức tạp, bao gồm các chỉ số về nồng độ các chất ô nhiễm, dữ liệu khí tượng từ cảm biến PM2.5, và thậm chí các yếu tố về giao thông hay sử dụng đất. Do đó, việc hiểu rõ cách thức xử lý và phân tích các loại dữ liệu này là chìa khóa để đạt được hiệu suất tối ưu cho PM2.5 prediction models.

Quy trình phân tích dữ liệu môi trường bắt đầu bằng việc thu thập các tập dữ liệu toàn diện. Trong nghiên cứu này, luận văn Thạc sĩ tiếng Anh Bách Khoa đã sử dụng hai bộ dữ liệu chính: dữ liệu chất lượng không khí từ Hà Nội (Việt Nam) và Đài Loan. Các bộ dữ liệu này chứa thông tin hàng giờ về PM2.5 cùng với các yếu tố liên quan như nhiệt độ, độ ẩm, tốc độ gió, và nồng độ các chất ô nhiễm khác (CO, NO2, O3, PM10, v.v.). Một vấn đề phổ biến với dữ liệu môi trường là sự thiếu vắng dữ liệu. Nghiên cứu đã xử lý các điểm dữ liệu bị thiếu bằng cách sử dụng phương pháp thay thế giá trị trung vị (median imputation), đảm bảo rằng sự thiếu hụt dữ liệu không làm sai lệch kết quả đánh giá. Việc tiền xử lý dữ liệu cẩn thận này là nền tảng cho bất kỳ mô hình dự đoán PM2.5 nào.

Sau khi dữ liệu đã được chuẩn bị, bước tiếp theo là kỹ thuật đặc trưng PM2.5 (feature engineering). Đây là quá trình biến đổi dữ liệu thô thành một tập hợp các đặc trưng có thể đại diện tốt hơn cho dữ liệu gốc và phù hợp với mô hình dự đoán. Việc chọn lọc đặc trưng (feature selection) là một phần quan trọng của kỹ thuật này, nhằm xác định những yếu tố có ảnh hưởng nhất đến dự đoán PM2.5 và loại bỏ những yếu tố không cần thiết, giúp đơn giản hóa mô hình, tăng tốc độ tính toán và cải thiện độ chính xác. Luận văn Thạc sĩ tiếng Anh Bách Khoa này đã chứng minh rằng việc sử dụng thuật toán di truyền (GA) để chọn lọc đặc trưng vượt trội hơn so với các phương pháp khác như chỉ sử dụng PM2.5 đơn thuần, sử dụng tất cả các đặc trưng, hay các phương pháp dựa trên XGBoost và tương quan Pearson. Điều này nhấn mạnh tầm quan trọng của việc tối ưu hóa đầu vào cho PM2.5 prediction models.

Cuối cùng, việc đánh giá hiệu suất mô hình là không thể thiếu. Các chỉ số đánh giá mô hình như MAE (Mean Absolute Error) được sử dụng để định lượng mức độ chính xác của dự đoán so với giá trị thực tế. Việc so sánh với các mô hình dự đoán PM2.5 tiên tiến khác (như AE-BiLSTM, AC-LSTM, ST-DNN) đã chứng minh hiệu suất vượt trội của phương pháp được đề xuất trong luận văn Thạc sĩ tiếng Anh Bách Khoa này, cả khi sử dụng tất cả các đặc trưng lẫn khi sử dụng các đặc trưng đã được chọn lọc bằng GA. Điều này khẳng định tiềm năng của phương pháp trong việc cải thiện đáng kể dự báo chất lượng không khí và cung cấp các công cụ mạnh mẽ hơn cho phân tích dữ liệu môi trường.

3.1. Các Bước Thu thập và Tiền xử lý Dữ liệu cho Dự đoán PM2.5

Để xây dựng một mô hình dự đoán PM2.5 đáng tin cậy, bước đầu tiên là thu thập dữ liệu toàn diện và sau đó là tiền xử lý dữ liệu cẩn thận. Luận văn Thạc sĩ tiếng Anh Bách Khoa này đã sử dụng hai bộ dữ liệu chính: dữ liệu Hà Nội và dữ liệu Đài Loan. Dữ liệu Hà Nội bao gồm thông tin hàng giờ từ tháng 1 năm 2016 đến tháng 1 năm 2018, trong khi dữ liệu Đài Loan là thông tin hàng giờ từ tháng 1 năm 2014 đến tháng 9 năm 2017. Cả hai bộ dữ liệu đều chứa nồng độ PM2.5 và các chỉ số liên quan như nhiệt độ, độ ẩm, tốc độ gió, và các chất ô nhiễm khác (CO, NO, NO2, NOx, O3, PM10, RH, SO2). Một thách thức phổ biến trong phân tích dữ liệu môi trường là dữ liệu bị thiếu. Nghiên cứu đã giải quyết vấn đề này bằng cách sử dụng phương pháp thay thế giá trị trung vị (median imputation) để điền vào các khoảng trống, vì tỷ lệ dữ liệu thiếu tương đối nhỏ và không làm sai lệch các tham số cụ thể trong mô hình. Bước tiền xử lý dữ liệu này đảm bảo chất lượng dữ liệu đầu vào cho PM2.5 prediction models.

3.2. Tiêu chí Đánh giá Hiệu suất Mô hình trong Dự báo Chất lượng Không khí

Việc đánh giá hiệu suất mô hình là bước quan trọng để xác định độ tin cậy và chính xác của mô hình dự đoán PM2.5. Trong luận văn Thạc sĩ tiếng Anh Bách Khoa này, chỉ số MAE (Mean Absolute Error) được sử dụng làm thước đo chính. MAE đo lường giá trị trung bình của sự khác biệt tuyệt đối giữa các giá trị dự đoán và giá trị thực tế, cung cấp một chỉ số trực quan về sai số trung bình của mô hình. Để đảm bảo tính khách quan, nghiên cứu đã tiến hành so sánh mô hình ED-LSTM đề xuất với các phương pháp dự báo chất lượng không khí tiên tiến khác như AE-BiLSTM, AC-LSTM và ST-DNN. Các chỉ số đánh giá mô hình này không chỉ giúp định lượng sự cải thiện về độ chính xác mà còn cho phép phân tích sâu hơn về khả năng của mô hình trong việc nắm bắt các xu hướng và đỉnh điểm của nồng độ PM2.5. Việc đánh giá kỹ lưỡng này là nền tảng để khẳng định hiệu quả của phương pháp luận luận văn Thạc sĩ dự đoán PM2.5 đã được phát triển.

IV. PM2

Các kết quả nghiên cứu từ luận văn Thạc sĩ tiếng Anh Bách Khoa về dự đoán PM2.5 đã chứng minh hiệu suất đột phá của phương pháp kết hợp thuật toán di truyền (GA) và mô hình Encoder-Decoder dựa trên LSTM. Việc đánh giá được thực hiện trên các bộ dữ liệu thực tế từ Hà Nội và Đài Loan đã cung cấp những bằng chứng rõ ràng về khả năng vượt trội của mô hình trong việc dự báo chất lượng không khí. Những thành tựu này không chỉ có ý nghĩa học thuật mà còn mở ra nhiều ứng dụng thực tiễn quan trọng, góp phần vào việc bảo vệ sức khỏe cộng đồng và quản lý môi trường.

Khi so sánh với các phương pháp chọn lọc đặc trưng khác (chỉ sử dụng PM2.5, sử dụng tất cả các đặc trưng, XGBoost và tương quan Pearson), phương pháp GA-based đã đạt được MAE thấp nhất trên cả hai bộ dữ liệu Hà Nội và Đài Loan. Điều này khẳng định tầm quan trọng của việc tối ưu hóa kỹ thuật đặc trưng PM2.5 trong việc xây dựng các mô hình dự đoán PM2.5 chính xác. Đặc biệt, nghiên cứu đã chỉ ra rằng việc sử dụng tất cả các đặc trưng đôi khi còn cho kết quả tệ hơn so với chỉ sử dụng PM2.5 đơn thuần, nhấn mạnh rằng 'càng nhiều dữ liệu không phải lúc nào cũng tốt hơn' nếu không có sự chọn lọc đặc trưng thông minh. Cụ thể, GA-based giảm MAE 6% và 16% so với việc chỉ dùng PM2.5 và tất cả các đặc trưng cho dữ liệu Hà Nội. Đối với dữ liệu Đài Loan, GA-based giảm MAE lần lượt 4%, 8%, 3% và 4% so với việc chỉ dùng PM2.5, tất cả các đặc trưng, XGBoost và tương quan Pearson.

Ngoài ra, luận văn Thạc sĩ tiếng Anh Bách Khoa này cũng đã chứng minh hiệu suất vượt trội của mô hình ED-LSTM so với các PM2.5 prediction models tiên tiến khác như AE-BiLSTM, AC-LSTM và ST-DNN. Khi sử dụng các đặc trưng được chọn lọc bởi GA, mô hình ED-LSTM đã giảm MAE trung bình lên tới 53.7% so với AE-BiLSTM và 20.1% so với AC-LSTM trên bộ dữ liệu Hà Nội. So sánh với ST-DNN trên bộ dữ liệu Đài Loan, ED-LSTM cũng thể hiện sự cải thiện đáng kể về độ chính xác, với MAE thấp hơn từ 14.82% đến 41.89%, đặc biệt là khi dự đoán nhiều bước về phía trước. Điều này chứng minh rằng sự kết hợp giữa Encoder-Decoder và LSTM cùng với chọn lọc đặc trưng thông minh là chìa khóa để đạt được độ chính xác cao trong dự báo chất lượng không khí.

Những kết quả này có ý nghĩa sâu sắc đối với ứng dụng thực tiễn của dự đoán PM2.5. Với khả năng dự báo chính xác cao, mô hình có thể được tích hợp vào các hệ thống giám sát chất lượng không khí theo thời gian thực, cung cấp cảnh báo sớm cho người dân và hỗ trợ các cơ quan chức năng trong việc triển khai các chiến lược kiểm soát ô nhiễm không khí kịp thời. Điều này không chỉ giúp giảm thiểu tác động sức khỏe cộng đồng mà còn nâng cao hiệu quả quản lý môi trường đô thị.

4.1. Mô hình Dự đoán PM2.5 tại Hà Nội và Đài Loan Đánh giá Chi tiết

Nghiên cứu trong luận văn Thạc sĩ tiếng Anh Bách Khoa đã đánh giá kỹ lưỡng mô hình dự đoán PM2.5 đề xuất trên hai bộ dữ liệu quan trọng: Hà Nội và Đài Loan. Với dữ liệu Hà Nội, việc sử dụng các đặc trưng được chọn lọc bởi thuật toán di truyền (GA) đã giúp mô hình ED-LSTM giảm đáng kể MAE so với việc sử dụng tất cả các đặc trưng. Các đặc trưng tối ưu được xác định cho Hà Nội bao gồm tốc độ gió, nhiệt độ, bức xạ, PM10 và PM2.5. Đối với dữ liệu Đài Loan, mô hình cũng cho thấy hiệu suất vượt trội. Việc đánh giá này không chỉ xác nhận hiệu quả của GA trong chọn lọc đặc trưng mà còn khẳng định khả năng tổng quát hóa của mô hình trên các môi trường dữ liệu khác nhau, là một đóng góp quan trọng cho nghiên cứu khoa học khí quyển và phân tích dữ liệu môi trường.

4.2. So sánh Hiệu suất PM2.5 Prediction Models với Các Phương pháp Hiện hành

Một phần quan trọng của luận văn Thạc sĩ tiếng Anh Bách Khoa là việc so sánh mô hình ED-LSTM với các PM2.5 prediction models hiện có. So sánh với AE-BiLSTM và AC-LSTM trên bộ dữ liệu Hà Nội, ED-LSTM đã đạt được độ chính xác cao hơn rõ rệt. Cụ thể, với các đặc trưng được GA chọn lọc, ED-LSTM giảm MAE tới hơn 53.7% so với AE-BiLSTM và 20.1% so với AC-LSTM. Khi so sánh với mô hình ST-DNN sử dụng dữ liệu Đài Loan, ED-LSTM cũng thể hiện sự vượt trội, cải thiện độ chính xác từ 14.82% đến 41.89%. Điều này không chỉ chứng minh tính hiệu quả của phương pháp lai ghép được đề xuất mà còn định vị nó là một trong những giải pháp hàng đầu trong dự báo chất lượng không khí, mở ra triển vọng cho các hệ thống phân tích dự đoán môi trường tiên tiến.

V. Hướng tới Tương lai Dự đoán PM2

Các phát hiện từ luận văn Thạc sĩ tiếng Anh Bách Khoa về dự đoán PM2.5 không chỉ mang lại những cải tiến đáng kể về mặt kỹ thuật mà còn mở ra những hướng đi mới cho nghiên cứu khoa học khí quyển và ứng dụng thực tiễn của dự đoán PM2.5. Với hiệu suất vượt trội và khả năng linh hoạt trong việc xử lý dữ liệu chuỗi thời gian, mô hình ED-LSTM kết hợp GA có tiềm năng lớn để trở thành công cụ quan trọng trong các chiến lược kiểm soát ô nhiễm không khí và bảo vệ sức khỏe cộng đồng.

Một trong những đóng góp đáng chú ý khác của luận văn Thạc sĩ tiếng Anh Bách Khoa này là việc giới thiệu Chiến lược Đào tạo Tiết kiệm Thời gian Trọng lượng nhẹ (LTS2). Chiến lược này được phát triển để tăng tốc quá trình tính toán độ phù hợp của thuật toán di truyền (GA), vốn là một tác vụ tiêu tốn nhiều tài nguyên. LTS2 cho phép mô hình được đào tạo hiệu quả hơn bằng cách sử dụng các tập dữ liệu con, đồng thời duy trì khả năng học hỏi các mối quan hệ phức tạp trong dữ liệu chuỗi thời gian. Đây là một bước tiến quan trọng để làm cho các mô hình dự đoán PM2.5 trở nên thực tế hơn cho các ứng dụng yêu cầu tốc độ xử lý cao, hỗ trợ việc triển khai các hệ thống cảm biến PM2.5 thời gian thực.

Trong tương lai, việc dự đoán PM2.5 chính xác sẽ đóng vai trò ngày càng quan trọng trong việc hình thành các chính sách môi trường và các biện pháp y tế công cộng. Các mô hình như ED-LSTM có thể cung cấp dữ liệu dự báo kịp thời cho các chỉ số chất lượng không khí (AQI), giúp các nhà hoạch định chính sách đưa ra quyết định dựa trên bằng chứng để giảm thiểu ô nhiễm không khí đô thị. Đồng thời, người dân có thể sử dụng thông tin này để bảo vệ bản thân, đặc biệt là các nhóm dân số dễ bị tổn thương. Nghiên cứu này cũng mở ra tiềm năng cho việc tích hợp sâu hơn giữa IoT (Internet of Things) và AI trong các hệ thống giám sát chất lượng không khí, nơi các cảm biến PM2.5 thu thập dữ liệu liên tục và các mô hình học sâu PM2.5 sẽ tự động phân tích và dự báo. Điều này sẽ giúp xây dựng các thành phố thông minh hơn, nơi chất lượng không khí được quản lý hiệu quả và bền vững.

Tổng kết lại, luận văn Thạc sĩ tiếng Anh Bách Khoa: PM2.5 Prediction này đã đặt nền móng cho một phương pháp mạnh mẽ, đáng tin cậy để dự báo chất lượng không khí, với những đóng góp quan trọng trong kỹ thuật đặc trưng PM2.5, kiến trúc mô hình và chiến lược đào tạo. Những thành tựu này không chỉ có giá trị học thuật mà còn có tiềm năng ứng dụng rộng rãi, góp phần vào mục tiêu chung là một môi trường sống trong lành và bền vững hơn cho tất cả mọi người.

5.1. Chiến lược Đào tạo Mô hình Mới Giảm Thời gian Tăng Hiệu quả

Luận văn Thạc sĩ tiếng Anh Bách Khoa đã giới thiệu Chiến lược Đào tạo Tiết kiệm Thời gian Trọng lượng nhẹ (LTS2 - Lightweight Time Saving Training Strategy) để giải quyết vấn đề thời gian đào tạo kéo dài, đặc biệt khi sử dụng thuật toán di truyền (GA) để tính toán độ phù hợp. LTS2 cho phép phân chia toàn bộ tập dữ liệu đào tạo thành các tập dữ liệu con nhỏ hơn. Bằng cách đào tạo mô hình trên các tập dữ liệu con này, thời gian để đánh giá độ phù hợp của mỗi cá thể trong GA được giảm thiểu đáng kể. Chiến lược này bao gồm bốn biến thể dựa trên cách thức phân chia (cố định hoặc ngẫu nhiên) và cách thức sử dụng tập dữ liệu con (cho tất cả cá thể hoặc ngẫu nhiên cho từng cá thể). LTS2 là một đóng góp quan trọng giúp tăng tốc quá trình tối ưu hóa, làm cho các mô hình dự đoán PM2.5 phức tạp trở nên khả thi hơn cho các ứng dụng thực tế và phân tích dữ liệu môi trường quy mô lớn.

5.2. Dự đoán PM2.5 Chính xác Góp phần vào Chiến lược Kiểm soát Ô nhiễm

Khả năng dự đoán PM2.5 với độ chính xác cao, như đã được chứng minh trong luận văn Thạc sĩ tiếng Anh Bách Khoa này, có ý nghĩa to lớn đối với việc xây dựng và thực thi các chiến lược kiểm soát ô nhiễm không khí. Bằng cách cung cấp dự báo chất lượng không khí kịp thời và đáng tin cậy, các cơ quan chức năng có thể đưa ra các cảnh báo sớm cho người dân, đặc biệt là những đối tượng nhạy cảm như trẻ em và người già, giúp họ chủ động bảo vệ sức khỏe. Đồng thời, thông tin dự báo này hỗ trợ các quyết định chính sách, từ việc điều chỉnh hoạt động công nghiệp đến quản lý giao thông, nhằm giảm thiểu phát thải bụi mịn. Đây là một bước tiến quan trọng trong việc ứng dụng phân tích dự đoán môi trường để giải quyết các vấn đề môi trường thực tế, góp phần cải thiện chất lượng không khí đô thị và bảo vệ sức khỏe cộng đồng toàn diện hơn.

30/09/2025

Bạn đang xem trước tài liệu:

Luận văn tốt nghiệp thạc sĩ tiếng anh đại học bách khoa hà nội

Tải đầy đủ

Nội dung chính

Chắc chắn rồi, với 10 năm kinh nghiệm trong lĩnh vực học thuật và viết lách, tôi sẽ phân tích và tạo ra nội dung SEO chuyên sâu cho luận văn thạc sĩ này, đảm bảo tuân thủ mọi yêu cầu kỹ thuật và quy tắc đã đề ra.

Dưới đây là nội dung chi tiết.

Tổng quan nghiên cứu (250-300 từ)

Ô nhiễm bụi mịn PM2.5, với các hạt có đường kính nhỏ hơn 2.5 micromet, đang là một thách thức môi trường nghiêm trọng, có khả năng xâm nhập sâu vào phổi và gây ra các bệnh về tim mạch và hô hấp. Các nghiên cứu trước đây chỉ ra rằng phơi nhiễm PM2.5 trong thời gian dài có thể dẫn đến các cơn đau tim và đột quỵ. Vì vậy, việc dự báo chính xác nồng độ PM2.5 là yếu tố then chốt để các cơ quan chức năng và người dân có biện pháp phòng ngừa kịp thời.

Tuy nhiên, các mô hình dự báo hiện tại thường đối mặt với hai vấn đề lớn: (1) lựa chọn đặc trưng đầu vào chưa tối ưu, dẫn đến độ chính xác thấp và lãng phí tài nguyên tính toán; (2) bị giới hạn về độ dài chuỗi đầu vào và đầu ra, không thể dự báo dài hạn một cách linh hoạt. Luận văn này đề xuất một mô hình dự báo đột phá mang tên OFFGED, kết hợp Thuật toán Di truyền (GA) để tự động lựa chọn tổ hợp đặc trưng tối ưu và mô hình Mã hóa-Giải mã (Encoder-Decoder) dựa trên LSTM để dự báo nồng độ PM2.5.

Nghiên cứu được thực hiện trên hai bộ dữ liệu thực tế tại Hà Nội (2016-2018) và Đài Loan (2014-2017). Kết quả cho thấy mô hình đề xuất không chỉ cải thiện độ chính xác lên tới 53.7% so với các phương pháp trước đó mà còn vượt trội hơn mô hình tiên tiến nhất (state-of-the-art) ST-DNN từ 14.82% đến 41.89%.

Cơ sở lý thuyết và phương pháp nghiên cứu (400-450 từ)

Khung lý thuyết áp dụng

Nghiên cứu này được xây dựng trên nền tảng của các lý thuyết và mô hình học sâu tiên tiến, tập trung vào việc giải quyết các bài toán chuỗi thời gian phức tạp.

Mô hình Mã hóa-Giải mã (Encoder-Decoder - E-D): Đây là kiến trúc nòng cốt, được thiết kế để xử lý các chuỗi có độ dài thay đổi. Bộ mã hóa (Encoder) sử dụng một mạng nơ-ron hồi quy để nén toàn bộ chuỗi dữ liệu đầu vào (ví dụ: dữ liệu chất lượng không khí trong 48 giờ qua) thành một véc-tơ ngữ cảnh. Sau đó, bộ giải mã (Decoder) sử dụng véc-tơ này để tạo ra một chuỗi đầu ra mới (ví dụ: dự báo nồng độ PM2.5 trong 6 giờ tới). Ưu điểm lớn nhất của mô hình này là sự linh hoạt, phá vỡ giới hạn yêu cầu độ dài đầu vào và đầu ra phải bằng nhau.
Mạng nơ-ron hồi quy có bộ nhớ dài-ngắn (Long Short-Term Memory - LSTM): LSTM là một biến thể cao cấp của Mạng nơ-ron hồi quy (RNN), được sử dụng làm đơn vị tính toán cơ bản trong cả bộ mã hóa và giải mã. LSTM giải quyết hiệu quả "vấn đề suy giảm gradient" của RNN truyền thống, cho phép mô hình học được các phụ thuộc dài hạn trong dữ liệu chuỗi thời gian, một yếu tố cực kỳ quan trọng trong dự báo ô nhiễm không khí.
Thuật toán Di truyền (Genetic Algorithm - GA): Đây là một kỹ thuật tối ưu hóa meta-heuristic lấy cảm hứng từ quá trình chọn lọc tự nhiên. Trong nghiên cứu này, GA được áp dụng để giải quyết bài toán lựa chọn đặc trưng. Mỗi "cá thể" trong quần thể GA là một tổ hợp các đặc trưng đầu vào (như nhiệt độ, độ ẩm, tốc độ gió, PM10). Thông qua các toán tử lai ghép và đột biến qua nhiều thế hệ, GA sẽ tìm ra tổ hợp đặc trưng mang lại sai số dự báo thấp nhất (MAE), giúp tăng độ chính xác và giảm độ phức tạp của mô hình.

Phương pháp nghiên cứu

Quy trình nghiên cứu được thực hiện một cách có hệ thống để đảm bảo tính khách quan và khả năng tái lập.

Nguồn dữ liệu: Luận văn sử dụng hai bộ dữ liệu công khai.

Bộ dữ liệu Hà Nội: Bao gồm 17,123 bản ghi dữ liệu quan trắc theo giờ từ tháng 01/2016 đến tháng 01/2018, bao gồm các chỉ số PM2.5, PM10, tốc độ gió, nhiệt độ, bức xạ.
Bộ dữ liệu Đài Loan: Gồm 32,832 bản ghi dữ liệu theo giờ từ tháng 01/2014 đến tháng 09/2017, chứa các chỉ số PM2.5, nhiệt độ môi trường, CO, NO, NO2, O3, PM10, SO2. Cỡ mẫu lớn và đa dạng đảm bảo tính tổng quát của mô hình. Dữ liệu được chia thành tập huấn luyện và tập kiểm tra theo tỷ lệ 80:20.

Phương pháp phân tích:

Tiền xử lý dữ liệu: Các điểm dữ liệu bị thiếu trong cả hai bộ dữ liệu (tỷ lệ thiếu dưới 1%) được xử lý bằng phương pháp điền giá trị trung vị (median), một kỹ thuật hiệu quả và ít gây sai lệch cho dữ liệu chuỗi thời gian.
Lựa chọn đặc trưng bằng GA: Một quần thể các tổ hợp đặc trưng được khởi tạo ngẫu nhiên. Mỗi tổ hợp được đánh giá bằng cách huấn luyện mô hình ED-LSTM và tính toán Sai số tuyệt đối trung bình (MAE) trên tập kiểm định. Các tổ hợp tốt nhất được giữ lại và tạo ra thế hệ mới thông qua lai ghép và đột biến. Quá trình này lặp lại trong khoảng 5 đến 7 thế hệ để tìm ra tổ hợp tối ưu.
Huấn luyện và đánh giá mô hình ED-LSTM: Mô hình cuối cùng được huấn luyện với tổ hợp đặc trưng tối ưu. Mô hình sử dụng dữ liệu 48 giờ quá khứ để dự báo nồng độ PM2.5 cho 1 đến 6 giờ tiếp theo, thậm chí mở rộng đến 31 ngày. Các siêu tham số như kích thước batch (200), số epochs (300) và trình tối ưu hóa Adam được lựa chọn dựa trên thực nghiệm.

Kết quả nghiên cứu và thảo luận (450-500 từ)

Những phát hiện chính

Nghiên cứu đã mang lại những kết quả đột phá, khẳng định hiệu quả của phương pháp đề xuất thông qua các số liệu đo lường cụ thể.

Thuật toán Di truyền (GA) lựa chọn đặc trưng vượt trội: So với các phương pháp lựa chọn đặc trưng phổ biến, GA chứng tỏ hiệu quả vượt trội. Trên bộ dữ liệu Hà Nội, việc sử dụng đặc trưng do GA lựa chọn giúp giảm Sai số tuyệt đối trung bình (MAE) tới 16% so với việc sử dụng tất cả các đặc trưng. Đáng chú ý hơn, GA hiệu quả hơn 90% so với phương pháp XGBoost và 83% so với phương pháp tương quan Pearson. Điều này cho thấy GA có khả năng khám phá các mối quan hệ phi tuyến phức tạp giữa các yếu tố môi trường mà các phương pháp khác bỏ qua.
Mô hình ED-LSTM đạt độ chính xác cao nhất: Khi so sánh với các mô hình học sâu khác trên cùng bộ dữ liệu, mô hình ED-LSTM đề xuất luôn cho kết quả tốt nhất. Cụ thể, khi sử dụng các đặc trưng được chọn bởi GA, ED-LSTM giảm MAE trung bình tới 53.7% so với mô hình AE-BiLSTM và 20.1% so với AC-LSTM. Các biểu đồ so sánh cho thấy đường dự báo của ED-LSTM bám sát các đỉnh và đáy của dữ liệu thực tế, trong khi các mô hình khác thường dự báo "phẳng" hơn và bỏ lỡ các biến động đột ngột.
Vượt qua các mô hình tiên tiến (State-of-the-Art): Để đảm bảo tính công bằng, mô hình ED-LSTM được so sánh với ST-DNN (một mô hình SOTA) trên cùng bộ dữ liệu Đài Loan. Kết quả cho thấy ED-LSTM cải thiện độ chính xác từ 14.82% (dự báo 1 giờ) lên đến 41.89% (dự báo 6 giờ). Khoảng cách hiệu suất ngày càng tăng khi chân trời dự báo xa hơn, chứng tỏ khả năng nắm bắt phụ thuộc dài hạn của ED-LSTM là vượt trội.
Khả năng dự báo dài hạn ổn định: Một thử nghiệm đặc biệt được tiến hành để dự báo nồng độ PM2.5 trước 31 ngày. Kết quả cho thấy mô hình vẫn duy trì được mức MAE thấp và ổn định, chứng tỏ kiến trúc Encoder-Decoder không chỉ linh hoạt mà còn rất mạnh mẽ cho các ứng dụng dự báo chiến lược.

Thảo luận kết quả

Thành công của mô hình đến từ sự kết hợp cộng hưởng của hai yếu tố chính. Thứ nhất, việc GA tự động sàng lọc và chọn ra tổ hợp đặc trưng "vàng" (ví dụ: tốc độ gió, nhiệt độ, bức xạ, PM10 và PM2.5 cho dữ liệu Hà Nội) giúp loại bỏ nhiễu và cung cấp cho mô hình nguồn thông tin chất lượng cao. Các nghiên cứu trước đây thường mắc sai lầm khi đưa tất cả các biến vào mô hình, vô tình làm giảm độ chính xác.

Thứ hai, kiến trúc Encoder-Decoder với lõi LSTM cho phép mô hình học được các mẫu hình phức tạp theo thời gian. Không giống các mô hình chỉ nhìn vào một "cửa sổ" dữ liệu cố định, Encoder có thể "đọc" toàn bộ lịch sử đầu vào để tạo ra một bản tóm tắt thông tin đầy đủ, giúp Decoder đưa ra dự báo chính xác hơn. Các kết quả có thể được trực quan hóa qua bảng so sánh chỉ số MAE và biểu đồ đường, nơi đường dự báo của ED-LSTM gần như trùng khớp với đường dữ liệu thực tế, đặc biệt là ở các điểm biến động mạnh.

Đề xuất và khuyến nghị (300-350 từ)

Dựa trên những kết quả nghiên cứu tích cực, luận văn đề xuất 4 giải pháp cụ thể nhằm đưa mô hình vào ứng dụng thực tiễn và định hướng cho các nghiên cứu tiếp theo:

Tích hợp mô hình dự báo OFFGED vào Hệ thống Quan trắc Môi trường Quốc gia.
- Chủ thể thực hiện: Trung tâm Quan trắc Môi trường Quốc gia, các Sở Tài nguyên và Môi trường địa phương.
- Hành động: Xây dựng một API (Giao diện lập trình ứng dụng) cho mô hình để các hệ thống hiện có có thể gọi và nhận kết quả dự báo PM2.5 theo thời gian thực.
- Metric mục tiêu: Tăng độ chính xác của các bản tin cảnh báo chất lượng không khí hàng ngày thêm ít nhất 15% trong vòng 12 tháng.
Phát triển ứng dụng di động cảnh báo sức khỏe cộng đồng.
- Chủ thể thực hiện: Các công ty công nghệ, startup trong lĩnh vực sức khỏe và môi trường.
- Hành động: Xây dựng một ứng dụng miễn phí cho người dùng, cung cấp dự báo nồng độ PM2.5 tại vị trí của họ trong 24 giờ tới, kèm theo các khuyến nghị sức khỏe (ví dụ: "Nên đeo khẩu trang N95", "Hạn chế hoạt động ngoài trời").
- Metric mục tiêu: Đạt 100,000 lượt tải và 20,000 người dùng hoạt động hàng ngày sau 6 tháng ra mắt.
Mở rộng áp dụng phương pháp luận cho các bài toán dự báo khác.
- Chủ thể thực hiện: Các viện nghiên cứu, trường đại học, nhóm nghiên cứu khoa học.
- Hành động: Áp dụng khung mô hình kết hợp GA và ED-LSTM để dự báo các hiện tượng môi trường khác như lưu lượng lũ, mức độ xâm nhập mặn, hoặc năng suất điện gió.
- Metric mục tiêu: Công bố ít nhất 2 bài báo khoa học trên các tạp chí quốc tế uy tín trong vòng 2 năm.
Nâng cấp mô hình bằng cách tích hợp dữ liệu không gian.
- Chủ thể thực hiện: Tác giả luận văn, các nghiên cứu sinh kế cận.
- Hành động: Bổ sung dữ liệu từ ảnh vệ tinh hoặc dữ liệu từ các trạm quan trắc lân cận để mô hình không chỉ học được yếu tố thời gian mà còn cả sự lan truyền ô nhiễm trong không gian.
- Metric mục tiêu: Cải thiện độ chính xác của mô hình hiện tại thêm 5-10%.

Đối tượng nên tham khảo luận văn (200-250 từ)

Luận văn này không chỉ là một công trình học thuật mà còn là một tài liệu tham khảo giá trị cho nhiều nhóm đối tượng khác nhau:

Nhà khoa học dữ liệu và Kỹ sư Trí tuệ nhân tạo: Đây là một case study chi tiết và thực tiễn về việc áp dụng thành công các kỹ thuật học sâu tiên tiến (LSTM, Encoder-Decoder) và thuật toán tối ưu hóa (GA) để giải quyết một bài toán chuỗi thời gian phức tạp. Họ có thể học hỏi về quy trình xử lý dữ liệu, tinh chỉnh mô hình và đặc biệt là chiến lược huấn luyện LTS2 giúp tăng tốc độ tính toán.
Cơ quan quản lý môi trường và nhà hoạch định chính sách: Luận văn cung cấp một công cụ dự báo mạnh mẽ với độ chính xác đã được kiểm chứng (cải thiện tới 41.89%). Dựa trên các dự báo này, họ có thể đưa ra các quyết định can thiệp kịp thời và hiệu quả hơn, chẳng hạn như điều tiết giao thông, tạm dừng các hoạt động xây dựng, hoặc ban hành cảnh báo sức khỏe cho cộng đồng.
Sinh viên và Nghiên cứu sinh: Đây là một nguồn tài liệu tham khảo mẫu mực cho các chuyên ngành Khoa học Dữ liệu, Khoa học Máy tính và Kỹ thuật Môi trường. Luận văn trình bày rõ ràng từ cơ sở lý thuyết, phương pháp nghiên cứu, cách triển khai thực nghiệm đến phân tích kết quả, giúp sinh viên định hình và thực hiện các dự án nghiên cứu của riêng mình.
Doanh nghiệp phát triển ứng dụng: Các công ty công nghệ hoạt động trong lĩnh vực sức khỏe, thể thao, và du lịch có thể tận dụng thuật toán trong luận văn để tích hợp tính năng cảnh báo chất lượng không khí vào sản phẩm của mình, tạo ra lợi thế cạnh tranh và mang lại giá trị thiết thực cho người dùng.

Câu hỏi thường gặp (250-300 từ)

1. Tại sao Thuật toán Di truyền (GA) lại hiệu quả hơn các phương pháp lựa chọn đặc trưng khác như XGBoost? GA hiệu quả hơn vì nó khám phá không gian tổ hợp đặc trưng một cách toàn diện, tìm kiếm mối quan hệ tương tác giữa các biến, thay vì chỉ dựa vào tầm quan trọng riêng lẻ của từng biến. Ví dụ, GA có thể phát hiện ra rằng sự kết hợp giữa "tốc độ gió thấp" và "độ ẩm cao" là yếu tố dự báo mạnh mẽ, điều mà các phương pháp khác có thể bỏ qua. Kết quả thực nghiệm cho thấy GA giảm sai số tới 90% so với XGBoost.

2. Mô hình này có thể dự báo trước bao xa một cách đáng tin cậy? Mô hình đã được kiểm chứng với khả năng dự báo từ 1 giờ đến 31 ngày. Đối với dự báo ngắn hạn (1-6 giờ), độ chính xác rất cao, vượt trội các mô hình hiện có tới 41.89%. Đối với dự báo dài hạn (vài tuần), sai số có tăng lên nhưng vẫn giữ ở mức ổn định và chấp nhận được, đủ để cung cấp thông tin mang tính xu hướng cho việc hoạch định chiến lược.

3. Sự khác biệt chính giữa mô hình ED-LSTM và một mô hình LSTM thông thường là gì? Một mô hình LSTM thông thường thường bị ràng buộc về độ dài, ví dụ đầu vào 48 bước thời gian chỉ cho ra đầu ra 1 bước hoặc 48 bước. Mô hình Encoder-Decoder (ED) phá vỡ giới hạn này. Nó có thể "đọc" một chuỗi đầu vào có độ dài bất kỳ và "viết" ra một chuỗi đầu ra có độ dài hoàn toàn khác, ví dụ dùng 48 giờ dữ liệu để dự báo cho 72 giờ tiếp theo.

4. Dữ liệu cần thiết để chạy mô hình này là gì? Mô hình yêu cầu dữ liệu chuỗi thời gian theo giờ của nồng độ PM2.5 và các yếu tố khí tượng, ô nhiễm liên quan. Tổ hợp đặc trưng tối ưu được tìm thấy trên dữ liệu Hà Nội bao gồm tốc độ gió, nhiệt độ, bức xạ, PM10 và PM2.5. Về cơ bản, mô hình có thể thích ứng với bất kỳ bộ dữ liệu nào có các biến tương tự từ các trạm quan trắc.

5. Thời gian để huấn luyện toàn bộ mô hình là bao lâu? Quá trình tìm kiếm đặc trưng bằng GA có thể tốn nhiều thời gian do phải huấn luyện nhiều mô hình con. Tuy nhiên, luận văn đã đề xuất một chiến lược huấn luyện mới mang tên LTS2 (Lightweight Time Saving Training Strategy), giúp giảm đáng kể thời gian tính toán bằng cách huấn luyện mỗi cá thể trên một phần nhỏ của dữ liệu, có thể giảm thời gian xuống còn 1/7 so với cách làm thông thường.

Kết luận (150-200 từ)

Luận văn đã giải quyết thành công bài toán dự báo nồng độ bụi mịn PM2.5 với độ chính xác cao thông qua một phương pháp luận đột phá. Các đóng góp chính của nghiên cứu được tóm tắt như sau:

Đóng góp đột phá: Đề xuất và triển khai thành công khung mô hình OFFGED, lần đầu tiên kết hợp hiệu quả Thuật toán Di truyền (GA) cho việc lựa chọn đặc trưng và kiến trúc Encoder-Decoder LSTM cho dự báo chuỗi thời gian.
Hiệu suất vượt trội: Mô hình chứng minh độ chính xác vượt trội, cải thiện tới 41.89% so với mô hình tiên tiến ST-DNN và 53.7% so với các mô hình học sâu khác.
Tính linh hoạt cao: Phá bỏ giới hạn về độ dài đầu vào-đầu ra của các mô hình truyền thống, cho phép dự báo linh hoạt từ vài giờ đến cả tháng.
Tối ưu hóa tự động: Chứng minh rằng việc lựa chọn đặc trưng tự động bằng GA là yếu tố quyết định để tối đa hóa hiệu suất dự báo, hiệu quả hơn hẳn các phương pháp thủ công hoặc dựa trên tương quan.
Giá trị thực tiễn: Mô hình sẵn sàng để tích hợp vào các hệ thống cảnh báo sớm, giúp bảo vệ sức khỏe cộng đồng và hỗ trợ việc ra quyết định của các cơ quan quản lý.

Hướng phát triển tiếp theo là mở rộng mô hình bằng cách tích hợp các yếu tố không gian từ dữ liệu vệ tinh. Để tìm hiểu sâu hơn về phương pháp luận và kết quả chi tiết, độc giả được khuyến khích tham khảo toàn văn luận văn.

Trích đoạn nội dung tài liệu

HANOI UNIVERSITY OF SCIENCE AND TECHNOLOGY MASTER’S GRADUATION THESIS PM2.5 Prediction Using Genetic Algorithm- Based Feature Selection and Encoder- Decoder Model NGUYEN MINH HIEU hieu.vn Major: Data Science and Artificial Intelligence Thesis advisor: Dr. Nguyen Phi Le Institute: School of Information and Communication Technology HA NOI, 09/2021 Graduation Thesis Assignment Name: Nguyen Minh Hieu Phone: Email : hieu.vn Class: 20BKHDL-E Affiliation : Hanoi University of Science and Technology I – Nguyen Minh Hieu - hereby warrants that the work and presentation in this thesis performed by myself under the supervision of Dr. Nguyen Phi Le. All the results presented in this thesis are truthful and are not copied from any other works.

All references in this thesis including images, tables, figures and, quotes are clearly and fully documented in the bibliography. I will take full responsibility for even one copy that violates school regulations. Hanoi, 28th September, 2021 Author Nguyen Minh Hieu Attestation of thesis advisor : ……………………………. Hanoi, 28th September, 2021 Thesis Advisor Dr.

Nguyen Phi Le ii Acknowledgements First of all, I would like to deeply thank my family, especially my parents - who have worked hard to raise me. My parents have always been with me and created the best conditions for me to have all the necessities needed for my studies. Parents are the spiritual fulcrum, helping me to have a springboard to overcome difficulties and challenges. I would like to express my gratitude to my advisors, Dr.

Nguyen Phi Le for supporting my studies and research on this subject. She is very kindhearted and supportive person, who has guided me from the first day I worked with her. Moreover, I would like to thank Dr. Nguyen Thanh Hung, who has spent his precious time supporting, giving me advice and along with Dr.

Nguyen Phi Le, giving me opportunities to work in many amazing projects. My sincere thanks also go to all the people in the ICN laboratory of the BK. I have a wonderful time working with talented and special peers. I learned a lot from them and they always spread positive energy for me.

Finally, I would like to thank my friends who have always stood by me, shared joys and sorrows, and always supported and helped me all the time. Abstract The concentration of fine particulate matter (PM2.5), which represents inhalable particles with diameters of 2.5 micrometers and smaller, is a vital air quality index. Such particles can penetrate deep into the human lungs and severely affect human health. This paper studies accurate PM2.5 prediction, which can potentially contribute to reducing or avoiding the negative consequences.

Our approach’s novelty is to utilize the genetic algorithm (GA) and an encoder-decoder (E-D) model for PM2. The GA benefits feature selection and remove outliers to enhance the prediction accuracy. The encoder-decoder model with long short-term memory (LSTM), which relaxes the restrictions between the input and output of the model, can be used to effectively predict the PM2. We evaluate the proposed model on air quality datasets from Hanoi and Taiwan.

The evaluation results show that our model achieves excellent performance. By merely using the E-D model, we can obtain more accurate (up to 53.7%) predictions than those of previous works. Moreover, iii the GA in our model has the advantage of obtaining the optimal feature combination for predicting the PM2. By combining the GA-based feature selection algorithm and the E-D model, our proposed approach further improves the accuracy by at least 13.

Content Graduation Thesis Assignment.v List of Figures.viii List of Tables. x List of Equations.2 Existing solutions and problems.3 Goals and approaches.4 Structure of thesis.2 Machine learning overview.3 Deep learning overview.4 Long short-term memory.5 Encoder-Decoder model.1 The importance of features. Proposed Forecasting Framework (OFFGED).2 GA-based feature selection.3 Encoder-Decoder model-based prediction.1 Dataset and evaluation settings.2 Impact of the GA’s number of generations.3 Comparing feature selection algorithms.4 Comparing prediction models.1 Comparing ED-LSTM, AE-BiLSTM, and AC-LSTM.2 Comparing ED-LSTM and ST-DNN. Novel Training Strategy (LTS2).51 List of Figures Figure 1.

An example of an artificial neural network. Structure of RNN. Structure of the LSTM unit. The basic structure of the encoder-decoder model.

An example of feature extraction. An example of feature selection. An example of feature construction. The basic structure of Genetic Algorithm.

Overview of the proposed model. Encoding a feature combination (the white and gray cells represent the selected feature encoded by 1 and 0, respectively). Illustration of the GA’s crossover and mutation operations. Structure of the LSTM-based encoder-decoder model.

Impact of the number of generations. Comparison of feature selection algorithms. Comparison of GA-based feature selection and using all the features for the Hanoi dataset. Comparison between models using Hanoi dataset with all features.

Comparison between models using Hanoi dataset with feature selected by GA. MAE of the proposed model with different output lengths. Comparison between models using Taiwan dataset with features selected by [11]. Notation of the proposed GA-based training mechanism.

Training strategy – ¿ , shuffling =( true , false ). Training strategy – ¿ , shuffling =( false , false ). Training strategy – ¿ , shuffling =( true , true ). Training strategy – ¿ , shuffling =( false , true ).45 List of Tables Table 1.

Details of missing data in the datasets. ED-LSTM, AE-BiLSTM, and AC-LSTM use all features (Hanoi dataset). ED-LSTM, AE-BiLSTM and AC-LSTM use selected features by GA (Hanoi dataset). Comparing the MAE of the proposed ED-LSTM model and the ST-DNN model (using the features proposed by [11]).

Correlation of features. Hyperparameters of training strategy. Training strategy for different cases. Comparing proposed method combining new training strategy with related works.48 List of Equations Equation 1.

LSTM decoder equation of the first time step. LSTM decoder equation. Prediction result of one time step.24 Meaning Acronyms Abbreviations and terms LSTM Long-Short Term Memory RNN Recurrent Neural Network MAE Mean Absolute Error viii RMSE Root Mean Squared Error l Sequence Length h Horizon ix Introduction 1.5 forecasting problem Industrialization and urbanization have brought considerable convenience to human lives. However, they are generally associated with severe air pollution.

Accordingly, people have raised concerns about air quality, especially near living areas.5) is one of the most important indexes to evaluate the severity of air quality, which is directly related to human health.5 particles in the air can bypass the nose and throat and penetrate deep into the lungs, causing many diseases, such as cardiovascular disease and respiratory disease. In [1], the authors reveal that long-term exposure to PM2.5 may lead to heart attack and stroke. Therefore, accurate PM2.5 forecasting is crucial and may help governments and citizens find suitable solutions to control or prevent negative conditions.2 Existing solutions and problems PM2.5 forecasting is a time series prediction problem that is commonly solved using recurrent neural networks (RNNs), including LSTM [2]. The LSTM-based model has advantages in air quality prediction [3].

In [4], the authors also use LSTM but combine gas and PM2.5 concentrations to predict air quality in Taiwan. The work in [5] exploits deep learning to build a hybrid neural network model that can forecast PM2.5 multiple steps ahead. In [6], Yanlin et al. present a hybrid model that integrates graph convolutional networks and LSTM to predict PM2.

In [7], the authors utilize the k-nearest neighbor algorithm to mine spatial-temporal information. The historical information of related locations is then used as the input of the LSTM, adaptive temporal extractor (ASE), and artificial neural network (ANN) models. Several other deep learning models for predicting air quality can be found in [8] - [11]. Despite considerable effort, air quality prediction models still suffer from two issues: restrictions of the input and output lengths and unoptimized feature selection.

The first issue indicates that the number of time steps in a model’s output cannot exceed that of the input; i., the model cannot predict the future with upcoming steps that exceed the input data’s length. Therefore, it is essential to remove this limitation in PM2. The second issue arises from the fact that air quality data include dozens of factors other than PM2.5, such as various concentrations, temperature, and humidity. These factors may or may not be related to PM2.

However, appropriate use of some of these factors may improve the prediction accuracy. Meanwhile, misuse may not only 1 degrade the accuracy but also add extra computational time. Therefore, choosing the optimal feature combination is essential.3 Goals and approaches This paper aims to address the two issues described above. As a solution, we propose a novel PM2.5 prediction model that combines a genetic algorithm (GA) and an encoder-decoder (E- D) model.

The GA is exploited to perform feature selection in a near-optimal manner, thereby enriching the prediction model. Additionally, we leverage the encoder-decoder model to build a PM2.5 prediction model with high accuracy. As a result, the proposed model can efficiently handle different sizes (in terms of the number of time steps) of input and output. To demonstrate the effectiveness of our proposed approach, we evaluate the GA- based feature selection on the Hanoi [12] and Taiwan datasets [11].

The evaluations show that the GA-based feature selection outperforms other methods. We then compare our model to the state-of-the-art method ST-DNN in [11] using the Taiwan dataset. Compared to ST- DNN, our model improves the accuracy from 14. By combining the GA- based feature selection algorithm and the E-D model, our proposed approach further increases the accuracy by at least 3%.4 Structure of thesis The remainder of this paper is organized as follows.

We describe the motivations in Section II. Section III presents our proposal. The performance of evaluation is introduced in Section IV. Section VI introduces related works.

Finally, Section VII concludes the paper. Related works This section briefly reviews work related to PM2.5/air quality prediction models and GA- related methods. [3] predicted air quality using a deep learning model that includes three parts. In the first part, the training data are fed into an LSTM layer with an input sequence length of 8 and output length of 1.

Second, the predicted data are labeled according to the daily air quality index (AQI) values. Finally, a decision unit is developed to map the observed data and predicted alarm situations. The model succeeds in employing LSTM with high accuracy, but the input and output are not flexible. Several other models, such as ST- DNN [11], deep air learning (DAL) [10], and GC-DCRNN [14], exploit spatial data to formulate the relationships between spatial-temporal data.

However, ST-DNN and GC- DCRNN do not identify the factors that affect air quality. Additionally, the models have a 2 high time cost because of the preprocessing. The DAL model performs feature selection during the training process by inserting a layer between the input layer and the second layer of the neural network. DAL, however, aims to discover the importance of different input features to the predictions, not to increase the prediction accuracy.

The authors reveal the main relevant factors to the variation in air quality and provide proof to support air pollution prevention and control. In [28], the authors use a sequence-to-sequence model to predict PM2. They feed all air pollutants into the model without concern for their appropriation. The main problem is that predicting all air pollutants will results in an ‘‘accumulation of errors.’’ For example, when each feature’s prediction results are inaccurate, it will negatively affect PM2.

Even if a feature does not affect PM2.5, it will cause the outcomes to be more inaccurate. In [20], the dataset consists of five features other than PM2.5; therefore, there are 5 ! = 120 feature combinations. However, the authors do not describe how to select the optimal combination. In the experiments, the authors present results for seven combinations without explaining why these combinations are selected.

Yan et al. use the E-D model to predict PM2. The authors use all other features, including the monthly average PM2.5 concentration, daily average PM2.5 concentration, PM10 concentration, AQI, SO2, CO, NO2, O3, average temperature, humidity, pressure, and wind speed per hour per day.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ