Tổng quan nghiên cứu

Trong bối cảnh biến đổi khí hậu và ô nhiễm nguồn nước ngày càng nghiêm trọng, việc theo dõi và dự báo chất lượng nước, đặc biệt là độ mặn của nước thô trước xử lý, trở thành nhiệm vụ cấp thiết nhằm đảm bảo an ninh nguồn nước sạch cho sinh hoạt và sản xuất. Tại Việt Nam, theo quy chuẩn hiện hành, ngưỡng độ mặn tối đa cho nước cấp sinh hoạt là 250 mg/L, tuy nhiên độ mặn thay đổi theo mùa và thời gian gây khó khăn trong quản lý và xử lý nước. Nghiên cứu này tập trung phân tích và dự báo độ mặn nước thô tại trạm bơm Hòa Phú, huyện Củ Chi, TP. Hồ Chí Minh, dựa trên dữ liệu quan trắc liên tục trong 6 năm (2017-2022) với hơn 2.000 mẫu dữ liệu hàng ngày.

Mục tiêu chính của luận văn là xây dựng và đánh giá hiệu quả các mô hình dự báo theo chuỗi thời gian sử dụng các thuật toán máy học hiện đại như ARIMA, ANN, CNN, GRU, LSTM và TCN nhằm dự báo độ mặn nước thô trong các khoảng thời gian 1, 3 và 7 ngày với các kích thước cửa sổ dữ liệu 7, 15 và 30 ngày. Nghiên cứu cũng khảo sát ảnh hưởng của số lượng biến đầu vào và kích thước cửa sổ dữ liệu đến hiệu suất dự báo. Kết quả dự báo chính xác sẽ hỗ trợ các nhà quản lý trong việc phối hợp điều tiết nguồn nước, giảm thiểu tác động của độ mặn vượt ngưỡng, đồng thời nâng cao hiệu quả xử lý nước tại nhà máy.

Việc áp dụng các mô hình dự báo chuỗi thời gian trong lĩnh vực công nghệ thông tin và quản lý tài nguyên nước không chỉ góp phần nâng cao độ tin cậy trong dự báo mà còn tạo nền tảng khoa học cho các quyết định vận hành hệ thống cấp nước sạch, đặc biệt trong các đô thị lớn như TP. Hồ Chí Minh với dân số gần 10 triệu người.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên nền tảng trí tuệ nhân tạo (AI), máy học (ML) và học sâu (DL) để xây dựng các mô hình dự báo chuỗi thời gian. AI được hiểu là lĩnh vực khoa học máy tính mô phỏng khả năng suy luận và học hỏi của con người từ dữ liệu. ML là phân ngành của AI cho phép máy tính tự động học từ dữ liệu mà không cần lập trình chi tiết. DL là một nhánh của ML sử dụng mạng nơ-ron nhân tạo sâu để xử lý dữ liệu phức tạp.

Các mô hình chính được áp dụng gồm:

  • ARIMA (AutoRegressive Integrated Moving Average): Mô hình thống kê truyền thống dùng cho dữ liệu chuỗi thời gian có tính dừng, kết hợp tự hồi quy, tích hợp và trung bình động.
  • ANN (Artificial Neural Networks): Mạng nơ-ron nhân tạo truyền thống mô phỏng cấu trúc não người, có khả năng xử lý các quan hệ phi tuyến tính.
  • CNN (Convolutional Neural Networks): Mạng nơ-ron tích chập, hiệu quả trong việc trích xuất đặc trưng cục bộ từ dữ liệu chuỗi thời gian.
  • LSTM (Long Short-Term Memory): Mạng nơ-ron hồi tiếp có bộ nhớ dài hạn, xử lý tốt các phụ thuộc dài hạn trong chuỗi thời gian.
  • GRU (Gated Recurrent Unit): Phiên bản đơn giản hơn LSTM, giảm tham số và tăng tốc độ huấn luyện.
  • TCN (Temporal Convolutional Networks): Mạng tích chập thời gian với khả năng xử lý chuỗi dài và song song hóa huấn luyện.

Ba khái niệm chính trong nghiên cứu là: độ mặn nước thô, chuỗi thời gian, và kích thước cửa sổ dữ liệu (window size). Độ mặn là chỉ tiêu quan trọng ảnh hưởng đến chất lượng nước và sức khỏe người dùng. Chuỗi thời gian thể hiện dữ liệu quan trắc theo thời gian liên tục. Kích thước cửa sổ dữ liệu là số ngày dữ liệu quá khứ dùng để dự báo giá trị tương lai.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu quan trắc chất lượng nước sông Sài Gòn tại trạm bơm Hòa Phú, thu thập trong 6 năm (2017-2022) với 2.191 mẫu dữ liệu ngày, gồm 10 chỉ tiêu chất lượng nước như pH, độ dẫn điện, độ mặn, nồng độ mangan, sắt, oxy hòa tan, aminium, độ đục, độ màu và tổng cặn lơ lửng.

Quy trình nghiên cứu gồm các bước:

  1. Tiền xử lý dữ liệu: Loại bỏ giá trị ngoại lai (giá trị vượt quá 3 độ lệch chuẩn), xử lý dữ liệu thiếu bằng nội suy tuyến tính, chuẩn hóa dữ liệu để tăng hiệu quả huấn luyện mô hình.
  2. Tạo bộ dữ liệu trung gian: Dữ liệu được tạo thành các bộ dựa trên kích thước cửa sổ dữ liệu (7, 15, 30 ngày) và thời gian dự báo (1, 3, 7 ngày). Số lượng biến đầu vào được thử nghiệm là 1 biến (độ mặn) và 3 biến (độ mặn, pH, độ dẫn điện).
  3. Chia dữ liệu: Bộ dữ liệu được chia theo tỷ lệ 60% cho huấn luyện, 20% kiểm định và 20% kiểm tra, đảm bảo tính liên tục theo thời gian.
  4. Huấn luyện và đánh giá mô hình: Các mô hình ARIMA, ANN, CNN, GRU, LSTM, TCN được huấn luyện trên bộ dữ liệu huấn luyện, đánh giá trên bộ kiểm định và kiểm tra. Các chỉ số đánh giá gồm MAE (Mean Absolute Error), MSE (Mean Squared Error), RMSE (Root Mean Squared Error), MAPE (Mean Absolute Percentage Error) và R² (hệ số xác định).
  5. So sánh hiệu suất: Phân tích ảnh hưởng của kích thước cửa sổ dữ liệu, thời gian dự báo và số lượng biến đầu vào đến hiệu quả dự báo của từng mô hình.

Thời gian nghiên cứu kéo dài trong 6 năm dữ liệu thực tế, sử dụng công cụ Python trên máy tính cấu hình Intel Core i5, RAM 8GB, hệ điều hành Windows 10.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Ảnh hưởng của kích thước cửa sổ dữ liệu: Mô hình dự báo với cửa sổ dữ liệu 30 ngày cho kết quả MAE thấp hơn trung bình 15% so với cửa sổ 7 ngày, cho thấy việc sử dụng nhiều dữ liệu quá khứ giúp cải thiện độ chính xác dự báo. Tuy nhiên, cửa sổ 15 ngày cũng cho hiệu quả gần tương đương, phù hợp với cân bằng giữa độ chính xác và chi phí tính toán.

  2. Ảnh hưởng của thời gian dự báo: Độ chính xác dự báo giảm dần khi thời gian dự báo tăng từ 1 ngày lên 7 ngày. Ví dụ, mô hình LSTM với 3 biến đầu vào đạt RMSE 0,045 mg/L cho dự báo 1 ngày, nhưng tăng lên 0,078 mg/L cho dự báo 7 ngày, tương ứng giảm hiệu suất khoảng 42%. Điều này phản ánh tính biến động và khó dự báo dài hạn của độ mặn nước thô.

  3. So sánh hiệu suất các mô hình: Mô hình CNN và LSTM cho kết quả tốt nhất với MAE trung bình lần lượt là 0,038 và 0,041 mg/L, vượt trội hơn ARIMA (MAE 0,065 mg/L) và ANN (MAE 0,055 mg/L). Mô hình GRU và TCN cũng cho hiệu quả cao, tuy nhiên CNN có ưu thế về tốc độ huấn luyện và khả năng xử lý dữ liệu đa biến.

  4. Ảnh hưởng của số lượng biến đầu vào: Sử dụng 3 biến (độ mặn, pH, độ dẫn điện) giúp cải thiện độ chính xác dự báo trung bình 12% so với chỉ dùng 1 biến (độ mặn). Điều này cho thấy các chỉ tiêu chất lượng nước liên quan có tác động hỗ trợ trong dự báo độ mặn.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện hiệu suất khi tăng kích thước cửa sổ dữ liệu là do mô hình có nhiều thông tin quá khứ hơn để học các mẫu phụ thuộc dài hạn trong chuỗi thời gian. Tuy nhiên, cửa sổ quá lớn có thể làm tăng chi phí tính toán và giảm khả năng thích ứng với biến đổi nhanh của môi trường.

Sự giảm hiệu quả dự báo khi tăng thời gian dự báo phản ánh tính phi tuyến và biến động phức tạp của độ mặn nước thô, phù hợp với các nghiên cứu tương tự tại sông Chao Phraya (Thái Lan) và sông Qiantang (Trung Quốc) cho thấy dự báo ngắn hạn có độ chính xác cao hơn.

Việc CNN và LSTM vượt trội so với ARIMA và ANN phù hợp với đặc điểm dữ liệu phi tuyến và đa biến, trong khi ARIMA chỉ phù hợp với dữ liệu tuyến tính và đơn biến. Kết quả này đồng nhất với các nghiên cứu về dự báo chất lượng nước sông Al-Kufa (Iraq) và sông Hor Rood (Iran).

Việc sử dụng nhiều biến đầu vào giúp mô hình nắm bắt được các mối quan hệ phụ thuộc giữa các chỉ tiêu chất lượng nước, từ đó nâng cao độ chính xác dự báo. Điều này cũng phù hợp với nguyên tắc trong học máy về việc sử dụng các đặc trưng có liên quan để cải thiện mô hình.

Dữ liệu và kết quả có thể được trình bày qua các biểu đồ so sánh MAE, RMSE theo từng mô hình, kích thước cửa sổ và thời gian dự báo, giúp trực quan hóa hiệu quả và hỗ trợ lựa chọn mô hình phù hợp.

Đề xuất và khuyến nghị

  1. Áp dụng mô hình CNN và LSTM trong hệ thống giám sát nước thô: Các đơn vị quản lý nên triển khai các mô hình CNN và LSTM với kích thước cửa sổ dữ liệu từ 15-30 ngày để dự báo độ mặn trong khoảng 1-3 ngày, nhằm nâng cao độ chính xác và kịp thời trong điều phối nguồn nước. Thời gian triển khai dự kiến 6-12 tháng.

  2. Tăng cường thu thập và đa dạng hóa dữ liệu: Bổ sung thêm các chỉ tiêu chất lượng nước liên quan như pH, độ dẫn điện để làm đa dạng dữ liệu đầu vào, giúp mô hình dự báo chính xác hơn. Chủ thể thực hiện là các trạm quan trắc và nhà máy nước, với kế hoạch thu thập liên tục và cập nhật dữ liệu hàng tháng.

  3. Xây dựng hệ thống cảnh báo sớm dựa trên dự báo độ mặn: Kết nối mô hình dự báo với hệ thống cảnh báo tự động để thông báo sớm khi độ mặn có xu hướng vượt ngưỡng cho phép, giúp các bên liên quan phối hợp điều tiết nước hiệu quả. Thời gian thực hiện 3-6 tháng, chủ thể là các cơ quan quản lý tài nguyên nước.

  4. Đào tạo và nâng cao năng lực cho cán bộ vận hành: Tổ chức các khóa đào tạo về ứng dụng AI, ML trong quản lý chất lượng nước cho cán bộ kỹ thuật và quản lý nhà máy nước, nhằm nâng cao khả năng vận hành và khai thác hiệu quả các mô hình dự báo. Thời gian đào tạo 3 tháng, chủ thể là các trường đại học và trung tâm đào tạo chuyên ngành.

Đối tượng nên tham khảo luận văn

  1. Các nhà quản lý tài nguyên nước và cấp nước đô thị: Nghiên cứu cung cấp cơ sở khoa học và công cụ dự báo độ mặn, hỗ trợ ra quyết định điều tiết nguồn nước, giảm thiểu rủi ro ô nhiễm và đảm bảo chất lượng nước sinh hoạt.

  2. Các kỹ sư và chuyên gia xử lý nước: Tham khảo các mô hình dự báo giúp tối ưu hóa quy trình xử lý nước thô, điều chỉnh công nghệ phù hợp với biến động chất lượng nước đầu vào.

  3. Nhà nghiên cứu và sinh viên ngành công nghệ thông tin, môi trường: Luận văn là tài liệu tham khảo quý giá về ứng dụng AI, ML trong dự báo chuỗi thời gian và quản lý chất lượng nước, cung cấp phương pháp và kết quả thực nghiệm cụ thể.

  4. Các cơ quan quản lý môi trường và chính sách: Nghiên cứu giúp đánh giá xu hướng biến đổi chất lượng nước, từ đó xây dựng chính sách bảo vệ nguồn nước và ứng phó với biến đổi khí hậu hiệu quả.

Câu hỏi thường gặp

  1. Tại sao cần dự báo độ mặn nước thô trước xử lý?
    Dự báo giúp các nhà máy nước và cơ quan quản lý chủ động điều chỉnh quy trình xử lý, phối hợp điều tiết nguồn nước, tránh tình trạng độ mặn vượt ngưỡng gây ảnh hưởng đến chất lượng nước sinh hoạt và thiết bị.

  2. Mô hình nào cho kết quả dự báo độ mặn tốt nhất?
    Theo nghiên cứu, mô hình CNN và LSTM cho hiệu suất dự báo cao nhất với MAE thấp hơn 0,04 mg/L trong dự báo 1 ngày, vượt trội so với các mô hình truyền thống như ARIMA.

  3. Ảnh hưởng của kích thước cửa sổ dữ liệu đến dự báo như thế nào?
    Kích thước cửa sổ dữ liệu càng lớn (ví dụ 30 ngày) giúp mô hình học được nhiều thông tin quá khứ hơn, cải thiện độ chính xác dự báo trung bình 15% so với cửa sổ 7 ngày.

  4. Có thể áp dụng mô hình này cho các khu vực khác không?
    Có thể, tuy nhiên cần thu thập dữ liệu đặc thù của khu vực đó để huấn luyện lại mô hình, vì đặc điểm biến động độ mặn có thể khác nhau theo địa lý và điều kiện môi trường.

  5. Làm thế nào để xử lý dữ liệu thiếu và ngoại lai trong bộ dữ liệu?
    Nghiên cứu sử dụng phương pháp nội suy tuyến tính để thay thế dữ liệu thiếu và loại bỏ các giá trị ngoại lai vượt quá 3 độ lệch chuẩn nhằm đảm bảo chất lượng dữ liệu đầu vào cho mô hình.

Kết luận

  • Nghiên cứu đã xây dựng và đánh giá thành công các mô hình dự báo độ mặn nước thô sử dụng dữ liệu chuỗi thời gian 6 năm tại trạm bơm Hòa Phú, TP. Hồ Chí Minh.
  • Mô hình CNN và LSTM cho hiệu suất dự báo tốt nhất, đặc biệt khi sử dụng 3 biến đầu vào và cửa sổ dữ liệu 15-30 ngày.
  • Thời gian dự báo càng ngắn (1-3 ngày) cho độ chính xác cao hơn, phù hợp với yêu cầu vận hành nhà máy nước.
  • Kết quả nghiên cứu hỗ trợ nâng cao hiệu quả quản lý và xử lý nguồn nước, góp phần đảm bảo an toàn nguồn nước sinh hoạt cho cộng đồng.
  • Đề xuất triển khai ứng dụng mô hình dự báo trong hệ thống giám sát và cảnh báo sớm, đồng thời đào tạo nhân lực vận hành để phát huy tối đa hiệu quả.

Hành động tiếp theo: Các cơ quan quản lý và nhà máy nước nên phối hợp triển khai thử nghiệm mô hình dự báo trên quy mô thực tế, đồng thời mở rộng nghiên cứu áp dụng cho các chỉ tiêu chất lượng nước khác nhằm nâng cao toàn diện công tác quản lý nguồn nước.