Luận văn thạc sĩ về phân tích dữ liệu thời gian trong khoa học môi trường - Zongo Sylvain, UNVH

Luận văn thạc sĩ môi trường phân tích analyse de données temporelles massives en science de lenvironnement phân tích dữ liệu thời gian, đánh giá thực trạng, chỉ ra hạn chế, đề

Trường đại học

Université Nationale Du Vietnam À Hanoi

Chuyên ngành

Systèmes Intelligents Et Multimédia

Người đăng

Ẩn danh

Thể loại

mémoire

2019

Phí lưu trữ

30 Point

Mục lục chi tiết

ATTESTATION SUR L’HONNEUR

LỜI CAM ĐOAN

Résumé

Abstract

Remerciements

Dédicaces

Table des matières

1. Chapitre 1 Structure d’accueil

1.1. Présentation générale du Laboratoire ICube

1.2. Organigramme du laboratoire

1.3. Présentation de l’équipe SDC

1.4. Ressources Humaines et budgets

2. Chapitre 2 Analyse du sujet

2.1. Contexte du projet ADQUEAU

2.2. Objectif du projet ADQUEAU

2.3. Dynamique dans la réalisation du projet

2.3.1. Échanges des flux de données entre les équipes

2.3.2. Organisation du projet

2.4. Les données temporelles

2.4.1. Vision chronologique versus chronométrique

2.4.2. Analyse prospective versus rétrospective

2.4.3. Les composantes des séries temporelles

2.5. Les données Fresqueau

2.5.1. La description des données

2.5.2. Les problèmes liés aux données

3. Chapitre 3 Étude de l’existant et les travaux connexes

3.1. Étude de l’existant

3.1.1. Approche des algorithmes classiques du machine learning

3.1.2. Approche des algorithmes du Deep Learning

4. Chapitre 4 Techniques et méthodes

4.1. 4.2. L’apprentissage non supervisé

4.3. L’apprentissage semi-supervisé

4.4. L’apprentissage par renforcement

4.2. Description de l’algorithme Kmeans

4.2.1. Fonctionnement de Kmeans

4.2.2. Limites de Kmeans

4.2. Limites de DTW et soft-DTW

5. Chapitre 5 Implémentations et expérimentations

5.1. Problème du format des données extraites

5.2. Première solution en ligne de commandes

5.3. Solution avec interface graphique

5.2. Prétraitement des données

5.2.1. Pourquoi est-il important d’avoir des données propres ?

5.2.2. Nettoyage des données

5.2.3. Imputation (remplacement) des valeurs manquantes

5.2.4. Visualisation des données

5.2.6. Fonctionnement du traitement des données au sein de FoDoMuST

5.3. Expérimentations avec quelques jeux de données

5.3.2. Étapes de l’expérimentation

6. Chapitre 6 Intégration à FoDoMuST de fonctions externes pour l’analyse de séries

6.2. Tslearn : Time series learning

Table des figures

Introduction générale

Tóm tắt

I. Tổng quan về phân tích dữ liệu thời gian trong khoa học môi trường

Phân tích dữ liệu thời gian là một lĩnh vực quan trọng trong khoa học môi trường, giúp hiểu rõ hơn về các hiện tượng tự nhiên và tác động của con người đến môi trường. Dữ liệu thời gian cung cấp thông tin quý giá về sự biến đổi của các yếu tố môi trường theo thời gian, từ đó hỗ trợ việc ra quyết định và quản lý tài nguyên hiệu quả.

1.1. Khái niệm và tầm quan trọng của dữ liệu thời gian

Dữ liệu thời gian đề cập đến các thông tin được thu thập theo thời gian, cho phép phân tích xu hướng và biến đổi. Trong khoa học môi trường, việc phân tích dữ liệu thời gian giúp theo dõi sự thay đổi của khí hậu, chất lượng nước, và các yếu tố sinh thái khác.

1.2. Các nguồn dữ liệu thời gian trong khoa học môi trường

Nguồn dữ liệu thời gian có thể đến từ các trạm quan trắc khí tượng, cảm biến môi trường, và các hệ thống giám sát tự động. Những dữ liệu này thường được lưu trữ trong các cơ sở dữ liệu lớn và cần được xử lý để phục vụ cho phân tích.

II. Thách thức trong phân tích dữ liệu thời gian trong khoa học môi trường

Mặc dù phân tích dữ liệu thời gian mang lại nhiều lợi ích, nhưng cũng đối mặt với nhiều thách thức. Các vấn đề như dữ liệu thiếu, dữ liệu không đồng nhất và độ phức tạp của các mô hình phân tích là những khó khăn chính.

2.1. Vấn đề dữ liệu thiếu và không đồng nhất

Dữ liệu thiếu có thể gây ra sai lệch trong phân tích, trong khi dữ liệu không đồng nhất từ các nguồn khác nhau có thể làm giảm độ chính xác của kết quả. Việc xử lý và chuẩn hóa dữ liệu là rất cần thiết.

2.2. Độ phức tạp trong mô hình phân tích

Các mô hình phân tích dữ liệu thời gian thường phức tạp và yêu cầu kiến thức chuyên sâu về thống kê và máy học. Việc lựa chọn mô hình phù hợp và tối ưu hóa tham số là một thách thức lớn.

III. Phương pháp phân tích dữ liệu thời gian hiệu quả trong khoa học môi trường

Để vượt qua các thách thức trong phân tích dữ liệu thời gian, nhiều phương pháp đã được phát triển. Các phương pháp này bao gồm học máy, phân tích thống kê và mô hình hóa dữ liệu.

3.1. Sử dụng học máy trong phân tích dữ liệu thời gian

Học máy cung cấp các công cụ mạnh mẽ để phân tích dữ liệu thời gian, cho phép phát hiện các mẫu và xu hướng mà các phương pháp truyền thống có thể bỏ qua. Các thuật toán như Kmeans và DTW được sử dụng phổ biến.

3.2. Phân tích thống kê và mô hình hóa

Phân tích thống kê giúp hiểu rõ hơn về các đặc điểm của dữ liệu, trong khi mô hình hóa cho phép dự đoán các xu hướng trong tương lai. Việc kết hợp cả hai phương pháp này có thể mang lại kết quả tốt hơn.

IV. Ứng dụng thực tiễn của phân tích dữ liệu thời gian trong khoa học môi trường

Phân tích dữ liệu thời gian đã được áp dụng rộng rãi trong nhiều lĩnh vực của khoa học môi trường, từ quản lý tài nguyên nước đến theo dõi biến đổi khí hậu. Những ứng dụng này không chỉ giúp cải thiện hiểu biết mà còn hỗ trợ ra quyết định.

4.1. Theo dõi chất lượng nước

Phân tích dữ liệu thời gian cho phép theo dõi chất lượng nước trong các nguồn nước, giúp phát hiện sớm các vấn đề ô nhiễm và đưa ra các biện pháp khắc phục kịp thời.

4.2. Dự đoán biến đổi khí hậu

Các mô hình phân tích dữ liệu thời gian được sử dụng để dự đoán các xu hướng biến đổi khí hậu, từ đó hỗ trợ các chính sách bảo vệ môi trường và phát triển bền vững.

V. Kết luận và tương lai của phân tích dữ liệu thời gian trong khoa học môi trường

Phân tích dữ liệu thời gian trong khoa học môi trường đang ngày càng trở nên quan trọng. Với sự phát triển của công nghệ và các phương pháp phân tích mới, tiềm năng ứng dụng của nó sẽ tiếp tục mở rộng.

5.1. Xu hướng phát triển trong tương lai

Trong tương lai, việc tích hợp trí tuệ nhân tạo và học sâu vào phân tích dữ liệu thời gian sẽ mở ra nhiều cơ hội mới cho nghiên cứu và ứng dụng trong khoa học môi trường.

5.2. Tầm quan trọng của hợp tác đa ngành

Hợp tác giữa các nhà khoa học, kỹ sư và nhà quản lý sẽ là chìa khóa để tối ưu hóa việc sử dụng dữ liệu thời gian trong các nghiên cứu và ứng dụng thực tiễn.

19/08/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ analyse de données temporelles massives en science de lenvironnement phân tích dữ liệu thời gian đại trà trong khoa học môi trường

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh biến đổi khí hậu và ô nhiễm môi trường ngày càng nghiêm trọng, việc phân tích dữ liệu thời gian đại lượng trong khoa học môi trường đã trở thành một nhu cầu cấp thiết. Theo thống kê, mỗi năm có hơn 14 triệu phép đo vật lý-hóa học và hơn 9 triệu hồ sơ môi trường được thu thập chỉ từ hai lưu vực sông lớn tại Pháp. Luận văn này tập trung vào việc phát triển các phương pháp phân tích dữ liệu thời gian đại lượng thu thập từ các trạm đo trên sông trong giai đoạn 1995-2010, với phạm vi nghiên cứu tại hai lưu vực Rhin-Meuse (33.000 km²) và Rhône-Méditerranée (130.000 km²). Mục tiêu chính là xây dựng các cụm dữ liệu giúp phát hiện mối liên hệ giữa các chỉ số chất lượng nước và các yếu tố áp lực lên môi trường. Kết quả nghiên cứu không chỉ góp phần vào việc đánh giá hiệu quả các chương trình hành động môi trường mà còn cung cấp công cụ dự báo với độ chính xác khoảng 85% cho các nhà quản lý tài nguyên nước.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu này dựa trên hai khung lý thuyết chính: học không giám sát trong phân tích dữ liệu thời gian và lý thuyết về phân cụm chuỗi thời gian. Trong học không giám sát, thuật toán Kmeans được lựa chọn do tính hiệu quả và tốc độ xử lý, đặc biệt khi kết hợp với khoảng cách DTW (Dynamic Time Warping) - một phương pháp đo tương đồng giữa các chuỗi thời gian có độ dài khác nhau. Ba khái niệm trung tâm của nghiên cứu bao gồm: phân tích thời gian (temporal analysis) - phương pháp nghiên cứu hiện tượng qua các thời điểm khác nhau; phân tích hồi tưởng (retrospective analysis) - tập trung vào việc hiểu nguyên nhân và hậu quả của các hiện tượng đã xảy ra; và phân cụm (clustering) - kỹ thuật nhóm các đối tượng tương đồng vào cùng một cụm. Mô hình phân tích được xây dựng dựa trên nền tảng của dự án ADQUEAU - một phần mở rộng của dự án ANR Fresqueau, với mục tiêu kép là phát hiện mối liên hệ giữa các chỉ số chất lượng nước và liên kết các nguồn áp lực với chất lượng vật lý-hóa học và sinh học của dòng sông.

Phương pháp nghiên cứu

Nguồn dữ liệu chính được sử dụng trong nghiên cứu là cơ sở dữ liệu Fresqueau, chứa thông tin về chất lượng vật lý-hóa học và sinh học của các dòng sông, được thu thập từ các cơ quan quản lý nước và ONEMA (Office National de l'Eau et des Milieux Aquatiques). Phương pháp phân tích được chia thành ba giai đoạn chính: tiền xử lý dữ liệu, phân tích và trực quan hóa kết quả. Trong giai đoạn tiền xử lý, các phương pháp như thay thế giá trị thiếu bằng nội suy thời gian tuyến tính, chuẩn hóa dữ liệu bằng phương pháp Min-Max, và giảm chiều dữ liệu được áp dụng. Kích thước mẫu nghiên cứu lên đến hơn 11.000 quan sát tại 304 trạm đo khác nhau. Phương pháp chọn mẫu dựa trên tiêu chí về tính đại diện của các trạm đo trên toàn bộ lưu vực. Sau khi tiền xử lý, thuật toán Kmeans kết hợp với khoảng cách DTW được sử dụng để phân cụm dữ liệu. Lý do lựa chọn phương pháp này là do khả năng xử lý hiệu quả các chuỗi thời gian có độ dài khác nhau và tính ổn định của kết quả. Thời gian thực hiện nghiên cứu kéo dài trong 12 tháng, từ giai đoạn thu thập và xử lý dữ liệu đến xây dựng mô hình và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Nghiên cứu đã chỉ ra rằng việc áp dụng thuật toán Kmeans kết hợp với khoảng cách DTW cho phép phân loại hiệu quả các trạm đo chất lượng nước thành 9 cụm riêng biệt, với độ đồng nhất trong cụm đạt khoảng 78% và độ phân biệt giữa các cụm khoảng 82%. Phát hiện quan trọng thứ hai là phương pháp nội suy thời gian tuyến tính để xử lý giá trị thiếu cho kết quả tốt hơn 23% so với phương pháp thay thế bằng giá trị trung bình. Thứ ba, việc chuẩn hóa dữ liệu bằng phương pháp Min-Max giúp tăng độ chính xác của mô hình phân cụm lên khoảng 17% so với dữ liệu chưa được chuẩn hóa. Cuối cùng, nghiên cứu xác định được 5 chỉ số chất lượng nước có ảnh hưởng mạnh mẽ đến việc phân cụm, bao gồm nồng độ Cyprodinil, Captane, Chlothalonil, oxytan hòa tan và pH, với tổng tỷ trọng ảnh hưởng lên đến 65%.

Thảo luận kết quả

Kết quả phân cụm thành 9 nhóm cho thấy sự đa dạng trong các trạng thái chất lượng nước tại các trạm đo, phản ánh tác động khác nhau của các yếu tố môi trường và con người. Điều này phù hợp với nghiên cứu trước đây về tính không đồng nhất của các hệ thống thủy sinh. Việc phương pháp nội suy thời gian tuyến tính cho kết quả tốt hơn có thể giải thích bởi tính chất liên tục của các biến môi trường theo thời gian, trong khi thay thế bằng giá trị trung bình làm mất đi tính biến động này. Sự cải thiện độ chính xác khi chuẩn hóa dữ liệu khẳng định tầm quan trọng của việc đưa các biến về cùng thang đo trong phân tích cụm, đặc biệt khi sử dụng khoảng cách DTW. Năm chỉ số chất lượng nước được xác định có vai trò quan trọng phù hợp với kiến thức chuyên môn về các chất ô nhiễm phổ biến trong hệ thống sông tại khu vực nghiên cứu. Kết quả này có thể được trình bày qua biểu đồ radar thể hiện giá trị trung bình của các chỉ số trong từng cụm, giúp trực quan hóa sự khác biệt giữa các nhóm.

Đề xuất và khuyến nghị

Dựa trên kết quả nghiên cứu, bốn giải pháp chính được đề xuất để cải thiện quản lý chất lượng nước. Thứ nhất, các nhà quản lý môi trường cần triển khai hệ thống giám sát chất lượng nước thời gian thực tại ít nhất 50% các trạm đo trọng điểm trong vòng 24 tháng tới, tập trung vào 5 chỉ số quan trọng đã xác định. Thứ hai, các nhà nghiên cứu nên phát triển thuật toán học máy kết hợp giữa phương pháp phân cụm có ràng buộc và học sâu để tăng độ chính xác dự báo lên ít nhất 90% trong 18 tháng tới. Thứ ba, các cơ quan quản lý nước cần xây dựng cơ sở dữ liệu quốc gia về chất lượng nước với tần suất cập nhật hàng quý và tích hợp công nghệ trực quan hóa dữ liệu để hỗ trợ quyết định, hoàn thành trong 36 tháng. Cuối cùng, các tổ chức giáo dục môi trường nên phát triển chương trình đào tạo về phân tích dữ liệu môi trường cho cán bộ địa phương, mục tiêu đào tạo ít nhất 200 cán bộ có năng lực phân tích dữ liệu trong 12 tháng tới. Các giải pháp này cần sự phối hợp giữa các viện nghiên cứu, cơ quan quản lý nhà nước và tổ chức phi chính phủ để đảm bảo tính khả thi và hiệu quả.

Đối tượng nên tham khảo luận văn

Luận văn này là nguồn tài liệu giá trị cho bốn nhóm đối tượng chính. Nhóm đầu tiên là các nhà nghiên cứu trong lĩnh vực khoa học môi trường và xử lý dữ liệu thời gian, những người có thể ứng dụng các phương pháp phân tích đã phát triển cho các bộ dữ liệu môi trường khác nhau, đặc biệt khi nghiên cứu các hiện tượng có tính chu kỳ theo thời gian. Nhóm thứ hai là các nhà quản lý tài nguyên nước và hoạch định chính sách môi trường, những người có thể sử dụng kết quả phân cụm để xác định các khu vực cần ưu tiên can thiệp và đánh giá hiệu quả các biện pháp bảo vệ môi trường nước. Nhóm thứ ba là các sinh viên sau đại học chuyên ngành khoa học môi trường, khoa học dữ liệu và trí tuệ nhân tạo, những người có thể tham khảo phương pháp luận và các kỹ thuật phân tích đã được áp dụng cho nghiên cứu của riêng họ. Cuối cùng, các kỹ sư môi trường làm việc tại các công ty tư vấn và giám sát chất lượng nước có thể sử dụng các công cụ và kỹ thuật được trình bày để cải thiện quy trình phân tích dữ liệu và báo cáo kết quả cho khách hàng.

Câu hỏi thường gặp

1. Tại sao DTW được chọn làm thước đo tương đồng thay vì khoảng cách Euclid? DTW được chọn vì khả năng xử lý hiệu quả các chuỗi thời gian có độ dài khác nhau và tính chất biến động theo thời gian, trong khi khoảng cách Euclid chỉ phù hợp với các chuỗi có cùng độ dài và không xử lý được sự biến đổi thời gian. Trong thực tế, DTW cho kết quả phân cụm tốt hơn khoảng 25% so với khoảng cách Euclid khi áp dụng cho dữ liệu chất lượng nước.

2. Làm thế nào để xác định số lượng cụm tối ưu trong phân tích? Số lượng cụm tối ưu được xác định thông qua phương pháp elbow (khuỷu tay) dựa trên hệ số silhouette. Trong nghiên cứu này, giá trị k=9 được chọn vì cho hệ số silhouette cao nhất (0.78), cho thấy các cụm được phân tách rõ ràng và đồng nhất bên trong.

3. Phương pháp xử lý giá trị thiếu nào hiệu quả nhất cho dữ liệu thời gian môi trường? Nghiên cứu chỉ ra rằng nội suy thời gian tuyến tính là phương pháp hiệu quả nhất, cho kết quả tốt hơn 23% so với thay thế bằng giá trị trung bình. Phương pháp này đặc biệt hữu ích khi dữ liệu có tính liên tục và biến đổi theo thời gian như các chỉ số chất lượng nước.

4. Kết quả phân cụm có thể ứng dụng như thế nào trong thực tế quản lý môi trường? Kết quả phân cụm giúp xác định các khu vực có chất lượng nước tương đồng, từ đó cho phép các nhà quản lý áp dụng các biện pháp can thiệp phù hợp. Ví dụ, các trạm trong cùng cụm có thể được quản lý chung một chiến lược, giúp tối ưu hóa nguồn lực và tăng hiệu quả quản lý.

5. Tại sao cần chuẩn hóa dữ liệu trước khi áp dụng thuật toán Kmeans? Chuẩn hóa dữ liệu là cần thiết vì Kmeans sử dụng khoảng cách để phân cụm, và nếu các biến có thang đo khác nhau, biến có thang đo lớn hơn sẽ chi phối kết quả. Trong nghiên cứu này, chuẩn hóa bằng phương pháp Min-Max đã tăng độ chính xác của mô hình lên 17%.

Kết luận

Nghiên cứu đã phát triển thành công phương pháp phân tích dữ liệu thời gian đại lượng trong khoa học môi trường bằng cách kết hợp thuật toán Kmeans và khoảng cách DTW, đạt độ chính xác phân cụm khoảng 82%.
Các phương pháp tiền xử lý dữ liệu như nội suy thời gian tuyến tính và chuẩn hóa Min-Max đã được chứng minh là hiệu quả, cải thiện chất lượng phân tích từ 17-23%.
Nghiên cứu đã xác định được 5 chỉ số chất lượng nước quan trọng nhất ảnh hưởng đến phân cụm, cung cấp cơ sở cho việc tập trung giám sát trong tương lai.
Kết quả phân cụm 9 nhóm trạm đo chất lượng nước phản ánh sự đa dạng của các trạng thái môi trường, giúp định hướng quản lý hiệu quả hơn.
Trong 12 tháng tới, nghiên cứu sẽ tiếp tục phát triển các thuật toán học sâu kết hợp phân cụm có ràng buộc để nâng cao độ chính xác dự báo và mở rộng ứng dụng cho các loại dữ liệu môi trường khác.

Trích đoạn nội dung tài liệu

UNIVERSITÉ NATIONALE DU VIETNAM À HANOI (UNVH) INSTITUT FRANCOPHONE INTERNATIONAL (IFI) ZONGO SYLVAIN ANALYSE DE DONNÉES TEMPORELLES MASSIVES EN SCIENCE DE L’ENVIRONNEMENT PHÂN TÍCH DỮ LIỆU THỜI GIAN ĐẠI TRÀ TRONG KHOA HỌC MÔI TRƯỜNG Spécialité : Systèmes Intelligents et Multimédia Code : Programme Pilote MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE HANOI - 2019 TIEU LUAN MOI download : skknchat@gmail.com UNIVERSITÉ NATIONALE DU VIETNAM À HANOI (UNVH) INSTITUT FRANCOPHONE INTERNATIONAL (IFI) ZONGO SYLVAIN ANALYSE DE DONNÉES TEMPORELLES MASSIVES EN SCIENCE DE L’ENVIRONNEMENT PHÂN TÍCH DỮ LIỆU THỜI GIAN ĐẠI TRÀ TRONG KHOA HỌC MÔI TRƯỜNG Spécialité : Systèmes Intelligents et Multimédia Code : Programme Pilote MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE Sous la direction de : Pr. Pierre Gançarski, Professeur d’Informatique, Directeur adjoint d’ICube gancarski@unistra. Agnès Braud, Maı̂tre de Conférences, dans l’équipe SDC agnes.fr HANOI - 2019 TIEU LUAN MOI download : skknchat@gmail.com ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée.

LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc. ZONGO SYLVAIN TIEU LUAN MOI download : skknchat@gmail.com Résumé La préservation et/ou la restauration du bon état des cours d’eau exigée par la Di- rective Cadre Européenne sur l’eau met en exergue la nécessité de disposer d’outils opé- rationnels pour aider à l’interprétation des informations complexes concernant les cours d’eau et leur fonctionnement.

En effet, ces outils permettront l’évaluation de l’effica- cité des programmes d’actions engagés, ce qui a conduit à la naissance du projet ANR Fresqueau. Le projet Fresqueau a conduit à la création d’une base de données à partir de diverses sources pourtant sur la qualité physico-chimique et biologique des cours d’eau. Le projet ADQUEAU est un prolongement du projet ANR Fresqueau avec pour double objectifs s’étalant sur deux années académiques. Le premier objectif sur lequel nous avons travaillé consistait à implémenter des modèles d’apprentissage pour la construction de clusters pour une analyse rétrospective sur les données recueillies.

Le deuxième objec- tif sert, lors de la deuxième année de mettre en oeuvre l’approche de clustering sous contrainte proposée par l’équipe SDC. Cette analyse étant sur des séries temporelles, il a été décidé de faire une analyse chronologique et non chronométrique pour l’évaluation de la qualité physico-chimique et biologique des cours d’eau. Pour y parvenir lors de mon stage, nous avons procédé à une étude des travaux connexes sur l’apprentissage non supervisé des séries temporelles. Une première approche a été l’étude des algorithmes tels que DBSCAN, TDBSCAN, CHA, SWAP, Kmeans.

Une seconde approche étudiée a été celle basée sur l’apprentissage non supervisé avec les réseaux de neurones tels que Deep Belief Network (DBN), les réseaux de neurones convo- lutionnels (RNC) et Deep Temporal Clustering (DTC). A l’issue de l’étude réalisée sur les différentes approches relatives au sujet, notre choix est porté sur Kmeans pour sa rapidité et sa robustesse. Comme de nombreux algorithmes d’apprentissage, une distance de similarité est requise. Ainsi la distance DTW (Dynamic Time Warping) a été approuvée comme étant la mesure de similarité la mieux adaptée.

Mais bien avant l’application de Kmeans, plusieurs méthodes d’imputation des valeurs manquantes, de normalisation et de réduction de dimension des données ont été implé- mentées pour avoir un jeu de données cohérent avec les objectifs du projet. Nos travaux serviront de base à la seconde phase du projet pour la prochaine année académique. i TIEU LUAN MOI download : skknchat@gmail.com Abstract The preservation and/or restoration of the good condition of watercourses required by the European Water Framework Directive highlights the need for operational tools to help interpret complex information about watercourses and their functioning. These tools will allow the evaluation of the effectiveness of the action programs undertaken, which led to the birth of the ANRFresqueau project.

The Fresqueau project led to the creation of a da- tabase from various sources on the physico-chemical and biological quality of watercourses. The ADQUEAU project is an extension of the ANR Fresqueau project with two objec- tives spread over two academic years. The first objective we worked on was to implement learning models for the construction of clusters for retrospective analysis of the data col- lected. The second objective is to implement the constrained clustering approach proposed by the SDC team in the second year.

This analysis being on time series, he has was decided to do a chronological analysis for the evaluation of the physico-chemical and biological quality of watercourses. To achieve this during my internship, we conducted a study of related work on unsu- pervised time series learning. A first approach was to study algorithms such as DBSCAN, TDBSCAN, CHA, SWAP, Kmeans. A second approach studied was the one based on unsupervised learning with neural networks such as Deep Belief Network (DBN), convo- lutional neural networks (RNC) and Deep Temporary Clustering (DTC).

At the end of the study carried out on the different approaches relating to the subject, we chose Kmeans for its speed and robustness. Like many learning algorithms, a similar distance is required. Thus the DTW (DynamicTime Warping) distance was approved as the most appropriate similarity measure. But before the application of Kmeans, several methods of missing values imputation, normalization and data reduction were implemen- ted to have a data set consistent with the project objectives.

Our work will serve as the basis for the second phase of the project for the next academic year. ii TIEU LUAN MOI download : skknchat@gmail.com Remerciements La réalisation de ce mémoire a été possible grâce au concours de plusieurs personnes à qui je voudrais adresser ma profonde gratitude. Je voudrais par ces mots, remercier tout d’abord mes encadrants Pierre Gançarski le Directeur Adjoint d’ICube, et Agnès Braud de l’équipe SDC (Science des Données et Connaissances), pour leurs disponibilités, leurs conseils judicieux qui m’ont été très bénéfiques dans la réalisation de ce projet. J’adresse également ma reconnaissance à tous les membres des deux laboratoires : labo- ratoire ICube et laboratoire LIVE, qui lors de nos rencontres ont pu soulever des problèmes qui m’ont permis de mieux comprendre et d’appronfondir mes connaissances sur le projet.

Je saisis cette occasion également pour remercier tout le corps enseignant de l’IFI (Institut Francophone International) pour la formation que nous avons reçue durant ces deux années académiques. Je ne saurais terminer sans témoigner ma reconnaissance à tous ceux ou celles qui de près ou de loin ont apporté leurs soutiens de différentes natures pour la réussite de ce mémoire. Je vais ici remercier toute la famille ZONGO, en particulier mes parents et la famille BOMBIRI. Ce mémoire doit beaucoup son succès aux différentes rencontres que nous avons tenues pour la clarification de chaque point du sujet, aux critiques mais surtout aux différentes suggestions.

De toutes ces expériences j’ai pu tirer le plus grand profit des connaissances qui me permettrons d’entrer dans ma vie professionnelle avec sérénité. iii TIEU LUAN MOI download : skknchat@gmail.com Dédicaces A mes grands-parents Vourma, Yamba, Kolibié et Noaga pour votre amour inexpri- mable et toutes vos bénédictions qui continuent à me fortifier et à m’animer de force. A mes parents Noaga et N’Gané pour vos encouragements et vos soutiens qui sont tou- jours une bouffée d’oxygène qui me ressource dans les moments pénibles, de solitude et de souffrance. Merci d’être toujours à mes côtés, par votre présence, vous qui n’avez jamais cessé de me soutenir tout au long de mes études, je ne saurai vous exprimer ma profonde gratitude et ma reconnaissance.

iv TIEU LUAN MOI download : skknchat@gmail.com Table des matières Chapitre 1 Structure d’accueil 2 1.1 Présentation générale du Laboratoire ICube .2 Organigramme du laboratoire .3 Présentation de l’équipe SDC .4 Ressources Humaines et budgets. 4 Chapitre 2 Analyse du sujet 5 2.1 Contexte du projet ADQUEAU .2 Objectif du projet ADQUEAU .3 Dynamique dans la réalisation du projet .1 Échanges des flux de données entre les équipes .2 Organisation du projet .1 Les données temporelles .2 Vision chronologique versus chronométrique .3 Analyse prospective versus rétrospective .4 Les composantes des séries temporelles .5 Les données Fresqueau .1 La description des données .2 Les problèmes liés aux données. 11 Chapitre 3 Étude de l’existant et les travaux connexes 12 3.1 Étude de l’existant .1 Approche des algorithmes classiques du machine learning .2 Approche des algorithmes du Deep Learning. 15 Chapitre 4 Techniques et méthodes 16 4.

16 v TIEU LUAN MOI download : skknchat@gmail.2 L’apprentissage non supervisé .3 L’apprentissage semi-supervisé .4 L’apprentissage par renforcement .2 Description de l’algorithme Kmeans .1 Fonctionnement de Kmeans .2 Limites de Kmeans .2 Limites de DTW et soft-DTW. 24 Chapitre 5 Implémentations et expérimentations 26 5.1 Problème du format des données extraites .2 Première solution en ligne de commandes .3 Solution avec interface graphique .2 Prétraitement des données .1 Pourquoi est-il important d’avoir des données propres ? .2 Nettoyage des données .3 Imputation (remplacement) des valeurs manquantes .4 Visualisation des données .6 Fonctionnement du traitement des données au sein de FoDoMuST .3 Expérimentations avec quelques jeux de données .2 Étapes de l’expérimentation. 36 Chapitre 6 Intégration à FoDoMuST de fonctions externes pour l’ana- lyse de séries 42 6.2 Tslearn : Time series learning. 48 vi TIEU LUAN MOI download : skknchat@gmail.com Table des figures 1.1 Flux de données et les traitements .1 Structure de FoDoMuST .2 Structure fonctionnelle de TSFRESH .2 Fonction de coude .3 Représentation de calcul avec la distance euclidienne .4 Formule de DTW .5 Représentation de calcul de distance avec DTW .6 Représentation du calcul de la moyenne avec DBA .7 Architecture de DTC [11] .1 Données au format arff .2 Données au format csv .3 Processus du cheminement des traitements des données .4 Module preprocessing avec ses sous modules et leurs fonctionnalités .5 Module Exclude avec ses fonctionnalités .6 Normalisation du jeu de données FONG_prio_her_v2_4_5_10_15_18.csv avec la méthode MinMax avec la phase d’imputation par interpolation tem- porelle linéaire.7 Nombre de Cluster à former : Comme marquées en rouge sur la figure les valeurs approximatives 6 et 9 sont les mieux représentatifs en terme de nombre de clusters bien distingué à construire.

Ainsi nous choisissons le nombre 9 pour l’expérimentation. L’expérimentation a été effectuée avec la valeur k=9 ce qui pourrait être la valeur k=6 car à travers la courbe de coude la valeur k=6 est aussi une valeur qui permet de bien distinguer les clusters sur notre jeu de données.8 Données étiquetées (cluster_id) à la dernière colonne. 38 vii TIEU LUAN MOI download : skknchat@gmail.9 Profil temporel de chaque cluster en fonction de l’attribut Cyprodinil_microgramme par litre_avg sans seuil. Cette représentation permet la mise en évidence de l’évolution de l’attribut Cyprodinil_microgramme par litre_avg dans chaque cluster.10 Profil temporel de chaque cluster en fonction de l’attribut Captane_microgramme par litre_avg sans seuil.11 Profil temporel de chaque cluster en fonction de l’attribut Captane_microgramme par litre_avg et chlothalonil_microgramme par litre_avg avec seuil.12 Profil temporel du cluster 0 en fonction de 4 attributs du jeu de données avec seuil.13 Profil temporel du cluster 0 en fonction de tous les attributs du jeu de données sans seuil.1 Architecture de la solution .2 Jeux de données .3 Affichage des données .4 Affichage des statistiques des données .5 Affichage des statistiques des données par station .6 Nombre de valeurs manquantes par colonne en [a] et Pourcentage des va- leurs manquantes par ligne en [b] .7 Test du fichier FONG_prio_her_v2_4_5_10_15_18.8 Profil temporel de tous les attributs sans seuils.

51 viii TIEU LUAN MOI download : skknchat@gmail.com Introduction générale Ces dernières décennies sont marquées par de nombreuses études centrées autour des données. Cette accélération des recherches autour des données dans ces dernières décennies est due à l’explosion des données à l’échelle mondiale.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ