UNIVERSITÉ NATIONALE DU VIETNAM À HANOI (UNVH) INSTITUT FRANCOPHONE INTERNATIONAL (IFI) ZONGO SYLVAIN ANALYSE DE DONNÉES TEMPORELLES MASSIVES EN SCIENCE DE L’ENVIRONNEMENT PHÂN TÍCH DỮ LIỆU THỜI GIAN ĐẠI TRÀ TRONG KHOA HỌC MÔI TRƯỜNG Spécialité : Systèmes Intelligents et Multimédia Code : Programme Pilote MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE HANOI - 2019 TIEU LUAN MOI download : skknchat@gmail.com UNIVERSITÉ NATIONALE DU VIETNAM À HANOI (UNVH) INSTITUT FRANCOPHONE INTERNATIONAL (IFI) ZONGO SYLVAIN ANALYSE DE DONNÉES TEMPORELLES MASSIVES EN SCIENCE DE L’ENVIRONNEMENT PHÂN TÍCH DỮ LIỆU THỜI GIAN ĐẠI TRÀ TRONG KHOA HỌC MÔI TRƯỜNG Spécialité : Systèmes Intelligents et Multimédia Code : Programme Pilote MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE Sous la direction de : Pr. Pierre Gançarski, Professeur d’Informatique, Directeur adjoint d’ICube gancarski@unistra. Agnès Braud, Maı̂tre de Conférences, dans l’équipe SDC agnes.fr HANOI - 2019 TIEU LUAN MOI download : skknchat@gmail.com ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée.
LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc. ZONGO SYLVAIN TIEU LUAN MOI download : skknchat@gmail.com Résumé La préservation et/ou la restauration du bon état des cours d’eau exigée par la Di- rective Cadre Européenne sur l’eau met en exergue la nécessité de disposer d’outils opé- rationnels pour aider à l’interprétation des informations complexes concernant les cours d’eau et leur fonctionnement.
En effet, ces outils permettront l’évaluation de l’effica- cité des programmes d’actions engagés, ce qui a conduit à la naissance du projet ANR Fresqueau. Le projet Fresqueau a conduit à la création d’une base de données à partir de diverses sources pourtant sur la qualité physico-chimique et biologique des cours d’eau. Le projet ADQUEAU est un prolongement du projet ANR Fresqueau avec pour double objectifs s’étalant sur deux années académiques. Le premier objectif sur lequel nous avons travaillé consistait à implémenter des modèles d’apprentissage pour la construction de clusters pour une analyse rétrospective sur les données recueillies.
Le deuxième objec- tif sert, lors de la deuxième année de mettre en oeuvre l’approche de clustering sous contrainte proposée par l’équipe SDC. Cette analyse étant sur des séries temporelles, il a été décidé de faire une analyse chronologique et non chronométrique pour l’évaluation de la qualité physico-chimique et biologique des cours d’eau. Pour y parvenir lors de mon stage, nous avons procédé à une étude des travaux connexes sur l’apprentissage non supervisé des séries temporelles. Une première approche a été l’étude des algorithmes tels que DBSCAN, TDBSCAN, CHA, SWAP, Kmeans.
Une seconde approche étudiée a été celle basée sur l’apprentissage non supervisé avec les réseaux de neurones tels que Deep Belief Network (DBN), les réseaux de neurones convo- lutionnels (RNC) et Deep Temporal Clustering (DTC). A l’issue de l’étude réalisée sur les différentes approches relatives au sujet, notre choix est porté sur Kmeans pour sa rapidité et sa robustesse. Comme de nombreux algorithmes d’apprentissage, une distance de similarité est requise. Ainsi la distance DTW (Dynamic Time Warping) a été approuvée comme étant la mesure de similarité la mieux adaptée.
Mais bien avant l’application de Kmeans, plusieurs méthodes d’imputation des valeurs manquantes, de normalisation et de réduction de dimension des données ont été implé- mentées pour avoir un jeu de données cohérent avec les objectifs du projet. Nos travaux serviront de base à la seconde phase du projet pour la prochaine année académique. i TIEU LUAN MOI download : skknchat@gmail.com Abstract The preservation and/or restoration of the good condition of watercourses required by the European Water Framework Directive highlights the need for operational tools to help interpret complex information about watercourses and their functioning. These tools will allow the evaluation of the effectiveness of the action programs undertaken, which led to the birth of the ANRFresqueau project.
The Fresqueau project led to the creation of a da- tabase from various sources on the physico-chemical and biological quality of watercourses. The ADQUEAU project is an extension of the ANR Fresqueau project with two objec- tives spread over two academic years. The first objective we worked on was to implement learning models for the construction of clusters for retrospective analysis of the data col- lected. The second objective is to implement the constrained clustering approach proposed by the SDC team in the second year.
This analysis being on time series, he has was decided to do a chronological analysis for the evaluation of the physico-chemical and biological quality of watercourses. To achieve this during my internship, we conducted a study of related work on unsu- pervised time series learning. A first approach was to study algorithms such as DBSCAN, TDBSCAN, CHA, SWAP, Kmeans. A second approach studied was the one based on unsupervised learning with neural networks such as Deep Belief Network (DBN), convo- lutional neural networks (RNC) and Deep Temporary Clustering (DTC).
At the end of the study carried out on the different approaches relating to the subject, we chose Kmeans for its speed and robustness. Like many learning algorithms, a similar distance is required. Thus the DTW (DynamicTime Warping) distance was approved as the most appropriate similarity measure. But before the application of Kmeans, several methods of missing values imputation, normalization and data reduction were implemen- ted to have a data set consistent with the project objectives.
Our work will serve as the basis for the second phase of the project for the next academic year. ii TIEU LUAN MOI download : skknchat@gmail.com Remerciements La réalisation de ce mémoire a été possible grâce au concours de plusieurs personnes à qui je voudrais adresser ma profonde gratitude. Je voudrais par ces mots, remercier tout d’abord mes encadrants Pierre Gançarski le Directeur Adjoint d’ICube, et Agnès Braud de l’équipe SDC (Science des Données et Connaissances), pour leurs disponibilités, leurs conseils judicieux qui m’ont été très bénéfiques dans la réalisation de ce projet. J’adresse également ma reconnaissance à tous les membres des deux laboratoires : labo- ratoire ICube et laboratoire LIVE, qui lors de nos rencontres ont pu soulever des problèmes qui m’ont permis de mieux comprendre et d’appronfondir mes connaissances sur le projet.
Je saisis cette occasion également pour remercier tout le corps enseignant de l’IFI (Institut Francophone International) pour la formation que nous avons reçue durant ces deux années académiques. Je ne saurais terminer sans témoigner ma reconnaissance à tous ceux ou celles qui de près ou de loin ont apporté leurs soutiens de différentes natures pour la réussite de ce mémoire. Je vais ici remercier toute la famille ZONGO, en particulier mes parents et la famille BOMBIRI. Ce mémoire doit beaucoup son succès aux différentes rencontres que nous avons tenues pour la clarification de chaque point du sujet, aux critiques mais surtout aux différentes suggestions.
De toutes ces expériences j’ai pu tirer le plus grand profit des connaissances qui me permettrons d’entrer dans ma vie professionnelle avec sérénité. iii TIEU LUAN MOI download : skknchat@gmail.com Dédicaces A mes grands-parents Vourma, Yamba, Kolibié et Noaga pour votre amour inexpri- mable et toutes vos bénédictions qui continuent à me fortifier et à m’animer de force. A mes parents Noaga et N’Gané pour vos encouragements et vos soutiens qui sont tou- jours une bouffée d’oxygène qui me ressource dans les moments pénibles, de solitude et de souffrance. Merci d’être toujours à mes côtés, par votre présence, vous qui n’avez jamais cessé de me soutenir tout au long de mes études, je ne saurai vous exprimer ma profonde gratitude et ma reconnaissance.
iv TIEU LUAN MOI download : skknchat@gmail.com Table des matières Chapitre 1 Structure d’accueil 2 1.1 Présentation générale du Laboratoire ICube .2 Organigramme du laboratoire .3 Présentation de l’équipe SDC .4 Ressources Humaines et budgets. 4 Chapitre 2 Analyse du sujet 5 2.1 Contexte du projet ADQUEAU .2 Objectif du projet ADQUEAU .3 Dynamique dans la réalisation du projet .1 Échanges des flux de données entre les équipes .2 Organisation du projet .1 Les données temporelles .2 Vision chronologique versus chronométrique .3 Analyse prospective versus rétrospective .4 Les composantes des séries temporelles .5 Les données Fresqueau .1 La description des données .2 Les problèmes liés aux données. 11 Chapitre 3 Étude de l’existant et les travaux connexes 12 3.1 Étude de l’existant .1 Approche des algorithmes classiques du machine learning .2 Approche des algorithmes du Deep Learning. 15 Chapitre 4 Techniques et méthodes 16 4.
16 v TIEU LUAN MOI download : skknchat@gmail.2 L’apprentissage non supervisé .3 L’apprentissage semi-supervisé .4 L’apprentissage par renforcement .2 Description de l’algorithme Kmeans .1 Fonctionnement de Kmeans .2 Limites de Kmeans .2 Limites de DTW et soft-DTW. 24 Chapitre 5 Implémentations et expérimentations 26 5.1 Problème du format des données extraites .2 Première solution en ligne de commandes .3 Solution avec interface graphique .2 Prétraitement des données .1 Pourquoi est-il important d’avoir des données propres ? .2 Nettoyage des données .3 Imputation (remplacement) des valeurs manquantes .4 Visualisation des données .6 Fonctionnement du traitement des données au sein de FoDoMuST .3 Expérimentations avec quelques jeux de données .2 Étapes de l’expérimentation. 36 Chapitre 6 Intégration à FoDoMuST de fonctions externes pour l’ana- lyse de séries 42 6.2 Tslearn : Time series learning. 48 vi TIEU LUAN MOI download : skknchat@gmail.com Table des figures 1.1 Flux de données et les traitements .1 Structure de FoDoMuST .2 Structure fonctionnelle de TSFRESH .2 Fonction de coude .3 Représentation de calcul avec la distance euclidienne .4 Formule de DTW .5 Représentation de calcul de distance avec DTW .6 Représentation du calcul de la moyenne avec DBA .7 Architecture de DTC [11] .1 Données au format arff .2 Données au format csv .3 Processus du cheminement des traitements des données .4 Module preprocessing avec ses sous modules et leurs fonctionnalités .5 Module Exclude avec ses fonctionnalités .6 Normalisation du jeu de données FONG_prio_her_v2_4_5_10_15_18.csv avec la méthode MinMax avec la phase d’imputation par interpolation tem- porelle linéaire.7 Nombre de Cluster à former : Comme marquées en rouge sur la figure les valeurs approximatives 6 et 9 sont les mieux représentatifs en terme de nombre de clusters bien distingué à construire.
Ainsi nous choisissons le nombre 9 pour l’expérimentation. L’expérimentation a été effectuée avec la valeur k=9 ce qui pourrait être la valeur k=6 car à travers la courbe de coude la valeur k=6 est aussi une valeur qui permet de bien distinguer les clusters sur notre jeu de données.8 Données étiquetées (cluster_id) à la dernière colonne. 38 vii TIEU LUAN MOI download : skknchat@gmail.9 Profil temporel de chaque cluster en fonction de l’attribut Cyprodinil_microgramme par litre_avg sans seuil. Cette représentation permet la mise en évidence de l’évolution de l’attribut Cyprodinil_microgramme par litre_avg dans chaque cluster.10 Profil temporel de chaque cluster en fonction de l’attribut Captane_microgramme par litre_avg sans seuil.11 Profil temporel de chaque cluster en fonction de l’attribut Captane_microgramme par litre_avg et chlothalonil_microgramme par litre_avg avec seuil.12 Profil temporel du cluster 0 en fonction de 4 attributs du jeu de données avec seuil.13 Profil temporel du cluster 0 en fonction de tous les attributs du jeu de données sans seuil.1 Architecture de la solution .2 Jeux de données .3 Affichage des données .4 Affichage des statistiques des données .5 Affichage des statistiques des données par station .6 Nombre de valeurs manquantes par colonne en [a] et Pourcentage des va- leurs manquantes par ligne en [b] .7 Test du fichier FONG_prio_her_v2_4_5_10_15_18.8 Profil temporel de tous les attributs sans seuils.
51 viii TIEU LUAN MOI download : skknchat@gmail.com Introduction générale Ces dernières décennies sont marquées par de nombreuses études centrées autour des données. Cette accélération des recherches autour des données dans ces dernières décennies est due à l’explosion des données à l’échelle mondiale.