Luận văn thạc sĩ về hệ thống phân tích dữ liệu trùng lặp sử dụng kỹ thuật machine learning

2018

52
1
0

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: INTRODUCTION

1.1. Contribution

1.2. Organisation du rapport

2. CHƯƠNG 2: VUE D’ENSEMBLE

2.1. Définition du problème

2.2. Qualité des données

2.3. Nettoyage des données

2.4. Problèmes causés par les données dupliquées

2.5. Platform

2.5.1. Pourquoi une solution MDM

3. CHƯƠNG 3: ETAT DE L’ART

3.1. Mesures de similarité : revue de l’existant

3.1.1. Le problème de la comparaison des chaı̂nes de caractères

3.1.1.1. Métriques basées sur des caractères
3.1.1.2. Métriques basées sur des Tokens(Lexèmes)

3.1.2. Mesures de similarité numériques

3.1.3. Detection des enregistrements dupliqués

3.1.3.1. Techniques basées sur des règles
3.1.3.2. Techniques basées sur la distance
3.1.3.3. Utilisation d’algorithmes d’apprentissage pour combiner des fonctions de similarité
3.1.3.4. Apprentissage non-supervisé

4. CHƯƠNG 4: SOLUTION PROPOSÉE

4.1. Blocage et calcul de distance

4.1.1. Prétraitement des données

4.1.2. Configuration de l’expérience

4.1.3. Choix du bon seuil

4.1.4. Jeux de données

4.1.5. Analyse des expériences

4.2. Appariement flou ou Correspondance Approximative(Fuzzy matching)

4.2.1. Correspondance Approximative sur un(1) champ

4.2.2. Correspondance Approximative sur un(3) champs

6. CHƯƠNG 6: CONCLUSION ET PERSPECTIVES

BIBLIOGRAPHIE

GLOSSAIRE