Luận văn thạc sĩ về hệ thống phân tích dữ liệu trùng lặp sử dụng kỹ thuật machine learning

Luận văn thạc sĩ VNU nghiên cứu hệ thống phân tích dữ liệu trùng lặp bằng kỹ thuật machine learning, tối ưu hóa quy trình xử lý dữ liệu.

Trường đại học

Université Nationale Du Vietnam, Hanoi Institut Francophone International

Chuyên ngành

Systèmes Intelligents et Multimédia

Người đăng

Ẩn danh

Thể loại

Mémoire De Fin D’études Du Master Informatique

2018

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: INTRODUCTION

1.1. Contribution

1.2. Organisation du rapport

2. CHƯƠNG 2: VUE D’ENSEMBLE

2.1. Définition du problème

2.2. Qualité des données

2.3. Nettoyage des données

2.4. Problèmes causés par les données dupliquées

2.5. Platform

2.5.1. Pourquoi une solution MDM

3. CHƯƠNG 3: ETAT DE L’ART

3.1. Mesures de similarité : revue de l’existant

3.1.1. Le problème de la comparaison des chaı̂nes de caractères

3.1.1.1. Métriques basées sur des caractères

3.1.1.2. Métriques basées sur des Tokens(Lexèmes)

3.1.2. Mesures de similarité numériques

3.1.3. Detection des enregistrements dupliqués

3.1.3.1. Techniques basées sur des règles

3.1.3.2. Techniques basées sur la distance

3.1.3.3. Utilisation d’algorithmes d’apprentissage pour combiner des fonctions de similarité

3.1.3.4. Apprentissage non-supervisé

4. CHƯƠNG 4: SOLUTION PROPOSÉE

4.1. Blocage et calcul de distance

4.1.1. Prétraitement des données

4.1.2. Configuration de l’expérience

4.1.3. Choix du bon seuil

4.1.4. Jeux de données

4.1.5. Analyse des expériences

4.2. Appariement flou ou Correspondance Approximative(Fuzzy matching)

4.2.1. Correspondance Approximative sur un(1) champ

4.2.2. Correspondance Approximative sur un(3) champs

6. CHƯƠNG 6: CONCLUSION ET PERSPECTIVES

BIBLIOGRAPHIE

GLOSSAIRE

Tóm tắt

I. Tổng quan về hệ thống phân tích dữ liệu trùng lặp bằng machine learning

Hệ thống phân tích dữ liệu trùng lặp là một phần quan trọng trong quản lý dữ liệu hiện đại. Với sự phát triển của công nghệ, việc áp dụng machine learning vào phân tích dữ liệu đã trở thành một xu hướng tất yếu. Hệ thống này không chỉ giúp phát hiện các bản ghi trùng lặp mà còn cải thiện chất lượng dữ liệu tổng thể. Việc sử dụng các thuật toán học máy cho phép tự động hóa quá trình này, giảm thiểu sai sót do con người và tiết kiệm thời gian xử lý.

1.1. Định nghĩa và tầm quan trọng của phân tích dữ liệu trùng lặp

Phân tích dữ liệu trùng lặp là quá trình xác định và loại bỏ các bản ghi giống nhau trong cơ sở dữ liệu. Điều này rất quan trọng vì dữ liệu trùng lặp có thể dẫn đến quyết định sai lầm trong kinh doanh. Theo một nghiên cứu, khoảng 30% dữ liệu trong các tổ chức là trùng lặp, gây ra chi phí lớn cho doanh nghiệp.

1.2. Các ứng dụng của hệ thống phân tích dữ liệu trùng lặp

Hệ thống phân tích dữ liệu trùng lặp có thể được áp dụng trong nhiều lĩnh vực như tài chính, y tế, và thương mại điện tử. Ví dụ, trong ngành y tế, việc loại bỏ dữ liệu trùng lặp giúp bác sĩ có được thông tin chính xác về bệnh nhân, từ đó đưa ra quyết định điều trị hiệu quả hơn.

II. Vấn đề và thách thức trong phân tích dữ liệu trùng lặp

Mặc dù có nhiều lợi ích, việc phân tích dữ liệu trùng lặp cũng gặp phải nhiều thách thức. Một trong những vấn đề lớn nhất là sự đa dạng của dữ liệu. Dữ liệu có thể đến từ nhiều nguồn khác nhau và có định dạng khác nhau, điều này làm cho việc phát hiện trùng lặp trở nên khó khăn hơn. Ngoài ra, chất lượng dữ liệu cũng là một yếu tố quan trọng ảnh hưởng đến kết quả phân tích.

2.1. Các vấn đề phổ biến trong dữ liệu trùng lặp

Một số vấn đề phổ biến bao gồm sự không nhất quán trong định dạng dữ liệu, lỗi chính tả, và sự khác biệt trong cách ghi nhận thông tin. Những vấn đề này có thể dẫn đến việc không phát hiện được các bản ghi trùng lặp, từ đó ảnh hưởng đến chất lượng dữ liệu.

2.2. Thách thức trong việc áp dụng machine learning

Việc áp dụng machine learning vào phân tích dữ liệu trùng lặp cũng gặp phải nhiều thách thức. Một trong số đó là việc lựa chọn thuật toán phù hợp và tối ưu hóa các tham số. Ngoài ra, việc thu thập và chuẩn bị dữ liệu cũng rất quan trọng để đảm bảo rằng mô hình học máy hoạt động hiệu quả.

III. Phương pháp sử dụng machine learning trong phân tích dữ liệu trùng lặp

Có nhiều phương pháp khác nhau để áp dụng machine learning vào phân tích dữ liệu trùng lặp. Các phương pháp này bao gồm học có giám sát, học không giám sát và các kỹ thuật kết hợp. Mỗi phương pháp có những ưu điểm và nhược điểm riêng, và việc lựa chọn phương pháp phù hợp phụ thuộc vào loại dữ liệu và mục tiêu phân tích.

3.1. Học có giám sát trong phân tích dữ liệu trùng lặp

Học có giám sát là phương pháp phổ biến nhất trong phân tích dữ liệu trùng lặp. Phương pháp này yêu cầu một tập dữ liệu đã được gán nhãn để huấn luyện mô hình. Các thuật toán như hồi quy logistic và cây quyết định thường được sử dụng trong trường hợp này.

3.2. Học không giám sát và các kỹ thuật clustering

Học không giám sát là một phương pháp khác có thể được sử dụng để phát hiện dữ liệu trùng lặp mà không cần gán nhãn. Các kỹ thuật clustering như K-means và DBSCAN có thể giúp nhóm các bản ghi tương tự lại với nhau, từ đó phát hiện các bản ghi trùng lặp.

IV. Kết quả nghiên cứu và ứng dụng thực tiễn

Nghiên cứu cho thấy rằng việc áp dụng machine learning vào phân tích dữ liệu trùng lặp có thể cải thiện đáng kể chất lượng dữ liệu. Các thử nghiệm đã chỉ ra rằng các mô hình học máy có thể phát hiện và loại bỏ các bản ghi trùng lặp với độ chính xác cao. Điều này không chỉ giúp tiết kiệm thời gian mà còn giảm thiểu chi phí cho doanh nghiệp.

4.1. Kết quả từ các thử nghiệm thực tế

Các thử nghiệm thực tế cho thấy rằng việc sử dụng các thuật toán học máy có thể giảm thiểu tỷ lệ dữ liệu trùng lặp xuống dưới 5%. Điều này cho thấy hiệu quả của việc áp dụng công nghệ mới vào quản lý dữ liệu.

4.2. Ứng dụng trong các lĩnh vực khác nhau

Hệ thống phân tích dữ liệu trùng lặp đã được áp dụng thành công trong nhiều lĩnh vực như tài chính, y tế và thương mại điện tử. Các doanh nghiệp đã ghi nhận sự cải thiện rõ rệt trong chất lượng dữ liệu và hiệu quả hoạt động.

V. Kết luận và tương lai của hệ thống phân tích dữ liệu trùng lặp

Hệ thống phân tích dữ liệu trùng lặp bằng machine learning đang trở thành một công cụ không thể thiếu trong quản lý dữ liệu hiện đại. Tương lai của hệ thống này hứa hẹn sẽ còn phát triển hơn nữa với sự tiến bộ của công nghệ. Việc áp dụng các thuật toán học sâu và trí tuệ nhân tạo có thể mở ra nhiều cơ hội mới trong việc cải thiện chất lượng dữ liệu.

5.1. Xu hướng phát triển trong tương lai

Trong tương lai, việc áp dụng các công nghệ mới như trí tuệ nhân tạo và học sâu sẽ giúp cải thiện khả năng phát hiện dữ liệu trùng lặp. Các mô hình phức tạp hơn sẽ được phát triển để xử lý các loại dữ liệu phức tạp hơn.

5.2. Tầm quan trọng của chất lượng dữ liệu

Chất lượng dữ liệu sẽ tiếp tục là một yếu tố quan trọng trong việc ra quyết định của doanh nghiệp. Việc duy trì và cải thiện chất lượng dữ liệu sẽ giúp các tổ chức hoạt động hiệu quả hơn và đạt được mục tiêu kinh doanh.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu système de déduplication utilisant les techniques dapprentissage automatique hệ thống phân tích dữ liệu trùng lặp sử dụng kĩ thuật machine learning

Tải đầy đủ

Trích đoạn nội dung tài liệu

UNIVERSITÉ NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL ELIODOR EDNALSON GUY MIRLIN SYSTÈME DE DÉDUPLICATION UTILISANT LES TECHNIQUES D’APPRENTISSAGE AUTOMATIQUE HỆ THỐNG PHÂN TÍCH DỮ LIỆU TRÙNG LẶP SỬ DỤNG KĨ THUẬT MACHINE LEARNING MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE HANOI - 2018 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com UNIVERSITÉ NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL ELIODOR EDNALSON GUY MIRLIN SYSTÈME DE DÉDUPLICATION UTILISANT LES TECHNIQUES D’APPRENTISSAGE AUTOMATIQUE HỆ THỐNG PHÂN TÍCH DỮ LIỆU TRÙNG LẶP SỬ DỤNG KĨ THUẬT MACHINE LEARNING Spécialité : Systèmes Intelligents et Multimédia Code : Programme Pilote MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE Sous la direction de : Pierre Bonnet, COO-Orchestra Networks, Expert en SI David Lapetina, Directeur des opérations Orchestra Networks Vietnam - Hanoi HANOI - 2018 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée. LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác.

Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc. Signature de l’étudiant ELIODOR EDNALSON GUY MIRLIN LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Résumé La gestion des données de référence consiste à trouver ou créer un enregistrement unique contenant tout ce qu’une entreprise ou une organisation doit savoir sur une per- sonne, un emplacement, un produit, un fournisseur, une autre entreprise ou une autre entité en particulier. Il peut également être appelé “master record” ou “golden record”. En fait, la notion de qualité des données, en particulier le problème de duplication, re- présente un défi très important pour une bonne gouvernance des données.

La présence de doublons ou de données similaires soulève d’importantes préoccupations quant à la qualité des données qu’il faut ainsi supprimer. La déduplication des enregistrements est un processus important dans l’intégration et le nettoyage des données. Elle permet d’identifier les enregistrements d’une base de données ou provenant de différentes sources qui représentent la même entité du monde réel. Elle assure une meilleure qualité des données résultantes de ce processus.

Ce pro- cessus est utilisé pour créer un "golden record". Ainsi, l’extraction de connaissances à partir de ces dernières sera plus précise. Au cours des dernières années, diverses tech- niques d’apprentissage automatique ont été utilisées pour aborder ce problème. Sachant que, le produit EBX d’Orchestra Networks utilise cette approche, notre travail consiste à : — Comparez quelques techniques de détection d’enregistrements dupliqués en utili- sant l’apprentissage automatique et évaluez leurs avantages et leurs inconvénients.

— Développer un prototype qui combine les meilleures caractéristiques et permet de produire une détection d’enregistrements dupliquées améliorées dans EBX. L’approche que nous avons utilisée pour aborder le problème dans le cadre de notre stage est l’approche d’apprentissage actif. Différentes expériences sont menées sur un ensemble de données pour vérifier l’efficacité de l’algorithme dans la détection des enre- gistrements dupliqués. Mots clés : Prétraitement des données, détection de doublons, apprentissage automa- tique, apprentissage supervisé, apprentissage non-supervisée, mesure de similarité, NLP, classification de texte, traitement du langage naturel, Data quality Management, Dédu- plication, doublons, similaire, record matching, machine learning, clustering, duplicated records, etc.

LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Abstract Master data management is the process of finding or creating a single record that contains everything your organization needs to know about a particular person, location, product, supplier, business, or other entity. It can also be referred to as the master record or golden record. Indeed, the notion of data quality particularly the duplication problem presents a very important challenge for good data governance in order to improve in- teractions between the different employees of one or more organizations concerned. The presence of duplicate or similar data raises significant concerns about the quality of the data.

Record matching is an important process in data integration and data cleaning to identify records from different sources representing the same real-world entity. It ensures a better quality of data results. Thus, the extraction of knowledge from these data is more accurate. This process is used to create a "golden record".

In recent years, a variety of ma- chine learning techniques have been used in record linkage. As EBX product of Orchestra Networks is using this approach, our work is to : — Compare a few record matching techniques using machine learning and evaluate their advantages and disadvantages. — Develop a technique that combines the best features from these techniques to produce an improved record matching techniques in EBX. Our approach is the use of “dedupe” python library with “active Learning” and clus- tering techniques to resolve record matching problem.

Various experiments are conducted on a dataset to verify the effectiveness of the algorithm in detecting the duplicate records. Keywords : Unsupervised Learning, Similarity Learning, Language Processing, Data Quality Management, Deduplication, record matching, machine learning, clustering, du- plicated records, etc. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Remerciements La réalisation de ce document qui couronne la fin de notre formation de Master, n’au- rait été possible sans l’appui direct ou indirect des personnes et des institutions auxquelles nous tenons ici à exprimer nos sincères remerciements. Il s’agit de : — L’Agence Universitaire de la Francophonie (AUF), pour nous avoir donné l’oppor- tunité de poursuivre nos études de Master à l’IFI à travers une bourse de mobilité ; — L’Institut Francophone International (IFI) et de tous les professeurs, pour la qualité de la formation dispensée ; — M.

David Lapetina et M. Pierre Bonnet pour m’avoir accueilli au sein de leur équipe et pour leur suivi et implication personnelle dans la réalisation de mes travaux ; — L’ensemble du personnel d’Orchestra Networks à Hanoi, pour son accueil très cha- leureux et pour les conditions de travail optimales ; — J’adresse mes sincères remerciements aux membres de AI Academy Vietnam pour l’honneur qu’ils m’ont fait par leur acceptation de participer à l’évaluation de mon travail ; — J’aimerais remercier toute ma famille pour leur soutien et leur amour tout au long de mes études ; — Enfin, tous ceux qui de près ou de loin m’ont apporté leur soutien durant ma formation. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Sommaire 1 Introduction 1 1.2 Organisation du rapport .1 Définition du problème .2 Qualité des données .3 Nettoyage des données .4 Problèmes causés par les données dupliquées .1 Pourquoi une solution MDM .2 Les fonctionnalités EBX. 8 3 Etat de l’Art 9 3.1 Mesures de similarité : revue de l’existant .1 Le problème de la comparaison des chaı̂nes de caractères .1 Métriques basées sur des caractères .2 Métriques basées sur des Tokens(Lexèmes) .2 Mesures de similarité numériques .2 Detection des enregistrements dupliqués .1 Techniques basées sur des règles .2 Techniques basées sur la distance .2 Utilisation d’algorithmes d’apprentissage pour combiner des fonctions de similarité .4 Apprentissage non-supervisé.

21 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4 Solution proposée 22 4.1 Blocage et calcul de distance .1 Prétraitement des données .1 Configuration de l’expérience .3 Choix du bon seuil .4 Jeux de données .5 Analyse des expériences .2 Appariement flou ou Correspondance Approximative(Fuzzy mat- ching ) .1 Correspondance Approximative sur un(1) champ .2 Correspondance Approximative sur un(3) champs. 33 6 Conclusion et perspectives 37 Bibliographie 38 A Glossaire I LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Liste des tableaux 2.1 Exemple de données dupliquées .1 Experimentations : Configuration logicielle et matérielle. 28 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Table des figures 1 Classification des métriques de chaı̂nes. 10 2 Choix des attributs les plus utiles pour une tâche de déduplication dépen- damment du jeu de données en entrée.

23 3 Architecture du système proposée. 24 4 Phase de labellisation “Contribution Humaine”. 26 5 Page d’acceuil et de chargement des données-système implémenté. 29 6 Page de sélection des champs importants-système implémenté.

29 7 Phase de labellisation-système implémenté. 30 8 Métriques d’évaluation pour le matching exact- A gauche(sur 1 champ)- A droite(sur 3 champs). 32 9 Performance des deux systèmes pour le cas de détection de duplication (matching Exact). 32 10 Métriques d’évaluation du système proposé- Correspondance approxima- tive(1 champ).

33 11 Métriques d’évaluation du système proposé - Consumer. 34 12 Extrait du fichier CSV généré en sortie d’EBX (appariement flou - 3 colonnes) 34 13 Extrait du fichier CSV généré en sortie du système proposé(appariement flou - 3 colonnes). 34 14 Extrait du fichier CSV généré en sortie du système proposé(appariement flou - 3 colonnes). 35 15 Extrait du fichier CSV généré en sortie d’EBX(appariement flou - 3 colonnes) 35 16 Extrait du fichier CSV généré en sortie du système implémenté(appariement flou - 3 colonnes).

35 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chapitre 1 Introduction De nos jours, les données représentent un actif pour les entreprises et les adminis- trations et contribuent ainsi à leur développement. De nombreux secteurs et systèmes dépendent de la précision des bases de données pour effectuer des opérations telles que la recherche d’informations potentielles, utiles et auparavant inconnues dans leurs données. La qualité des informations liées à un grand système de gestion des données dépend de la qualité des données collectées. Ainsi, la qualité des données est une question très im- portante pour une meilleure gouvernance.

Malheureusement, la présence des doublons ou similaires crée des problèmes de qualité de données importants. La duplication des enre- gistrements constitue l’un des problèmes majeurs de la qualité des données car, une prise de décision fondée sur de mauvaises informations peut être préjudiciable à l’entreprise, ce qui entraı̂ne un coût élevé et une très mauvaise prise de décision. Dans ce cas, la déduplication améliore la qualité des données dans la mesure où, une fois ce nettoyage effectué, le système ne contiendra que des données fiables et pertinentes.1 Contribution L’objectif de ce rapport est de présenter les études que nous avons réalisées sur la ma- nière dont nous pouvons améliorer la déduplication des données dans EBX 1 en fonction des variantes des fonctions de similarité classiques et l’application de l’approche d’appren- tissage automatique qui, de nos jours, sont couramment utilisées pour la détection des enregistrements dupliqués. Nous présentons le système que nous avons développé, qui est capable d’effectuer la tâche de détection des doublons en utilisant l’approche d’apprentis- sage actif.

Ensuite, des expériences ont été réalisées pour montrer l’efficacité du système proposé.2 Organisation du rapport Ce rapport est organisé autour de six (6) chapitres. un logiciel MDM créé par la société Orchestra Networks 1 LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Organisation du rapport Le chapitre 2 présente une vue d’ensemble du problème qui peut être catégorisé comme une solution à apporter dans le cadre du nettoyage des données (gestion de la qualité des données). Le chapitre 3 constitue l’état de l’art (approche classique et approche d’apprentissage automatique).

Les chapitres 4 et 5 comportent les différentes étapes d’implémentation et d’évaluation de nos approches. Nous entamons tous les détails d’implémentation et de la réalisation de nos propositions. Ensuite nous exposons les démarches que nous avons suivies pour éva- luer notre système et nous discutons les différents résultats issus de nos expérimentations. Le chapitre 6 présente la conclusion générale de ce travail et esquisse nos diverses perspectives.

2 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chapitre 2 Vue d’ensemble La détection des données dupliquées est la tâche d’identification, de correspondance et de fusion des enregistrements qui correspondent aux mêmes entités à l’intérieur d’un ou plusieurs jeu(x) de données(8).

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Học máy và trí tuệ nhân tạo

Xử lý và phân tích dữ liệu

hệ thống thông tin thông minh