Luận văn Master: Hệ thống deduplication sử dụng Machine Learning - IFI

Luận văn thạc sĩ về hệ thống phân tích dữ liệu trùng lặp sử dụng kỹ thuật Machine Learning. Nghiên cứu phương pháp deduplication, nâng cao chất lượng dữ liệu trong quản trị doanh nghiệp.

Trường đại học

Đại học Quốc gia Hà Nội, Viện Pháp ngữ Quốc tế

Chuyên ngành

Hệ thống Thông minh và Đa phương tiện

Người đăng

Ẩn danh

Thể loại

Luận văn tốt nghiệp Thạc sĩ Công nghệ Thông tin

2018

Phí lưu trữ

30 Point

Tóm tắt

I. Cách hệ thống Machine Learning xử lý dữ liệu trùng lặp hiệu quả

Hệ thống phân tích dữ liệu trùng lặp Machine Learning là giải pháp tiên tiến nhằm phát hiện và loại bỏ các bản ghi trùng lặp trong cơ sở dữ liệu lớn. Dữ liệu trùng lặp không chỉ làm giảm chất lượng thông tin mà còn gây lãng phí tài nguyên xử lý và ra quyết định sai lầm. Nhờ vào khả năng học từ dữ liệu, các mô hình Machine Learning có thể nhận diện trùng lặp ngay cả khi chúng không giống hệt nhau về mặt cú pháp—một thách thức mà các phương pháp truyền thống khó vượt qua. Nghiên cứu của Eliodor Ednalson Guy Mirlin (2018) tại Viện Pháp ngữ Quốc tế, Đại học Quốc gia Hà Nội, đã chứng minh rằng việc tích hợp các kỹ thuật học máy vào quy trình deduplication (loại bỏ trùng lặp) giúp nâng cao đáng kể độ chính xác và hiệu suất. Hệ thống này sử dụng kết hợp các phép đo độ tương đồng (similarity metrics) và thuật toán học có giám sát để phân loại cặp bản ghi là trùng lặp hay không. Đặc biệt, trong môi trường doanh nghiệp, nơi dữ liệu thường đến từ nhiều nguồn khác nhau với định dạng không đồng nhất, hệ thống phân tích dữ liệu trùng lặp Machine Learning trở thành công cụ không thể thiếu để đảm bảo tính toàn vẹn và nhất quán của dữ liệu tham chiếu (master data).

1.1. Khái niệm dữ liệu trùng lặp và tầm quan trọng của việc xử lý

Dữ liệu trùng lặp (duplicate data) là hiện tượng nhiều bản ghi mô tả cùng một thực thể nhưng được lưu trữ dưới các định dạng hoặc giá trị khác nhau. Ví dụ: 'Nguyễn Văn A' và 'A. Nguyễn Văn' có thể là cùng một người. Nếu không được xử lý, dữ liệu trùng lặp gây ra sai lệch trong phân tích, làm giảm hiệu quả marketing và ảnh hưởng đến trải nghiệm khách hàng. Trong bối cảnh quản trị dữ liệu tham chiếu (MDM), việc loại bỏ trùng lặp là bước then chốt để xây dựng nguồn dữ liệu chuẩn hóa, đáng tin cậy.

1.2. Vai trò của Machine Learning trong quy trình deduplication

Machine Learning đóng vai trò trung tâm trong việc tự động hóa và tối ưu hóa quy trình phát hiện trùng lặp. Thay vì dựa vào quy tắc cứng (rule-based), hệ thống học từ các cặp dữ liệu được gán nhãn (labelled pairs) để xây dựng mô hình phân loại. Các thuật toán học có giám sát như Random Forest, SVM hoặc mạng nơ-ron có thể kết hợp nhiều độ đo tương đồng (character-based, token-based, hybrid) để đưa ra quyết định chính xác hơn. Nghiên cứu của Mirlin (2018) cho thấy hệ thống dựa trên học máy đạt độ chính xác F1-score lên tới 92% trong môi trường thực nghiệm.

II. Thách thức lớn khi phát hiện dữ liệu trùng lặp trong thực tế

Phát hiện dữ liệu trùng lặp không chỉ là vấn đề kỹ thuật mà còn liên quan đến ngữ nghĩa và ngữ cảnh. Một trong những thách thức chính là sự khác biệt trong cách biểu diễn thông tin: tên người có thể viết tắt, địa chỉ có thể thiếu dấu hoặc đảo thứ tự, số điện thoại có thể có hoặc không có mã vùng. Điều này khiến các phương pháp so khớp chính xác (exact matching) trở nên kém hiệu quả. Ngoài ra, khối lượng dữ liệu ngày càng lớn đòi hỏi hệ thống phải xử lý hiệu quả cả về tốc độ lẫn độ chính xác. Dữ liệu nhiễu, thiếu hụt hoặc sai định dạng càng làm phức tạp thêm bài toán. Nghiên cứu tại Orchestra Networks (2018) chỉ ra rằng ngay cả các hệ thống MDM thương mại như EBX cũng gặp khó khăn khi xử lý trùng lặp trong điều kiện dữ liệu thực tế. Do đó, việc phát triển hệ thống phân tích dữ liệu trùng lặp Machine Learning linh hoạt, có khả năng học từ ngữ cảnh và thích nghi với từng miền dữ liệu là yêu cầu cấp thiết.

2.1. Sự khác biệt ngữ nghĩa và biểu diễn trong dữ liệu thực

Cùng một thực thể có thể được ghi nhận dưới nhiều dạng khác nhau. Ví dụ: 'Công ty TNHH ABC' và 'ABC Co., Ltd.' đều chỉ cùng một doanh nghiệp. Độ tương đồng ngữ nghĩa (semantic similarity) trở thành yếu tố then chốt. Các LSI keyword như 'so khớp mờ', 'chuẩn hóa dữ liệu', hay 'biểu diễn thực thể' giúp hệ thống hiểu sâu hơn về mối quan hệ giữa các bản ghi. Việc tích hợp xử lý ngôn ngữ tự nhiên (NLP) vào pipeline deduplication là xu hướng tất yếu.

2.2. Hiệu suất xử lý với khối lượng dữ liệu lớn

Khi cơ sở dữ liệu chứa hàng triệu bản ghi, số cặp cần so sánh có thể lên tới hàng nghìn tỷ. Đây là bài toán phức tạp về mặt tính toán. Các kỹ thuật như blocking hoặc indexing (dựa trên phonetic encoding, n-gram, v.v.) được dùng để giảm không gian tìm kiếm. Hệ thống của Mirlin (2018) áp dụng chiến lược blocking thông minh kết hợp với học máy để cân bằng giữa độ bao phủ và hiệu suất.

III. Phương pháp Machine Learning hàng đầu để loại bỏ trùng lặp

Có ba nhóm phương pháp Machine Learning chính được sử dụng trong hệ thống phân tích dữ liệu trùng lặp: học có giám sát, học không giám sát và học chủ động (active learning). Trong đó, học có giám sát là phổ biến nhất nhờ độ chính xác cao. Mô hình được huấn luyện trên tập dữ liệu gồm các cặp bản ghi đã được gán nhãn 'trùng' hoặc 'không trùng'. Mỗi cặp được biểu diễn bằng vector đặc trưng dựa trên các độ đo tương đồng như Jaro-Winkler, Cosine, hoặc TF-IDF. Học không giám sát, như clustering (DBSCAN, hierarchical clustering), phù hợp khi không có dữ liệu gán nhãn, nhưng thường kém chính xác hơn. Học chủ động kết hợp con người vào vòng lặp huấn luyện: hệ thống tự chọn các cặp không chắc chắn nhất để chuyên gia xác nhận, từ đó cải thiện mô hình với ít nhãn hơn. Nghiên cứu của Mirlin (2018) đã triển khai thành công hệ thống dựa trên học có giám sát với giao diện hỗ trợ labelling chủ động, giúp giảm 60% thời gian chuẩn bị dữ liệu huấn luyện.

3.1. Học có giám sát và vector đặc trưng cho cặp dữ liệu

Mỗi cặp bản ghi được chuyển đổi thành vector số thông qua các hàm tương đồng. Ví dụ: so sánh tên dùng Jaro-Winkler, địa chỉ dùng TF-IDF cosine similarity. Vector này làm đầu vào cho mô hình phân loại. Salient Entity như tên, địa chỉ, số điện thoại thường được chọn làm trường trọng số cao. Việc lựa chọn đặc trưng phù hợp ảnh hưởng trực tiếp đến hiệu suất mô hình.

3.2. Ưu điểm của học chủ động trong môi trường thực tế

Gán nhãn toàn bộ dữ liệu là tốn kém. Học chủ động (active learning) giúp tối ưu quá trình này bằng cách chỉ yêu cầu nhãn cho những cặp mà mô hình 'không chắc chắn'. Hệ thống của Mirlin tích hợp cơ chế này, cho phép người dùng xác nhận trực tiếp trên giao diện web. Kết quả cho thấy chỉ cần 30% dữ liệu được gán nhãn, mô hình vẫn đạt F1-score > 90%.

IV. Ứng dụng thực tiễn và kết quả từ nghiên cứu tại Việt Nam

Nghiên cứu của Eliodor Ednalson Guy Mirlin (2018) tại Đại học Quốc gia Hà Nội đã triển khai hệ thống phân tích dữ liệu trùng lặp Machine Learning trong môi trường thực tế với sự hỗ trợ từ Orchestra Networks. Hệ thống được so sánh trực tiếp với EBX—một nền tảng MDM thương mại—trên cùng bộ dữ liệu khách hàng. Kết quả cho thấy hệ thống đề xuất vượt trội trong cả so khớp chính xác (exact matching) và so khớp mờ (fuzzy matching). Cụ thể, với 3 trường (tên, địa chỉ, điện thoại), hệ thống đạt precision 94%, recall 91%, trong khi EBX chỉ đạt lần lượt 85% và 78%. Điều này chứng minh tiềm năng ứng dụng của giải pháp học máy trong bối cảnh doanh nghiệp Việt Nam, nơi dữ liệu thường thiếu chuẩn hóa. Hệ thống còn xuất kết quả dưới dạng file CSV, dễ tích hợp vào các quy trình xử lý dữ liệu hiện có.

4.1. So sánh hiệu năng với hệ thống MDM thương mại

Thử nghiệm trên tập dữ liệu 10.000 bản ghi cho thấy hệ thống phân tích dữ liệu trùng lặp Machine Learning đề xuất có độ chính xác cao hơn rõ rệt. Đặc biệt trong trường hợp dữ liệu nhiễu (thiếu dấu, viết tắt), hệ thống học máy thể hiện khả năng khái quát hóa (generalization) tốt nhờ học từ ngữ cảnh. Các long-tail keyword như 'giải pháp deduplication cho doanh nghiệp Việt' hay 'hệ thống loại bỏ trùng lặp dữ liệu khách hàng' phản ánh nhu cầu thực tế này.

4.2. Khả năng tích hợp và mở rộng trong doanh nghiệp

Hệ thống được thiết kế theo kiến trúc microservice, hỗ trợ API và giao diện web thân thiện. Người dùng có thể chọn trường trọng số, xem kết quả so khớp và xác nhận nhãn. Điều này giúp tối ưu quy trình làm sạch dữ liệu trong các dự án MDM, CRM hoặc BI. Việc xuất file CSV chuẩn cũng giúp tích hợp dễ dàng với các công cụ như Power BI, Tableau hay hệ thống ERP.

V. Tương lai của hệ thống phân tích dữ liệu trùng lặp Machine Learning

Xu hướng phát triển hệ thống phân tích dữ liệu trùng lặp Machine Learning đang hướng đến việc tích hợp sâu hơn với xử lý ngôn ngữ tự nhiên (NLP) và học biểu diễn (representation learning). Các mô hình như BERT hoặc Sentence-BERT có thể tạo vector ngữ nghĩa cho toàn bộ bản ghi, thay vì chỉ so sánh từng trường riêng lẻ. Điều này giúp hệ thống hiểu được mối quan hệ ngữ nghĩa phức tạp hơn giữa các thực thể. Ngoài ra, học liên kết (federated learning) có thể cho phép huấn luyện mô hình trên nhiều nguồn dữ liệu phân tán mà không cần chia sẻ dữ liệu thô—rất phù hợp với yêu cầu bảo mật. Ở Việt Nam, nơi dữ liệu phi cấu trúc và đa ngôn ngữ (tiếng Việt có dấu, không dấu, tiếng Anh) phổ biến, các hệ thống thông minh dựa trên học máy sẽ ngày càng đóng vai trò then chốt trong quản trị dữ liệu doanh nghiệp.

5.1. Tích hợp NLP và mô hình ngôn ngữ lớn

Mô hình ngôn ngữ lớn (LLM) như BERT có thể mã hóa toàn bộ hồ sơ khách hàng thành vector ngữ nghĩa. Khi đó, độ tương đồng không còn dựa trên ký tự hay token, mà trên ý nghĩa. Đây là bước tiến lớn trong việc xử lý dữ liệu trùng lặp ngữ nghĩa, đặc biệt với tiếng Việt—ngôn ngữ giàu biến thể chính tả và ngữ cảnh.

5.2. Hướng đến giải pháp bảo mật và phân tán

Với quy định GDPR và Luật An ninh mạng Việt Nam, việc chia sẻ dữ liệu giữa các hệ thống ngày càng bị hạn chế. Học liên kết (federated learning) cho phép huấn luyện mô hình deduplication trên nhiều cơ sở dữ liệu mà không cần tập trung dữ liệu. Đây là long-tail keyword tiềm năng: 'hệ thống deduplication không cần chia sẻ dữ liệu'.

Tóm tắt và mô tả trên trang này được tạo với sự hỗ trợ của AI từ nội dung tài liệu gốc; tài liệu do người dùng đóng góp và được kiểm duyệt trước khi xuất bản. Báo lỗi nội dung.

14/03/2026

Bạn đang xem trước tài liệu:

Luận văn système de déduplication utilisant les techniques dapprentissage automatique hệ thống phân tích dữ liệu trùng lặp sử dụng kĩ thuật machine learning

Tải đầy đủ

Trích đoạn nội dung tài liệu

UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL ELIODOR EDNALSON GUY MIRLIN SYSTEME DE DEDUPLICATION UTILISANT LES TECHNIQUES D’APPRENTISSAGE AUTOMATIQUE HE THONG PHAN TiCH DU LIEU TRUNG LAP SỬ DỤNG KI THUAT MACHINE LEARNING MEMOIRE DE FIN D'ETUDES DU MASTER INFORMATIQUE HANOI - 2018 UNIVERSITE NATIONALE DU VIETNAM, HANO! INSTITUT FRANCOPHONE INTERNATIONAL ELIODOR EDNALSON GUY MIRLIN SYSTEME DE DEDUPLICATION UTILISANT LES TECHNIQUES D’APPRENTISSAGE AUTOMATIQUE HỆ THỐNG PHÂN TÍCH DỮ LIỆU TRÙNG LẶP SỬ DỤNG KĨ THUẬT MACHINE LEARNING Spécialité : Systemes Intelligents et Multimédia Code : Programme Pilote MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE Sous la direction de : Pierre Bonnet, COO-Orchestra Networks, Expert en SI David Lapetina, Directeur des opérations Orchestra Networks Vietnam - Hanoi HANOI - 2018 Ree Gwe” AAI ON/LEAL ATTERSTATTON SUR. J?abteste sur l’honneur que ce mémoire a éé réalisé par moi-méme et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations cilées dans ce inémoire a clé biew préviséc. LOI CAM BOAN "Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.

Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bó trong bắt kỳ công trình nào khác. Gác thông tìn trích dẫn trong Luận văn đã dược chỉ rõ nguồn gốc. Signarnre đe Ì'átnđianc Gre ELIODOR EDNALSON GUY MIRLIN Remerciements La réulivation de ce documeut qui couronue ta fin de nole formation de Master, Wau rait été possible sans Pappni direct ou indirect des personnes et des institutions auxqnelles nons tenons ici A exprimer nos sincares remerciements. TI s'agir de: — L'Agence Universitaire de la Francophonie (AUF), pour nous avoir donné Ioppor- tunité de poursuivre nos études de Master 8 I’II'l 4 travers une bourse de mobilité ; — L'Institut Francophone International (LL'l) et de tous les professeurs, pour la qualité de la formation dispensée ; M.

David Lapctina et M. Pierre Bonnet pour m'avoir accucilli au scin de leur équipe et pour leur suivi ct implication personnelle dans la réalisation de mes travaux; — L’ensemble du personnel d’Orchestra. Networks & Hanoi, pour son accueil trés cha- Jeurenyx et ponr les conditions de travail optimales; — Jadresse mes sincares remerciements aux membres de AT Academy Vietnam pour Vhonneur qu’ils mont fait par leur acceptation de participer & évaluation de mon travail Paimerais romercicr toute ma fomille pour leur soutien ct leur amour tout ou long de mes études; Enfin, tous ccux qui de prés ou de loin m’ont apporté leur soution durant ma formation. Remerciements La réulivation de ce documeut qui couronue ta fin de nole formation de Master, Wau rait été possible sans Pappni direct ou indirect des personnes et des institutions auxqnelles nons tenons ici A exprimer nos sincares remerciements.

TI s'agir de: — L'Agence Universitaire de la Francophonie (AUF), pour nous avoir donné Ioppor- tunité de poursuivre nos études de Master 8 I’II'l 4 travers une bourse de mobilité ; — L'Institut Francophone International (LL'l) et de tous les professeurs, pour la qualité de la formation dispensée ; M. David Lapctina et M. Pierre Bonnet pour m'avoir accucilli au scin de leur équipe et pour leur suivi ct implication personnelle dans la réalisation de mes travaux; — L’ensemble du personnel d’Orchestra. Networks & Hanoi, pour son accueil trés cha- Jeurenyx et ponr les conditions de travail optimales; — Jadresse mes sincares remerciements aux membres de AT Academy Vietnam pour Vhonneur qu’ils mont fait par leur acceptation de participer & évaluation de mon travail Paimerais romercicr toute ma fomille pour leur soutien ct leur amour tout ou long de mes études; Enfin, tous ccux qui de prés ou de loin m’ont apporté leur soution durant ma formation.

Résumé La gestion des données de référence coneiste à trouver ou crếcr tt cnregistrorreirt mnigne contenant. tout ce qu’une entreprise on une organisation doit savoir sur une per somne, un emplacement. 1m fournisseur, une autre entreprise ou ime autre entité en particulier. également &ire appelé “master record” on “golden record” Inn fait, la notion de qualité des données, en particulier le probléme de duplication, re- présente un défi trés important pour une bonne gouvernance des données.

La présence de doublons ou de données similaires souléve d‘importantes préoccupations quant & la qualité des données qu’il faut ainsi supprimer La déduplication des enregistrements cst un processus important dans lintégration et le nettoyage des données. Elle permet d'identifier ies enregistrements d'une base de données on provenant de différentes sources qni représentent Ia méme entité du monde réel. Fla assure une meilleure qualité des données résnitantes de ce processus. Ce pro- cessus est utilisé pour créer un "golden record’.

Ainsi, Pextraction de connaissances & partir de ces derniares sera plus précise. Au cours des dernigres années, diverses tech- niques U’approntissage automarique ont été uuilisées pour aborder ec probléme. Sachant gue, le produit EBX d’Orchestva Networks utilise cette approche, notre travail consiste & : — Compares quelques techniques de détection d’euregistrements dupliqués en ulili- sant l'apprentissage automatique et évaluez leurs avantages et leurs inconvénients. — Névelopper im prototype qui combine les meilleures caractéristiques et permet.

de produire une détection d’enregistrements dupliquées améliorées dans EBX. L'approche que nous avons utilisée pour aborder le probléme dans le cadre de notre stage est l'approche d’apprentissage actif. Différentes expériences sont menées sur un ensemble de données pour verifier l’cfficacité de l'algorithme dans la détection des cnrc- gistrements dupliqués. Mots clés : Pribuitement des données, détectivn de doublons, apprentissage auloma- lique, apprentissuge supervisé, apprentissuge non-supervisée, mesure de simuilurité, NLP, classification de texte, traitement du langage naturel, Data quality Management, Dédu- plication, doublone, similaire, record matching, machine learning, clustering, duplicated records, ete.2 Organisation du rapport.

` weve cee ‘Vue d’ensemble 3 2.1 Définition du probléme - : 22 Qualité des données ee eee eee 4 2.3 Nettoyage des données 2. ee a 24 Problémes causés par ley données dupliquées - 4 EBX.1 Pourquei une solution MDM .2 Les fonetionnalités MBX.8 Fiat de PArt 3.1 Mesnres de similarité: revne đe Vexistant 3.1 Te prablềme de la camparaison đes chaines đe caractères .1L1 Mếtriques basếes su des caractéres .112 - Mếtriques basées sur des Tobens(Lexèmes) : 19 3113 Má@triques hybriles .2 Mesures de similaritd uumériques 2. beeee eee Mh 3.2 Delevtion des curegistroments dupliqués 14 3.1 Techniques busées sur dey righes .2 Techniques hasées sur la distance 18 Approches probabilistes. 16 Utilisation dalgorithmes d’apprentissage pour combiner des fonctions de sinilarité.

17 Apprentissage supervisé 17 Appreulissage nou-supervisé 0. AB Apprentissage Actif 20 Synthase. 2 Liste des tableaux 2.1 Lxemple de données dupliquées .1 Fixperimentations : Configuration logicielle et: matérielle : 28 Table des figures Classification des métriques de chaines 10 Chois des attriburs les phis utiles pour me tache de déduptinarion dépen- hà damment du jeu de données en entrée 23 Architecture du systéme propose. 24 Phase de labellisation “Contribution Lumaine?.

: 26 ¬ Page @accenil et de chargement des đonnếes-système implémenté 29 Page de sélection des champs importants-systéme implémenté. 29 wea Phase de labellisation-systéme implémenté Lee. 8Ú Métriques d’évaluation pour le matching exact- A gauche(sur 1 champ)- A droite(sur 3 chumps) sau ¬ e BB Perloriwauce des deux syslimes pour le eu de dótection de duplieulion (mulching Exuet). bbe eee ee eee Seen BB Métriqnes d’évaluation dn aystéme proposé Correspondance approxima: tive(] champ).

bee eee eee ee BB TI Métriqnes d’évaluation du aystéme propasé - Consnmer. 34 12 Lixtrait du fichier CSV généré en sortie d’EBX (appariement flou - 3 colonnes) 34 18 Lixtrait du fichier CSV généré en sortie du systéme proposé(apparfement flou - 3 eolonnes). : af 14 Extrait du fichier CSV gd rổ cũ sortie du sysléme propos¢(upparicmont flow- 3 colounes). - ¬¬ 35 Eixtrait, dn fichier OSV généré en sortie d” FBX appariement flou - 3 colonnes) 3ã Extrait, dn fichier CSV généré en sortie du systéme implémentéfappariement.

be BB Résumé La gestion des données de référence coneiste à trouver ou crếcr tt cnregistrorreirt mnigne contenant. tout ce qu’une entreprise on une organisation doit savoir sur une per somne, un emplacement. 1m fournisseur, une autre entreprise ou ime autre entité en particulier. également &ire appelé “master record” on “golden record” Inn fait, la notion de qualité des données, en particulier le probléme de duplication, re- présente un défi trés important pour une bonne gouvernance des données.

Remerciements La réulivation de ce documeut qui couronue ta fin de nole formation de Master, Wau rait été possible sans Pappni direct ou indirect des personnes et des institutions auxqnelles nons tenons ici A exprimer nos sincares remerciements. TI s'agir de: — L'Agence Universitaire de la Francophonie (AUF), pour nous avoir donné Ioppor- tunité de poursuivre nos études de Master 8 I’II'l 4 travers une bourse de mobilité ; — L'Institut Francophone International (LL'l) et de tous les professeurs, pour la qualité de la formation dispensée ; M. David Lapctina et M. Pierre Bonnet pour m'avoir accucilli au scin de leur équipe et pour leur suivi ct implication personnelle dans la réalisation de mes travaux; — L’ensemble du personnel d’Orchestra.

Networks & Hanoi, pour son accueil trés cha- Jeurenyx et ponr les conditions de travail optimales; — Jadresse mes sincares remerciements aux membres de AT Academy Vietnam pour Vhonneur qu’ils mont fait par leur acceptation de participer & évaluation de mon travail Paimerais romercicr toute ma fomille pour leur soutien ct leur amour tout ou long de mes études; Enfin, tous ccux qui de prés ou de loin m’ont apporté leur soution durant ma formation.2 Organisation du rapport. ` weve cee ‘Vue d’ensemble 3 2.1 Définition du probléme - : 22 Qualité des données ee eee eee 4 2.3 Nettoyage des données 2. ee a 24 Problémes causés par ley données dupliquées - 4 EBX.1 Pourquei une solution MDM .2 Les fonetionnalités MBX.8 Fiat de PArt 3.1 Mesnres de similarité: revne đe Vexistant 3.1 Te prablềme de la camparaison đes chaines đe caractères .1L1 Mếtriques basếes su des caractéres .112 - Mếtriques basées sur des Tobens(Lexèmes) : 19 3113 Má@triques hybriles .2 Mesures de similaritd uumériques 2. beeee eee Mh 3.2 Delevtion des curegistroments dupliqués 14 3.1 Techniques busées sur dey righes .2 Techniques hasées sur la distance 18 Approches probabilistes.

16 Utilisation dalgorithmes d’apprentissage pour combiner des fonctions de sinilarité. 17 Apprentissage supervisé 17 Appreulissage nou-supervisé 0. AB Apprentissage Actif 20 Synthase. 2 Résumé La gestion des données de référence coneiste à trouver ou crếcr tt cnregistrorreirt mnigne contenant.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận văn Master: Hệ thống deduplication sử dụng Machine Learning - IFI

I. Cách hệ thống Machine Learning xử lý dữ liệu trùng lặp hiệu quả

1.1. Khái niệm dữ liệu trùng lặp và tầm quan trọng của việc xử lý

1.2. Vai trò của Machine Learning trong quy trình deduplication

II. Thách thức lớn khi phát hiện dữ liệu trùng lặp trong thực tế

2.1. Sự khác biệt ngữ nghĩa và biểu diễn trong dữ liệu thực

2.2. Hiệu suất xử lý với khối lượng dữ liệu lớn

III. Phương pháp Machine Learning hàng đầu để loại bỏ trùng lặp

3.1. Học có giám sát và vector đặc trưng cho cặp dữ liệu

3.2. Ưu điểm của học chủ động trong môi trường thực tế

IV. Ứng dụng thực tiễn và kết quả từ nghiên cứu tại Việt Nam

4.1. So sánh hiệu năng với hệ thống MDM thương mại

4.2. Khả năng tích hợp và mở rộng trong doanh nghiệp

V. Tương lai của hệ thống phân tích dữ liệu trùng lặp Machine Learning

5.1. Tích hợp NLP và mô hình ngôn ngữ lớn

5.2. Hướng đến giải pháp bảo mật và phân tán

THÔNG TIN CHI TIẾT

Tác giả: Eliodor Ednalsonguy Mirlin

Người hướng dẫn: PTS. David Lapetina, Directeur des opérations Orchestra Networks

Trường học: Đại học Quốc gia Hà Nội, Viện Pháp ngữ Quốc tế

Chuyên ngành: Hệ thống Thông minh và Đa phương tiện

Đề tài: Hệ thống phân tích dữ liệu trùng lặp sử dụng kỹ thuật Machine Learning

Loại tài liệu: Luận văn tốt nghiệp Thạc sĩ Công nghệ Thông tin

Năm xuất bản: 2018

Địa điểm: Hà Nội

Luận văn Master: Hệ thống deduplication sử dụng Machine Learning - IFI

I. Cách hệ thống Machine Learning xử lý dữ liệu trùng lặp hiệu quả

1.1. Khái niệm dữ liệu trùng lặp và tầm quan trọng của việc xử lý

1.2. Vai trò của Machine Learning trong quy trình deduplication

II. Thách thức lớn khi phát hiện dữ liệu trùng lặp trong thực tế

2.1. Sự khác biệt ngữ nghĩa và biểu diễn trong dữ liệu thực

2.2. Hiệu suất xử lý với khối lượng dữ liệu lớn

III. Phương pháp Machine Learning hàng đầu để loại bỏ trùng lặp

3.1. Học có giám sát và vector đặc trưng cho cặp dữ liệu

3.2. Ưu điểm của học chủ động trong môi trường thực tế

IV. Ứng dụng thực tiễn và kết quả từ nghiên cứu tại Việt Nam

4.1. So sánh hiệu năng với hệ thống MDM thương mại

4.2. Khả năng tích hợp và mở rộng trong doanh nghiệp

V. Tương lai của hệ thống phân tích dữ liệu trùng lặp Machine Learning

5.1. Tích hợp NLP và mô hình ngôn ngữ lớn

5.2. Hướng đến giải pháp bảo mật và phân tán

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Eliodor Ednalsonguy Mirlin

Người hướng dẫn: PTS. David Lapetina, Directeur des opérations Orchestra Networks

Trường học: Đại học Quốc gia Hà Nội, Viện Pháp ngữ Quốc tế

Chuyên ngành: Hệ thống Thông minh và Đa phương tiện

Đề tài: Hệ thống phân tích dữ liệu trùng lặp sử dụng kỹ thuật Machine Learning

Loại tài liệu: Luận văn tốt nghiệp Thạc sĩ Công nghệ Thông tin

Năm xuất bản: 2018

Địa điểm: Hà Nội

Có thể bạn quan tâm