Luận văn thạc sĩ về hệ thống phân tích dữ liệu trùng lặp sử dụng Machine Learning tại Đại học ...

Trường đại học

Université Nationale Du Vietnam, Hanoi

Chuyên ngành

Systèmes Intelligents Et Multimédia

Người đăng

Ẩn danh

Thể loại

Mémoire De Fin D'études

2018

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHAPITRE 1: INTRODUCTION

1.1. Contribution

1.2. Organisation du rapport

2. CHAPITRE 2: VUE D’ENSEMBLE

2.1. Définition du problème

2.2. Qualité des données

2.3. Nettoyage des données

2.4. Problèmes causés par les données dupliquées

2.5. Platform

2.5.1. Pourquoi une solution MDM

3. CHAPITRE 3: ETAT DE L’ART

3.1. Mesures de similarité : revue de l’existant

3.1.1. Le problème de la comparaison des chaînes de caractères

3.1.1.1. Métriques basées sur des caractères

3.1.1.2. Métriques basées sur des Tokens (Lexèmes)

3.1.2. Mesures de similarité numériques

3.2. Detection des enregistrements dupliqués

3.2.1. Techniques basées sur des règles

3.2.2. Techniques basées sur la distance

3.2.3. Utilisation d’algorithmes d’apprentissage pour combiner des fonctions de similarité

3.2.4. Apprentissage non-supervisé

4. CHAPITRE 4: SOLUTION PROPOSÉE

4.1. Blocage et calcul de distance

4.1.1. Prétraitement des données

4.1.2. Configuration de l’expérience

4.1.3. Choix du bon seuil

4.1.4. Jeux de données

4.1.5. Analyse des expériences

4.2. Appariement flou ou Correspondance Approximative (Fuzzy matching)

4.2.1. Correspondance Approximative sur un (1) champ

4.2.2. Correspondance Approximative sur un (3) champs

6. CHAPITRE 6: CONCLUSION ET PERSPECTIVES

BIBLIOGRAPHIE

GLOSSAIRE

Tóm tắt

I. Tổng quan về hệ thống phân tích dữ liệu trùng lặp bằng Machine Learning

Hệ thống phân tích dữ liệu trùng lặp là một phần quan trọng trong quản lý dữ liệu hiện đại. Với sự phát triển của công nghệ, việc sử dụng machine learning để xử lý và phân tích dữ liệu trùng lặp đã trở thành một xu hướng tất yếu. Hệ thống này không chỉ giúp cải thiện chất lượng dữ liệu mà còn tối ưu hóa quy trình ra quyết định trong các tổ chức.

1.1. Định nghĩa và tầm quan trọng của phân tích dữ liệu

Phân tích dữ liệu là quá trình thu thập, xử lý và phân tích thông tin để rút ra những hiểu biết có giá trị. Trong bối cảnh dữ liệu trùng lặp, việc phân tích giúp xác định các bản ghi tương tự và loại bỏ chúng, từ đó nâng cao chất lượng dữ liệu.

1.2. Machine Learning trong phân tích dữ liệu trùng lặp

Machine learning cung cấp các thuật toán mạnh mẽ để phát hiện và xử lý dữ liệu trùng lặp. Các phương pháp như học sâu và học không giám sát giúp cải thiện độ chính xác trong việc nhận diện các bản ghi tương tự.

II. Vấn đề và thách thức trong phân tích dữ liệu trùng lặp

Mặc dù có nhiều lợi ích, việc phân tích dữ liệu trùng lặp cũng gặp phải nhiều thách thức. Các vấn đề như độ chính xác của dữ liệu, sự phức tạp trong việc xử lý và chi phí cao cho việc triển khai công nghệ là những yếu tố cần được xem xét.

2.1. Các vấn đề chính trong dữ liệu trùng lặp

Dữ liệu trùng lặp có thể dẫn đến quyết định sai lầm và làm giảm hiệu quả hoạt động của tổ chức. Việc xác định và xử lý các bản ghi trùng lặp là rất cần thiết để đảm bảo chất lượng dữ liệu.

2.2. Thách thức trong việc áp dụng Machine Learning

Việc áp dụng machine learning vào phân tích dữ liệu trùng lặp đòi hỏi một lượng lớn dữ liệu huấn luyện và các thuật toán phù hợp. Sự phức tạp trong việc lựa chọn mô hình và tối ưu hóa tham số cũng là một thách thức lớn.

III. Phương pháp giải quyết dữ liệu trùng lặp bằng Machine Learning

Có nhiều phương pháp khác nhau để giải quyết vấn đề dữ liệu trùng lặp. Các phương pháp này bao gồm việc sử dụng các thuật toán học máy để phát hiện và loại bỏ các bản ghi tương tự.

3.1. Các thuật toán học máy phổ biến

Một số thuật toán như hồi quy logistic, cây quyết định và mạng nơ-ron đã được sử dụng để phát hiện dữ liệu trùng lặp. Mỗi thuật toán có ưu điểm và nhược điểm riêng, tùy thuộc vào loại dữ liệu và yêu cầu cụ thể.

3.2. Quy trình triển khai hệ thống phân tích

Quy trình triển khai bao gồm các bước như thu thập dữ liệu, tiền xử lý, áp dụng thuật toán và đánh giá kết quả. Mỗi bước đều cần được thực hiện cẩn thận để đảm bảo hiệu quả của hệ thống.

IV. Ứng dụng thực tiễn của hệ thống phân tích dữ liệu trùng lặp

Hệ thống phân tích dữ liệu trùng lặp bằng machine learning đã được áp dụng thành công trong nhiều lĩnh vực như tài chính, y tế và thương mại điện tử. Những ứng dụng này không chỉ giúp cải thiện chất lượng dữ liệu mà còn tối ưu hóa quy trình làm việc.

4.1. Ứng dụng trong ngành tài chính

Trong ngành tài chính, việc phát hiện và loại bỏ dữ liệu trùng lặp giúp cải thiện độ chính xác của báo cáo tài chính và giảm thiểu rủi ro. Các ngân hàng và tổ chức tài chính đã áp dụng machine learning để tối ưu hóa quy trình này.

4.2. Ứng dụng trong y tế

Trong lĩnh vực y tế, việc phân tích dữ liệu trùng lặp giúp cải thiện chất lượng hồ sơ bệnh án và đảm bảo thông tin chính xác cho việc điều trị. Machine learning đã được sử dụng để phát hiện các bản ghi bệnh nhân trùng lặp.

V. Kết luận và tương lai của hệ thống phân tích dữ liệu trùng lặp

Hệ thống phân tích dữ liệu trùng lặp bằng machine learning đang ngày càng trở nên quan trọng trong việc quản lý dữ liệu. Tương lai của công nghệ này hứa hẹn sẽ mang lại nhiều cải tiến và giải pháp mới cho các tổ chức.

5.1. Xu hướng phát triển công nghệ

Công nghệ machine learning sẽ tiếp tục phát triển, với các thuật toán ngày càng tinh vi hơn. Điều này sẽ giúp cải thiện khả năng phát hiện và xử lý dữ liệu trùng lặp.

5.2. Tác động đến quản lý dữ liệu

Việc áp dụng machine learning trong phân tích dữ liệu trùng lặp sẽ giúp các tổ chức nâng cao chất lượng dữ liệu, từ đó cải thiện hiệu quả hoạt động và ra quyết định.

19/08/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ système de déduplication utilisant les techniques dapprentissage automatique hệ thống phân tích dữ liệu trùng lặp sử dụng kĩ thuật machine learning

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh hiện nay, dữ liệu được xem là tài sản quan trọng của các tổ chức và doanh nghiệp với sức ảnh hưởng lớn đến quá trình ra quyết định cũng như vận hành hệ thống. Tuy nhiên, chất lượng dữ liệu thường bị ảnh hưởng nghiêm trọng do sự tồn tại của các bản ghi trùng lặp (doublons) hoặc dữ liệu tương tự, điều này dẫn đến việc giảm chất lượng thông tin và gây ra chi phí cao trong xử lý và vận hành. Theo ước tính, hơn 80% dữ liệu trong nhiều hệ thống có thể bị trùng lặp hoặc ghi nhận không chính xác, gây nên nhiều khó khăn cho việc quản lý và khai thác.

Luận văn tập trung nghiên cứu vấn đề quản lý và xử lý dữ liệu trùng lặp trong hệ thống quản lý dữ liệu tham khảo (Master Data Management - MDM), đặc biệt là nền tảng EBX của Orchestra Networks. Mục tiêu chính là cải tiến quá trình phát hiện bản ghi trùng lặp bằng cách ứng dụng kỹ thuật học máy, cụ thể là học tích cực (active learning), nhằm nâng cao hiệu quả trên nền tảng EBX. Nghiên cứu được triển khai với việc xây dựng mô hình prototype sử dụng thư viện Dedupe trong Python, kết hợp các thuật toán đo lường khoảng cách và phương pháp phân cụm (clustering), đồng thời áp dụng đánh giá hiệu quả thông qua bộ dữ liệu thực tế đa dạng, bao gồm bộ Consumer Complaints với 1.000 bản ghi và bộ INSEE với khoảng 5.000 bản ghi.

Ý nghĩa của nghiên cứu không chỉ nằm ở việc nâng cao chất lượng dữ liệu cho hoạt động doanh nghiệp mà còn giúp giảm chi phí quản lý, đồng thời tăng độ chính xác trong khai thác thông tin, từ đó nâng cao khả năng ra quyết định dựa trên dữ liệu. Các chỉ số hiệu quả như độ chính xác (precision), độ hồi tưởng (recall) và chỉ số F-measure được sử dụng làm tiêu chí đánh giá, với mục tiêu tối ưu hóa phân loại các bản ghi trùng lặp trên các tập dữ liệu lớn, đa dạng và có độ phức tạp cao.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên nền tảng lý thuyết về quản lý chất lượng dữ liệu (Data Quality Management - DQM) và quản lý dữ liệu tham khảo (Master Data Management - MDM). Quản lý dữ liệu tham khảo giúp xây dựng một bản ghi duy nhất ("golden record") cho từng thực thể (đối tượng như người, tổ chức, sản phẩm) để tránh trùng lặp và đảm bảo tính nhất quán dữ liệu trong tổ chức.

Ngoài ra, nghiên cứu ứng dụng mạnh mẽ các khái niệm và thuật toán học máy (Machine Learning) trong phát hiện bản ghi trùng lặp, bao gồm:

Học tích cực (Active Learning): Cho phép hệ thống lựa chọn những mẫu dữ liệu có giá trị thông tin cao để người dùng đánh nhãn, từ đó tối ưu hóa quá trình huấn luyện mà giảm thiểu công sức gán nhãn thủ công.
Các phép đo tương đồng chuỗi ký tự: Áp dụng các chỉ số như khoảng cách Levenshtein, Jaro – Jaro-Winkler, phương pháp token-based (TF-IDF, Jaccard), và các phương pháp lai (SoftTFIDF, Monge-Elkan) để đánh giá mức độ giống nhau giữa các trường dữ liệu.
Các mô hình phân cụm (Clustering): Dùng để gom nhóm các bản ghi tương đồng thành các cụm đại diện cho cùng một thực thể thực tế.
Học có giám sát và không giám sát: Học có giám sát sử dụng dữ liệu đã gán nhãn để huấn luyện mô hình nhận dạng bản ghi trùng, trong khi học không giám sát sử dụng thuật toán phân cụm để tự động phát hiện các nhóm bản ghi tương tự.

Ba khái niệm quan trọng được nhấn mạnh là: đo lường tương đồng (Similarity Measurement), phát hiện bản ghi trùng lặp (Record Deduplication), và học tích cực (Active Learning) để tăng hiệu quả học máy trong bối cảnh thiếu dữ liệu có nhãn.

Phương pháp nghiên cứu

Nghiên cứu sử dụng phương pháp thực nghiệm dựa trên bộ công cụ phần mềm mã nguồn mở, với quy trình và timeline cụ thể:

Nguồn dữ liệu: Tập hợp dữ liệu thực tế với nhiều trường dữ liệu đa dạng, bao gồm bộ Consumer Complaints (1.000 bản ghi) và INSEE (5.000 bản ghi). Dữ liệu được xử lý sơ bộ với kỹ thuật chuẩn hóa và làm sạch dữ liệu như xóa bỏ dấu câu, chuẩn hóa chữ hoa – thường, thay thế giá trị thiếu bằng ký hiệu "NaN".
Phương pháp chọn mẫu và xây dựng tập huấn luyện: Sử dụng kỹ thuật học tích cực, hệ thống sẽ tạo các cặp mẫu bản ghi có xác suất khác nhau về mức độ trùng, yêu cầu người dùng đánh nhãn chỉ những trường hợp không chắc chắn (uncertain pairs) nhằm giảm tải công việc đánh nhãn thủ công mà vẫn đảm bảo chất lượng dữ liệu huấn luyện.
Phương pháp phân tích: Dựa trên thư viện Dedupe, chọn lọc thuộc tính quan trọng cho việc so sánh, áp dụng các hàm đo khoảng cách như Affine gap distance, đo tương đồng cosin cho văn bản dài, Haversine cho trường địa chỉ địa lý. Huấn luyện mô hình phân loại sử dụng logistic regression L2 regularization và SVM, lựa chọn ngưỡng (threshold) tối ưu thông qua tối ưu hàm F-measure để cân bằng giữa độ chính xác và độ hồi tưởng.
Thời gian thực hiện: Quá trình thu thập dữ liệu, làm sạch, xây dựng prototype, chạy thử và đánh giá kéo dài trong khoảng thời gian thực tập nghiên cứu tại Orchestra Networks, Hà Nội, năm 2018.
Công cụ phần mềm: Ngôn ngữ Python, thư viện Dedupe, Scikit-learn cho học máy, Django làm giao diện người dùng; hệ điều hành Ubuntu 16.04; phần cứng gồm CPU Intel Core i7 và ổ cứng gần 1TB.

Kết quả phân tích dựa trên bộ đo lường chuẩn gồm độ chính xác, độ hồi tưởng và F-measure. Giao diện người dùng được thiết kế giúp thao tác chọn tập dữ liệu, trường dữ liệu, cùng với việc thu thập phản hồi đánh dấu trùng của con người trong quá trình học tích cực.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phát hiện trùng lặp trong trường hợp khớp chính xác (Exact matching): Trên bộ Consumer Complaints với tập 1 và 3 trường dữ liệu, hệ thống prototype đạt độ chính xác và độ hồi tưởng đều là 100%, hoàn toàn tương đồng với kết quả của EBX. Kết quả này chứng minh rằng phương pháp đề xuất hoàn toàn đủ khả năng phát hiện đúng các bản ghi trùng lặp khi dữ liệu không biến thể.
Khả năng xử lý trùng lặp gần đúng (Fuzzy matching): Với trường hợp áp dụng trên một trường dữ liệu và ba trường dữ liệu, hệ thống prototype duy trì hiệu suất rất cao với chỉ số F-measure gần tối ưu. Đặc biệt, ở bài toán áp dụng kết hợp thuật toán khớp chính xác trên một trường và khớp gần trên các trường còn lại, hệ thống prototype cho kết quả chính xác và phân cụm rõ rệt so với EBX – vốn không áp dụng linh hoạt các quy tắc kết hợp này.
Tối ưu ngưỡng phân lớp tự động theo F-measure: Hệ thống đề xuất tự động xác định ngưỡng phân lớp tối ưu dựa trên cân bằng giữa độ chính xác và hồi tưởng, trong khi EBX yêu cầu thiết lập thủ công, điều này giúp hệ thống prototype thích ứng tốt hơn với từng bộ dữ liệu riêng biệt, từ đó cải thiện hiệu quả phát hiện trùng lặp.
Đóng góp của học tích cực trong giảm chi phí gán nhãn: Việc tập trung chỉ đánh nhãn các cặp bản ghi không chắc chắn giúp giảm đáng kể thời gian và công sức con người trong giai đoạn huấn luyện mô hình mà vẫn đảm bảo chất lượng mô hình cao.

Thảo luận kết quả

Nguyên nhân giúp hệ thống đạt hiệu quả cao là do sự kết hợp chặt chẽ giữa các phép đo tương đồng chuỗi ký tự tối ưu và cơ chế học tích cực thông minh làm tăng cường khả năng nhận diện các cặp bản ghi trùng có biến thể khác nhau về tên, địa chỉ, hoặc thông tin liên quan. Việc sử dụng khoảng cách Affine gap distance và các phép đo cosin giúp xử lý tốt các biến thể thông tin kiểu lỗi đánh máy, thay thế ký tự và biến thể ký tự tiếng Pháp trong trường hợp dữ liệu INSEE.

So với nhiều nghiên cứu truyền thống sử dụng học có giám sát buộc phải gán nhãn toàn bộ tập dữ liệu, phương pháp học tích cực chỉ tập trung vào những trường hợp khó nhận biết, từ đó đạt hiệu quả trong khi giảm đáng kể chi phí huấn luyện, phù hợp với thực tế khó khăn khi thu thập dữ liệu gán nhãn trong lĩnh vực MDM.

Bảng và biểu đồ so sánh thể hiện sự nâng cao đáng kể về chỉ số F-measure khi áp dụng tự động chọn ngưỡng so với thiết lập ngưỡng thủ công trong EBX góp phần minh họa trực quan cho hiệu quả của giải pháp đề xuất.

Tuy nhiên, một hạn chế còn tồn tại là mô hình chưa giải quyết triệt để các vấn đề với từ đồng nghĩa và các trường hợp không đồng nhất ngữ nghĩa sâu sắc. Đồng thời, thiếu các chỉ số định lượng trong EBX để phân tích so sánh chuyên sâu giữa các kết quả cũng là một rào cản trong đánh giá.

Đề xuất và khuyến nghị

Tích hợp học tích cực vào nền tảng EBX: Động từ hành động: “Triển khai”. Target metric: Tăng hiệu quả phát hiện trùng lặp, giảm 30%-50% dữ liệu cần gán nhãn thủ công. Timeline: 6 tháng. Chủ thể: Orchestra Networks phát triển phần mềm.
Tự động tối ưu ngưỡng phân loại: Động từ hành động: “Phát triển”. Target metric: Tối ưu F-measure cho mỗi bộ dữ liệu mà không cần can thiệp thủ công. Timeline: 3 tháng. Chủ thể: Nhóm nghiên cứu và phát triển sản phẩm EBX.
Mở rộng phương pháp kết hợp phương pháp đo tương đồng và xử lý dữ liệu ngôn ngữ tự nhiên: Động từ hành động: “Nghiên cứu, tích hợp”. Target metric: Giảm lỗi phát hiện do biến thể từ đồng nghĩa và lỗi ngữ nghĩa. Timeline: 1 năm. Chủ thể: Nhóm nghiên cứu AI và xử lý ngôn ngữ tự nhiên (NLP).
Cung cấp công cụ trình bày kết quả phân tích chuyên sâu: Động từ hành động: “Xây dựng”. Target metric: Phát triển giao diện báo cáo các chỉ số đánh giá chất lượng trùng lặp chi tiết giúp người dùng hiểu rõ hơn. Timeline: 4 tháng. Chủ thể: Phòng phát triển sản phẩm.
Đào tạo và hướng dẫn người dùng chuyên sâu: Động từ hành động: “Tổ chức”. Target metric: Nâng cao hiểu biết về phương pháp học tích cực và quy trình gán nhãn hiệu quả. Timeline: Trước khi triển khai chính thức. Chủ thể: Bộ phận đào tạo và vận hành dữ liệu.

Việc áp dụng đồng bộ các giải pháp trên sẽ góp phần nâng cao toàn diện chất lượng quản lý dữ liệu tham khảo, giảm chi phí vận hành và cải thiện hiệu quả ứng dụng trong doanh nghiệp.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và học giả trong lĩnh vực khoa học dữ liệu và quản lý dữ liệu: Luận văn cung cấp góc nhìn sâu sắc về ứng dụng học máy trong xử lý dữ liệu trùng lặp, hỗ trợ trong nghiên cứu phát triển thuật toán và mô hình mới. Ví dụ: nghiên cứu các thuật toán học tích cực hoặc đo tương đồng chuỗi ký tự.
Chuyên gia và kỹ sư dữ liệu trong doanh nghiệp: Hướng dẫn cách cải thiện chất lượng dữ liệu qua giải pháp công nghệ hiện đại, giúp tối ưu quy trình làm sạch và quản lý dữ liệu tham khảo trong tổ chức.
Nhà quản lý dự án công nghệ thông tin: Hiểu rõ hơn về tầm quan trọng của việc đảm bảo chất lượng dữ liệu MDM, cũng như cách đánh giá và triển khai công cụ phát hiện trùng lặp phù hợp, từ đó nâng cao hiệu quả quản trị hệ thống thông tin.
Nhà phát triển phần mềm và đơn vị cung cấp giải pháp MDM: Ý tưởng kỹ thuật và kiến trúc hệ thống đề xuất giúp xây dựng và tích hợp các module phát hiện bản ghi trùng tối ưu, tăng khả năng cạnh tranh và đa dạng hóa sản phẩm.

Đối với từng nhóm, luận văn mang lại kiến thức thực tiễn và giải pháp cụ thể nhằm giải quyết vấn đề dữ liệu trùng trong nhiều lĩnh vực như tài chính, y tế, thương mại điện tử, và chính phủ điện tử.

Câu hỏi thường gặp

1. Tại sao việc phát hiện dữ liệu trùng lặp lại quan trọng trong quản lý dữ liệu tham khảo?
Phát hiện dữ liệu trùng lặp giúp đảm bảo tính nhất quán và chính xác của dữ liệu trong hệ thống MDM, tránh sự sai lệch thông tin dẫn đến quyết định không chính xác, từ đó giảm chi phí và tăng hiệu quả quản lý. Ví dụ, khách hàng trùng lặp có thể gây sai sót trong doanh thu và dịch vụ.

2. Học tích cực (Active Learning) là gì và nó giúp gì cho quá trình phát hiện trùng lặp?
Học tích cực là phương pháp học máy trong đó hệ thống chủ động chọn các mẫu dữ liệu quan trọng nhất để được gán nhãn thủ công, tối ưu hóa quá trình huấn luyện. Phương pháp giúp giảm số lượng dữ liệu cần đánh nhãn mà vẫn duy trì được hiệu suất cao.

3. Các phép đo tương đồng chuỗi ký tự nào được sử dụng trong nghiên cứu?
Các phép đo tiêu biểu bao gồm khoảng cách Levenshtein, Jaro, Jaro-Winkler, các phương pháp dựa trên token như TF-IDF, Jaccard, và các phương pháp kết hợp như SoftTFIDF và Monge-Elkan. Chúng giúp xác định sự giống nhau giữa hai trường dữ liệu ngay cả với các biến thể nhỏ.

4. Làm thế nào để hệ thống tự động chọn ngưỡng phân loại phù hợp trong quá trình phát hiện trùng?
Hệ thống sử dụng thuật toán tối ưu hoá dựa trên chỉ số F-measure, tìm ngưỡng cho phép cân bằng độ chính xác và độ hồi tưởng tốt nhất cho tập dữ liệu hiện tại. Điều này giúp đưa ra quyết định tốt hơn về việc bản ghi có phải là trùng lặp hay không.

5. Giải pháp đề xuất có thể áp dụng ra sao trong thực tế doanh nghiệp?
Giải pháp có thể tích hợp vào hệ thống MDM hiện có hoặc xây dựng như một công cụ độc lập hỗ trợ việc làm sạch dữ liệu tự động và gần như thời gian thực. Người dùng cuối có thể tham gia gán nhãn các trường hợp còn nghi ngờ hoặc giám sát kết quả để đảm bảo chất lượng dữ liệu.

Kết luận

Luận văn đã nghiên cứu và phát triển một hệ thống phát hiện bản ghi trùng cải tiến dựa trên học tích cực và các phép đo tương đồng chuỗi ký tự, áp dụng thành công trên nền tảng EBX.
Hệ thống prototype sử dụng thư viện Dedupe đạt hiệu quả cao trên nhiều bộ dữ liệu thực nghiệm, với độ chính xác và độ hồi tưởng sát sao, đặc biệt trong các trường hợp vừa khớp chính xác vừa khớp gần đúng.
Phương pháp học tích cực giúp giảm đáng kể công sức gán nhãn thủ công trong quá trình huấn luyện, đồng thời tăng chất lượng mô hình phân loại.
Việc tự động tin chỉnh ngưỡng phân lớp giúp hệ thống thích ứng nhanh với từng bộ dữ liệu cụ thể, cải thiện hiệu suất so với thiết lập thủ công truyền thống.
Các bước tiếp theo gồm tích hợp hoàn chỉnh giải pháp này vào EBX, mở rộng xử lý đồng nghĩa ngữ nghĩa và xây dựng giao diện đánh giá chuyên sâu để tận dụng tối đa giá trị quản lý dữ liệu tham khảo.

Mời quý độc giả và chuyên gia liên hệ để cùng phát triển các giải pháp quản lý dữ liệu chất lượng cao, góp phần thúc đẩy ngành khoa học dữ liệu và MDM tại Việt Nam cũng như trên phạm vi quốc tế.