Ứng dụng độ tương đồng chuỗi trong chống trùng lặp dữ liệu văn bản bảng

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

MỞ ĐẦU

1. CHƯƠNG 1: TRÙNG LẶP DỮ LIỆU VÀ CÁC PHƯƠNG PHÁP CHỐNG TRÙNG LẶP

1.1. Các vấn đề trùng lặp dữ liệu

1.2. Chống trùng lặp dữ liệu

1.3. Lợi ích của chống trùng lặp dữ liệu

1.4. Ứng dụng của chống trùng lặp dữ liệu

1.4.1. Backup dữ liệu

1.4.2. Nhân bản dữ liệu

1.4.3. Lưu trữ dữ liệu

2. CHƯƠNG 2: PHÂN LOẠI CÁC PHƯƠNG PHÁP CHỐNG TRÙNG LẶP DỮ LIỆU

2.1. Các phương pháp chống trùng lặp phân chia theo dữ liệu

2.1.1. File Base Compare

2.1.2. File Level Hashing

2.1.3. Block Level Hashing

2.1.4. Sub Block Level Hashing

2.2. So sánh các phương pháp chống trùng lặp

2.3. Các phương pháp chống trùng lặp theo cách thức thực hiện

2.4. Các đoạn có chiều dài cố định và các đoạn có chiều dài linh hoạt

3. CHƯƠNG 3: ỨNG DỤNG ĐỘ TƯƠNG ĐỒNG CHUỖI TRONG CHỐNG TRÙNG LẶP DỮ LIỆU

3.1. Vấn đề của các phương pháp chống trùng lặp cho các tập dữ liệu văn bản có cấu trúc dạng bảng

3.2. Ứng dụng của độ tương đồng chuỗi vào chống trùng lặp

3.2.1. Sử dụng khoảng cách chuỗi

3.2.2. Phương pháp sử dụng phân cụm k-means

3.2.3. Phương pháp sử dụng thuật toán LSH (locality sensitive hashing)

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ

4.1. Tổng quan về thử nghiệm

4.2. Đánh giá kết quả

4.3. Các thử nghiệm khác

4.3.1. Thử nghiệm chọn cận dưới bằng cách thống kê

4.3.2. Thử nghiệm đánh giá tác động của cận dưới

4.4. Thực nghiệm thực tế

4.5. Kết luận và hướng phát triển tương lai

4.5.1. Hướng phát triển tương lai

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Vấn đề của các phương pháp chống trùng lặp cho các tập dữ liệu văn bản có cấu trúc dạng bảng

Trong bối cảnh dữ liệu ngày càng gia tăng, việc xử lý và quản lý dữ liệu văn bản trở nên phức tạp hơn bao giờ hết. Một trong những thách thức lớn nhất là chống trùng lặp dữ liệu. Các phương pháp truyền thống thường gặp khó khăn trong việc phát hiện và xử lý các bản sao do lỗi nhập liệu. Khi thông tin được nhập vào hệ thống, những sai sót nhỏ có thể dẫn đến việc dữ liệu bị coi là khác nhau, mặc dù nội dung thực tế là giống nhau. Điều này không chỉ làm tăng chi phí lưu trữ mà còn ảnh hưởng đến hiệu suất của hệ thống. Theo nghiên cứu, việc áp dụng độ tương đồng chuỗi có thể giúp phát hiện các bản sao ngay cả khi có sự khác biệt nhỏ trong cách nhập liệu. Phương pháp này cho phép so sánh các chuỗi ký tự và xác định mức độ tương đồng giữa chúng, từ đó phát hiện ra các bản sao một cách hiệu quả hơn. Kết quả thực nghiệm cho thấy rằng, khi áp dụng phương pháp này, tỷ lệ phát hiện dữ liệu trùng lặp tăng lên đáng kể, đặc biệt trong các tập dữ liệu lớn.

1.1. Khó khăn trong việc phát hiện trùng lặp

Việc phát hiện trùng lặp dữ liệu trong các tập dữ liệu văn bản có cấu trúc dạng bảng thường gặp nhiều khó khăn. Các phương pháp truyền thống như so sánh trực tiếp hoặc sử dụng hash không thể xử lý hiệu quả các trường hợp có lỗi nhập liệu. Khi một người dùng nhập thông tin, có thể xảy ra các sai sót như gõ sai hoặc thiếu ký tự, dẫn đến việc dữ liệu bị coi là khác nhau. Điều này không chỉ làm tăng chi phí lưu trữ mà còn gây khó khăn trong việc quản lý và truy xuất thông tin. Để giải quyết vấn đề này, việc áp dụng độ tương đồng chuỗi là cần thiết. Phương pháp này cho phép xác định mức độ tương đồng giữa các chuỗi ký tự, từ đó phát hiện ra các bản sao ngay cả khi có sự khác biệt nhỏ. Kết quả thực nghiệm cho thấy rằng, khi áp dụng phương pháp này, tỷ lệ phát hiện dữ liệu trùng lặp tăng lên đáng kể, đặc biệt trong các tập dữ liệu lớn.

II. Ứng dụng của độ tương đồng chuỗi vào chống trùng lặp

Việc áp dụng độ tương đồng chuỗi trong chống trùng lặp dữ liệu đã mở ra nhiều cơ hội mới cho việc xử lý và quản lý dữ liệu. Phương pháp này không chỉ giúp phát hiện các bản sao mà còn cải thiện hiệu suất của hệ thống. Bằng cách sử dụng khoảng cách chuỗi, các nhà nghiên cứu có thể xác định mức độ tương đồng giữa các chuỗi ký tự và từ đó phát hiện ra các bản sao một cách hiệu quả hơn. Hơn nữa, việc sử dụng các thuật toán như K-means và LSH (locality sensitive hashing) cũng đã được chứng minh là có hiệu quả trong việc phân loại và xử lý dữ liệu. Những phương pháp này cho phép xử lý nhanh chóng và chính xác các tập dữ liệu lớn, từ đó giảm thiểu thời gian và chi phí cho việc lưu trữ và quản lý dữ liệu. Kết quả thực nghiệm cho thấy rằng, việc áp dụng độ tương đồng chuỗi không chỉ giúp phát hiện các bản sao mà còn cải thiện đáng kể hiệu suất của hệ thống.

2.1. Sử dụng khoảng cách chuỗi

Sử dụng khoảng cách chuỗi là một trong những phương pháp hiệu quả nhất trong việc phát hiện trùng lặp dữ liệu. Phương pháp này cho phép so sánh các chuỗi ký tự và xác định mức độ tương đồng giữa chúng. Khi áp dụng khoảng cách chuỗi, các nhà nghiên cứu có thể phát hiện ra các bản sao ngay cả khi có sự khác biệt nhỏ trong cách nhập liệu. Điều này đặc biệt quan trọng trong các tập dữ liệu lớn, nơi mà việc phát hiện các bản sao bằng phương pháp truyền thống thường gặp khó khăn. Kết quả thực nghiệm cho thấy rằng, việc sử dụng khoảng cách chuỗi giúp tăng tỷ lệ phát hiện dữ liệu trùng lặp lên đáng kể, từ đó giảm thiểu chi phí lưu trữ và cải thiện hiệu suất của hệ thống.

III. Phương pháp sử dụng thuật toán LSH locality sensitive hashing

Thuật toán LSH (locality sensitive hashing) là một trong những phương pháp tiên tiến trong việc phát hiện trùng lặp dữ liệu. Phương pháp này cho phép nhóm các chuỗi ký tự tương tự lại với nhau, từ đó giảm thiểu số lượng so sánh cần thiết. Khi áp dụng LSH, các chuỗi ký tự được ánh xạ vào các bucket, và chỉ những chuỗi trong cùng một bucket mới cần được so sánh với nhau. Điều này giúp giảm thiểu thời gian xử lý và tăng hiệu suất của hệ thống. Kết quả thực nghiệm cho thấy rằng, việc sử dụng LSH không chỉ giúp phát hiện các bản sao một cách hiệu quả mà còn cải thiện đáng kể tốc độ xử lý dữ liệu. Phương pháp này đặc biệt hữu ích trong các ứng dụng yêu cầu xử lý nhanh chóng và chính xác các tập dữ liệu lớn.

3.1. Lợi ích của việc sử dụng LSH

Việc sử dụng thuật toán LSH trong chống trùng lặp dữ liệu mang lại nhiều lợi ích đáng kể. Đầu tiên, LSH giúp giảm thiểu thời gian xử lý bằng cách chỉ so sánh các chuỗi ký tự trong cùng một bucket. Điều này không chỉ tiết kiệm thời gian mà còn giảm thiểu tài nguyên hệ thống cần thiết cho việc xử lý dữ liệu. Thứ hai, LSH cải thiện độ chính xác trong việc phát hiện các bản sao, đặc biệt trong các tập dữ liệu lớn. Kết quả thực nghiệm cho thấy rằng, việc áp dụng LSH giúp tăng tỷ lệ phát hiện dữ liệu trùng lặp lên đáng kể, từ đó giảm thiểu chi phí lưu trữ và cải thiện hiệu suất của hệ thống.

25/01/2025

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh dữ liệu ngày càng gia tăng nhanh chóng, vấn đề trùng lặp dữ liệu trở thành thách thức lớn đối với việc quản lý và lưu trữ thông tin. Theo ước tính, các tập dữ liệu văn bản có cấu trúc dạng bảng thường gặp phải tình trạng trùng lặp do lỗi nhập liệu, gây hao phí không gian lưu trữ và làm giảm hiệu quả xử lý dữ liệu. Mục tiêu nghiên cứu của luận văn là phát triển và đánh giá phương pháp chống trùng lặp dữ liệu dựa trên độ tương đồng chuỗi nhằm khắc phục hạn chế của các phương pháp truyền thống, đặc biệt trong trường hợp dữ liệu bị sai sót do lỗi nhập liệu. Nghiên cứu tập trung trên các tập dữ liệu văn bản dạng bảng, với phạm vi thử nghiệm thực hiện trên các file Excel phổ biến trong môi trường làm việc hiện nay. Ý nghĩa của nghiên cứu được thể hiện qua việc giảm thiểu chi phí lưu trữ, tăng hiệu suất xử lý và nâng cao độ chính xác trong phát hiện dữ liệu trùng lặp, góp phần tối ưu hóa quản lý dữ liệu trong các tổ chức và doanh nghiệp.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Chống trùng lặp dữ liệu (Data Deduplication): Kỹ thuật loại bỏ các dữ liệu trùng lặp nhằm giảm dung lượng lưu trữ, bao gồm các phương pháp như File Base Compare, File Level Hashing, Block Level Hashing, Sub-Block Level Hashing và Delta Versioning. Mỗi phương pháp có ưu nhược điểm riêng về thời gian xử lý, tính triệt để và chi phí.
Độ tương đồng chuỗi (String Similarity): Khái niệm đo lường mức độ giống nhau giữa hai chuỗi ký tự, sử dụng các khoảng cách như Levenshtein để tính toán độ tương đồng, giúp phát hiện các dữ liệu gần giống nhau do lỗi nhập liệu.
Thuật toán phân cụm K-means: Phân nhóm dữ liệu thành các cụm sao cho các phần tử trong cùng cụm có độ tương đồng cao, giảm số lượng phép tính cần thiết trong quá trình so sánh.
Thuật toán Locality Sensitive Hashing (LSH): Phương pháp hash đặc biệt giúp tìm các cặp dữ liệu có độ tương đồng cao một cách hiệu quả, giảm thiểu thời gian xử lý so với phương pháp tính toán trực tiếp.

Các khái niệm chính bao gồm: trùng lặp dữ liệu, độ tương đồng chuỗi, khoảng cách Levenshtein, phân cụm K-means, và LSH.

Phương pháp nghiên cứu

Nguồn dữ liệu sử dụng là các tập dữ liệu văn bản dạng bảng, chủ yếu là file Excel với số lượng bản ghi từ 60 đến 10.000 dòng, có tỷ lệ trùng lặp dữ liệu từ 20% và tỷ lệ lỗi nhập liệu từ 0% đến 20%. Phương pháp phân tích bao gồm:

So sánh hiệu quả giữa phương pháp chống trùng lặp truyền thống sử dụng mã hóa MD5 và phương pháp mới dựa trên độ tương đồng chuỗi.
Áp dụng thuật toán Levenshtein để tính toán độ tương đồng giữa các chuỗi dữ liệu.
Sử dụng thuật toán K-means để phân cụm dữ liệu, giảm số lượng phép tính so sánh độ tương đồng.
Thử nghiệm ứng dụng thuật toán LSH nhằm tối ưu thời gian xử lý.
Thời gian nghiên cứu kéo dài trong năm 2015, thực hiện tại Đại học Công nghệ - Đại học Quốc gia Hà Nội.

Cỡ mẫu thử nghiệm dao động từ 60 đến 10.000 bản ghi, chọn mẫu theo phương pháp tăng dần số lượng bản ghi và thay đổi tỷ lệ lỗi nhập liệu để đánh giá hiệu suất. Phân tích kết quả dựa trên số lượng dữ liệu trùng lặp được phát hiện và loại bỏ, thời gian xử lý, và độ chính xác của phương pháp.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phát hiện trùng lặp vượt trội: Trong thử nghiệm với số lượng dữ liệu tăng từ 60 đến 100 dòng, phương pháp sử dụng độ tương đồng chuỗi loại bỏ được toàn bộ 20% dữ liệu trùng lặp, trong khi phương pháp truyền thống chỉ loại bỏ được 10%. Ví dụ, với 100 dòng dữ liệu, phương pháp mới loại bỏ 20 dòng trùng lặp, gấp đôi so với 10 dòng của phương pháp cũ.
Ổn định khi tăng dữ liệu: Khi số lượng bản ghi tăng lên, hiệu suất của phương pháp mới vẫn duy trì ổn định, không giảm sút, chứng tỏ khả năng áp dụng trên các tập dữ liệu lớn.
Khả năng xử lý lỗi nhập liệu: Trong thử nghiệm giữ nguyên số lượng bản ghi (100 dòng) nhưng tăng tỷ lệ lỗi nhập liệu từ 0% đến 20%, phương pháp truyền thống giảm hiệu quả phát hiện trùng lặp từ 20% xuống 0%, trong khi phương pháp độ tương đồng chuỗi duy trì phát hiện 20% trùng lặp, không bị ảnh hưởng bởi lỗi nhập liệu.
Tác động của cận dưới độ tương đồng: Việc lựa chọn cận dưới trong khoảng 0,85 đến 0,9 là phù hợp để cân bằng giữa phát hiện trùng lặp và tránh xóa nhầm dữ liệu không trùng. Thử nghiệm giảm cận dưới từ 1 xuống 0,6 cho thấy cận dưới thấp làm tăng nguy cơ xóa nhầm, trong khi cận dưới cao có thể bỏ sót trùng lặp.

Thảo luận kết quả

Kết quả thực nghiệm cho thấy phương pháp chống trùng lặp dựa trên độ tương đồng chuỗi khắc phục được hạn chế lớn nhất của các phương pháp truyền thống là không phát hiện được dữ liệu trùng lặp do lỗi nhập liệu nhỏ. Việc sử dụng khoảng cách Levenshtein giúp nhận diện các chuỗi gần giống nhau, từ đó xử lý hiệu quả hơn.

Phân cụm K-means và thuật toán LSH được áp dụng để giảm đáng kể thời gian xử lý so với phương pháp tính toán độ tương đồng trực tiếp, từ 3 tiếng xuống còn khoảng 25 phút cho 10.000 bản ghi, hoặc thậm chí nhanh hơn với LSH. Điều này cho thấy tính khả thi của phương pháp trong thực tế với các tập dữ liệu lớn.

So sánh với các nghiên cứu trong ngành, kết quả phù hợp với xu hướng ứng dụng kỹ thuật tương đồng chuỗi và phân cụm để nâng cao hiệu quả chống trùng lặp. Việc lựa chọn cận dưới dựa trên thống kê lỗi nhập liệu thực tế cũng giúp tối ưu hóa kết quả, tránh mất mát dữ liệu quan trọng.

Dữ liệu có thể được trình bày qua biểu đồ cột thể hiện số lượng dữ liệu trùng lặp được loại bỏ theo từng phương pháp và từng thử nghiệm, cũng như bảng so sánh thời gian xử lý và tỷ lệ phát hiện trùng lặp.

Đề xuất và khuyến nghị

Áp dụng phương pháp độ tương đồng chuỗi trong hệ thống quản lý dữ liệu: Các tổ chức nên tích hợp kỹ thuật tính độ tương đồng chuỗi để nâng cao hiệu quả phát hiện trùng lặp, đặc biệt với dữ liệu nhập liệu thủ công có khả năng sai sót cao. Mục tiêu giảm tối thiểu 15-20% dữ liệu trùng lặp trong vòng 6 tháng.
Sử dụng thuật toán phân cụm K-means hoặc LSH để tối ưu thời gian xử lý: Đề xuất triển khai các thuật toán này trong các hệ thống xử lý dữ liệu lớn nhằm giảm thời gian xử lý xuống dưới 30 phút cho 10.000 bản ghi. Thời gian thực hiện trong vòng 3 tháng, do bộ phận kỹ thuật phần mềm đảm nhận.
Xây dựng quy trình lựa chọn cận dưới dựa trên thống kê lỗi nhập liệu thực tế: Khuyến nghị các đơn vị thu thập và phân tích dữ liệu lỗi nhập liệu để xác định cận dưới phù hợp, đảm bảo cân bằng giữa phát hiện trùng lặp và tránh mất dữ liệu. Thời gian khảo sát và thiết lập quy trình trong 2 tháng.
Đào tạo nhân viên và nâng cao nhận thức về nhập liệu chính xác: Giảm thiểu lỗi nhập liệu từ nguồn giúp giảm áp lực cho hệ thống chống trùng lặp, nâng cao chất lượng dữ liệu đầu vào. Chương trình đào tạo nên được tổ chức định kỳ hàng quý.

Đối tượng nên tham khảo luận văn

Chuyên gia và kỹ sư công nghệ thông tin: Đặc biệt là những người làm việc trong lĩnh vực quản lý dữ liệu, phát triển phần mềm xử lý dữ liệu lớn, có thể áp dụng các phương pháp và thuật toán được nghiên cứu để nâng cao hiệu quả hệ thống.
Các tổ chức và doanh nghiệp có lượng dữ liệu lớn: Như các ngân hàng, bệnh viện, cơ quan hành chính, nơi dữ liệu nhập liệu thủ công phổ biến và cần giải pháp chống trùng lặp hiệu quả để tiết kiệm chi phí lưu trữ và nâng cao chất lượng dữ liệu.
Nhà nghiên cứu và sinh viên ngành kỹ thuật phần mềm, công nghệ thông tin: Có thể tham khảo để phát triển các đề tài nghiên cứu tiếp theo về xử lý dữ liệu, học máy, và tối ưu hóa thuật toán.
Nhà quản lý dự án công nghệ thông tin: Để hiểu rõ hơn về các phương pháp chống trùng lặp dữ liệu, từ đó đưa ra quyết định đầu tư và triển khai các giải pháp phù hợp với nhu cầu thực tế.

Câu hỏi thường gặp

Phương pháp chống trùng lặp dựa trên độ tương đồng chuỗi có ưu điểm gì so với phương pháp truyền thống?
Phương pháp này có khả năng phát hiện dữ liệu trùng lặp ngay cả khi có lỗi nhập liệu nhỏ, nhờ tính toán độ tương đồng giữa các chuỗi thay vì so sánh chính xác tuyệt đối như phương pháp hashing truyền thống.
Làm thế nào để chọn giá trị cận dưới phù hợp trong tính độ tương đồng?
Giá trị cận dưới nên được xác định dựa trên thống kê lỗi nhập liệu thực tế của tập dữ liệu, thường nằm trong khoảng 0,85 đến 0,9 để cân bằng giữa phát hiện trùng lặp và tránh xóa nhầm dữ liệu.
Phân cụm K-means giúp cải thiện hiệu suất như thế nào?
K-means nhóm các bản ghi tương tự vào cùng một cụm, từ đó chỉ cần tính độ tương đồng trong từng cụm nhỏ, giảm đáng kể số phép tính so với việc so sánh toàn bộ dữ liệu.
Thuật toán LSH có thể áp dụng cho dữ liệu dạng bảng như thế nào?
LSH được điều chỉnh để xử lý các block hoặc sub-block trong bảng dữ liệu, giúp nhanh chóng tìm các cặp dữ liệu có độ tương đồng cao mà không cần so sánh toàn bộ dữ liệu.
Phương pháp này có phù hợp với dữ liệu phi cấu trúc không?
Mặc dù nghiên cứu tập trung vào dữ liệu dạng bảng, các kỹ thuật tương đồng chuỗi và phân cụm cũng có thể được điều chỉnh để áp dụng cho dữ liệu phi cấu trúc, tuy nhiên cần nghiên cứu thêm để tối ưu.

Kết luận

Phương pháp chống trùng lặp dữ liệu dựa trên độ tương đồng chuỗi đã chứng minh hiệu quả vượt trội trong việc phát hiện dữ liệu trùng lặp, đặc biệt với dữ liệu có lỗi nhập liệu.
Thuật toán phân cụm K-means và LSH giúp giảm đáng kể thời gian xử lý, nâng cao tính khả thi của phương pháp trên các tập dữ liệu lớn.
Việc lựa chọn cận dưới độ tương đồng dựa trên thống kê lỗi nhập liệu thực tế là yếu tố then chốt để đảm bảo hiệu quả và an toàn dữ liệu.
Phương pháp có thể áp dụng rộng rãi trong các tổ chức, doanh nghiệp và nghiên cứu khoa học về quản lý dữ liệu.
Các bước tiếp theo bao gồm mở rộng thử nghiệm trên tập dữ liệu lớn hơn, tối ưu thuật toán về thời gian và tích hợp vào hệ thống quản lý dữ liệu thực tế.

Hành động ngay: Các đơn vị quản lý dữ liệu và phát triển phần mềm nên xem xét áp dụng phương pháp này để nâng cao hiệu quả quản lý dữ liệu và tiết kiệm chi phí lưu trữ.

Bài luận văn thạc sĩ mang tiêu đề "Luận văn thạc sĩ về ứng dụng độ tương đồng chuỗi trong chống trùng lặp dữ liệu văn bản có cấu trúc bảng" của tác giả Trương Lê Quân, dưới sự hướng dẫn của Tiến Sĩ Hoàng Xuân Tùng, được thực hiện tại Đại học Quốc gia Hà Nội vào năm 2015. Nghiên cứu này tập trung vào việc ứng dụng các phương pháp đo độ tương đồng chuỗi để phát hiện và loại bỏ các dữ liệu trùng lặp trong văn bản có cấu trúc bảng. Điều này không chỉ giúp cải thiện chất lượng dữ liệu mà còn tối ưu hóa quy trình xử lý thông tin trong các hệ thống quản lý dữ liệu.

Để mở rộng thêm kiến thức về các ứng dụng công nghệ thông tin trong giáo dục, bạn có thể tham khảo bài viết "Quản lý ứng dụng công nghệ thông tin trong dạy học ở trường trung học cơ sở Hoằng Hóa, Thanh Hóa", nơi nghiên cứu về việc áp dụng công nghệ thông tin trong giáo dục theo hướng chuyển đổi số.

Ngoài ra, bài viết "Luận Văn Thạc Sĩ: Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói" cũng cung cấp cái nhìn sâu sắc về việc sử dụng các phương pháp học máy trong việc xử lý và phân tích dữ liệu, tương tự như các kỹ thuật được đề cập trong luận văn gốc.

Cuối cùng, bạn có thể tìm hiểu thêm về "Luận văn thạc sĩ: Cấu trúc chỉ mục cho dữ liệu chuỗi thời gian sử dụng độ đo khoảng cách động", một nghiên cứu liên quan đến việc tối ưu hóa dữ liệu chuỗi thời gian, điều này có thể bổ sung cho kiến thức về cách quản lý và xử lý dữ liệu hiệu quả hơn.

Những tài liệu này không chỉ giúp bạn mở rộng hiểu biết về các ứng dụng công nghệ thông tin mà còn cung cấp các góc nhìn đa dạng về cách thức xử lý và phân tích dữ liệu trong các lĩnh vực khác nhau.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#xử lý ngôn ngữ tự nhiên

#dữ liệu văn bản

#độ tương đồng chuỗi

#chống trùng lặp dữ liệu

Chủ đề

Công nghệ thông tin

Nghiên cứu và phát triển trong khoa học máy tính

Học máy và trí tuệ nhân tạo

Xử lý dữ liệu văn bản

Luận văn thạc sĩ về ứng dụng độ tương đồng chuỗi trong chống trùng lặp dữ liệu văn bản có cấu trúc bảng