I. Đặt vấn đề
Trong bối cảnh phát triển của Internet, việc chia sẻ tài liệu trở nên phổ biến. Tuy nhiên, tình trạng sao chép văn bản cũng gia tăng. Để giải quyết vấn đề này, việc đánh giá mức độ giống nhau của văn bản trở thành một nhiệm vụ quan trọng. Các nghiên cứu về xử lý ngôn ngữ tự nhiên (NLP) đã đạt được nhiều thành tựu, nhưng nghiên cứu về văn bản tiếng Việt vẫn còn hạn chế. Các hệ thống phát hiện sao chép hiện tại chủ yếu tập trung vào tiếng Anh, do đó, việc phát triển các phương pháp cho tiếng Việt là cần thiết. Luận án này nhằm mục tiêu phát hiện nội dung sao chép trong văn bản tiếng Việt, sử dụng các phương pháp mới như DWT và bộ lọc Haar để chuyển đổi văn bản thành chuỗi số DNA.
1.1. Mục tiêu nghiên cứu
Mục tiêu của luận án là tìm ra các giải pháp hiệu quả để biểu diễn và đánh giá mức độ giống nhau của các văn bản. Các mục tiêu cụ thể bao gồm đề xuất phương pháp biểu diễn văn bản, cải thiện tốc độ và độ chính xác trong phát hiện sao chép, và xây dựng hệ thống phát hiện sao chép văn bản tiếng Việt. Việc này không chỉ giúp phát hiện sao chép mà còn nâng cao chất lượng nghiên cứu và học thuật trong nước.
1.2. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu bao gồm các mô hình và phương pháp biểu diễn văn bản, các thuật toán tính độ tương tự văn bản, và bài toán phát hiện nội dung sao chép. Phạm vi nghiên cứu tập trung vào phương pháp biểu diễn văn bản dựa trên mô hình vector và các phương pháp đo độ tương tự mà không xét đến yếu tố ngữ nghĩa. Điều này giúp xác định rõ ràng các phương pháp và thuật toán cần thiết cho việc phát hiện sao chép trong văn bản tiếng Việt.
II. Tổng quan tình hình nghiên cứu
Chương này trình bày cơ sở lý thuyết và kết quả nghiên cứu tổng quan về các vấn đề liên quan đến đánh giá văn bản. Các nghiên cứu trước đây đã chỉ ra rằng việc phát hiện sao chép văn bản là một thách thức lớn, đặc biệt trong ngữ cảnh tiếng Việt. Các phương pháp hiện có chủ yếu dựa vào mô hình vector, nhưng có những hạn chế về không gian lưu trữ và chi phí tính toán. Luận án này sẽ đề xuất các phương pháp mới nhằm cải thiện hiệu quả trong việc phát hiện sao chép văn bản.
2.1. Các phương pháp tính độ tương tự văn bản
Nhiều phương pháp đã được phát triển để tính độ tương tự văn bản, bao gồm mô hình vector và các thuật toán so khớp chuỗi. Tuy nhiên, các phương pháp này thường gặp khó khăn trong việc xử lý khối lượng dữ liệu lớn. Luận án sẽ nghiên cứu và đề xuất các giải pháp mới, bao gồm việc sử dụng DWT và bộ lọc Haar để cải thiện độ chính xác và tốc độ trong việc phát hiện sao chép.
2.2. Hướng tiếp cận mới trong xử lý văn bản
Hướng tiếp cận mới trong luận án này là sử dụng phương pháp DWT để chuyển đổi văn bản thành chuỗi số DNA. Điều này không chỉ giúp giảm thiểu không gian lưu trữ mà còn tăng cường khả năng xử lý dữ liệu lớn. Việc áp dụng các thuật toán mới sẽ giúp phát hiện sự giống nhau giữa các văn bản một cách hiệu quả hơn, từ đó nâng cao chất lượng nghiên cứu và ứng dụng trong thực tiễn.
III. Phát triển hệ thống phát hiện sao chép văn bản tiếng Việt
Chương này trình bày kết quả xây dựng hệ thống phát hiện sao chép văn bản tiếng Việt dựa trên các nghiên cứu trước đó. Hệ thống này được thiết kế để xử lý khối lượng lớn dữ liệu văn bản và phát hiện nội dung sao chép một cách hiệu quả. Việc triển khai thử nghiệm tại ĐHĐN đã cho thấy những kết quả khả quan, chứng minh tính khả thi của các phương pháp đã đề xuất.
3.1. Mô tả hệ thống
Hệ thống phát hiện sao chép văn bản được xây dựng dựa trên các mô hình và phương pháp đã nghiên cứu. Hệ thống này có khả năng xử lý và phân tích các văn bản tiếng Việt, từ đó phát hiện các nội dung sao chép một cách nhanh chóng và chính xác. Việc sử dụng các thuật toán mới giúp cải thiện hiệu suất và độ chính xác của hệ thống.
3.2. Kết quả thử nghiệm
Kết quả thử nghiệm cho thấy hệ thống có khả năng phát hiện sao chép với độ chính xác cao. Các thử nghiệm được thực hiện trên bộ dữ liệu tiếng Việt đã chứng minh rằng các phương pháp đề xuất có thể áp dụng hiệu quả trong thực tiễn. Điều này mở ra hướng đi mới cho việc phát triển các hệ thống phát hiện sao chép văn bản trong tương lai.