I. Đặt vấn đề
Trong bối cảnh phát triển của Internet, việc chia sẻ tài liệu trở nên phổ biến, dẫn đến tình trạng sao chép nội dung. Để giải quyết vấn đề này, việc đánh giá văn bản và xác định mức độ giống nhau giữa các văn bản là rất cần thiết. Nghiên cứu về mức độ tương đồng trong văn bản tiếng Việt còn hạn chế, trong khi các hệ thống phát hiện sao chép hiện tại chủ yếu tập trung vào tiếng Anh. Do đó, việc phát triển các phương pháp và hệ thống phù hợp cho tiếng Việt là một thách thức lớn. Các nghiên cứu hiện tại chưa đáp ứng được nhu cầu thực tiễn, đặc biệt trong việc phát hiện nội dung sao chép. Luận án này nhằm mục tiêu phát triển các phương pháp mới để đánh giá mức độ giống nhau của văn bản tiếng Việt, từ đó góp phần vào việc phát hiện sao chép hiệu quả.
1.1. Mục tiêu nghiên cứu
Mục tiêu chính của luận án là tìm ra các giải pháp hiệu quả để biểu diễn và đánh giá mức độ giống nhau của các văn bản tiếng Việt. Các mục tiêu cụ thể bao gồm đề xuất phương pháp biểu diễn văn bản, cải thiện tốc độ và độ chính xác trong phát hiện sao chép, và xây dựng hệ thống phát hiện sao chép văn bản tiếng Việt. Việc đạt được những mục tiêu này sẽ giúp nâng cao khả năng phát hiện sao chép và giảm thiểu tình trạng đạo văn trong các tài liệu học thuật và nghiên cứu.
II. Tổng quan tình hình nghiên cứu
Chương này trình bày cơ sở lý thuyết và kết quả nghiên cứu tổng quan về các vấn đề liên quan đến đánh giá văn bản. Các công trình nghiên cứu trước đây đã chỉ ra rằng việc phát hiện sao chép văn bản gặp nhiều khó khăn do đặc thù ngôn ngữ và phương pháp xử lý. Nghiên cứu về độ tương tự văn bản trong tiếng Việt còn hạn chế, và các phương pháp hiện tại chưa đáp ứng được yêu cầu thực tiễn. Việc phân tích các công trình nghiên cứu liên quan giúp xác định những hạn chế và định hướng cho các nội dung nghiên cứu tiếp theo. Điều này cũng nhấn mạnh tầm quan trọng của việc phát triển các phương pháp mới để so sánh văn bản và phát hiện nội dung sao chép.
2.1. Một số khái niệm sử dụng trong luận án
Trong nghiên cứu này, một số khái niệm quan trọng được sử dụng bao gồm văn bản, độ tương tự văn bản, và phát hiện sao chép. Văn bản được định nghĩa là các tài liệu chứa thông tin, trong khi độ tương tự văn bản đề cập đến mức độ giống nhau giữa các văn bản khác nhau. Phát hiện sao chép là quá trình xác định nội dung giống nhau trong các văn bản, từ đó giúp ngăn chặn tình trạng đạo văn. Việc hiểu rõ các khái niệm này là cần thiết để xây dựng các phương pháp và hệ thống hiệu quả trong việc đánh giá mức độ giống nhau của văn bản tiếng Việt.
III. Phương pháp nghiên cứu
Phương pháp nghiên cứu trong luận án bao gồm việc phân tích tài liệu và thực nghiệm. Phân tích tài liệu giúp hiểu rõ các phương pháp hiện có trong xử lý ngôn ngữ tự nhiên và đánh giá văn bản. Thực nghiệm được thực hiện để đánh giá hiệu quả của các phương pháp đề xuất trong việc phát hiện sao chép. Các phương pháp này bao gồm mô hình vector và biến đổi Wavelet rời rạc, nhằm cải thiện độ chính xác và tốc độ trong việc phát hiện nội dung sao chép. Việc áp dụng các phương pháp này sẽ giúp xây dựng một hệ thống phát hiện sao chép văn bản tiếng Việt hiệu quả.
3.1. Nhiệm vụ nghiên cứu
Nhiệm vụ nghiên cứu bao gồm việc phân tích các phương pháp biểu diễn văn bản, khảo sát nguồn dữ liệu cần thiết, và đề xuất giải pháp tổ chức lưu trữ. Nghiên cứu cũng tập trung vào việc phát hiện nội dung sao chép và xây dựng bộ dữ liệu tiếng Việt thử nghiệm. Các nhiệm vụ này sẽ giúp xác định các phương pháp hiệu quả trong việc đánh giá mức độ giống nhau của văn bản và phát hiện sao chép, từ đó góp phần nâng cao chất lượng nghiên cứu và học thuật trong nước.