Luận Án Tiến Sĩ: Đánh Giá Mức Độ Giống Nhau Của Văn Bản Tiếng Việt

Trường đại học

Đại học Đà Nẵng

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

2019

150
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Đặt vấn đề

Trong bối cảnh phát triển của Internet, việc chia sẻ tài liệu trở nên phổ biến. Tuy nhiên, tình trạng sao chép văn bản cũng gia tăng. Để giải quyết vấn đề này, việc đánh giá mức độ giống nhau của văn bản trở thành một nhiệm vụ quan trọng. Các nghiên cứu về xử lý ngôn ngữ tự nhiên (NLP) đã đạt được nhiều thành tựu, nhưng nghiên cứu về văn bản tiếng Việt vẫn còn hạn chế. Các hệ thống phát hiện sao chép hiện tại chủ yếu tập trung vào tiếng Anh, do đó, việc phát triển các phương pháp cho tiếng Việt là cần thiết. Luận án này nhằm mục tiêu phát hiện nội dung sao chép trong văn bản tiếng Việt, sử dụng các phương pháp mới như DWT và bộ lọc Haar để chuyển đổi văn bản thành chuỗi số DNA.

1.1. Mục tiêu nghiên cứu

Mục tiêu của luận án là tìm ra các giải pháp hiệu quả để biểu diễnđánh giá mức độ giống nhau của các văn bản. Các mục tiêu cụ thể bao gồm đề xuất phương pháp biểu diễn văn bản, cải thiện tốc độ và độ chính xác trong phát hiện sao chép, và xây dựng hệ thống phát hiện sao chép văn bản tiếng Việt. Việc này không chỉ giúp phát hiện sao chép mà còn nâng cao chất lượng nghiên cứu và học thuật trong nước.

1.2. Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu bao gồm các mô hình và phương pháp biểu diễn văn bản, các thuật toán tính độ tương tự văn bản, và bài toán phát hiện nội dung sao chép. Phạm vi nghiên cứu tập trung vào phương pháp biểu diễn văn bản dựa trên mô hình vector và các phương pháp đo độ tương tự mà không xét đến yếu tố ngữ nghĩa. Điều này giúp xác định rõ ràng các phương pháp và thuật toán cần thiết cho việc phát hiện sao chép trong văn bản tiếng Việt.

II. Tổng quan tình hình nghiên cứu

Chương này trình bày cơ sở lý thuyết và kết quả nghiên cứu tổng quan về các vấn đề liên quan đến đánh giá văn bản. Các nghiên cứu trước đây đã chỉ ra rằng việc phát hiện sao chép văn bản là một thách thức lớn, đặc biệt trong ngữ cảnh tiếng Việt. Các phương pháp hiện có chủ yếu dựa vào mô hình vector, nhưng có những hạn chế về không gian lưu trữ và chi phí tính toán. Luận án này sẽ đề xuất các phương pháp mới nhằm cải thiện hiệu quả trong việc phát hiện sao chép văn bản.

2.1. Các phương pháp tính độ tương tự văn bản

Nhiều phương pháp đã được phát triển để tính độ tương tự văn bản, bao gồm mô hình vector và các thuật toán so khớp chuỗi. Tuy nhiên, các phương pháp này thường gặp khó khăn trong việc xử lý khối lượng dữ liệu lớn. Luận án sẽ nghiên cứu và đề xuất các giải pháp mới, bao gồm việc sử dụng DWT và bộ lọc Haar để cải thiện độ chính xác và tốc độ trong việc phát hiện sao chép.

2.2. Hướng tiếp cận mới trong xử lý văn bản

Hướng tiếp cận mới trong luận án này là sử dụng phương pháp DWT để chuyển đổi văn bản thành chuỗi số DNA. Điều này không chỉ giúp giảm thiểu không gian lưu trữ mà còn tăng cường khả năng xử lý dữ liệu lớn. Việc áp dụng các thuật toán mới sẽ giúp phát hiện sự giống nhau giữa các văn bản một cách hiệu quả hơn, từ đó nâng cao chất lượng nghiên cứu và ứng dụng trong thực tiễn.

III. Phát triển hệ thống phát hiện sao chép văn bản tiếng Việt

Chương này trình bày kết quả xây dựng hệ thống phát hiện sao chép văn bản tiếng Việt dựa trên các nghiên cứu trước đó. Hệ thống này được thiết kế để xử lý khối lượng lớn dữ liệu văn bản và phát hiện nội dung sao chép một cách hiệu quả. Việc triển khai thử nghiệm tại ĐHĐN đã cho thấy những kết quả khả quan, chứng minh tính khả thi của các phương pháp đã đề xuất.

3.1. Mô tả hệ thống

Hệ thống phát hiện sao chép văn bản được xây dựng dựa trên các mô hình và phương pháp đã nghiên cứu. Hệ thống này có khả năng xử lý và phân tích các văn bản tiếng Việt, từ đó phát hiện các nội dung sao chép một cách nhanh chóng và chính xác. Việc sử dụng các thuật toán mới giúp cải thiện hiệu suất và độ chính xác của hệ thống.

3.2. Kết quả thử nghiệm

Kết quả thử nghiệm cho thấy hệ thống có khả năng phát hiện sao chép với độ chính xác cao. Các thử nghiệm được thực hiện trên bộ dữ liệu tiếng Việt đã chứng minh rằng các phương pháp đề xuất có thể áp dụng hiệu quả trong thực tiễn. Điều này mở ra hướng đi mới cho việc phát triển các hệ thống phát hiện sao chép văn bản trong tương lai.

25/01/2025
Luận án tiến sĩ đánh giá mức độ giống nhau của văn bản tiếng việt
Bạn đang xem trước tài liệu : Luận án tiến sĩ đánh giá mức độ giống nhau của văn bản tiếng việt

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Luận án tiến sĩ mang tiêu đề "Đánh Giá Mức Độ Giống Nhau Của Văn Bản Tiếng Việt" của tác giả Hồ Phan Hiếu, dưới sự hướng dẫn của Nguyễn Thị Ngọc Anh tại Đại học Đà Nẵng, tập trung vào việc phân tích và đánh giá mức độ tương đồng giữa các văn bản tiếng Việt. Nghiên cứu này không chỉ cung cấp những phương pháp đánh giá chính xác mà còn mở ra hướng đi mới trong việc ứng dụng công nghệ thông tin vào lĩnh vực ngôn ngữ học. Độc giả sẽ tìm thấy giá trị trong việc hiểu rõ hơn về cách thức mà các văn bản có thể được so sánh và phân tích, từ đó nâng cao khả năng nghiên cứu và giảng dạy văn học.

Nếu bạn quan tâm đến các nghiên cứu liên quan đến giảng dạy văn học và lý thuyết hồi ứng, hãy tham khảo thêm bài viết "Nghiên Cứu Vận Dụng Lí Thuyết Hồi Ứng Thâm Nhập Trong Dạy Học Tác Phẩm Văn Chương Ở Trường Trung Học Phổ Thông". Bài viết này sẽ giúp bạn mở rộng kiến thức về phương pháp giảng dạy văn học.

Ngoài ra, nếu bạn muốn tìm hiểu sâu hơn về tâm lý học trong quân sự, bài viết "Năng lực chỉ huy của cán bộ cấp phân đội ở binh chủng công binh" cũng là một tài liệu hữu ích, liên quan đến việc phát triển kỹ năng lãnh đạo trong môi trường quân sự.

Cuối cùng, bài viết "Luận án tiến sĩ về trí tuệ cảm xúc của điều tra viên ở cục an ninh điều tra" sẽ cung cấp cho bạn cái nhìn sâu sắc về vai trò của trí tuệ cảm xúc trong các lĩnh vực khác nhau, từ đó giúp bạn có thêm góc nhìn đa chiều về nghiên cứu và ứng dụng trong thực tiễn.

Tải xuống (150 Trang - 3.28 MB)