Luận Án Tiến Sĩ: Đánh Giá Mức Độ Giống Nhau Của Văn Bản Tiếng Việt

Trường đại học

Đại học Đà Nẵng

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

2019

150

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI MỞ ĐẦU

prefix.1. Mục tiêu nghiên cứu

prefix.2. Đối tượng và phạm vi nghiên cứu

prefix.3. Phương pháp nghiên cứu

prefix.4. Nhiệm vụ nghiên cứu và kết quả đạt được

prefix.5. Bố cục của luận án

prefix.6. Đóng góp chính của luận án

1. CHƯƠNG 1: TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU

1.1. Một số khái niệm sử dụng trong luận án

1.2. Một số đặc điểm của ngôn ngữ tiếng Việt

1.3. Một số khó khăn và nhập nhằng trong xử lý văn bản tiếng Việt

1.4. Mô hình biểu diễn văn bản

1.4.1. Mô hình biểu diễn văn bản

1.4.2. Nhận xét và đánh giá

1.5. Các phương pháp tính độ tương tự văn bản

1.5.1. Hướng tiếp cận

1.5.2. Bài toán so khớp chuỗi

1.5.3. So sánh văn bản và ứng dụng trong phát hiện sao chép

1.5.4. Các vấn đề liên quan về sao chép

1.5.5. Phát hiện sao chép tại PAN

1.6. Kết luận Chương 1

2. CHƯƠNG 2: SO SÁNH VĂN BẢN DỰA TRÊN MÔ HÌNH VECTOR

2.1. Tính độ tương tự văn bản trong mô hình vector

2.2. Biểu diễn văn bản theo mô hình vector

2.3. Phương pháp tính trọng số từ chỉ mục

2.4. Phương pháp tính độ tương tự

2.5. Một số phương pháp so sánh văn bản dựa trên mô hình vector

2.6. Mô hình vector hóa văn bản

2.7. Phương pháp cải tiến sử dụng độ đo Cosine

2.8. Đánh giá các phương pháp dựa trên mô hình vector

2.9. Tạo bộ dữ liệu để đánh giá các thuật toán

2.10. Đánh giá các thuật toán dựa trên mô hình vector

2.11. Kết luận Chương 2

3. CHƯƠNG 3: PHÁT HIỆN SAO CHÉP VĂN BẢN DỰA TRÊN BIẾN ĐỔI WAVELET RỜI RẠC

3.1. Phát biểu bài toán

3.2. Cơ sở lý thuyết về DWT và bộ lọc Haar

3.2.1. Cơ sở lý thuyết về DWT

3.2.2. Bộ lọc Haar

3.3. Đề xuất mô hình hệ thống phát hiện sao chép

3.4. Đề xuất mô hình hệ thống áp dụng cho phương pháp dựa trên DWT

3.5. Đề xuất quy trình chuyển đổi dữ liệu

3.6. Đề xuất phương pháp và giải thuật xử lý

3.6.1. Tiền xử lý dữ liệu

3.6.2. Quy trình số hóa

3.6.3. Giải thuật cho bộ lọc Haar

3.7. Tổ chức dữ liệu cho bộ DNA nguồn

3.8. Đề xuất thuật toán phát hiện sự giống nhau

3.8.1. Mã hóa dữ liệu và tính DNA của văn bản đánh giá

3.8.2. So sánh và đưa ra quyết định

3.8.3. Độ phức tạp của thuật toán phát hiện sự giống nhau

3.9. Kết quả thử nghiệm phương pháp dựa trên DWT

3.9.1. Dữ liệu thử nghiệm

3.9.2. Kết quả thử nghiệm

3.10. Kết luận Chương 3

4. CHƯƠNG 4: PHÁT TRIỂN HỆ THỐNG PHÁT HIỆN SAO CHÉP VĂN BẢN TIẾNG VIỆT

4.1. Mô tả hệ thống

4.2. Các đối tượng sử dụng

4.3. Mô hình tổng quát

4.4. Xây dựng kho dữ liệu văn bản tiếng Việt

4.4.1. Kiến trúc hệ thống kho dữ liệu

4.4.2. Giải pháp xây dựng kho dữ liệu

4.4.3. Đánh giá về kho dữ liệu

4.5. Triển khai hệ thống phát hiện sao chép văn bản

4.6. Đề xuất hướng phát triển để xử lý dữ liệu lớn

4.7. Đề xuất giải pháp xử lý

4.8. Đề xuất phương pháp biểu diễn DNA bằng Tensor

4.9. Kết luận Chương 4

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

appendix.1. Hướng phát triển

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Đặt vấn đề

Trong bối cảnh phát triển của Internet, việc chia sẻ tài liệu trở nên phổ biến. Tuy nhiên, tình trạng sao chép văn bản cũng gia tăng. Để giải quyết vấn đề này, việc đánh giá mức độ giống nhau của văn bản trở thành một nhiệm vụ quan trọng. Các nghiên cứu về xử lý ngôn ngữ tự nhiên (NLP) đã đạt được nhiều thành tựu, nhưng nghiên cứu về văn bản tiếng Việt vẫn còn hạn chế. Các hệ thống phát hiện sao chép hiện tại chủ yếu tập trung vào tiếng Anh, do đó, việc phát triển các phương pháp cho tiếng Việt là cần thiết. Luận án này nhằm mục tiêu phát hiện nội dung sao chép trong văn bản tiếng Việt, sử dụng các phương pháp mới như DWT và bộ lọc Haar để chuyển đổi văn bản thành chuỗi số DNA.

1.1. Mục tiêu nghiên cứu

Mục tiêu của luận án là tìm ra các giải pháp hiệu quả để biểu diễn và đánh giá mức độ giống nhau của các văn bản. Các mục tiêu cụ thể bao gồm đề xuất phương pháp biểu diễn văn bản, cải thiện tốc độ và độ chính xác trong phát hiện sao chép, và xây dựng hệ thống phát hiện sao chép văn bản tiếng Việt. Việc này không chỉ giúp phát hiện sao chép mà còn nâng cao chất lượng nghiên cứu và học thuật trong nước.

1.2. Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu bao gồm các mô hình và phương pháp biểu diễn văn bản, các thuật toán tính độ tương tự văn bản, và bài toán phát hiện nội dung sao chép. Phạm vi nghiên cứu tập trung vào phương pháp biểu diễn văn bản dựa trên mô hình vector và các phương pháp đo độ tương tự mà không xét đến yếu tố ngữ nghĩa. Điều này giúp xác định rõ ràng các phương pháp và thuật toán cần thiết cho việc phát hiện sao chép trong văn bản tiếng Việt.

II. Tổng quan tình hình nghiên cứu

Chương này trình bày cơ sở lý thuyết và kết quả nghiên cứu tổng quan về các vấn đề liên quan đến đánh giá văn bản. Các nghiên cứu trước đây đã chỉ ra rằng việc phát hiện sao chép văn bản là một thách thức lớn, đặc biệt trong ngữ cảnh tiếng Việt. Các phương pháp hiện có chủ yếu dựa vào mô hình vector, nhưng có những hạn chế về không gian lưu trữ và chi phí tính toán. Luận án này sẽ đề xuất các phương pháp mới nhằm cải thiện hiệu quả trong việc phát hiện sao chép văn bản.

2.1. Các phương pháp tính độ tương tự văn bản

Nhiều phương pháp đã được phát triển để tính độ tương tự văn bản, bao gồm mô hình vector và các thuật toán so khớp chuỗi. Tuy nhiên, các phương pháp này thường gặp khó khăn trong việc xử lý khối lượng dữ liệu lớn. Luận án sẽ nghiên cứu và đề xuất các giải pháp mới, bao gồm việc sử dụng DWT và bộ lọc Haar để cải thiện độ chính xác và tốc độ trong việc phát hiện sao chép.

2.2. Hướng tiếp cận mới trong xử lý văn bản

Hướng tiếp cận mới trong luận án này là sử dụng phương pháp DWT để chuyển đổi văn bản thành chuỗi số DNA. Điều này không chỉ giúp giảm thiểu không gian lưu trữ mà còn tăng cường khả năng xử lý dữ liệu lớn. Việc áp dụng các thuật toán mới sẽ giúp phát hiện sự giống nhau giữa các văn bản một cách hiệu quả hơn, từ đó nâng cao chất lượng nghiên cứu và ứng dụng trong thực tiễn.

III. Phát triển hệ thống phát hiện sao chép văn bản tiếng Việt

Chương này trình bày kết quả xây dựng hệ thống phát hiện sao chép văn bản tiếng Việt dựa trên các nghiên cứu trước đó. Hệ thống này được thiết kế để xử lý khối lượng lớn dữ liệu văn bản và phát hiện nội dung sao chép một cách hiệu quả. Việc triển khai thử nghiệm tại ĐHĐN đã cho thấy những kết quả khả quan, chứng minh tính khả thi của các phương pháp đã đề xuất.

3.1. Mô tả hệ thống

Hệ thống phát hiện sao chép văn bản được xây dựng dựa trên các mô hình và phương pháp đã nghiên cứu. Hệ thống này có khả năng xử lý và phân tích các văn bản tiếng Việt, từ đó phát hiện các nội dung sao chép một cách nhanh chóng và chính xác. Việc sử dụng các thuật toán mới giúp cải thiện hiệu suất và độ chính xác của hệ thống.

3.2. Kết quả thử nghiệm

Kết quả thử nghiệm cho thấy hệ thống có khả năng phát hiện sao chép với độ chính xác cao. Các thử nghiệm được thực hiện trên bộ dữ liệu tiếng Việt đã chứng minh rằng các phương pháp đề xuất có thể áp dụng hiệu quả trong thực tiễn. Điều này mở ra hướng đi mới cho việc phát triển các hệ thống phát hiện sao chép văn bản trong tương lai.

25/01/2025

Bạn đang xem trước tài liệu:

Luận án tiến sĩ đánh giá mức độ giống nhau của văn bản tiếng việt

Tải đầy đủ

Luận án tiến sĩ mang tiêu đề "Đánh Giá Mức Độ Giống Nhau Của Văn Bản Tiếng Việt" của tác giả Hồ Phan Hiếu, dưới sự hướng dẫn của Nguyễn Thị Ngọc Anh tại Đại học Đà Nẵng, tập trung vào việc phân tích và đánh giá mức độ tương đồng giữa các văn bản tiếng Việt. Nghiên cứu này không chỉ cung cấp những phương pháp đánh giá chính xác mà còn mở ra hướng đi mới trong việc ứng dụng công nghệ thông tin vào lĩnh vực ngôn ngữ học. Độc giả sẽ tìm thấy giá trị trong việc hiểu rõ hơn về cách thức mà các văn bản có thể được so sánh và phân tích, từ đó nâng cao khả năng nghiên cứu và giảng dạy văn học.

Nếu bạn quan tâm đến các nghiên cứu liên quan đến giảng dạy văn học và lý thuyết hồi ứng, hãy tham khảo thêm bài viết "Nghiên Cứu Vận Dụng Lí Thuyết Hồi Ứng Thâm Nhập Trong Dạy Học Tác Phẩm Văn Chương Ở Trường Trung Học Phổ Thông". Bài viết này sẽ giúp bạn mở rộng kiến thức về phương pháp giảng dạy văn học.

Ngoài ra, nếu bạn muốn tìm hiểu sâu hơn về tâm lý học trong quân sự, bài viết "Năng lực chỉ huy của cán bộ cấp phân đội ở binh chủng công binh" cũng là một tài liệu hữu ích, liên quan đến việc phát triển kỹ năng lãnh đạo trong môi trường quân sự.

Cuối cùng, bài viết "Luận án tiến sĩ về trí tuệ cảm xúc của điều tra viên ở cục an ninh điều tra" sẽ cung cấp cho bạn cái nhìn sâu sắc về vai trò của trí tuệ cảm xúc trong các lĩnh vực khác nhau, từ đó giúp bạn có thêm góc nhìn đa chiều về nghiên cứu và ứng dụng trong thực tiễn.

#trí tuệ nhân tạo