Luận Án Tiến Sĩ Về Đánh Giá Mức Độ Giống Nhau Của Văn Bản Tiếng Việt

Luận án tiến sĩ kỹ thuật phân tích và đánh giá mức độ giống nhau của văn bản tiếng Việt, góp phần nâng cao chất lượng nghiên cứu ngôn ngữ.

Trường đại học

Đại học Đà Nẵng

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

Luận Án Tiến Sĩ Kỹ Thuật

2019

151

Phí lưu trữ

45 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU

1.1. Một số khái niệm sử dụng trong luận án

1.2. Một số đặc điểm của ngôn ngữ tiếng Việt

1.3. Một số khó khăn và nhập nhằng trong xử lý văn bản tiếng Việt

1.4. Mô hình biểu diễn văn bản

1.4.1. Mô hình biểu diễn văn bản

1.4.2. Nhận xét và đánh giá

1.5. Các phương pháp tính độ tương tự văn bản

1.5.1. Hướng tiếp cận

1.5.2. Bài toán so khớp chuỗi

1.5.3. So sánh văn bản và ứng dụng trong phát hiện sao chép

1.5.4. Các vấn đề liên quan về sao chép

1.5.5. Phát hiện sao chép tại PAN

1.6. Kết luận Chương 1

2. CHƯƠNG 2: SO SÁNH VĂN BẢN DỰA TRÊN MÔ HÌNH VECTOR

2.1. Tính độ tương tự văn bản trong mô hình vector

2.2. Biểu diễn văn bản theo mô hình vector

2.3. Phương pháp tính trọng số từ chỉ mục

2.4. Phương pháp tính độ tương tự

2.5. Một số phương pháp so sánh văn bản dựa trên mô hình vector

2.6. Mô hình vector hóa văn bản

2.7. Phương pháp cải tiến sử dụng độ đo Cosine

2.8. Đánh giá các phương pháp dựa trên mô hình vector

2.9. Tạo bộ dữ liệu để đánh giá các thuật toán

2.10. Đánh giá các thuật toán dựa trên mô hình vector

2.11. Kết luận Chương 2

3. CHƯƠNG 3: PHÁT HIỆN SAO CHÉP VĂN BẢN DỰA TRÊN BIẾN ĐỔI WAVELET RỜI RẠC

3.1. Phát biểu bài toán

3.2. Cơ sở lý thuyết về DWT và bộ lọc Haar

3.2.1. Cơ sở lý thuyết về DWT

3.2.2. Bộ lọc Haar

3.3. Đề xuất mô hình hệ thống phát hiện sao chép

3.3.1. Đề xuất mô hình hệ thống áp dụng cho phương pháp dựa trên DWT

3.3.2. Đề xuất quy trình chuyển đổi dữ liệu

3.3.3. Đề xuất phương pháp và giải thuật xử lý

3.3.3.1. Tiền xử lý dữ liệu

3.3.3.2. Quy trình số hóa

3.3.3.3. Giải thuật cho bộ lọc Haar

3.4. Tổ chức dữ liệu cho bộ DNA nguồn

3.5. Đề xuất thuật toán phát hiện sự giống nhau

3.5.1. Mã hóa dữ liệu và tính DNA của văn bản đánh giá

3.5.2. So sánh và đưa ra quyết định

3.5.3. Độ phức tạp của thuật toán phát hiện sự giống nhau

3.6. Kết quả thử nghiệm phương pháp dựa trên DWT

3.6.1. Dữ liệu thử nghiệm

3.6.2. Kết quả thử nghiệm

3.7. Kết luận Chương 3

4. CHƯƠNG 4: PHÁT TRIỂN HỆ THỐNG PHÁT HIỆN SAO CHÉP VĂN BẢN TIẾNG VIỆT

4.1. Mô tả hệ thống

4.1.1. Các đối tượng sử dụng

4.1.2. Mô hình tổng quát

4.2. Xây dựng kho dữ liệu văn bản tiếng Việt

4.2.1. Kiến trúc hệ thống kho dữ liệu

4.2.2. Giải pháp xây dựng kho dữ liệu

4.2.3. Đánh giá về kho dữ liệu

4.3. Triển khai hệ thống phát hiện sao chép văn bản

4.4. Đề xuất hướng phát triển để xử lý dữ liệu lớn

4.4.1. Đề xuất giải pháp xử lý

4.4.2. Đề xuất phương pháp biểu diễn DNA bằng Tensor

4.5. Kết luận Chương 4

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về Đánh Giá Mức Độ Giống Nhau Của Văn Bản Tiếng Việt

Đánh giá mức độ giống nhau của văn bản tiếng Việt là một lĩnh vực nghiên cứu quan trọng trong xử lý ngôn ngữ tự nhiên (NLP). Với sự phát triển của công nghệ thông tin, việc phát hiện sao chép và đạo văn trở nên cần thiết hơn bao giờ hết. Nghiên cứu này không chỉ giúp bảo vệ bản quyền mà còn nâng cao chất lượng học thuật.

1.1. Khái niệm cơ bản về đánh giá văn bản

Đánh giá mức độ giống nhau của văn bản liên quan đến việc xác định sự tương đồng giữa các văn bản khác nhau. Điều này bao gồm việc phân tích ngữ nghĩa, cấu trúc và nội dung của văn bản.

1.2. Tầm quan trọng của nghiên cứu

Nghiên cứu này có ý nghĩa quan trọng trong việc phát hiện và ngăn chặn hành vi sao chép, từ đó nâng cao tính trung thực trong học thuật và nghiên cứu.

II. Vấn đề và Thách thức trong Đánh Giá Mức Độ Giống Nhau

Mặc dù có nhiều công cụ và phương pháp hiện có, việc đánh giá mức độ giống nhau của văn bản tiếng Việt vẫn gặp nhiều thách thức. Các vấn đề như ngữ nghĩa, cấu trúc ngữ pháp và đặc điểm ngôn ngữ riêng biệt của tiếng Việt cần được xem xét kỹ lưỡng.

2.1. Khó khăn trong xử lý ngôn ngữ tiếng Việt

Tiếng Việt có nhiều đặc điểm ngữ pháp và từ vựng khác biệt, điều này gây khó khăn cho việc áp dụng các phương pháp đánh giá giống nhau đã được phát triển cho các ngôn ngữ khác.

2.2. Thiếu hụt dữ liệu và công cụ

Việc thiếu hụt dữ liệu lớn và các công cụ chuyên dụng cho tiếng Việt làm giảm hiệu quả của các phương pháp đánh giá hiện tại.

III. Phương Pháp Đánh Giá Mức Độ Giống Nhau Trong Văn Bản

Có nhiều phương pháp khác nhau để đánh giá mức độ giống nhau của văn bản. Các phương pháp này bao gồm mô hình vector, thuật toán so sánh chuỗi và các phương pháp dựa trên học máy.

3.1. Mô hình vector trong đánh giá văn bản

Mô hình vector là một trong những phương pháp phổ biến nhất để đánh giá sự tương đồng giữa các văn bản. Phương pháp này sử dụng các vector để biểu diễn văn bản và tính toán độ tương đồng giữa chúng.

3.2. Thuật toán so sánh chuỗi

Thuật toán so sánh chuỗi giúp xác định sự tương đồng giữa các chuỗi ký tự trong văn bản. Phương pháp này thường được sử dụng trong phát hiện sao chép và đạo văn.

IV. Ứng Dụng Thực Tiễn và Kết Quả Nghiên Cứu

Nghiên cứu về đánh giá mức độ giống nhau của văn bản tiếng Việt đã cho thấy nhiều ứng dụng thực tiễn. Các hệ thống phát hiện sao chép đã được triển khai tại nhiều trường đại học và tổ chức.

4.1. Hệ thống phát hiện sao chép

Nhiều trường đại học đã áp dụng các hệ thống phát hiện sao chép như Turnitin để kiểm tra tính trung thực của các bài viết học thuật.

4.2. Kết quả nghiên cứu và ứng dụng

Các nghiên cứu đã chỉ ra rằng việc áp dụng các phương pháp đánh giá mức độ giống nhau có thể giúp cải thiện chất lượng học thuật và giảm thiểu hành vi sao chép.

V. Kết Luận và Hướng Phát Triển Tương Lai

Đánh giá mức độ giống nhau của văn bản tiếng Việt là một lĩnh vực nghiên cứu đầy tiềm năng. Cần tiếp tục phát triển các phương pháp và công cụ để nâng cao hiệu quả trong việc phát hiện sao chép.

5.1. Đề xuất hướng nghiên cứu mới

Cần nghiên cứu thêm về các phương pháp mới trong xử lý ngôn ngữ tự nhiên để cải thiện khả năng phát hiện sao chép trong văn bản tiếng Việt.

5.2. Tương lai của nghiên cứu

Nghiên cứu này mở ra nhiều cơ hội cho các nhà khoa học và nghiên cứu viên trong việc phát triển các công cụ và phương pháp mới cho tiếng Việt.

22/07/2025

Bạn đang xem trước tài liệu:

Luận án tiến sĩ kỹ thuật đánh giá mức độ giống nhau của văn bản tiếng việt

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1. Tổng quan tình hình nghiên cứu. Chương này trình bày cơ sở lý thuyết, kết quả nghiên cứu tổng quan về các vấn đề nghiên cứu trong luận án; phân tích, đánh giá các công trình nghiên cứu liên quan và chỉ ra một số hạn chế trong lĩnh vực nghiên cứu (phát hiện sao chép hay trùng lặp nội dung văn bản). Trên cơ sở các phân tích, đánh giá sẽ định hướng, đề xuất và xác định các nội dung nghiên cứu sẽ được triển khai.

So sánh văn bản dựa trên mô hình vector. Chương này giới thiệu tổng quan về bài toán so sánh văn bản, trình bày phương pháp tính trọng số các đặc trưng của văn bản biểu diễn trên mô hình vector; giới thiệu bài toán và thực nghiệm -6- một số phương pháp so sánh văn bản dựa trên mô hình vector để chứng minh mô hình biểu diễn văn bản dựa trên vector là thông dụng và có thể ứng dụng trong phát hiện sao chép văn bản tiếng Việt. Trên cơ sở phân tích, đánh giá cách tính trọng số, các phương pháp đo độ tương tự văn bản được dùng phổ biến, luận án đề xuất thuật toán thử nghiệm để đánh giá sự tương tự của văn bản tiếng Việt dựa trên mô hình vector. Phát hiện sao chép văn bản dựa trên biến đổi Wavelet rời rạc.

Hạn chế của mô hình vector là không gian lưu trữ với số chiều rất lớn, đối với kho dữ liệu lớn thì chi phí xử lý, tính toán cao. Chương này giới thiệu kết quả nghiên cứu, phân tích và đề xuất hướng tiếp cận mới để giải quyết bài toán so sánh văn bản dựa trên phép biến đổi Wavelet rời rạc và sử dụng bộ lọc Haar. Nội dung trình bày tập trung vào hướng tiếp cận và các vấn đề mới đối với xử lý văn bản, đó là biến đổi Wavelet rời rạc và bộ lọc Haar; phương pháp đề xuất để giải quyết bài toán. Thực nghiệm, so sánh và đánh giá kết quả đạt được để chứng minh hiệu quả của phương pháp đề xuất.

Phát triển hệ thống phát hiện sao chép văn bản tiếng Việt. Trình bày kết quả giải pháp xây dựng kho dữ liệu văn bản tiếng Việt và phát triển hệ thống phát hiện sao chép văn bản dựa trên các kết quả nghiên cứu đạt được về mô hình vector và phương pháp DWT. Chương này cũng trình bày kết quả triển khai thử nghiệm tại ĐHĐN và một số đánh giá. Cuối cùng là đề xuất hướng phát triển để xử lý dữ liệu lớn với giải pháp triển khai dựa trên mô hình MapReduce và phương pháp biểu diễn DNA bằng Tensor.

Đóng góp chính của luận án Luận án đã góp phần giải quyết bài toán đánh giá mức độ giống nhau của văn bản ứng dụng trong phát hiện nội dung giống nhau của văn bản nhằm phát hiện sao chép. Dưới đây là những đóng góp chính của luận án: - Đề xuất cải tiến mô hình vector để tính toán độ tương tự văn bản dựa trên đơn vị từ và câu. Nghiên cứu và triển khai thực nghiệm phương pháp so sánh văn bản dựa trên mô hình vector với tập dữ liệu tiếng Việt và cho kết quả khả quan để chứng minh phương pháp dựa trên mô hình vector và sử dụng độ đo Cosine là phương pháp thông dụng có thể giải quyết được bài toán đánh giá mức độ giống nhau của văn bản. -7- - Đề xuất được cách tiếp cận mới để đánh giá mức độ giống nhau của văn bản gồm phương pháp biểu diễn văn bản thành các chuỗi số thực DNA và ứng dụng phương pháp DWT và bộ lọc Haar.

Đây là cách tiếp cận hoàn toàn mới để giải quyết bài toán phát hiện sự giống nhau của văn bản. - Đề xuất được quy trình xử lý, xây dựng thuật toán phát hiện sự giống nhau giữa các văn bản bằng cách tính toán khoảng cách Euclid nhỏ nhất từ DNA cần đánh giá đến các DNA nguồn và so sánh với một mức ngưỡng thích hợp để đưa ra kết luận về sự giống nhau giữa văn bản được kiểm tra với văn bản nguồn trong kho dữ liệu. Các kết quả thực nghiệm trên bộ dữ liệu chuẩn của PAN và bộ dữ liệu tiếng Việt thử nghiệm đã chứng minh thuật toán đề xuất đem lại hiệu quả cao trong phát hiện sự giống nhau của văn bản. - Đề xuất được các giải pháp, thuật toán để xử lý dữ liệu lớn hiệu quả.

Từ hướng tiếp cận và phương pháp đề xuất trên, trong luận án đã tính đến xử lý dữ liệu lớn với việc mã hóa dữ liệu văn bản sang dạng tín hiệu số thông qua các chuỗi DNA được sắp xếp theo thứ tự tăng dần cho phép tìm kiếm nhị phân. Đây là một trong những phương pháp tìm kiếm nhanh nhất khi làm việc với dữ liệu lớn. Hơn nữa, DWT cho độ phức tạp tính toán chỉ là hàm đa thức trong mỗi lần lấy mẫu con nên giải pháp đề xuất sẽ càng hiệu quả trong quá trình xử lý dữ liệu lớn. - Xây dựng các bộ dữ liệu tiếng Việt để thực nghiệm, xây dựng hệ thống phát hiện sao chép văn bản và triển khai ứng dụng thử nghiệm tại ĐHĐN mang ý nghĩa thực tiễn cao.

-8- TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU Chương này trình bày cơ sở lý thuyết, kết quả nghiên cứu tổng quan về các vấn đề nghiên cứu trong luận án; thực hiện việc phân tích, đánh giá các công trình nghiên cứu liên quan và chỉ ra một số hạn chế trong lĩnh vực nghiên cứu (phát hiện sao chép hay trùng lặp nội dung văn bản). Trên cơ sở các phân tích, đánh giá sẽ định hướng, đề xuất và xác định các nội dung nghiên cứu sẽ được triển khai. Một số khái niệm sử dụng trong luận án 1) Văn bản Văn bản (Document/Text) là đối tượng nghiên cứu của nhiều ngành khoa học, nhiều lĩnh vực khác nhau, tùy theo góc độ nghiên cứu và mục đích tiếp cận sẽ có nhiều định nghĩa khác nhau về văn bản. Thông thường trong các hệ thống lưu trữ và truy xuất thông tin, văn bản là các bản ghi thông tin, là phương tiện để ghi nhận, lưu giữ và truyền đạt các thông tin từ chủ thể này sang chủ thể khác bằng một ký hiệu hay ngôn ngữ nhất định nào đó.

Văn bản bao gồm các tài liệu, tư liệu, giấy tờ có giá trị pháp lý, mỗi văn bản gồm tập hợp các câu có tính trọn vẹn về nội dung, hoàn chỉnh về hình thức, có tính liên kết chặt chẽ và hướng tới một mục tiêu giao tiếp nhất định [18]. Trong tin học, văn bản là một chuỗi ký tự được mã hóa thành các định dạng có thể đọc được trên máy tính, hay còn gọi là văn bản điện tử. Trong luận án, văn bản được đề cập là đối tượng nghiên cứu chính, là văn bản điện tử ở dạng văn bản thuần (Plain text2), việc xử lý, tính toán sẽ loại bỏ các hình ảnh, công thức, bảng biểu. Hay nói cách khác, các phương pháp đề xuất trong luận án được xử lý trên đối tượng văn bản thuần, từ các văn bản điện tử được lưu trữ dưới dạng các tệp tin.

hay tính toán, xử lý trên các nội dung văn bản được lưu trữ trong CSDL.org/wiki/Plain_text (truy cập tháng 10/2019) -9- 2) Độ tương tự Độ tương tự (Similarity measures) hay độ tương đồng là một khái niệm quan trọng và đã được sử dụng rộng rãi. Các định nghĩa trước đây về độ tương tự được gắn liền trong một ứng dụng cụ thể hoặc một dạng thể hiện của tri thức. Dekang Lin [70] định nghĩa độ tương tự thông qua trực giác (Intuitions): - Trực giác 1: Độ tương tự giữa A và B có liên quan tới sự tương tự (giống nhau) của chúng. Sự tương tự càng nhiều, độ tương tự càng lớn.

- Trực giác 2: Độ tương tự giữa A và B có liên quan tới những sự khác biệt giữa chúng. Càng nhiều sự khác biệt, độ tương tự càng thấp. - Trực giác 3: Độ tương tự lớn nhất giữa A và B đạt được khi A và B giống hệt nhau hay gọi là đồng nhất. Mỗi một độ đo độ tương tự phụ thuộc vào một ứng dụng cụ thể hoặc giả định trong một mô hình miền cụ thể.

Độ tương tự được tính là giá trị nằm trong khoảng [0, 1]. Độ tương tự giữa hai đối tượng bằng 1 thì hai đối tượng đó hoàn toàn giống nhau và nếu độ tương tự bằng 0 thì hai đối tượng đó khác nhau hoàn toàn. 3) Độ tương tự văn bản Độ tương tự văn bản (Text similarity) là mức độ giống nhau của văn bản. Khi so sánh hai đơn vị văn bản (toàn văn bản hoặc một phân đoạn của văn bản) với nhau thì đó là mức độ giống nhau giữa đơn vị văn bản này với đơn vị văn bản kia; so sánh giữa hai văn bản thì đó là mức độ giống nhau giữa văn bản này với văn bản kia; so sánh giữa một văn bản kiểm tra với tập văn bản khác thì đó là mức độ giống nhau giữa văn bản kiểm tra với các văn bản khác… Nói cách khác, tính độ tương tự văn bản là tìm ra tỷ lệ giống nhau của văn bản.

Meuschke and Gipp [80] trình bày việc tính độ tương tự văn bản theo hai hướng: Một là so sánh độ tương tự của các phân đoạn văn bản (Text segment), gọi là tương tự cục bộ và hai là so sánh độ tương tự của toàn bộ văn bản (Full text), gọi là tương tự toàn cục. Để đo độ tương tự văn bản thường dùng là độ tương tự chuỗi (String similarity). Để đo độ tương tự các chuỗi, người ta sử dụng các độ đo khoảng cách để tính độ tương tự chuỗi [14] hoặc dùng các phương pháp đo độ tương tự ngữ nghĩa - 10 - (Semantic similarity) để hiểu được nghĩa của văn bản, thường liên quan đến cơ sở tri thức, các khái niệm, Ontology,. Tóm lại, các văn bản tương tự nhau là những văn bản có tần số từ tương đối giống nhau, vì vậy có thể đo độ tương tự giữa các văn bản hoặc giữa một văn bản với các văn bản khác trong kho dữ liệu thường dựa vào bảng tần số từ.

Trong khai phá văn bản có nhiều độ đo khác nhau để tính toán mức độ tương tự của các văn bản, trong đó độ đo thường được sử dụng nhất là độ đo Cosine. Trong phạm vi đặt ra, luận án tập trung vào các phương pháp đo độ tương tự văn bản mà không xét đến yếu tố ngữ nghĩa của văn bản. Luận án tính toán độ tương tự văn bản dựa trên các phương pháp liên quan đến chuỗi. 4) So khớp văn bản Khái niệm “So khớp” được hiểu theo nhiều cách khác nhau.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Đánh Giá Mức Độ Giống Nhau Của Văn Bản Tiếng Việt cung cấp một cái nhìn sâu sắc về cách thức đánh giá sự tương đồng giữa các văn bản tiếng Việt. Nội dung chính của tài liệu tập trung vào các phương pháp và công cụ được sử dụng để phân tích và so sánh văn bản, từ đó giúp người đọc hiểu rõ hơn về cách thức mà các văn bản có thể được đánh giá về mặt ngữ nghĩa và cấu trúc.

Một trong những lợi ích lớn nhất mà tài liệu này mang lại là khả năng hỗ trợ các nhà nghiên cứu, sinh viên và những người làm trong lĩnh vực ngôn ngữ học trong việc phát triển kỹ năng phân tích văn bản. Bằng cách nắm vững các phương pháp này, người đọc có thể cải thiện khả năng viết và biên soạn văn bản của mình, đồng thời nâng cao chất lượng công việc nghiên cứu.

Nếu bạn muốn mở rộng kiến thức của mình về các hệ thống công nghệ liên quan, hãy tham khảo tài liệu Xây dựng hệ thống xử lý đa luồng kết hợp với ai cho hệ thống camera giám sát thông minh. Tài liệu này sẽ giúp bạn hiểu rõ hơn về ứng dụng của công nghệ AI trong việc xử lý và phân tích dữ liệu, một khía cạnh quan trọng trong việc phát triển các hệ thống thông minh hiện đại.

#xử lý ngôn ngữ tự nhiên

#văn bản tiếng Việt

#Biến đổi Wavelet rời rạc

#Đánh giá mức độ giống nhau

#Phát hiện sao chép văn bản

#Mô hình vector trong NLP

Chủ đề

Giải pháp xử lý dữ liệu lớn

Nghiên cứu về văn bản tiếng Việt

Phương pháp phát hiện sao chép

Ứng dụng NLP trong giáo dục