Mô Hình Xác Định Tác Giả Dựa Trên Văn Phong Của Các Văn Bản Tiếng Việt

Luận văn về mô hình xác định tác giả văn bản tiếng Việt dựa trên văn phong. Nghiên cứu khoa học máy tính, ứng dụng trong phân tích ngôn ngữ tự nhiên.

Trường đại học

Trường Đại học Công nghệ Thông tin

Chuyên ngành

Khoa học Máy tính

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2023

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

DANH SÁCH BẢNG

DANH SÁCH HÌNH VẼ

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Động cơ nghiên cứu

1.2. Mục tiêu của luận văn

1.3. Phạm vi và đối tượng nghiên cứu

2. CHƯƠNG 2: TỔNG QUAN

2.1. Vấn đề dữ liệu tác giả trong văn học

2.2. Vấn đề về bài toán xác định tác giả

2.3. Tình hình nghiên cứu

2.3.1. Tình hình nghiên cứu trên thế giới

2.3.2. Tình hình nghiên cứu trong nước

2.4. Mô hình hóa bài toán

2.5. Phương pháp nghiên cứu

2.6. Phương pháp đánh giá

2.7. Ý nghĩa khoa học và thực tiễn

3. CHƯƠNG 3: CƠ SỞ LÝ THUYẾT

3.1. Tổng quan về các bộ dữ liệu được áp dụng trong luận văn

3.2. Bộ dữ liệu tác giả văn học Việt Nam

3.3. Các bộ dữ liệu khác

3.4. Tiền xử lý và rút trích đặc trưng

3.5. Vấn đề mất cân bằng dữ liệu

3.6. Phương pháp dựa trên máy học truyền thống

3.6.1. Mô hình Naive Bayes

3.6.2. Mô hình Logistic Regression

3.6.3. Mô hình Random Forest

3.6.4. Mô hình Ensemble

3.7. Phương pháp dựa trên mạng neural sâu

3.7.1. Mô hình TextCNN

3.7.2. Mô hình GRU

3.7.3. Mô hình Transformers

3.8. Mô hình đề xuất

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Môi trường và các thư viện được sử dụng

4.2. Xây dựng bộ dữ liệu

4.3. Tiền xử lý dữ liệu

4.4. Rút trích đặc trưng

4.5. Mô hình máy học truyền thống

4.6. Mô hình học sâu

4.7. Mô hình đề xuất

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Hướng phát triển

DANH MỤC CÔNG BỐ KHOA HỌC CỦA TÁC GIẢ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Mô Hình Xác Định Tác Giả Văn Bản 55 ký tự

Trong bối cảnh Internet phát triển mạnh mẽ, lượng dữ liệu văn bản tăng đột biến, việc xác định tác giả văn bản trở nên vô cùng quan trọng. Phân tích tác giả văn bản không chỉ có ý nghĩa trong lịch sử, điều tra văn bản, ngôn ngữ pháp lý, xác minh đạo văn mà còn trong nhiều lĩnh vực khác. Các phương pháp tiếp cận hiện nay tập trung vào việc nghiên cứu các đặc trưng văn phong của tác giả như từ vựng, cú pháp, ngữ nghĩa, cấu trúc. Luận văn này giới thiệu một hướng tiếp cận mới, kết hợp phương pháp truyền thống và hiện đại, nhằm xây dựng mô hình xác định tác giả hiệu quả cho văn học Việt Nam. Đề tài cũng giới thiệu bộ cơ sở dữ liệu văn bản tiếng Việt tự xây dựng, phục vụ cho nghiên cứu xác minh tác giả. Nghiên cứu này kỳ vọng đóng góp vào việc nâng cao độ chính xác trong việc xác thực tác giả văn bản.

1.1. Tầm Quan Trọng Của Xác Định Tác Giả Trong Kỷ Nguyên Số

Sự bùng nổ của Internet đã tạo ra một lượng lớn dữ liệu văn bản. Việc xác định tác giả văn bản trở nên cấp thiết để giải quyết các vấn đề về tranh chấp bản quyền, đạo văn, và tin giả. Theo Alison và cộng sự [1] vào năm 2001, phân tích văn phong có thể giúp xác minh tác giả dựa trên những thói quen vô định trong cách sử dụng từ ngữ và ngữ pháp. Xác thực tác giả chính là một phần quan trọng của an ninh mạng và quản trị thông tin.

1.2. Giới Thiệu Bộ Dữ Liệu Văn Bản Tiếng Việt Tự Xây Dựng

Hiện tại, nghiên cứu xác định tác giả trong văn học Việt Nam còn hạn chế do thiếu cơ sở dữ liệu văn bản tiếng Việt chuyên dụng. Luận văn này giới thiệu bộ dữ liệu VN-Literature, được xây dựng bằng công cụ thu thập tự phát triển. Bộ dữ liệu này sẽ cung cấp nguồn tài nguyên quan trọng cho các nghiên cứu về phân tích tác giả văn bản và phân loại văn bản trong tiếng Việt. Cơ sở dữ liệu này hướng tới mục tiêu tạo ra một nền tảng vững chắc cho việc phát triển các giải pháp xác định tác giả văn bản hiệu quả.

II. Thách Thức Vấn Đề Trong Xác Định Tác Giả 56 ký tự

Mặc dù có nhiều tiến bộ, xác định tác giả văn bản vẫn đối mặt với nhiều thách thức. Các phương pháp truyền thống thường tốn thời gian và kém hiệu quả. Bên cạnh đó, việc xây dựng một mô hình xác định tác giả có độ chính xác xác định tác giả cao là một bài toán khó. Đặc trưng văn phong của mỗi tác giả rất phức tạp và khó nắm bắt. Ngoài ra, sự thiếu hụt cơ sở dữ liệu văn bản tiếng Việt chất lượng cao cũng là một rào cản lớn. Việc phân tích văn phong một cách tự động và chính xác đòi hỏi các thuật toán máy học xác định tác giả và học sâu xác định tác giả tiên tiến. Theo nghiên cứu của Argama [11], có hai loại đặc trưng chính là phong cách và nội dung. Tuy nhiên việc trích xuất và kết hợp 2 yếu tố này cũng là 1 thách thức lớn.

2.1. Khó Khăn Trong Thu Thập Chuẩn Hóa Dữ Liệu Văn Bản Tiếng Việt

Việc thu thập dữ liệu văn bản tiếng Việt từ nhiều nguồn khác nhau gặp khó khăn trong việc chuẩn hóa định dạng và loại bỏ nhiễu. Các lỗi chính tả, lỗi ngữ pháp, và sự đa dạng trong cách diễn đạt gây khó khăn cho quá trình tiền xử lý dữ liệu. Để xây dựng mô hình xác định tác giả hiệu quả, cần có một lượng lớn văn bản đã được gắn nhãn chính xác, điều này đòi hỏi nhiều công sức và nguồn lực.

2.2. Vấn Đề Về Đặc Trưng Văn Phong Sự Biến Đổi Theo Thời Gian

Đặc trưng văn phong của một tác giả có thể thay đổi theo thời gian, theo thể loại văn bản, hoặc theo mục đích giao tiếp. Điều này gây khó khăn cho việc xây dựng mô hình xác định tác giả ổn định và chính xác. Bên cạnh đó, việc xác định những đặc trưng văn phong quan trọng nhất và loại bỏ những yếu tố nhiễu là một thách thức lớn trong phân tích văn phong.

III. Phương Pháp Máy Học Xác Định Tác Giả 52 ký tự

Các phương pháp máy học xác định tác giả đã chứng minh được hiệu quả trong việc phân tích văn bản và phân loại văn bản. Các thuật toán như Naive Bayes, SVM, Random Forest và học sâu đã được áp dụng để xác định tác giả. Quá trình này bao gồm các bước như tiền xử lý dữ liệu, rút trích đặc trưng, huấn luyện mô hình và đánh giá mô hình. Trong đó, việc lựa chọn các đặc trưng văn phong phù hợp và thuật toán máy học hiệu quả là yếu tố then chốt quyết định độ chính xác xác định tác giả. Khai phá văn bản và xử lý ngôn ngữ tự nhiên (NLP) đóng vai trò quan trọng trong việc xây dựng mô hình xác định tác giả.

3.1. Sử Dụng Mô Hình Naive Bayes SVM Random Forest

Các mô hình máy học truyền thống như Naive Bayes, SVM, Random Forest đã được sử dụng rộng rãi trong xác định tác giả. Các mô hình này dựa trên việc rút trích đặc trưng từ văn bản và sử dụng các thuật toán phân loại để xác định tác giả. Ưu điểm của các mô hình này là đơn giản, dễ triển khai và có thể đạt được độ chính xác xác định tác giả tốt trong một số trường hợp.

3.2. Ứng Dụng Học Sâu Với CNN RNN LSTM Transformer

Học sâu xác định tác giả với các mô hình như CNN, RNN, LSTM, Transformer đang trở thành xu hướng. Các mô hình này có khả năng tự động rút trích đặc trưng từ văn bản và học các biểu diễn phức tạp của văn phong. Điều này giúp cải thiện độ chính xác xác định tác giả so với các phương pháp máy học truyền thống. Các mô hình Transformer, đặc biệt là BERT, đã đạt được những kết quả ấn tượng trong xử lý ngôn ngữ tự nhiên (NLP).

IV. Mô Hình Đề Xuất Kết Hợp Phong Cách Ngôn Ngữ 59 ký tự

Luận văn này đề xuất một mô hình xác định tác giả mới, kết hợp phân tích văn phong và mô hình ngôn ngữ. Mô hình này tận dụng các đặc trưng văn phong truyền thống như từ vựng, cú pháp kết hợp với khả năng biểu diễn ngôn ngữ mạnh mẽ của các mô hình học sâu. Đặc biệt, mô hình sử dụng mô hình BERT đã được tinh chỉnh cho tiếng Việt để nắm bắt các đặc trưng ngôn ngữ phức tạp. Kết quả thử nghiệm cho thấy mô hình đề xuất có độ chính xác xác định tác giả cao hơn so với các phương pháp hiện có. Đây là một bước tiến quan trọng trong việc xây dựng mô hình xác định tác giả hiệu quả cho văn bản tiếng Việt.

4.1. Tích Hợp Đặc Trưng Văn Phong Mô Hình Ngôn Ngữ BERT

Mô hình đề xuất tích hợp các đặc trưng văn phong (tần suất từ, độ dài câu, sử dụng dấu câu) với mô hình ngôn ngữ BERT đã được tinh chỉnh cho tiếng Việt. Mô hình BERT giúp nắm bắt các mối quan hệ ngữ nghĩa phức tạp trong văn bản, trong khi các đặc trưng văn phong cung cấp thông tin về cách tác giả sử dụng ngôn ngữ. Sự kết hợp này giúp cải thiện khả năng xác định tác giả.

4.2. Đánh Giá Hiệu Quả Mô Hình Đề Xuất Trên Dữ Liệu Tiếng Việt

Hiệu quả của mô hình đề xuất đã được đánh giá trên bộ dữ liệu VN-Literature. Kết quả cho thấy mô hình đạt được độ chính xác xác định tác giả cao hơn so với các phương pháp máy học truyền thống và các mô hình học sâu khác. Điều này chứng tỏ tính hiệu quả của việc kết hợp phân tích văn phong và mô hình ngôn ngữ trong xác định tác giả văn bản tiếng Việt.

V. Ứng Dụng Thực Tiễn Của Xác Định Tác Giả 51 ký tự

Ứng dụng xác định tác giả có tiềm năng lớn trong nhiều lĩnh vực. Trong lĩnh vực pháp lý, nó có thể được sử dụng để xác thực tác giả văn bản trong các vụ kiện về bản quyền hoặc xác minh đạo văn. Trong điều tra tội phạm, nó có thể giúp xác định tác giả của các bức thư nặc danh hoặc các bài đăng trực tuyến có tính chất đe dọa. Trong văn học, nó có thể giúp giải quyết các tranh chấp về tác giả hoặc phân tích văn phong của các tác giả nổi tiếng. Giải pháp xác định tác giả văn bản đóng vai trò quan trọng trong việc bảo vệ quyền sở hữu trí tuệ và đảm bảo tính minh bạch trong thông tin.

5.1. Xác Minh Đạo Văn Bảo Vệ Quyền Sở Hữu Trí Tuệ

Xác định tác giả có thể được sử dụng để xác minh đạo văn trong các bài viết khoa học, luận văn, và các tài liệu khác. Bằng cách so sánh văn phong của một văn bản với các văn bản đã được công bố, có thể phát hiện ra các trường hợp sao chép trái phép. Điều này giúp bảo vệ quyền sở hữu trí tuệ và đảm bảo tính trung thực trong nghiên cứu.

5.2. Hỗ Trợ Điều Tra Tội Phạm An Ninh Mạng

Xác định tác giả có thể hỗ trợ điều tra tội phạm bằng cách xác định tác giả của các tin nhắn đe dọa, thư tống tiền, hoặc các bài đăng trực tuyến có nội dung bất hợp pháp. Trong an ninh mạng, nó có thể giúp xác định nguồn gốc của các cuộc tấn công mạng hoặc các hoạt động gián điệp.

VI. Xu Hướng Tương Lai Xác Định Tác Giả Văn Bản 55 ký tự

Xu hướng xác định tác giả văn bản hiện nay tập trung vào việc sử dụng các mô hình học sâu tiên tiến và tích hợp nhiều nguồn thông tin khác nhau. Các nghiên cứu trong tương lai sẽ tập trung vào việc cải thiện độ chính xác xác định tác giả trong các trường hợp khó, chẳng hạn như khi tác giả cố tình che giấu văn phong của mình hoặc khi văn bản ngắn và có ít thông tin. Việc phát triển các giải pháp xác định tác giả văn bản mạnh mẽ và đáng tin cậy sẽ đóng vai trò quan trọng trong việc giải quyết các vấn đề về bản quyền, an ninh thông tin, và trật tự xã hội.

6.1. Phát Triển Mô Hình Học Sâu Dữ Liệu Huấn Luyện Lớn Hơn

Tương lai của xác định tác giả sẽ phụ thuộc vào việc phát triển các mô hình học sâu tiên tiến hơn và sử dụng các dữ liệu huấn luyện lớn hơn. Việc xây dựng các bộ dữ liệu văn bản tiếng Việt chất lượng cao và đa dạng là yếu tố then chốt để cải thiện độ chính xác xác định tác giả.

6.2. Nghiên Cứu Về Khả Năng Chống Lại Các Phương Pháp Che Giấu Văn Phong

Các nghiên cứu trong tương lai cần tập trung vào việc phát triển các phương pháp xác định tác giả có khả năng chống lại các kỹ thuật che giấu văn phong. Điều này đòi hỏi việc phân tích văn phong một cách sâu sắc và tìm ra các đặc trưng khó bắt chước.

26/04/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính mô hình xác định tác giả dựa trên văn phong của các văn bản tiếng việt

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh sự phát triển vượt bậc của Internet và sự bùng nổ dữ liệu văn bản, việc xác định tác giả của các văn bản trở thành một vấn đề cấp thiết trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP). Đặc biệt, trong văn học Việt Nam hiện đại, việc xác định tác giả dựa trên văn phong chưa được nghiên cứu sâu rộng, dẫn đến nhiều tranh cãi về nguồn gốc tác phẩm. Luận văn tập trung vào xây dựng mô hình xác định tác giả dựa trên văn phong của các văn bản tiếng Việt, với phạm vi nghiên cứu gồm 8 tác giả và 839 tác phẩm văn học hiện đại, chủ yếu là truyện ngắn thể loại văn xuôi.

Mục tiêu chính của nghiên cứu là phát triển một mô hình kết hợp giữa các phương pháp truyền thống và hiện đại nhằm khai thác tối đa đặc trưng phong cách viết, từ đó nâng cao độ chính xác trong việc xác định tác giả. Luận văn cũng giới thiệu bộ dữ liệu tự xây dựng VN-Literature, bao gồm hơn 800 tác phẩm thu thập từ các trang web chia sẻ ebook, phục vụ cho nghiên cứu và cộng đồng học thuật. Thời gian nghiên cứu tập trung vào giai đoạn văn học hiện đại Việt Nam, với dữ liệu thu thập và xử lý trong năm 2022-2023.

Ý nghĩa của nghiên cứu thể hiện qua việc cung cấp công cụ hỗ trợ xác minh tác giả trong văn học Việt Nam, góp phần bảo vệ bản quyền, phát hiện đạo văn và hỗ trợ các nghiên cứu ngôn ngữ học, văn học học thuật. Các chỉ số đánh giá mô hình như độ chính xác, F1-score được sử dụng để đo lường hiệu quả, với kết quả thử nghiệm cho thấy mô hình đề xuất vượt trội hơn các phương pháp truyền thống và một số mô hình học sâu hiện đại.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Đặc trưng phong cách viết (Stylistic Features): Bao gồm các đặc trưng về từ vựng, cú pháp, cấu trúc câu, tần suất sử dụng dấu câu, độ dài câu, tỉ lệ chữ số và chữ in hoa, độ phong phú của từ vựng (hapax-legomena). Đây là cơ sở để phân biệt phong cách của từng tác giả.
Mô hình máy học truyền thống: Các thuật toán như Naive Bayes, Support Vector Machine (SVM), Logistic Regression, Random Forest và các kỹ thuật Ensemble Learning được sử dụng để xây dựng bộ phân loại dựa trên các đặc trưng đã trích xuất.
Mô hình học sâu (Deep Learning): Các kiến trúc mạng neural như TextCNN, BiLSTM, GRU và đặc biệt là mô hình Transformers được áp dụng để khai thác đặc trưng ngữ nghĩa và ngữ cảnh sâu sắc hơn trong văn bản.
Mô hình đề xuất: Kết hợp các đặc trưng phong cách viết với mô hình ngôn ngữ được huấn luyện trước (pre-trained language model) như BERT, thực hiện fine-tuning và thêm các lớp dense với hàm kích hoạt softmax để phân loại tác giả.

Phương pháp nghiên cứu

Nguồn dữ liệu: Bộ dữ liệu chính là VN-Literature, gồm 839 tác phẩm của 8 tác giả văn học Việt Nam hiện đại, thu thập tự động từ các trang web chia sẻ ebook bằng công cụ tự phát triển sử dụng Python và thư viện Beautiful Soup. Ngoài ra, hai bộ dữ liệu công khai là Enron Email và Blog Authorship Attribution được sử dụng để so sánh và đánh giá mô hình.
Tiền xử lý dữ liệu: Bao gồm chuẩn hóa văn bản (chuyển sang chữ thường), tách từ, loại bỏ từ dừng, xóa ký tự đặc biệt và dấu câu không cần thiết. Dữ liệu được gán nhãn thủ công để đảm bảo chất lượng.
Rút trích đặc trưng: Sử dụng các phương pháp Count Vector, TF-IDF ở cấp độ từ và ký tự, cùng với Word Embeddings (Word2Vec, FastText) để biểu diễn văn bản dưới dạng vector số.
Xử lý mất cân bằng dữ liệu: Áp dụng kỹ thuật Over Sampling bằng phương pháp tái lập ngẫu nhiên để cân bằng số lượng mẫu giữa các tác giả, tránh hiện tượng overfitting và đảm bảo tính đại diện của dữ liệu.
Phương pháp phân tích: Thử nghiệm các mô hình máy học truyền thống, học sâu và mô hình đề xuất dựa trên Transformers. Đánh giá mô hình bằng các chỉ số độ chính xác (accuracy), precision, recall và F1-score trên tập dữ liệu kiểm thử chiếm 10% tổng dữ liệu.
Timeline nghiên cứu: Thu thập và xử lý dữ liệu trong 6 tháng đầu năm 2022, xây dựng và huấn luyện mô hình trong 6 tháng tiếp theo, đánh giá và hoàn thiện luận văn trong quý cuối năm 2022 và đầu năm 2023.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của mô hình đề xuất: Mô hình kết hợp fine-tuning BERT với các đặc trưng phong cách viết đạt độ chính xác trung bình trên 85%, vượt trội hơn so với các mô hình máy học truyền thống như SVM (khoảng 70%) và Random Forest (khoảng 75%). F1-score của mô hình đề xuất cũng cao hơn khoảng 10-15% so với các mô hình khác.
Ảnh hưởng của đặc trưng phong cách: Việc kết hợp các đặc trưng như độ dài câu, tần suất dấu câu, tỉ lệ chữ in hoa và hapax-legomena giúp cải thiện đáng kể hiệu suất phân loại, tăng F1-score trung bình lên khoảng 5% so với chỉ sử dụng embedding từ ngữ nghĩa.
Xử lý mất cân bằng dữ liệu: Áp dụng kỹ thuật Over Sampling giúp cân bằng dữ liệu giữa các tác giả, tăng độ chính xác của mô hình lên khoảng 7% so với dữ liệu gốc không cân bằng, đồng thời giảm thiểu hiện tượng thiên lệch về tác giả có nhiều dữ liệu hơn.
So sánh với các bộ dữ liệu khác: Trên bộ dữ liệu Enron Email và Blog Authorship, mô hình đề xuất cũng cho kết quả tốt với độ chính xác lần lượt là 88% và 82%, chứng tỏ tính khả thi và khả năng mở rộng của phương pháp.

Thảo luận kết quả

Kết quả cho thấy mô hình kết hợp giữa đặc trưng phong cách viết và mô hình ngôn ngữ huấn luyện trước là hướng đi hiệu quả trong bài toán xác định tác giả văn học tiếng Việt. Việc sử dụng BERT giúp khai thác ngữ cảnh sâu sắc, trong khi các đặc trưng phong cách cung cấp thông tin bổ sung về cách sử dụng ngôn ngữ đặc trưng của từng tác giả.

So với các nghiên cứu trước đây trên thế giới, kết quả của luận văn tương đương hoặc vượt trội, đặc biệt trong bối cảnh tiếng Việt là ngôn ngữ có cấu trúc đặc thù và ít tài nguyên hơn. Việc xây dựng bộ dữ liệu VN-Literature là đóng góp quan trọng, giúp khắc phục hạn chế về dữ liệu trong nghiên cứu xác định tác giả tiếng Việt.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh độ chính xác và F1-score giữa các mô hình, cũng như bảng thống kê số lượng văn bản và độ dài trung bình của từng tác giả để minh họa sự đa dạng và thách thức trong dữ liệu.

Đề xuất và khuyến nghị

Phát triển bộ dữ liệu mở rộng: Tiếp tục thu thập và mở rộng bộ dữ liệu VN-Literature với nhiều tác giả và thể loại văn học khác nhau, nhằm nâng cao tính đại diện và độ chính xác của mô hình. Thời gian thực hiện dự kiến 12-18 tháng, do các nhóm nghiên cứu và thư viện số thực hiện.
Tối ưu hóa mô hình kết hợp: Nghiên cứu thêm các kỹ thuật kết hợp đặc trưng phong cách và mô hình ngôn ngữ tiên tiến như GPT hoặc các biến thể Transformers mới, nhằm cải thiện hiệu suất phân loại. Thời gian thử nghiệm 6-12 tháng, do nhóm nghiên cứu AI và NLP đảm nhiệm.
Ứng dụng trong phát hiện đạo văn và bảo vệ bản quyền: Triển khai mô hình vào các hệ thống kiểm tra đạo văn, xác minh tác giả trong xuất bản và giáo dục, giúp bảo vệ quyền tác giả và nâng cao chất lượng nghiên cứu. Chủ thể thực hiện là các nhà xuất bản, trường đại học và các tổ chức pháp lý, trong vòng 1-2 năm.
Phát triển công cụ hỗ trợ phân tích văn phong: Xây dựng phần mềm hoặc API cho phép người dùng nhập văn bản và nhận diện tác giả dựa trên mô hình đề xuất, hỗ trợ nghiên cứu văn học và pháp lý. Thời gian phát triển 6-9 tháng, do các công ty công nghệ và nhóm nghiên cứu phối hợp thực hiện.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu ngôn ngữ học và văn học: Luận văn cung cấp phương pháp và bộ dữ liệu mới giúp nghiên cứu phong cách viết và xác định tác giả trong văn học Việt Nam, hỗ trợ các công trình phân tích văn bản chuyên sâu.
Chuyên gia công nghệ thông tin và trí tuệ nhân tạo: Các kỹ thuật máy học, học sâu và mô hình Transformers được trình bày chi tiết, phù hợp cho việc phát triển các ứng dụng NLP liên quan đến phân loại văn bản và nhận dạng tác giả.
Cơ quan pháp lý và bảo vệ bản quyền: Công cụ xác định tác giả có thể hỗ trợ trong việc giải quyết tranh chấp bản quyền, phát hiện đạo văn và bảo vệ quyền sở hữu trí tuệ trong lĩnh vực văn học và truyền thông.
Nhà xuất bản và giáo dục: Ứng dụng mô hình giúp kiểm tra tính xác thực của tác phẩm, nâng cao chất lượng xuất bản và giảng dạy, đồng thời hỗ trợ sinh viên, học viên trong việc nghiên cứu và trích dẫn tài liệu chính xác.

Câu hỏi thường gặp

Mô hình xác định tác giả dựa trên văn phong hoạt động như thế nào?
Mô hình sử dụng các đặc trưng phong cách viết như tần suất từ, cấu trúc câu kết hợp với mô hình ngôn ngữ huấn luyện trước (BERT) để phân loại văn bản theo tác giả dựa trên phong cách ngôn ngữ đặc trưng của từng người.
Bộ dữ liệu VN-Literature có điểm gì đặc biệt?
VN-Literature là bộ dữ liệu tự xây dựng gồm hơn 800 tác phẩm của 8 tác giả văn học Việt Nam hiện đại, được thu thập và gán nhãn kỹ lưỡng, phục vụ nghiên cứu xác định tác giả tiếng Việt – lĩnh vực còn rất hạn chế tài nguyên.
Làm thế nào để xử lý mất cân bằng dữ liệu trong nghiên cứu này?
Luận văn áp dụng kỹ thuật Over Sampling bằng cách tái lập ngẫu nhiên các mẫu thuộc nhóm tác giả có ít dữ liệu, giúp cân bằng số lượng mẫu giữa các lớp, từ đó cải thiện hiệu quả huấn luyện và độ chính xác của mô hình.
Mô hình đề xuất có thể áp dụng cho các loại văn bản khác ngoài văn học không?
Mô hình có thể mở rộng áp dụng cho các loại văn bản khác như email, blog, bài báo với điều chỉnh phù hợp, đã được thử nghiệm trên bộ dữ liệu Enron Email và Blog Authorship với kết quả khả quan.
Các nhà nghiên cứu có thể tiếp cận bộ dữ liệu và mô hình như thế nào?
Bộ dữ liệu VN-Literature và mã nguồn mô hình được dự kiến công bố rộng rãi phục vụ cộng đồng nghiên cứu, giúp các nhà khoa học và kỹ sư phát triển thêm các ứng dụng và nghiên cứu tiếp theo.

Kết luận

Luận văn đã xây dựng thành công mô hình xác định tác giả dựa trên văn phong tiếng Việt, kết hợp đặc trưng phong cách và mô hình ngôn ngữ huấn luyện trước, đạt hiệu quả vượt trội so với các phương pháp truyền thống.
Giới thiệu bộ dữ liệu VN-Literature tự xây dựng, đóng góp tài nguyên quý giá cho nghiên cứu xác định tác giả trong văn học Việt Nam.
Thực nghiệm trên nhiều bộ dữ liệu cho thấy mô hình có tính khả thi và khả năng mở rộng ứng dụng trong các lĩnh vực pháp lý, xuất bản và giáo dục.
Đề xuất các hướng phát triển mở rộng bộ dữ liệu, tối ưu mô hình và ứng dụng thực tiễn trong phát hiện đạo văn và bảo vệ bản quyền.
Khuyến khích các nhà nghiên cứu, chuyên gia công nghệ và cơ quan pháp lý tham khảo và ứng dụng kết quả nghiên cứu để nâng cao hiệu quả công tác xác minh tác giả.

Khuyến khích cộng đồng nghiên cứu truy cập và sử dụng bộ dữ liệu VN-Literature, đồng thời phát triển các mô hình mới dựa trên nền tảng đã xây dựng để mở rộng phạm vi và nâng cao độ chính xác trong xác định tác giả văn bản tiếng Việt.

Trích đoạn nội dung tài liệu

Đặt vấn đề Trong những năm gần đây, với sự phát triển mạnh mẽ và vượt bậc của Internet kéo theo việc bùng nỗ về dữ liệu đặc biệt trong dữ liệu dạng văn bản. Hiện nay, việc tiếp cận các nguồn thông tin từ Internet trở nên dé dàng hơn bao giờ hết. Bên cạnh đó, việc các thông tin không xác thực về nguồn gốc tác giả đã mang lại những bắt cập nhất định. Chúng ta có thể thường xuyên bắt gặp các tình huống dẫn đến tranh chấp tác giả; đặc biệt do tính chất đặc trưng về văn phong của mỗi tác giả đã đem lại những tranh luận nhất định.

Không chỉ riêng lĩnh vực văn học, các lĩnh vực khác như âm nhạc, nghệ thuật cũng đã chịu những ảnh hưởng của việc xác định đâu mới thật sự là tác giả, và tác giả này có đạo văn từ tác giả khác không? Mặc khác, trong lĩnh vực văn học Việt Nam một nền văn học có truyền thống và lịch sử lâu đời, chịu ảnh hưởng của văn học dan gian về nhiều phương diện, từ nội dung tư tưởng đến hình thức nghệ thuật. Văn học dân gian là nền tảng của văn học viết, là chặng đầu của nền văn học dân tộc. Khi chưa có chữ viết, nền văn học Việt Nam chỉ có văn học dân gian; khi có chữ viết, nền văn học Việt Nam mới bao gồm hai bộ phận: văn học dan gian và văn học viết. Trong luận văn này, sẽ trình bày việc xác định tác giả của văn học Việt Nam hiện đại.

Theo đó, việc xác định văn phong của mỗi tác giả được xem là cơ sở để có thé xác định tác giả chính của văn bản được khảo sát. Theo phương pháp truyền thống, dé xác định văn phong của một tác giả cụ thé, ta phải nắm bắt được lối hành văn, cách sử dụng câu, từ, cách diễn đạt và din đắt câu chuyện của mỗi tác giả. Dựa trên đó, ta có cơ sở dé xác định một văn bản ẩn danh có thuộc về một tác giả cụ thể nào hay không. Qua đó, ta thấy được cách tiếp cận này vẫn còn thủ công, tốn nhiêu thời gian, 1 khó xác định được chính xác tác giả của văn bản.

Gần đây, cách tiép cận dựa trên văn phong áp dụng các kĩ thuật máy học hiện đại đang là một trong những chủ đề nghiên cứu trong xử lý ngôn ngữ tự nhiên có được nhiều sự quan tâm. Hầu hết các nghiên cứu gần đây đề xuất các phương pháp tiếp cận dựa trên bộ ngữ liệu tiếng Anh, tiếng Trung, tiếng Nga, tiếng Hà Lan. Tuy nhiên trong văn bản tiếng Việt, chưa có bộ dữ liệu nào được áp dụng cho bài toán xác định tác giả trong văn học Việt Nam được xây dựng đề phục vụ cộng đồng nghiên cứu. Dong cơ nghiên cứu Nhu đã trình bày trong phần trước, hiện nay chưa có nghiên cứu nào được áp dụng trong ngôn ngữ tiếng Việt cho bài toán xác định tác giả văn học qua phong cách viết.

Nhận thấy tầm quan trọng của việc xây dựng bộ ngữ liệu cho việc xác định tác giả trong văn học Việt Nam cũng như cách áp dụng một mô hình máy học, học sâu hoặc các kĩ thuật tiên tiền hiện đại dé dé xuất một mô hình xác định tác giả hiệu quả. Trong luận văn này, trình bày một phương pháp tiếp cận mới, đạt hiệu quả hơn các phương pháp truyền thống. Kết quả của việc xác định tác giả theo phương pháp tiếp cận này cũng là động lực đề tiếp tục với những nghiên cứu tiếp theo. Mục tiêu của luận văn Trình bày được nội dung chính của vấn đề xác định tác giả dựa trên văn phong, thông qua việc khảo sát các nghiên cứu gần đây.

Qua đó, cho thấy được tính cấp thiết của dé tài thông qua việc giới thiệu bộ đữ liệu dành cho tác giả văn học Việt Nam bằng công cụ tự xây dựng. Đồng thời, luận văn cũng trình bày các cách tiếp cận dựa trên mô hình máy học, học sâu và các phương pháp hiện đại, đặc biệt đề xuất một phương pháp mới hiệu quả hơn các phương pháp được so sánh. Trên cơ sở đó, công bố bài báo khoa học ở hội nghị FDSE 2022 với tiêu đề: “Vietnamese Text’s Writing Styles Based Authorship Identification Model” 1. Phạm vi và đối tượng nghiên cứu Do giới hạn về tài nguyên cũng như thời gian, luận văn chỉ trình bày trong lĩnh vực văn học Việt Nam, thể loại văn xuôi, được giới hạn bởi 8 tác giả độc lập với 839 tác phâm.

Xác định tác giả cụ thê trong số các tác giả tiềm năng tồn tại cho một đoạn văn bản bắt kì. Thực nghiệm các phương pháp dé đánh giá tính hiệu quả của các mô hình thử nghiệm và mô hình được đề xuất. Qua đó, mô hình đề xuất cho thấy tính hiệu quả so với các mô hình truyền thống, các phương pháp mạng neural sâu và phương pháp tiên tiền như mô hình transformers. Chương 2 TONG QUAN Chương 2 trình bay tổng quan, trong phan nay sẽ giới thiệu tong quan về dữ liệu tác giả trong văn học, van đề xác minh tác giả.

Bên cạnh đó, phan này cũng khảo sát các nghiên cứu trên thế giới và trong nước, qua đó mô hình hóa được bài toán. Cuối cùng, trình bày các phương pháp nghiên cứu và phương pháp đánh giá được sử dụng trong đề tài. Từ đó, nêu lên được ý nghĩa khoa học và thực tiễn của đề tài. Vấn đề dữ liệu tác giả trong văn học Theo khảo sát, hiện nay chưa có một bộ dữ liệu nào trong nghiên cứu phân tích tác giả của văn học Việt Nam được công bó.

Bên cạnh đó, các nghiên cứu gần đây về van dé tác giả hay xác minh tác giả trong văn bản tiếng Việt nói chung và lĩnh vực văn học nói riêng còn rất hạn chế. Vì vậy, dữ liệu dé nghiên cứu phương pháp xác định văn phong của văn bản tiếng Việt sẽ gặp nhiều thách thức. Trong luận văn này giới thiệu một bộ dit liệu tự xây dựng dựa trên công cụ thu thập tự phát triển có tên là VN-Literature. Vấn đề về bài toán xác định tác gia Xác định tác giả của văn bản là quá trình phân tích một tài liệu đê có thê đưa ra các kết luận về tác giả chính của văn bản đó.

Quá trình xác định tác giả liên quan đến hai vấn đề chính đó là tập đặc trưng và kỹ thuật phân tích. Trong thời kì đầu, các kỹ thuật phân tích sử dụng các kỹ thuật khá đơn giản dựa trên thống kê. Với sự phát triển nhanh chóng của các công nghệ, gần đây các kỹ thuật phân tích sử dụng máy học, học sâu và các mô hình tiên tiến hiện đại đã được đề xuất cho các nghiên cứu trong việc xác định tác giả của các văn bản. Theo nghiên cứu của Argama [11], có hai loại đặc trưng chính được sử dung trong phân tích tác giả văn bản: đặc trưng về phong cách và đặc trưng dựa trên nội dung.

Đặc trưng về phong cách bao gồm các đặc trưng liên quan đến ký tự, tính chất từ (lexical), cách sử dụng các cầu trúc ngữ pháp (syntactic), va các đặc trưng về cấu trúc văn bản. Đặc trưng dựa trên nội dung bao gồm các từ nội dung được sử dụng thường xuyên trong lĩnh vực đó hơn là các lĩnh vực khác. Các từ nay thường được 4 chọn theo phương pháp thống kê tần suất xuất hiện trong tập dữ liệu hoặc dựa trên ngữ nghĩa của từ. Xác định tác giả của văn bản (authorship attribution) là một nhánh nghiên cứu của phân tích tác giả văn bản.

Phân tích tác giả văn bản còn có 2 nhánh nghiên cứu khác là nhận diện đặc điểm tác gia (authorship profiling) và xác minh tác giả (authorship verification). Trong giới hạn của luận văn sẽ trình bày về xác định tác giả của văn bản, là quá trình xác định một văn bản cho đúng tác giả trong số các tác giả tiềm năng. Xác minh tác giả được sử dụng rộng rãi trong việc phát hiện đạo văn hoặc xác định tác giả cho văn học lịch sử. Nhiệm vụ phân loại này cũng nôi tiêng trong các cuộc điều tra pháp y (Yang và Chow [12]).

Trong luận văn này, giới thiệu một phương pháp tiếp cận mới trong việc xác định tác giả mang liệu hiểu quả tốt hơn các phương pháp cũ và các phương pháp gần đây. Một mô hình BERT dựa trên tinh chỉnh (fine-tuning) với mô hình ngôn ngữ được huấn luyện trước (pre - trained language model), theo đó áp dụng thêm một số lớp đày đặc (dense layer) và một hàm kích hoạt softmax để xác định tác giả, được huấn luyện trong một số lần lặp. Đây là một trong những thử nghiệm đầu tiên của luận văn để phân tích hiệu suất của tỉnh chỉnh mô hình ngôn ngữ được huấn luyện trước cho xác định tác giả của văn bản. Giống như hầu hết các phương pháp Học sâu dành cho xác định tác giả, phương pháp đề xuất không yêu cầu tiền xử lý văn bản cũng như kỹ thuật rút trích đặc trưng.

Phương pháp của mới cung cấp hiệu suất hiện đại (SOTA) trên kho dữ liệu nổi tiếng, với mức cải thiện độ chính xác tương đối cao. Luận văn cũng minh họa những điểm mạnh và điểm yếu của một hệ thống như vậy. Trong đề tài này, luận văn cũng chỉ ra rằng việc xây dựng một kiến trúc kết hợp giữa đa dạng các đặc trưng có xu hướng cải thiện điểm số F1 trung bình vĩ mô (macro-averaged). Tình hình nghiên cứu 2.

Tình hình nghiên cứu trên thế giới Từ những năm dau của thế ki 21, nhiều tác giả đã quan tâm đến van đề xác định nguồn gốc của một nội dung văn bản thông qua cách khai phá thông tin thu thập được từ văn bản. Khái niệm phân loại văn bản, phân tích cảm xúc đã dan xuất hiện trong các nghiên cứu thời điểm đó. Theo đó, các nghiên cứu về xác minh tác giả đã 5 và đang được khai thác, sớm nhất đó là nghiên cứu về phong cách viết của Alison và cộng sự [1] vào năm 2001 về vấn dé những thói quen vô định của tác giả. Những thói quen này sẽ được thấy rõ hơn thông qua cách sử dụng từ và ngữ pháp của mỗi tác giả.

Quá trình khai thác các đặc trưng của từ ngữ để nắm bắt được thông tin của mỗi tác giả trở nên đơn giản hơn thông qua cách dùng từ và ngữ pháp. Nghiên cứu của Alison khảo sát và xác định tác giả của các email bằng cách phân tích nội dung và phong cách viết của mỗi tác giả. Một tập hợp các đặc điểm phong cách áp dụng cho văn bản nói chung và một tập hợp mở rộng các đặc điểm cấu trúc dành riêng cho email đã được tác giả định nghĩa.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tóm tắt về luận văn "Mô Hình Xác Định Tác Giả Văn Bản Tiếng Việt: Nghiên Cứu và Ứng Dụng"

Luận văn này tập trung vào việc xây dựng mô hình để xác định tác giả của một văn bản tiếng Việt, một vấn đề quan trọng trong nhiều lĩnh vực như pháp lý, báo chí, và an ninh mạng. Nghiên cứu này khám phá các đặc trưng ngôn ngữ khác nhau (ví dụ: từ vựng, cú pháp, phong cách) và sử dụng các kỹ thuật học máy để phân loại và gán tác giả cho văn bản. Điểm nổi bật của luận văn là việc áp dụng các phương pháp tiên tiến và đánh giá hiệu quả của mô hình trên dữ liệu tiếng Việt thực tế.

Để mở rộng kiến thức về xử lý văn bản tiếng Việt, bạn có thể tìm hiểu thêm về các chủ đề liên quan. Ví dụ, để hiểu rõ hơn về xử lý văn bản chuyên ngành, đặc biệt trong lĩnh vực y tế, hãy xem xét nghiên cứu về "Nghiên cứu trích rút một số khái niệm trong văn bản y khoa tiếng việt", nơi các phương pháp học sâu được sử dụng để trích xuất thông tin quan trọng. Bên cạnh đó, luận văn "Nghiên cứu các phương pháp trích chọn sự kiện và ứng dụng vào bài toán trích chọn sự kiện dịch bệnh" cũng cung cấp cái nhìn sâu sắc về các kỹ thuật trích xuất thông tin trong bối cảnh cụ thể. Cuối cùng, nếu bạn quan tâm đến việc xử lý các dạng viết tắt, hãy khám phá "Luận văn thạc sĩ khoa học máy tính xây dựng từ điển viết tắt cho dữ liệu văn bản lâm sàng tiếng việt" để hiểu rõ hơn về cách giải quyết các thách thức liên quan đến từ điển viết tắt. Mỗi tài liệu này mở ra một cánh cửa mới để bạn khám phá sâu hơn về xử lý ngôn ngữ tự nhiên tiếng Việt.

#văn bản tiếng Việt

#Phân tích ngôn ngữ học

#xác định tác giả văn bản tiếng Việt

#phân tích văn phong tiếng Việt

#mô hình xác định tác giả

#ứng dụng xác định tác giả

Chủ đề

Xử lý ngôn ngữ tự nhiên tiếng Việt

Nhận dạng tác giả văn bản

Phân tích văn phong trong ngôn ngữ

Ứng dụng của xác định tác giả