Luận án tiến sĩ: Xây dựng mô hình đánh giá độ khó văn bản tiếng Việt

Luận án tiến sĩ khoa học máy tính nghiên cứu xây dựng mô hình đánh giá độ khó văn bản tiếng Việt, ứng dụng trong giáo dục và xử lý ngôn ngữ.

Trường đại học

Đại học Quốc gia TP.HCM - Trường Đại học Khoa học Tự nhiên

Chuyên ngành

Khoa học Máy tính

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

2023

176

Phí lưu trữ

45 Point

Mục lục chi tiết

LỜI CÁM ƠN

LỜI CAM ĐOAN

1. TỔNG QUAN

1.1. Độ khó của văn bản

1.2. Các nghiên cứu về độ khó của văn bản

1.2.1. Hướng tiếp cận thống kê

1.2.2. Hướng tiếp cận máy học

1.3. Mục tiêu và phạm vi của luận án

1.4. Đối tượng nghiên cứu

1.5. Nội dung luận án

1.6. Phạm vi nghiên cứu

1.7. Đóng góp của luận án

2. CƠ SỞ LÝ THUYẾT VỀ ĐỘ KHÓ CỦA VĂN BẢN

2.1. Các yếu tố ngôn ngữ ảnh hưởng đến độ khó của văn bản

2.1.1. Yếu tố từ

2.1.2. Yếu tố câu

2.1.3. Yếu tố văn bản

2.2. Các hướng tiếp cận đánh giá độ khó văn bản tự động

2.2.1. Đánh giá độ khó văn bản theo hướng tiếp cận thống kê

2.2.2. Đánh giá độ khó theo hướng tiếp cận máy học

3. MÔ HÌNH ĐÁNH GIÁ ĐỘ KHÓ VĂN BẢN TIẾNG VIỆT

3.1. Các hướng tiếp cận

3.2. Đánh giá độ khó văn bản tiếng Việt theo hướng tiếp cận thống kê

3.2.1. Phân tích tương quan

3.2.2. Phân tích hồi quy

3.3. Đánh giá độ khó văn bản tiếng Việt theo hướng tiếp cận máy học

3.3.1. Sử dụng các thuật toán phân lớp truyền thống

3.3.2. Mô hình đánh giá độ khó văn bản sử dụng kỹ thuật học sâu

3.3.2.1. Tách đoạn văn bản

3.3.2.2. Tinh chỉnh BERT

3.3.2.3. Tổng hợp vector văn bản và phân lớp

3.3.2.4. Tích hợp đặc trưng ngôn ngữ vào mô hình

4. THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Xây dựng ngữ liệu

4.1.1. Thu thập ngữ liệu độ khó văn bản từ sách giáo khoa tiếng Việt

4.1.2. Xây dựng ngữ liệu độ khó của các văn bản lĩnh vực văn học và ngôn ngữ học

4.1.3. Tiền xử lý và gán nhãn ngữ liệu

4.1.4. Thống kê và gom nhóm ngữ liệu

4.1.5. Rút trích đặc trưng

4.2. Phương pháp đánh giá

4.2.1. Công thức đo độ khó văn bản tiếng Việt

4.2.2. Đánh giá độ khó văn bản theo hướng tiếp cận máy học, sử dụng các thuật toán phân lớp truyền thống

4.2.3. Đánh giá độ khó văn bản sử dụng kỹ thuật học sâu

4.2.4. So sánh với các nghiên cứu khác

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

DANH MỤC CÔNG TRÌNH CÔNG BỐ CỦA TÁC GIẢ

DANH MỤC TÀI LIỆU THAM KHẢO

PHỤ LỤC

A.1. DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

A.2. DANH MỤC CÁC BẢNG

A.3. DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Tóm tắt

I. Đánh giá độ khó văn bản

Đánh giá độ khó văn bản là một lĩnh vực nghiên cứu quan trọng trong xử lý ngôn ngữ tự nhiên và khoa học máy tính. Nó tập trung vào việc xác định các yếu tố ngôn ngữ ảnh hưởng đến mức độ dễ đọc hoặc khó đọc của một văn bản. Các yếu tố này bao gồm độ dài câu, độ dài từ, cấu trúc ngữ pháp, và ngữ nghĩa. Mô hình đánh giá văn bản thường sử dụng các phương pháp thống kê và học máy để tự động hóa quá trình này. Trong tiếng Việt, nghiên cứu về độ khó văn bản tiếng Việt còn hạn chế, đặc biệt là trên các bộ ngữ liệu lớn và đa dạng.

1.1. Yếu tố ngôn ngữ ảnh hưởng đến độ khó

Các yếu tố ngôn ngữ như độ dài từ, độ dài câu, và cấu trúc ngữ pháp đóng vai trò quan trọng trong việc xác định độ khó văn bản. Ví dụ, các câu dài và phức tạp thường khó đọc hơn so với các câu ngắn và đơn giản. Ngoài ra, tần suất từ và tần suất chữ cũng ảnh hưởng đến độ khó. Các nghiên cứu đã chỉ ra rằng các văn bản chứa nhiều từ hiếm hoặc từ chuyên ngành thường có độ khó cao hơn. Phân tích văn bản ở mức độ sâu hơn như ngữ nghĩa và ngữ pháp cũng giúp cải thiện độ chính xác của các mô hình đánh giá.

1.2. Phương pháp tiếp cận thống kê

Phương pháp thống kê trong đánh giá độ khó văn bản tập trung vào việc phân tích mối tương quan giữa các đặc trưng văn bản và độ khó. Các công thức như TF-IDF và Syntactic Density Score (SDS) được sử dụng để đo lường mức độ phức tạp của văn bản. Phân tích hồi quy cũng được áp dụng để xây dựng các mô hình dự đoán độ khó. Kết quả từ các phương pháp này cho thấy sự tương quan cao giữa các đặc trưng được chọn và độ khó thực tế của văn bản.

II. Mô hình đánh giá độ khó văn bản tiếng Việt

Luận án đã xây dựng mô hình đánh giá độ khó văn bản tiếng Việt dựa trên hai hướng tiếp cận chính: thống kê và học máy. Các mô hình này được thử nghiệm trên hai bộ ngữ liệu lớn, bao gồm văn bản từ sách giáo khoa tiếng Việt và các văn bản thuộc lĩnh vực văn học và ngôn ngữ học. Kết quả cho thấy các mô hình này đạt độ chính xác cao hơn so với các nghiên cứu trước đây.

2.1. Tiếp cận học máy

Trong hướng tiếp cận học máy, luận án sử dụng các thuật toán như Random Forest (RF) và Support Vector Machine (SVM) để phân lớp văn bản theo độ khó. RFECV được áp dụng để tự động chọn các đặc trưng quan trọng. Kết quả cho thấy các mô hình này đạt độ chính xác cao, đặc biệt khi tích hợp thêm các đặc trưng ngôn ngữ như tỉ lệ từ mượn và tỉ lệ phương ngữ.

2.2. Tiếp cận học sâu

Luận án cũng đề xuất một mô hình học sâu dựa trên BERT và LSTM để đánh giá độ khó văn bản. Mô hình này không yêu cầu gán nhãn thủ công và có thể tự động trích xuất đặc trưng từ văn bản. Khi tích hợp thêm các đặc trưng ngôn ngữ, độ chính xác của mô hình được cải thiện đáng kể, vượt trội so với các mô hình truyền thống.

III. Ứng dụng thực tiễn

Các mô hình đánh giá độ khó văn bản được xây dựng trong luận án có nhiều ứng dụng thực tiễn trong giáo dục và xử lý ngôn ngữ tự nhiên. Chúng có thể được sử dụng để thiết kế các tài liệu học tập phù hợp với trình độ của học sinh, hoặc để cải thiện các công cụ phân loại văn bản và tối ưu hóa văn bản. Ngoài ra, các mô hình này cũng có thể được tích hợp vào các hệ thống học máy để tự động đánh giá và phân loại văn bản theo độ khó.

3.1. Ứng dụng trong giáo dục

Các mô hình này có thể giúp giáo viên thiết kế các bài đọc phù hợp với trình độ của học sinh, đặc biệt là trong việc dạy tiếng Việt cho người nước ngoài. Điều này giúp cải thiện hiệu quả học tập và giảm thiểu sự chênh lệch về trình độ giữa các học sinh.

3.2. Ứng dụng trong xử lý ngôn ngữ tự nhiên

Các mô hình đánh giá độ khó cũng có thể được tích hợp vào các hệ thống phân loại văn bản và tối ưu hóa văn bản, giúp cải thiện hiệu suất của các công cụ xử lý ngôn ngữ tự nhiên như OCR và dịch máy.

21/02/2025

Bạn đang xem trước tài liệu:

Luận án tiến sĩ khoa học máy tính xây dựng mô hình đánh giá độ khó của văn bản tiếng việt

Tải đầy đủ

Trích đoạn nội dung tài liệu

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN LƯƠNG AN VINH XÂY DỰNG MÔ HÌNH ĐÁNH GIÁ ĐỘ KHÓ CUA VĂN BẢN TIENG VIỆT LUẬN ÁN TIEN SĨ KHOA HOC MAY TÍNH TP. Hồ Chí Minh — Năm 2023 _ ĐẠI HỌC QUỐC GIA TP.HCM _ TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN LƯƠNG AN VINH XÂY DỰNG MÔ HÌNH ĐÁNH GIÁ ĐỘ KHÓ CUA VĂN BẢN TIENG VIỆT Ngành: Khoa học Máy tính Mã số ngành: 62480101 Phản biện 1: PGS. Nguyễn Tuần Đăng Phản biện 2: PGS. Nguyễn Thanh Hiên Phản biện 3: PGS.

Nguyễn Ngọc Vũ Phản biện độc lập 1: PGS. Nguyễn Tuan Đăng Phản biện độc lập 2: PGS. Nguyễn Ngọc Vũ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. ĐINH ĐIÈN TP.

Hồ Chí Minh — Năm 2023 LỜI CÁM ƠN Lời đầu tiên tôi xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới PGS. Dinh Điền, người thay đã chỉ bao và hướng dẫn tận tình cho tôi trong suốt quá trình nghiên cứu khoa học và thực hiện luận án này. Tôi xin chân thành cảm ơn sự giúp đỡ và góp ý rất nhiệt tình của tập thé giảng viên, cán bộ Khoa Công nghệ thông tin và Trung tâm Ngôn ngữ học Tính toán, Trường Đại hoc Khoa học Tự nhiên — Đại học Quốc gia Tp. Hồ Chí Minh.

Cuối cùng, tôi xin gửi lời cảm ơn tới gia đình, người thân và bạn bè — những người luôn ở bên tôi những lúc khó khăn nhât, luôn động viên tôi, khuyên khích tôi trong cuộc sông và trong công việc. Tôi xin chân thành cảm ơn! ii LỜI CAM ĐOAN Tôi xin cam đoan luận án này được hoàn thành trên cơ sở nghiên cứu, tông hợp và phát triển các nghiên cứu đánh giá độ khó của các văn bản trong nước và trên thế giới do tôi thực hiện đưới sự hướng dẫn của PGS. Tat cả các tài liệu tham khảo đều được nêu rõ nguồn gốc một cách rõ ràng trong Danh mục tài liệu tham khảo. Các công trình công bồ là trung thực và chưa được ai công bé trong bat kỳ công trình nào khác.

Ký tên Lương An Vinh iii 8/9000. iii MUC LUC DANH MỤC CÁC KY HIỆU, CÁC CHỮ VIET TÁTT. viii DANH MỤC CAC HINH VE, DO THI. TOM TAT LUẬN AN.

Độ khó cua văn bản. Các nghiên cứu về độ khó của văn bản 1. Hướng tiếp cận thống kê. Hướng tiếp cận máy học.

Mục tiêu và phạm vi của lUẬH đhH.- th HH HH HT26 1. Đối tượng nghiên cứu. Nội dung luận án. Phạm vi nghiên CỨU.

Đóng góp của lUẬN đH. BO cục luận đn.--cccccceS2EEEEtrtthHHHHH ae 30 D6. Tig Ket nh. CƠ SỞ LÝ THUYET VE ĐỘ KHO CUA VAN BẢN.

DO KN6 CUA VGN DAN n4. Các yếu tổ ngôn ngữ ảnh hưởng đến độ khó của văn bản. Yếu tố từ. Yếu tổ câu 2.

Yếu tố van bản. Các hướng tiếp cận đánh giá độ khó văn bản tự động. Đánh giá độ khó van bản theo hướng tiếp cận thống kê. Đánh giá độ khó theo hướng tiếp cận máy học.

HH giờ 63 CHUONG 3. MÔ HÌNH ĐÁNH GIA ĐỘ KHÓ VAN BẢN TIENG VIỆT. Các AGC IFƯHg. St TH HH ngư64 3.

Đánh giá độ khó văn bản tiếng Việt theo hướng tiếp cận thống kê. Phân tích tương quan. Phân tích hdi quy. Đánh giá độ khó văn bản tiếng Việt theo hướng tiếp cận máy học, sử dung các thuật toán phân lớp truyền thống.

Mô hình đánh giá độ khó văn ban sử dụng kỹ thuật học sâu. Tach đoạn văn ban. Tinh chỉnh BERT. Tổng hợp vector văn bản và phân lớp.

Tích hợp đặc trưng ngôn ngữ vào mô hình. THỰC NGHIỆM VÀ ĐÁNH GIÁ. Xây dựng ngữ liỆM. ST St St SH 89 4.

Thu thập ngữ liệu độ khó văn ban từ sách giáo khoa tiếng Viét. Xây dựng ngữ liệu độ khó của các văn bản lĩnh vực văn học và ngôn ngữ hỌc. Tiền xử lý va gán nhãn ngữ liệu. Thống kê và gom nhóm ngữ liệu.

Rút trích đặc trưng 4. Phương pháp đánh giá 4. St ST TT HH TII 4. Công thức đo độ khó văn bản tiếng Việt.

Đánh giá độ khó văn bản theo hướng tiếp cận máy học, sử dụng các thuật toán phân lớp truyền thống. Đánh giá độ khó văn bản sử dụng kỹ thuật học sâu. So sánh với các nghiên cứu khác .--- + s es+x+x+x+vzervxexex 127 AS. TiGU KE na.

KET LUẬN VA HƯỚNG PHAT TRIÊN.------- 135 DANH MỤC CONG TRINH CONG BO CUA TÁC GIẢ.-- 142 DANH MUC TAI LIEU THAM KHAO. PHU LUC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIET TAT STT Từ viết tắt Tên đầy đủ 1 | SVM Support Vector Machine 2 | TF-IDF Term Frequency - Inverse Document Frequency 3 | CEFR Common European Framework of Reference 4 | PoS Part-of-Speech 5 | NE Named-Entity 6 | NB Naive Bayes 7 |KNN K-nearest neighbors 8 | RF Random Forest 9 | RFECV Recursive Feature Elimination with Cross-Validation 10 | BERT Bidirectional Encoder Representations from Transformers 11 | LSTM Long short-term memory 12 | OCR Optical Character Recognition 13 ¡SGK Sách giáo khoa 14 | VH-NNH_| Van học — Ngôn ngữ học Vii DANH MỤC CÁC BẢNG Bang 1.1: Các đặc trưng và hệ số tinh Syntactic Density Score - SDS.2: Quy đổi từ SDS sang độ khó văn bản.3: Tổng hợp một số nghiên cứu về độ khó văn bản.1: So sánh Khả năng hiểu văn bản và Độ phức tạp của văn bản.1: Thống kê ngữ liệu SGK.2: Thống kê ngữ liệu SGK (gom nhóm theo 3 cấp học).3: Thống kê ngữ liệu VH-NNH.4: Hệ số tương quan của các đặc trưng với độ khó của van bản 12 Bảng 4.5: Hệ số tương quan của các công thức đo độ khó 114 Bang 4.6: Các đặc trưng cho kết quả tốt nhất trên bộ ngữ liệu SGK.7: Các đặc trưng tốt nhất trên ngữ liệu SGK - với đặc trưng độ dài.8: Kết quả đánh giá trên bộ ngữ liệu SGK.9: Danh sách đặc trưng của thuật toán RF - ngữ liệu VH-NNH.10: Kết quả đánh giá trên bộ ngữ liệu VH-NNH.11: Thông tin cầu hình của mô hình học sâu.12: Kết quả của mô hình học sâu, so sánh với các mô hình khác.13: Hệ số tương quan của các công thức đo độ khó.14: So sánh các mô hình máy học của luận án với các nghiên cứu khác. 133 viii DANH MỤC CÁC HÌNH VẼ, ĐÒ THỊ Hình 1.1: Ví dụ về văn bản dé và văn bản khó.2: Minh họa sự khác biệt giữa độ khó văn bản và khả năng đọc hiểu.1: Ví dụ về tính dé nhìn của văn bản. 2-52-5222 ++2Ec2EEEEEerEkerrxerree 36 Hình 2.2: Các hướng nghiên cứu về sự phù hợp giữa văn bản và người đọc.3: Khung tham chiếu trình độ ngôn ngữ chung của châu Âu CEER.4: Độ khó của văn bản được tích hợp trong công cụ Microsoft Word.5: Minh họa siêu phẳng, margin trong SVM.6: Minh họa thuật toán KNN với k đối tượng khác nhau.7: Minh họa thuật toán Random Forest.1: Hệ số tương quan biểu thị trên đồ thị phân tán Scatter.2: Biểu diễn phương trình hồi quy tuyến "0 .3: Minh họa các dang hàm hỏi quy phi tuyến.------cc+-222cvsve 7I Hình 3.4: Mô hình lựa chọn đặc trưng dựa trên thuật toán RFECV.5: Sự khác biệt giữa câu trúc của BERT, OpenAI GPT và ELMo.6: Mô hình đánh giá độ khó của văn bản sử dung BERT.7: Mô hình ngôn ngữ mặt nạ của BERÌT.8: Vector của token [CLS] được dùng như vector đại diện cho đoạn văn.9: Mô hình phân lớp sử dụng LSTM.10: Mô hình đề xuất, sử dung BERT và tích hợp đặc trưng ngôn ngữ.1: Quá trình xây dựng ngữ liệu đánh giá độ khó van bản.2: Thực nghiệm thuật toán RFECV trên bộ ngữ liệu SGK.3: Thực nghiệm thuật toán RFECV sử dụng thêm 6 đặc trưng độ dai.4: Thực nghiệm thuật toán RFECV trên ngữ liệu VH-NNH.

122 ix TOM TAT LUẬN ÁN Độ khó của văn bản là hệ thống các yếu tố ngôn ngữ của nội tại văn bản ảnh hướng đến tính dễ đọc hay khó đọc của một văn bản. Các nghiên cứu về độ khó đã được bắt đầu từ lâu, nhưng hau hết các nghiên cứu đó đều được thực hiện trên tiếng Anh và một số ngôn ngữ phô biến trên thế giới. Trong tiếng Việt, trước đây chỉ có hai công trình nghiên cứu về Độ khó của văn bản, thực hiện trên hai bộ ngữ liệu khá nhỏ. Chính vì thế, rất cần có thêm các công trình nghiên cứu khác về độ khó của văn bản tiếng Việt thực hiện trên các bộ ngữ liệu cập nhật hơn, lớn hơn và trên các đặc trưng sâu hơn của văn bản như vai trò của từ, ngữ, cầu trúc ngữ pháp, ngữ nghĩa của cau.

Luận án đã xây dựng 2 bộ ngữ liệu dùng đề khảo sát và thực nghiệm đánh giá độ khó văn bản tiếng Việt, gồm: (1) Bộ ngữ liệu 370 văn bản thu thập từ sách giáo khoa tiếng Việt và Ngữ văn; và (2) Bộ ngữ liệu 1.825 văn bản thuộc lĩnh vực văn học và ngôn ngữ học. Đây là 2 bộ ngữ liệu lớn và công khai đầu tiên về độ khó văn bản trong tiếng Việt. Luận án đã khảo sát 262 đặc trưng được trích xuất từ các văn bản này để xây dựng các công thức, các mô hình đánh giá độ khó văn bản. Các đặc trưng này được thuộc nhiều cấp độ của văn bản như các đặc trưng ở mức bề mặt (độ dài câu, độ dài từ, .), các đặc trưng về tần suất từ và tần suất chữ, các đặc trưng ở cấp độ ngữ pháp mức từ, mức câu, các đặc trưng thuộc về mô hình ngôn ngữ, các đặc trưng đơn giản ở cấp độ ngữ nghĩa và các đặc trưng của riêng tiếng Việt (như tỉ lệ từ mượn, tỉ lệ phương ngữ).

Luận án cũng đã giới thiệu 3 mô hình đánh giá độ khó văn bản tiếng Việt theo từng hướng tiếp cận: Với hướng tiếp cận thống kê, luận án đã thực hiện phân tích tương quan dé chọn ra những đặc trưng có tương quan cao nhất với độ khó của văn bản, sau đó thực hiện phân tích hồi quy với một số cải tiến khi thực nghiệm để xây dựng công thức tính độ khó văn bản tiếng Việt. Kết quả cho thấy công thức mới được xây dựng có độ tương quan với độ khó văn bản vượt trội so với tất cả các nghiên cứu khác. Với hướng tiếp cận máy học, luận án đã đề xuất sử dụng thuật toán RFECV dé tự động chọn ra các đặc trưng có đóng góp tốt vào các mô hình máy học đánh giá độ khó văn bản dùng các thuật toán phân lớp truyền thống. Nhờ đó, mô hình mà luận án xây dựng đã đạt độ chính xác cao so với các nghiên cứu trước đây.

Ngoài ra, luận án cũng đề xuất một mô hình học sâu đề phân lớp văn bản theo độ khó dựa trên mô hình ngôn ngữ tiền huấn luyện BERT và mạng LSTM.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Xây dựng mô hình đánh giá độ khó văn bản tiếng Việt trong khoa học máy tính" tập trung vào việc phát triển một mô hình để đo lường và đánh giá mức độ phức tạp của các văn bản tiếng Việt, đặc biệt trong lĩnh vực khoa học máy tính. Nghiên cứu này không chỉ giúp cải thiện khả năng xử lý ngôn ngữ tự nhiên (NLP) mà còn hỗ trợ các nhà phát triển trong việc tối ưu hóa các hệ thống AI để hiểu và phân tích văn bản một cách hiệu quả hơn. Độc giả sẽ nhận được những hiểu biết sâu sắc về cách tiếp cận và phương pháp luận để xây dựng các mô hình đánh giá độ khó, từ đó áp dụng vào các dự án thực tế.

Để mở rộng kiến thức về các ứng dụng của học sâu trong xử lý ngôn ngữ tiếng Việt, bạn có thể tham khảo Luận văn thạc sĩ khoa học máy tính xây dựng hệ thống học sâu tự động thêm dấu cho tiếng Việt, nghiên cứu này tập trung vào việc tự động hóa quá trình thêm dấu cho văn bản tiếng Việt. Ngoài ra, Luận văn thạc sĩ khoa học máy tính ứng dụng học sâu vào xây dựng mô hình rút trích thông tin cung cấp cái nhìn chi tiết về cách học sâu được sử dụng để trích xuất thông tin từ văn bản. Cuối cùng, Luận văn thạc sĩ khoa học máy tính kết hợp học sâu và mô hình ngôn ngữ để nhận dạng giọng nói tiếng Việt là một tài liệu hữu ích để hiểu rõ hơn về việc áp dụng học sâu trong nhận dạng giọng nói.

#xử lý ngôn ngữ tự nhiên

#luận án tiến sĩ

#phân tích văn bản

#đánh giá độ khó văn bản

#tiếng Việt khoa học máy tính

#mô hình đánh giá văn bản

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

Khoa học máy tính

đánh giá văn bản

tiếng Việt học thuật