Luận án tiến sĩ: Nâng cao hiệu quả phân tích cú pháp tiếng Việt theo học máy thống kê

Luận án tiến sĩ nghiên cứu nghiên cứu cải thiện kết quả phân tích cú pháp tiếng việt theo tiếp cận học máy thống kê, phân tích chuyên sâu, xây dựng mô hình lý thuyết, đề xuất giải

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Cơ sở toán cho tin học

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

2020

193

Phí lưu trữ

45 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỞ ĐẦU

1. CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

1.1. Khái niệm cơ bản trong tiếng Việt

1.2. Cú pháp thành phần

1.2.1. Bài toán phân tích cú pháp thành phần

1.2.2. Phương pháp phân tích cú pháp thành phần

1.2.3. Khảo sát nghiên cứu cho phân tích cú pháp thành phần

1.3. Cú pháp phụ thuộc

1.3.1. Bài toán phân tích cú pháp phụ thuộc

1.3.2. Biểu diễn cú pháp phụ thuộc

1.3.3. Các thuật toán phân tích cú pháp phụ thuộc

1.3.4. Khảo sát nghiên cứu cho phân tích cú pháp phụ thuộc

1.4. Gán nhãn vai nghĩa

1.4.1. Bài toán gán nhãn vai nghĩa

1.4.2. Các công trình liên quan

1.4.3. Khảo sát nghiên cứu cho gán nhãn vai nghĩa

1.5. Biểu diễn phân bố từ

1.5.1. Mô hình Skip-gram

1.5.2. Mô hình túi từ liên tục

1.5.3. Mô hình GloVe

1.5.4. Biểu diễn từ dựa vào ngữ cảnh sâu

2. CHƯƠNG 2: XÂY DỰNG KHO NGỮ LIỆU GÁN NHÃN CÚ PHÁP PHỤ THUỘC VÀ VAI NGHĨA TIẾNG VIỆT

2.1. Kho ngữ liệu Treebank

2.2. Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc

2.2.1. Tập nhãn quan hệ phụ thuộc tiếng Việt

2.2.2. Xác định cụm từ trung tâm

2.2.3. Xác định nhãn phụ thuộc

2.2.4. Thuật toán chuyển từ câu cú pháp thành phần thành cú pháp phụ thuộc

2.3. Xây dựng kho ngữ liệu gán nhãn vai nghĩa tiếng Việt

2.3.1. Bộ nhãn vai nghĩa cho tiếng Việt

2.3.2. Tập luật gán nhãn nhãn vai nghĩa

2.3.3. Xây dựng trang web hiệu chỉnh nhãn vai nghĩa thô

2.3.4. Đánh giá kết quả

3. CHƯƠNG 3: NÂNG CAO HIỆU QUẢ PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT

3.1. Phân tích cú pháp thành phần

3.1.1. Một số văn phạm phổ biến

3.1.2. Phương pháp phân tích Shift-Reduce

3.1.3. Phương pháp self-attention

3.1.4. Đánh giá kết quả

3.1.5. Kết luận phân tích cú pháp thành phần

3.2. Phân tích cú pháp phụ thuộc tiếng Việt

3.2.1. Phân tích cú pháp phụ thuộc dựa trên bước chuyển

3.2.2. Phân tích cú pháp dựa trên đồ thị

3.2.3. Sử dụng BiLSTM trong phân tích cú pháp phụ thuộc

3.2.4. Đánh giá kết quả

3.2.5. Kết luận phân tích cú pháp phụ thuộc

4. CHƯƠNG 4: PHƯƠNG PHÁP QUY HOẠCH TUYẾN TÍNH NGUYÊN GÁN NHÃN VAI NGHĨA TIẾNG VIỆT

4.1. Mô tả thuật toán

4.1.1. Khảo sát một số phương pháp

4.1.2. Phương pháp đề xuất

4.2. Quy hoạch tuyến tính nguyên

4.3. Tập đặc trưng sử dụng

4.3.1. Đặc trưng cơ bản

4.3.2. Đặc trưng mới

4.4. Đánh giá kết quả

4.4.1. Phương pháp đánh giá

4.4.2. Hệ thống cơ bản

4.4.3. Chiến lược gán nhãn

4.4.4. Phân tích đặc trưng

4.4.5. Cải tiến dựa vào ILP

4.4.7. Sử dụng biểu diễn phân bố từ trong SRL

KẾT LUẬN

CÁC CÔNG TRÌNH CÔNG BỐ CỦA LUẬN ÁN

TÀI LIỆU THAM KHẢO

PHỤ LỤC

Tóm tắt

I. Cơ sở lý thuyết

Trong nghiên cứu về phân tích cú pháp tiếng Việt, việc hiểu rõ các khái niệm cơ bản là rất quan trọng. Cú pháp thành phần và cú pháp phụ thuộc là hai phương pháp chính được sử dụng để phân tích cấu trúc câu. Phân tích cú pháp thành phần tập trung vào việc xác định các thành phần cấu trúc của câu, trong khi phân tích cú pháp phụ thuộc chú trọng vào mối quan hệ giữa các từ trong câu. Việc áp dụng học máy vào phân tích cú pháp giúp cải thiện độ chính xác và hiệu quả của các mô hình phân tích. Các phương pháp như Shift-Reduce và self-attention đã được nghiên cứu và áp dụng để nâng cao hiệu quả phân tích cú pháp thành phần. Đặc biệt, việc sử dụng mô hình học sâu đã cho thấy tiềm năng lớn trong việc cải thiện kết quả phân tích cú pháp tiếng Việt.

1.1 Khái niệm cơ bản trong tiếng Việt

Khái niệm về cú pháp trong tiếng Việt bao gồm việc phân tích các thành phần như từ, cụm từ và cấu trúc câu. Phân tích cú pháp thành phần giúp xác định các thành phần cơ bản của câu, trong khi phân tích cú pháp phụ thuộc giúp hiểu rõ hơn về mối quan hệ giữa các từ. Việc áp dụng học máy vào phân tích cú pháp đã mở ra nhiều cơ hội mới cho việc phát triển các công cụ xử lý ngôn ngữ tự nhiên. Các nghiên cứu trước đây đã chỉ ra rằng việc sử dụng dữ liệu lớn và các thuật toán thống kê có thể cải thiện đáng kể độ chính xác của các mô hình phân tích cú pháp.

II. Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và vai nghĩa tiếng Việt

Việc xây dựng kho ngữ liệu gán nhãn là một bước quan trọng trong quá trình nâng cao hiệu quả phân tích cú pháp. Kho ngữ liệu này không chỉ cung cấp dữ liệu huấn luyện cho các mô hình học máy mà còn giúp đánh giá độ chính xác của các phương pháp phân tích. Treebank là một trong những kho ngữ liệu quan trọng, cung cấp thông tin về cấu trúc cú pháp và mối quan hệ giữa các từ trong câu. Việc xây dựng kho ngữ liệu gán nhãn vai nghĩa cũng rất cần thiết, vì nó giúp xác định vai trò của các từ trong ngữ cảnh câu. Các nghiên cứu đã chỉ ra rằng việc tích hợp thông tin từ kho ngữ liệu này vào các mô hình học máy có thể cải thiện đáng kể kết quả phân tích cú pháp và gán nhãn vai nghĩa.

2.1 Kho ngữ liệu Treebank

Kho ngữ liệu Treebank cung cấp một nền tảng vững chắc cho việc phân tích cú pháp tiếng Việt. Nó bao gồm các câu được gán nhãn với cấu trúc cú pháp rõ ràng, cho phép các nhà nghiên cứu và phát triển ứng dụng có thể dễ dàng truy cập và sử dụng. Việc xây dựng kho ngữ liệu này không chỉ giúp cải thiện độ chính xác của các mô hình phân tích cú pháp mà còn tạo điều kiện cho việc nghiên cứu sâu hơn về ngôn ngữ tiếng Việt. Các phương pháp như học sâu và thuật toán thống kê có thể được áp dụng để khai thác tối đa thông tin từ kho ngữ liệu này.

III. Nâng cao hiệu quả phân tích cú pháp tiếng Việt

Để nâng cao hiệu quả phân tích cú pháp tiếng Việt, việc áp dụng các phương pháp học máy là rất cần thiết. Các mô hình như BiLSTM và MSTParser đã được nghiên cứu và áp dụng để cải thiện độ chính xác của phân tích cú pháp phụ thuộc. Việc tích hợp các đặc trưng từ biểu diễn phân bố từ vào các mô hình này đã cho thấy kết quả khả quan. Hơn nữa, việc sử dụng quy hoạch tuyến tính nguyên trong gán nhãn vai nghĩa cũng đã mang lại những cải tiến đáng kể. Các nghiên cứu cho thấy rằng việc kết hợp nhiều phương pháp khác nhau có thể tạo ra một hệ thống phân tích cú pháp mạnh mẽ và hiệu quả hơn.

3.1 Phân tích cú pháp thành phần

Phân tích cú pháp thành phần là một trong những lĩnh vực nghiên cứu quan trọng trong xử lý ngôn ngữ tự nhiên. Việc áp dụng các phương pháp như Shift-Reduce và self-attention đã giúp cải thiện đáng kể độ chính xác của phân tích cú pháp thành phần. Các nghiên cứu đã chỉ ra rằng việc sử dụng học máy có thể giúp phát hiện và sửa chữa các lỗi trong phân tích cú pháp, từ đó nâng cao chất lượng của các ứng dụng xử lý ngôn ngữ tự nhiên. Hệ thống phân tích cú pháp thành phần hiện đại không chỉ cần phải chính xác mà còn phải nhanh chóng và hiệu quả trong việc xử lý các văn bản lớn.

25/01/2025

Bạn đang xem trước tài liệu:

Luận án tiến sĩ nghiên cứu nâng cao hiệu quả phân tích cú pháp tiếng việt theo tiếp cận học máy thống kê

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1 Cơ sở lý thuyết Chương này trình bày các kiến thức cơ sở sử dụng ở các phần sau trong luận án. Đầu tiên, mục 1 trình bày các khái niệm cơ sở trong tiếng Việt [1,2,10] như từ, từ loại, cụm từ,. Tiếp theo, mục 2, 3, 4 trình bày bài toán phân tích cú pháp thành phần, bài toán phân tích cú pháp phụ thuộc và bài toán gán nhãn vai nghĩa. Mục 5 trình bày các mô hình biểu diễn phân bố từ: skip-gram, túi từ liên tục, GloVe và biểu diễn từ dựa vào ngữ cảnh sâu.1 Khái niệm cơ bản trong tiếng Việt 1.1 Từ Ở phương diện ngữ pháp có thể định nghĩa từ là đơn vị nhỏ nhất có nghĩa và có thể hoạt động tự do trong câu.

Đơn vị cơ sở cấu tạo của từ tiếng Việt là tiếng. Tiếng có thể có nghĩa đủ rõ, có thể mang nghĩa mờ nhạt và có thể tự mình không có nghĩa [1]. Từ có nhiều cách phân loại khác nhau. Xét về số lượng tiếng có: • Từ chỉ chứa một tiếng: là từ đơn.

• Từ gồm nhiều tiếng, phần lớn là hai tiếng, gọi là từ phức. Ví dụ: nhà cửa, xanh lè, sạch sẽ. Xét về mặt số lượng từ tố tham gia cấu tạo từ, hiểu từ tố là yếu tố nhỏ nhất có nghĩa, ta có: • Từ chỉ có một từ tố, gọi là từ đơn tố. Ví dụ: nhà, đủng đỉnh.

• Từ chứa nhiều tố, gọi là từ đa tố. Ví dụ: nhà cửa, xe đạp, sạch sẽ. Xét ở mặt kết hợp âm thanh có tác dụng tạo nghĩa, trong tiếng Việt cần tách ra một lớp từ riêng là từ láy, như đủng đỉnh, sạch sẽ. Kết hợp cả ba mặt trên, có phân loại từ theo lược đồ trong hình 1.2 Từ loại Việc tập hợp và quy loại các từ thường dựa vào những quan niệm khác nhau về đặc trưng từ loại.

Các hệ thống từ loại tiếng Việt hiện có chưa đạt được sự 7 z Từ Từ đơn Từ phức (1 tiếng) (nhiều tiếng) Từ láy Từ ngẫu kết Từ ghép Từ đơn tố Từ đa tố Hình 1.1: Phân loại từ trong tiếng Việt. nhất trí hoàn toàn. Các tiêu chuẩn đặc trưng để phân loại thường dùng bao gồm: • Ý nghĩa khái quát. Ý nghĩa từ loại là ý nghĩa khái quát của từng lớp từ, trên cơ sở khái quát hóa từ vựng thành khái quát hóa phạm trù ngữ pháp chung.

Các từ loại đều phù hợp với định nghĩa của các phạm trù phân loại. Đó là những nhóm từ rất lớn về khối lượng mà mỗi nhóm có một đặc trưng phân loại: tính vật thể, phẩm chất, hành động hoặc trạng thái. • Khả năng kết hợp từ. Các từ có khả năng tham gia vào một kết hợp có nghĩa: ở mỗi vị trí của kết hợp có thể xuất hiện những từ có khả năng lần lượt thay thế nhau, trong khi đó, ở các vị trí khác trong sự kết hợp, các từ còn lại tạo ra bối cảnh cho sự xuất hiện khả năng thay thế của những từ nói trên.

Khả năng kết hợp của từ trong các ngôn ngữ thuộc loại hình đơn lập, là sự phân bố trật tự và việc sử dụng các từ phụ để biểu hiện các ý nghĩa ngữ pháp bên ngoài từ. • Chức năng cú pháp. Tham gia vào cấu tạo câu, các từ có thể đứng ở một vị trí hay một số vị trí nhất định trong câu, hoặc có thể thay thế nhau ở các vị trí đó, và cùng biểu thị một mối quan hệ về chức năng cú pháp với các thành phần khác trong cấu tạo câu, có thể phân vào một từ loại. Tuy nhiên phải xem xét chức năng cú pháp nào của từ là chủ yếu để làm căn cứ 8 z phân loại, vì một từ có thể giữ nhiều chức năng cú pháp khác nhau trong câu.

Dựa vào khái niệm từ loại, các nhà nghiên cứu tiếng Việt đã đưa ra tập nhãn từ loại được sử dụng trong kho ngữ liệu cú pháp thành phần viettreebank [72] như sau: về nguyên tắc, các thông tin về từ có thể được chứa trong nhãn từ loại bao gồm: từ loại cơ sở (danh từ, động từ, v.), thông tin hình thái (số ít, số nhiều, thì, ngôi, v.), thông tin về phân loại con (ví dụ động từ đi với danh từ, động từ đi với mệnh đề, v.), thông tin ngữ nghĩa, hay một số thông tin cú pháp khác. Với đặc điểm của tiếng Việt, tập nhãn từ loại chỉ chứa thông tin về từ loại cơ sở mà không bao gồm các thông tin như hình thái, phân loại con, v. Tiếng Việt có hệ thống từ loại theo bảng 1.1: Tập nhãn từ loại tiếng Việt. STT Tên Chú thích 1 N Danh từ 2 Np Danh từ riêng 3 Nc Danh từ chỉ loại 4 Nu Danh từ đơn vị 5 V Động từ 6 A Tính từ 7 P Đại từ 8 L Định từ 9 M Số từ 10 R Phụ từ 11 E Giới từ 12 C Liên từ 13 I Thán từ 14 T Trợ từ, tiểu từ, từ tình thái 15 U Từ đơn lẻ 16 Y Từ viết tắt 17 X Các từ không phân loại được 9 z 1.3 Cụm từ Cụm từ là những kiến trúc gồm hai từ trở lên kết hợp tự do với nhau theo những quan hệ ngữ pháp nhất định và không chứa kết từ ở đầu.

Cụm từ: “tôi đã nói với anh hôm qua”, “nghèo nhưng tốt bụng”. Cụm từ được gọi tên theo từ loại của thành tố chính trong cụm. Trong tiếng Việt, có thể gặp những loại cụm từ sau đây: • Cụm danh từ: mấy người này, hai người. • Cụm động từ: đã đọc rồi, vừa làm.

• Cụm tính từ: vẫn tốt hơn, tốt quá. • Cụm số từ: độ ba mươi, hơn ba mươi một chút. • Cụm đại từ: hai chúng tôi, tất cả chúng tôi đây. Mỗi loại cụm từ được chia thành ba bộ phận rõ rệt: • Phần phụ trước: là phần đứng trước thành tố chính.

• Phần trung tâm: là phần chứa thành tố chính. • Phần phụ sau: là phần đứng sau thành tố chính. Thành tố chính giữ vai trò quan trọng về ngữ pháp trong cụm từ, là đại diện cho toàn bộ cụm từ trong mối liên hệ giữa các yếu tố khác nằm ngoài cụm từ. Do đó, chức vụ cú pháp của toàn bộ cụm từ trong kiến trúc lớn hơn nó gắn bó mật thiết với chức vụ cú pháp của thành tố chính.

Thành tố chính trong cụm từ còn chi phối tất cả các thành tố trực tiếp phụ thuộc vào mình, nó quyết định chức vụ cú pháp của tất cả các thành tố phụ có liên quan. Nội dung ý nghĩa của thành tố chính quyết định khả năng gia nhập các kiến trúc lớn hơn của toàn bộ cụm từ. Tuy nhiên, phải nhờ có thành tố phụ thì mới có thể xác định được bản chất từ loại, tiểu loại và thậm chí là ý nghĩa của từ làm thành tố chính. Cách sử dụng của cụm từ hay các thành tố trong cụm từ bao giờ cũng gắn với những tình huống cụ thể.

Trong cụm danh từ “Tất cả những con mèo đen ấy” thì có “Tất cả những con” là phần phụ trước, “mèo” là phần trung tâm và “đen ấy” là phần phụ sau. Tóm lại, cụm từ là một thành phần quan trọng trong câu. Phân tích cụm từ là bước quá độ trong quá trình phân tích cú pháp của một câu. Hiểu được cấu tạo của cụm từ một cách rõ ràng thì bước phân tích cú pháp phụ thuộc sẽ 10 z chính xác hơn.

Trong kho ngữ liệu viettreebank [72], đã sử dụng tập nhãn cụm từ tiếng Việt chứa các nhãn mô tả các thành phần cú pháp cơ bản là cụm từ và mệnh đề. Nhãn thành phần cú pháp là thông tin cơ bản nhất trên cây cú pháp, nó tạo thành xương sống của cây cú pháp. Tập nhãn cụm từ của tiếng Việt theo bảng 1.2: Tập nhãn cụm từ tiếng Việt. STT Tên Chú thích 1 NP Cụm danh từ 2 VP Cụm động từ 3 AP Cụm tính từ 4 RP Cụm phụ từ 5 PP Cụm giới từ 6 QP Cụm từ chỉ số lượng 7 MDP Cụm từ tình thái 8 WHNP Cụm danh từ nghi vấn (ai, cái gì, con gì .) 9 WHAP Cụm tính từ nghi vấn (lạnh thế nào, đẹp ra sao .) 10 WHRP Cụm từ nghi vấn dùng khi hỏi về thời gian, nơi chốn.

11 WHPP Cụm giới từ nghi vấn (với ai, bằng cách nào .4 Câu Theo học phái ngữ pháp Alexandria [1]: Câu là sự tổng hợp của các từ biểu thị một tư tưởng trọn vẹn. Tuy nhiên về mặt nghiên cứu khoa học, định nghĩa về câu phải xét trên nhiều yếu tố sau: • Yếu tố hình thức. Câu có cấu tạo ngữ pháp bên trong và bên ngoài có tính chất tự lập và có một ngữ điệu kết thúc. • Yếu tố nội dung.

Câu có nội dung là một tư tưởng tương đối trọn vẹn và có thể đi kèm thái độ của người nói hay nội dung là thái độ, tình cảm của người nói. • Yếu tố chức năng. Câu có chức năng hình thành và biểu hiện, truyền đạt tư tưởng, tình cảm. Nó là đơn vị thông báo nhỏ nhất.

• Lĩnh vực nghiên cứu. Câu là đơn vị nghiên cứu của ngôn ngữ. 11 z Dựa vào các yếu tố trên có thể định nghĩa về câu như sau:Câu là đơn vị nghiên cứu ngôn ngữ có cấu tạo ngữ pháp (bên trong và bên ngoài) tự lập và có ngữ điệu kết thúc, mang một ý nghĩ tương đối trọng vẹn hay thái độ, sự đánh giá của người nói, hoặc có thể kèm theo thái độ, sự đánh giá của người nói, giúp hình thành và biểu hiện, truyền đạt tư tưởng, tình cảm. Câu đồng thời là đơn vị thông báo nhỏ nhất của ngôn ngữ.

Hiểu rõ hơn về câu, Diệp Quang Ban và Hoàng Văn Thung [1] xét đến chức năng cú pháp của các từ và tổ hợp từ trong câu. Mỗi từ, mỗi cụm từ, hay tổ hợp từ đều giữ một chức năng cú pháp nhất định, trừ những kết từ có tác dụng đánh dấu chức năng cú pháp của từ hay tổ hợp từ đi với chúng và những liên từ nối hai từ hoặc tổ hợp từ trong cùng một chức năng cú pháp. Có thể lược đồ hóa tổ chức của câu như trong bảng 1.3: Tổ chức câu trong tiếng Việt. Trạng ngữ Liên từ Đề ngữ Chủ ngữ / Vị ngữ Phụ ngữ câu Giải ngữ • Câu đơn: Là câu chỉ có một vế.

Cần phân biệt câu đơn với câu ghép và câu mở rộng thành phần. Câu đơn thường có một chủ ngữ, một vị ngữ và có thể có một hoặc nhiều trạng ngữ nhưng có một số trường hợp câu đơn không xác định được chủ ngữ, vị ngữ.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận án tiến sĩ mang tiêu đề "Nâng cao hiệu quả phân tích cú pháp tiếng Việt theo học máy thống kê" của tác giả Nguyễn Thị Lương, dưới sự hướng dẫn của TS. Lê Hồng Phương và PGS. Đỗ Trung Tuấn, được thực hiện tại Đại học Quốc gia Hà Nội vào năm 2020. Bài luận án tập trung vào việc cải thiện các phương pháp phân tích cú pháp cho tiếng Việt thông qua các kỹ thuật học máy thống kê, nhằm nâng cao độ chính xác và hiệu quả trong việc xử lý ngôn ngữ tự nhiên. Những kết quả từ nghiên cứu này không chỉ có giá trị trong lĩnh vực ngôn ngữ học mà còn mở ra nhiều ứng dụng thực tiễn trong công nghệ thông tin và trí tuệ nhân tạo.

Để mở rộng thêm kiến thức về các ứng dụng công nghệ thông tin trong giáo dục và nghiên cứu, bạn có thể tham khảo các tài liệu liên quan như "Năng lực ứng dụng công nghệ thông tin để dạy học lịch sử và địa lí trong đào tạo giáo viên tiểu học", nơi đề cập đến việc ứng dụng công nghệ thông tin trong giáo dục, hay "Nghiên cứu phát triển kỹ thuật hỗ trợ phát hiện đạo văn trong văn bản tiếng Việt", một nghiên cứu liên quan đến xử lý văn bản tiếng Việt. Cả hai tài liệu này đều chia sẻ các khía cạnh về công nghệ thông tin và ngôn ngữ, giúp bạn có cái nhìn sâu sắc hơn về lĩnh vực này.

#xử lý ngôn ngữ tự nhiên

#nghiên cứu tiến sĩ

#nâng cao hiệu quả

#mô hình ngôn ngữ

#thuật toán học máy

#ngôn ngữ tự nhiên

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

Nghiên cứu ngôn ngữ

Công nghệ học máy

Phát triển ứng dụng ngôn ngữ