Luận án tiến sĩ: Nâng cao hiệu quả phân tích cú pháp tiếng Việt qua học máy thống kê

Luận án tiến sĩ nghiên cứu toán học nghiên cứu cải thiện kết quả phân tích cú pháp tiếng việt theo tiếp cận học máy thống kê, phát triển phương pháp mới, đánh giá hiệu quả ứng

Trường đại học

Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ Thông tin

Người đăng

Ẩn danh

Thể loại

luận án

2020

190

Phí lưu trữ

45 Point

Mục lục chi tiết

LỜI CẢM ƠN

MỞ ĐẦU

1. CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

1.1. Khái niệm cơ bản trong tiếng Việt

1.2. Cú pháp thành phần

1.2.1. Bài toán phân tích cú pháp thành phần

1.2.2. Phương pháp phân tích cú pháp thành phần

1.2.3. Khảo sát nghiên cứu cho phân tích cú pháp thành phần

1.3. Cú pháp phụ thuộc

1.3.1. Bài toán phân tích cú pháp phụ thuộc

1.3.2. Biểu diễn cú pháp phụ thuộc

1.3.3. Các thuật toán phân tích cú pháp phụ thuộc

1.3.4. Khảo sát nghiên cứu cho phân tích cú pháp phụ thuộc

1.4. Gán nhãn vai nghĩa

1.4.1. Bài toán gán nhãn vai nghĩa

1.4.2. Các công trình liên quan

1.4.3. Khảo sát nghiên cứu cho gán nhãn vai nghĩa

1.5. Biểu diễn phân bố từ

1.5.1. Mô hình Skip-gram

1.5.2. Mô hình túi từ liên tục

1.5.3. Mô hình GloVe

1.5.4. Biểu diễn từ dựa vào ngữ cảnh sâu

2. CHƯƠNG 2: XÂY DỰNG KHO NGỮ LIỆU GÁN NHÃN CÚ PHÁP PHỤ THUỘC VÀ VAI NGHĨA TIẾNG VIỆT

2.1. Kho ngữ liệu Treebank

2.2. Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc

2.2.1. Tập nhãn quan hệ phụ thuộc tiếng Việt

2.2.2. Xác định cụm từ trung tâm

2.2.3. Xác định nhãn phụ thuộc

2.2.4. Thuật toán chuyển từ câu cú pháp thành phần thành cú pháp phụ thuộc

2.3. Xây dựng kho ngữ liệu gán nhãn vai nghĩa tiếng Việt

2.3.1. Bộ nhãn vai nghĩa cho tiếng Việt

2.3.2. Tập luật gán nhãn vai nghĩa

2.3.3. Xây dựng trang web hiệu chỉnh nhãn vai nghĩa thô

2.3.4. Đánh giá kết quả

3. CHƯƠNG 3: NÂNG CAO HIỆU QUẢ PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT

3.1. Phân tích cú pháp thành phần

3.1.1. Một số văn phạm phổ biến

3.1.2. Phương pháp phân tích Shift-Reduce

3.1.3. Phương pháp self-attention

3.1.4. Đánh giá kết quả

3.1.5. Kết luận phân tích cú pháp thành phần

3.2. Phân tích cú pháp phụ thuộc tiếng Việt

3.2.1. Phân tích cú pháp phụ thuộc dựa trên bước chuyển

3.2.2. Phân tích cú pháp dựa trên đồ thị

3.2.3. Sử dụng BiLSTM trong phân tích cú pháp phụ thuộc

3.2.4. Đánh giá kết quả

3.2.5. Kết luận phân tích cú pháp phụ thuộc

4. CHƯƠNG 4: PHƯƠNG PHÁP QUY HOẠCH TUYẾN TÍNH NGUYÊN GÁN NHÃN VAI NGHĨA TIẾNG VIỆT

4.1. Mô tả thuật toán

4.1.1. Khảo sát một số phương pháp

4.1.2. Phương pháp đề xuất

4.2. Quy hoạch tuyến tính nguyên

4.3. Tập đặc trưng sử dụng

4.3.1. Đặc trưng cơ bản

4.3.2. Đặc trưng mới

4.4. Đánh giá kết quả

4.4.1. Phương pháp đánh giá

4.4.2. Hệ thống cơ bản

4.4.3. Chiến lược gán nhãn

4.4.4. Phân tích đặc trưng

4.4.5. Cải tiến dựa vào ILP

4.4.6. Sử dụng biểu diễn phân bố từ trong SRL

KẾT LUẬN

CÁC CÔNG TRÌNH CÔNG BỐ CỦA LUẬN ÁN

TÀI LIỆU THAM KHẢO

PHỤ LỤC

Tóm tắt

I. Cơ sở lý thuyết

Phân tích cú pháp tiếng Việt là một lĩnh vực quan trọng trong xử lý ngôn ngữ tự nhiên. Phân tích cú pháp thành phần và phân tích cú pháp phụ thuộc là hai phương pháp chính được nghiên cứu. Mỗi phương pháp có những ưu điểm và hạn chế riêng. Học máy thống kê đã được áp dụng để nâng cao hiệu quả của các phương pháp này. Việc hiểu rõ các khái niệm cơ bản như cú pháp thành phần, cú pháp phụ thuộc, và gán nhãn vai nghĩa là rất cần thiết. Các mô hình như Skip-gram, CBOW, và GloVe được sử dụng để biểu diễn từ trong không gian ngữ nghĩa. Những mô hình này giúp cải thiện độ chính xác trong việc phân tích cú pháp và gán nhãn vai nghĩa.

1.1 Khái niệm cơ bản trong tiếng Việt

Trong tiếng Việt, cú pháp thành phần được sử dụng để xác định cấu trúc của câu. Phân tích cú pháp thành phần giúp nhận diện các thành phần như chủ ngữ, vị ngữ, và tân ngữ. Phân tích cú pháp phụ thuộc lại tập trung vào mối quan hệ giữa các từ trong câu. Việc áp dụng học máy thống kê vào phân tích cú pháp giúp cải thiện độ chính xác và hiệu quả. Các nghiên cứu trước đây cho thấy rằng việc sử dụng từ khóa LSI có thể nâng cao khả năng tìm kiếm và phân tích ngữ nghĩa trong văn bản.

II. Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và vai nghĩa tiếng Việt

Việc xây dựng kho ngữ liệu là một bước quan trọng trong nghiên cứu phân tích cú pháp. Kho ngữ liệu Treebank và kho ngữ liệu gán nhãn vai nghĩa là hai nguồn dữ liệu chính. Các bước xây dựng kho ngữ liệu bao gồm xác định cụm từ trung tâm, xác định nhãn phụ thuộc, và chuyển đổi từ câu cú pháp thành phần sang cú pháp phụ thuộc. Công cụ tìm kiếm và nâng cao hiệu quả SEO có thể được cải thiện thông qua việc sử dụng kho ngữ liệu này. Kết quả từ kho ngữ liệu sẽ được sử dụng để đánh giá độ chính xác của các mô hình phân tích cú pháp.

2.1 Kho ngữ liệu Treebank

Kho ngữ liệu Treebank cung cấp một nền tảng vững chắc cho việc phân tích cú pháp. Nó bao gồm các câu tiếng Việt được gán nhãn cú pháp thành phần và cú pháp phụ thuộc. Việc sử dụng công nghệ ngôn ngữ tự nhiên giúp cải thiện khả năng phân tích và gán nhãn vai nghĩa. Các nghiên cứu cho thấy rằng việc sử dụng từ khóa liên quan có thể nâng cao độ chính xác trong việc phân tích cú pháp. Kho ngữ liệu này cũng hỗ trợ việc phát triển các ứng dụng như dịch máy và trích xuất thông tin.

III. Nâng cao hiệu quả phân tích cú pháp tiếng Việt

Để nâng cao hiệu quả phân tích cú pháp tiếng Việt, cần áp dụng các phương pháp hiện đại như Shift-Reduce và self-attention. Các phương pháp này đã được chứng minh là hiệu quả trong việc cải thiện độ chính xác của phân tích cú pháp. Việc tích hợp biểu diễn phân bố từ vào các hệ thống phân tích cú pháp như MaltParser và MSTParser cũng là một giải pháp khả thi. Kết quả từ các thử nghiệm cho thấy rằng việc áp dụng học máy thống kê có thể mang lại những cải tiến đáng kể trong phân tích cú pháp và gán nhãn vai nghĩa.

3.1 Phân tích cú pháp thành phần

Phân tích cú pháp thành phần sử dụng các văn phạm phổ biến để xác định cấu trúc của câu. Các phương pháp như Shift-Reduce và self-attention đã được áp dụng để nâng cao hiệu quả phân tích. Kết quả cho thấy rằng việc sử dụng học máy có thể cải thiện độ chính xác trong việc phân tích cú pháp thành phần. Các nghiên cứu trước đây đã chỉ ra rằng việc áp dụng công nghệ ngôn ngữ tự nhiên có thể giúp nâng cao trải nghiệm người dùng trong các ứng dụng như dịch máy và tóm tắt văn bản.

01/03/2025

Bạn đang xem trước tài liệu:

Luận án tiến sĩ toán học nghiên cứu nâng cao hiệu quả phân tích cú pháp tiếng việt theo tiếp cận học máy thống kê

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1 Cơ sở lý thuyết Chương này trình bày các kiến thức cơ sở sử dụng ở các phần sau trong luận án. Đầu tiên, mục 1 trình bày các khái niệm cơ sở trong tiếng Việt [1,2,10] như từ, từ loại, cụm từ,. Tiếp theo, mục 2, 3, 4 trình bày bài toán phân tích cú pháp thành phần, bài toán phân tích cú pháp phụ thuộc và bài toán gán nhãn vai nghĩa. Mục 5 trình bày các mô hình biểu diễn phân bố từ: skip-gram, túi từ liên tục, GloVe và biểu diễn từ dựa vào ngữ cảnh sâu.1 Khái niệm cơ bản trong tiếng Việt 1.1 Từ Ở phương diện ngữ pháp có thể định nghĩa từ là đơn vị nhỏ nhất có nghĩa và có thể hoạt động tự do trong câu.

Đơn vị cơ sở cấu tạo của từ tiếng Việt là tiếng. Tiếng có thể có nghĩa đủ rõ, có thể mang nghĩa mờ nhạt và có thể tự mình không có nghĩa [1]. Từ có nhiều cách phân loại khác nhau. Xét về số lượng tiếng có: • Từ chỉ chứa một tiếng: là từ đơn.

• Từ gồm nhiều tiếng, phần lớn là hai tiếng, gọi là từ phức. Ví dụ: nhà cửa, xanh lè, sạch sẽ. Xét về mặt số lượng từ tố tham gia cấu tạo từ, hiểu từ tố là yếu tố nhỏ nhất có nghĩa, ta có: • Từ chỉ có một từ tố, gọi là từ đơn tố. Ví dụ: nhà, đủng đỉnh.

• Từ chứa nhiều tố, gọi là từ đa tố. Ví dụ: nhà cửa, xe đạp, sạch sẽ. Xét ở mặt kết hợp âm thanh có tác dụng tạo nghĩa, trong tiếng Việt cần tách ra một lớp từ riêng là từ láy, như đủng đỉnh, sạch sẽ. Kết hợp cả ba mặt trên, có phân loại từ theo lược đồ trong hình 1.2 Từ loại Việc tập hợp và quy loại các từ thường dựa vào những quan niệm khác nhau về đặc trưng từ loại.

Các hệ thống từ loại tiếng Việt hiện có chưa đạt được sự 7 Từ Từ đơn Từ phức (1 tiếng) (nhiều tiếng) Từ láy Từ ngẫu kết Từ ghép Từ đơn tố Từ đa tố Hình 1.1: Phân loại từ trong tiếng Việt. nhất trí hoàn toàn. Các tiêu chuẩn đặc trưng để phân loại thường dùng bao gồm: • Ý nghĩa khái quát. Ý nghĩa từ loại là ý nghĩa khái quát của từng lớp từ, trên cơ sở khái quát hóa từ vựng thành khái quát hóa phạm trù ngữ pháp chung.

Các từ loại đều phù hợp với định nghĩa của các phạm trù phân loại. Đó là những nhóm từ rất lớn về khối lượng mà mỗi nhóm có một đặc trưng phân loại: tính vật thể, phẩm chất, hành động hoặc trạng thái. • Khả năng kết hợp từ. Các từ có khả năng tham gia vào một kết hợp có nghĩa: ở mỗi vị trí của kết hợp có thể xuất hiện những từ có khả năng lần lượt thay thế nhau, trong khi đó, ở các vị trí khác trong sự kết hợp, các từ còn lại tạo ra bối cảnh cho sự xuất hiện khả năng thay thế của những từ nói trên.

Khả năng kết hợp của từ trong các ngôn ngữ thuộc loại hình đơn lập, là sự phân bố trật tự và việc sử dụng các từ phụ để biểu hiện các ý nghĩa ngữ pháp bên ngoài từ. • Chức năng cú pháp. Tham gia vào cấu tạo câu, các từ có thể đứng ở một vị trí hay một số vị trí nhất định trong câu, hoặc có thể thay thế nhau ở các vị trí đó, và cùng biểu thị một mối quan hệ về chức năng cú pháp với các thành phần khác trong cấu tạo câu, có thể phân vào một từ loại. Tuy nhiên phải xem xét chức năng cú pháp nào của từ là chủ yếu để làm căn cứ 8 phân loại, vì một từ có thể giữ nhiều chức năng cú pháp khác nhau trong câu.

Dựa vào khái niệm từ loại, các nhà nghiên cứu tiếng Việt đã đưa ra tập nhãn từ loại được sử dụng trong kho ngữ liệu cú pháp thành phần viettreebank [72] như sau: về nguyên tắc, các thông tin về từ có thể được chứa trong nhãn từ loại bao gồm: từ loại cơ sở (danh từ, động từ, v.), thông tin hình thái (số ít, số nhiều, thì, ngôi, v.), thông tin về phân loại con (ví dụ động từ đi với danh từ, động từ đi với mệnh đề, v.), thông tin ngữ nghĩa, hay một số thông tin cú pháp khác. Với đặc điểm của tiếng Việt, tập nhãn từ loại chỉ chứa thông tin về từ loại cơ sở mà không bao gồm các thông tin như hình thái, phân loại con, v. Tiếng Việt có hệ thống từ loại theo bảng 1.1: Tập nhãn từ loại tiếng Việt. STT Tên Chú thích 1 N Danh từ 2 Np Danh từ riêng 3 Nc Danh từ chỉ loại 4 Nu Danh từ đơn vị 5 V Động từ 6 A Tính từ 7 P Đại từ 8 L Định từ 9 M Số từ 10 R Phụ từ 11 E Giới từ 12 C Liên từ 13 I Thán từ 14 T Trợ từ, tiểu từ, từ tình thái 15 U Từ đơn lẻ 16 Y Từ viết tắt 17 X Các từ không phân loại được 9 1.3 Cụm từ Cụm từ là những kiến trúc gồm hai từ trở lên kết hợp tự do với nhau theo những quan hệ ngữ pháp nhất định và không chứa kết từ ở đầu.

Cụm từ: “tôi đã nói với anh hôm qua”, “nghèo nhưng tốt bụng”. Cụm từ được gọi tên theo từ loại của thành tố chính trong cụm. Trong tiếng Việt, có thể gặp những loại cụm từ sau đây: • Cụm danh từ: mấy người này, hai người. • Cụm động từ: đã đọc rồi, vừa làm.

• Cụm tính từ: vẫn tốt hơn, tốt quá. • Cụm số từ: độ ba mươi, hơn ba mươi một chút. • Cụm đại từ: hai chúng tôi, tất cả chúng tôi đây. Mỗi loại cụm từ được chia thành ba bộ phận rõ rệt: • Phần phụ trước: là phần đứng trước thành tố chính.

• Phần trung tâm: là phần chứa thành tố chính. • Phần phụ sau: là phần đứng sau thành tố chính. Thành tố chính giữ vai trò quan trọng về ngữ pháp trong cụm từ, là đại diện cho toàn bộ cụm từ trong mối liên hệ giữa các yếu tố khác nằm ngoài cụm từ. Do đó, chức vụ cú pháp của toàn bộ cụm từ trong kiến trúc lớn hơn nó gắn bó mật thiết với chức vụ cú pháp của thành tố chính.

Thành tố chính trong cụm từ còn chi phối tất cả các thành tố trực tiếp phụ thuộc vào mình, nó quyết định chức vụ cú pháp của tất cả các thành tố phụ có liên quan. Nội dung ý nghĩa của thành tố chính quyết định khả năng gia nhập các kiến trúc lớn hơn của toàn bộ cụm từ. Tuy nhiên, phải nhờ có thành tố phụ thì mới có thể xác định được bản chất từ loại, tiểu loại và thậm chí là ý nghĩa của từ làm thành tố chính. Cách sử dụng của cụm từ hay các thành tố trong cụm từ bao giờ cũng gắn với những tình huống cụ thể.

Trong cụm danh từ “Tất cả những con mèo đen ấy” thì có “Tất cả những con” là phần phụ trước, “mèo” là phần trung tâm và “đen ấy” là phần phụ sau. Tóm lại, cụm từ là một thành phần quan trọng trong câu. Phân tích cụm từ là bước quá độ trong quá trình phân tích cú pháp của một câu. Hiểu được cấu tạo của cụm từ một cách rõ ràng thì bước phân tích cú pháp phụ thuộc sẽ 10 chính xác hơn.

Trong kho ngữ liệu viettreebank [72], đã sử dụng tập nhãn cụm từ tiếng Việt chứa các nhãn mô tả các thành phần cú pháp cơ bản là cụm từ và mệnh đề. Nhãn thành phần cú pháp là thông tin cơ bản nhất trên cây cú pháp, nó tạo thành xương sống của cây cú pháp. Tập nhãn cụm từ của tiếng Việt theo bảng 1.2: Tập nhãn cụm từ tiếng Việt. STT Tên Chú thích 1 NP Cụm danh từ 2 VP Cụm động từ 3 AP Cụm tính từ 4 RP Cụm phụ từ 5 PP Cụm giới từ 6 QP Cụm từ chỉ số lượng 7 MDP Cụm từ tình thái 8 WHNP Cụm danh từ nghi vấn (ai, cái gì, con gì .) 9 WHAP Cụm tính từ nghi vấn (lạnh thế nào, đẹp ra sao .) 10 WHRP Cụm từ nghi vấn dùng khi hỏi về thời gian, nơi chốn.

11 WHPP Cụm giới từ nghi vấn (với ai, bằng cách nào .4 Câu Theo học phái ngữ pháp Alexandria [1]: Câu là sự tổng hợp của các từ biểu thị một tư tưởng trọn vẹn. Tuy nhiên về mặt nghiên cứu khoa học, định nghĩa về câu phải xét trên nhiều yếu tố sau: • Yếu tố hình thức. Câu có cấu tạo ngữ pháp bên trong và bên ngoài có tính chất tự lập và có một ngữ điệu kết thúc. • Yếu tố nội dung.

Câu có nội dung là một tư tưởng tương đối trọn vẹn và có thể đi kèm thái độ của người nói hay nội dung là thái độ, tình cảm của người nói. • Yếu tố chức năng. Câu có chức năng hình thành và biểu hiện, truyền đạt tư tưởng, tình cảm. Nó là đơn vị thông báo nhỏ nhất.

• Lĩnh vực nghiên cứu. Câu là đơn vị nghiên cứu của ngôn ngữ. 11 Dựa vào các yếu tố trên có thể định nghĩa về câu như sau:Câu là đơn vị nghiên cứu ngôn ngữ có cấu tạo ngữ pháp (bên trong và bên ngoài) tự lập và có ngữ điệu kết thúc, mang một ý nghĩ tương đối trọng vẹn hay thái độ, sự đánh giá của người nói, hoặc có thể kèm theo thái độ, sự đánh giá của người nói, giúp hình thành và biểu hiện, truyền đạt tư tưởng, tình cảm. Câu đồng thời là đơn vị thông báo nhỏ nhất của ngôn ngữ.

Hiểu rõ hơn về câu, Diệp Quang Ban và Hoàng Văn Thung [1] xét đến chức năng cú pháp của các từ và tổ hợp từ trong câu. Mỗi từ, mỗi cụm từ, hay tổ hợp từ đều giữ một chức năng cú pháp nhất định, trừ những kết từ có tác dụng đánh dấu chức năng cú pháp của từ hay tổ hợp từ đi với chúng và những liên từ nối hai từ hoặc tổ hợp từ trong cùng một chức năng cú pháp. Có thể lược đồ hóa tổ chức của câu như trong bảng 1.3: Tổ chức câu trong tiếng Việt. Trạng ngữ Liên từ Đề ngữ Chủ ngữ / Vị ngữ Phụ ngữ câu Giải ngữ • Câu đơn: Là câu chỉ có một vế.

Cần phân biệt câu đơn với câu ghép và câu mở rộng thành phần. Câu đơn thường có một chủ ngữ, một vị ngữ và có thể có một hoặc nhiều trạng ngữ nhưng có một số trường hợp câu đơn không xác định được chủ ngữ, vị ngữ. Đó là trường hợp câu đặc biệt.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nâng cao hiệu quả phân tích cú pháp tiếng Việt bằng học máy thống kê" tập trung vào việc ứng dụng các phương pháp học máy thống kê để cải thiện độ chính xác và hiệu quả trong phân tích cú pháp tiếng Việt. Nó cung cấp cái nhìn sâu sắc về cách các mô hình thống kê có thể xử lý các đặc thù ngữ pháp phức tạp của tiếng Việt, từ đó hỗ trợ các ứng dụng trong xử lý ngôn ngữ tự nhiên (NLP). Độc giả sẽ hiểu rõ hơn về các kỹ thuật tiên tiến và lợi ích của chúng trong việc phân tích ngôn ngữ, đặc biệt là trong bối cảnh tiếng Việt.

Để mở rộng kiến thức về các khía cạnh liên quan, bạn có thể tham khảo Luận văn thạc sĩ ngôn ngữ học về tham tố đứng sau vị từ trạng thái tiếng Việt xét từ phương diện cú pháp và ngữ nghĩa, nghiên cứu sâu về cấu trúc cú pháp và ngữ nghĩa trong tiếng Việt. Ngoài ra, Luận án tiến sĩ công nghệ thông tin nghiên cứu một số kỹ thuật thích ứng miền trong dịch máy thống kê Anh-Việt cung cấp thêm góc nhìn về ứng dụng học máy trong dịch thuật, một lĩnh vực liên quan chặt chẽ. Cuối cùng, Luận văn thạc sĩ ngôn ngữ học hành động nhờ trong tiếng Việt khám phá các hành động ngôn ngữ, một chủ đề bổ sung cho hiểu biết về cú pháp và ngữ nghĩa.

#xử lý ngôn ngữ tự nhiên

#luận án tiến sĩ

#mô hình học máy

#phương pháp thống kê

#phân tích cú pháp tiếng Việt

#học máy thống kê

Chủ đề

Nghiên cứu ngôn ngữ học

Xử Lý Ngôn Ngữ Tự Nhiên

Phân tích cú pháp

học máy ứng dụng