Phân Tích Cú Pháp Phụ Thuộc Trong Xử Lý Ngôn Ngữ Tự Nhiên

Khóa luận trình bày mô hình phân tích cú pháp phụ thuộc cho tiếng Việt, góp phần nâng cao khả năng xử lý ngôn ngữ tự nhiên trong khoa học máy tính.

Trường đại học

Đại học Quốc gia Thành phố Hồ Chí Minh

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

khóa luận

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CÁM ƠN

1. GIỚI THIỆU

1.1. Giới thiệu bài

1.2. Tình hình nghị

1.3. Lý do chọn đề tài

1.4. Phạm vi nghiên cứu

1.5. Đối tượng nghiên cứu

1.6. Bố cục luận văn

2. TỔNG QUAN VỀ MẠNG NƠRON

2.1. Giới thiệu Perceptron

2.2. Các hàm kích hoạt thông dụng

2.3. Multi-layer Perceptron

2.4. Các thành phần của mạng nơron nhân tạo

2.5. Mạng Noron hồi quy

2.6. Các khái niệm của mạng RNN

2.7. Cấu trúc của mạng RNN

2.8. Huấn luyện mạng nơron

2.9. Kiến trúc Transformer

2.10. Các thành phần của kiến trúc Transformer

2.11. Ứng dụng Transformer trong mô hình ngôn ngữ

3. PHÂN TÍCH CÚ PHÁP PHỤ THUỘC

3.1. Phương pháp phân tích cú pháp phụ thuộc dựa trên đồ thị (graph-based)

3.2. Hướng tiếp cận Naïve

3.3. Hướng tiếp cận của Nivre

3.4. Thuật toán Eisner

3.5. Thuật toán Chu-Liu Edmons

3.6. Phương pháp đánh giá mô hình phân tích cú pháp phụ thuộc

4. MÔ HÌNH ĐỀ XUẤT

4.1. Mô hình Biaffine

4.2. Phương pháp Probing

4.3. Thực nghiệm

5. THỰC NGHIỆM

5.1. Dữ liệu huấn luyện

5.2. Các thực nghiệm tham số mô hình

5.3. Thực hiện, đánh giá và phân tích kết quả

5.3.1. Đánh giá mô hình ở mức Head

5.3.2. Đánh giá mô hình ở mức Layer

5.3.3. Đánh giá mô hình áp dụng pre-trained đa ngôn ngữ

6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về phân tích cú pháp phụ thuộc trong NLP

Phân tích cú pháp phụ thuộc là một lĩnh vực quan trọng trong xử lý ngôn ngữ tự nhiên (NLP). Nó giúp xác định các quan hệ ngữ pháp giữa các từ trong câu, từ đó nắm bắt được thông tin quan trọng và không quan trọng. Việc nghiên cứu về cú pháp phụ thuộc không chỉ giúp cải thiện độ chính xác của các tác vụ như tóm tắt văn bản hay dịch máy mà còn mở ra nhiều hướng nghiên cứu mới trong NLP.

1.1. Tầm quan trọng của cú pháp phụ thuộc trong NLP

Cú pháp phụ thuộc giúp cải thiện độ chính xác của các mô hình NLP. Các ứng dụng như hệ thống hỏi-đáp và tóm tắt văn bản đều có thể hưởng lợi từ việc phân tích cú pháp chính xác. Nghiên cứu cho thấy rằng việc áp dụng cú pháp phụ thuộc có thể nâng cao hiệu suất của các mô hình hiện tại.

1.2. Các khái niệm cơ bản về cú pháp phụ thuộc

Cú pháp phụ thuộc liên quan đến việc xác định các quan hệ giữa các từ trong câu. Mỗi từ có thể phụ thuộc vào một từ khác, tạo thành một cấu trúc cây. Điều này giúp nắm bắt được ngữ nghĩa và cấu trúc của câu một cách rõ ràng hơn.

II. Thách thức trong phân tích cú pháp phụ thuộc

Mặc dù phân tích cú pháp phụ thuộc có nhiều ứng dụng, nhưng vẫn tồn tại nhiều thách thức. Các mô hình hiện tại thường gặp khó khăn trong việc xử lý các cấu trúc ngữ pháp phức tạp, đặc biệt là trong ngữ cảnh đa ngôn ngữ. Việc thiếu hụt dữ liệu gán nhãn chất lượng cao cũng là một vấn đề lớn.

2.1. Vấn đề về dữ liệu gán nhãn

Sự thiếu hụt dữ liệu gán nhãn chất lượng cao ảnh hưởng đến độ chính xác của các mô hình phân tích cú pháp. Các bộ dữ liệu hiện có thường không đủ đa dạng và phong phú để phản ánh đầy đủ các cấu trúc ngữ pháp của tiếng Việt.

2.2. Khó khăn trong việc xử lý ngữ nghĩa

Việc xác định ngữ nghĩa trong các câu phức tạp là một thách thức lớn. Các mô hình hiện tại thường không thể nắm bắt được các mối quan hệ ngữ nghĩa phức tạp giữa các từ, dẫn đến kết quả không chính xác.

III. Phương pháp phân tích cú pháp phụ thuộc hiệu quả

Để cải thiện độ chính xác trong phân tích cú pháp phụ thuộc, nhiều phương pháp mới đã được phát triển. Các mô hình như Biaffine Parser kết hợp với kỹ thuật probing đã cho thấy hiệu quả cao trong việc rút trích thông tin ngữ pháp từ các lớp huấn luyện của BERT.

3.1. Mô hình Biaffine trong phân tích cú pháp

Mô hình Biaffine sử dụng cơ chế Attention để cải thiện độ chính xác trong việc xác định các quan hệ phụ thuộc. Nghiên cứu cho thấy mô hình này có thể đạt được độ chính xác cao hơn so với các mô hình truyền thống.

3.2. Kỹ thuật probing trong phân tích cú pháp

Kỹ thuật probing giúp rút trích các đặc trưng ngữ pháp từ các lớp của mô hình BERT. Điều này cho phép cải thiện đáng kể độ chính xác của các mô hình phân tích cú pháp phụ thuộc.

IV. Ứng dụng thực tiễn của phân tích cú pháp phụ thuộc

Phân tích cú pháp phụ thuộc có nhiều ứng dụng thực tiễn trong các hệ thống NLP hiện đại. Từ việc cải thiện độ chính xác của các mô hình dịch máy đến việc tối ưu hóa các hệ thống hỏi-đáp, cú pháp phụ thuộc đóng vai trò quan trọng trong việc nâng cao hiệu suất của các ứng dụng này.

4.1. Ứng dụng trong dịch máy

Phân tích cú pháp phụ thuộc giúp cải thiện chất lượng dịch máy bằng cách xác định các quan hệ ngữ pháp giữa các từ. Điều này giúp tạo ra các bản dịch tự nhiên và chính xác hơn.

4.2. Ứng dụng trong hệ thống hỏi đáp

Trong các hệ thống hỏi-đáp, việc phân tích cú pháp phụ thuộc giúp xác định các thông tin quan trọng trong câu hỏi và câu trả lời, từ đó nâng cao khả năng tìm kiếm và trả lời chính xác.

V. Kết luận và hướng phát triển tương lai

Phân tích cú pháp phụ thuộc là một lĩnh vực đang phát triển mạnh mẽ trong NLP. Với sự tiến bộ của các mô hình học sâu và các kỹ thuật mới, tương lai của cú pháp phụ thuộc hứa hẹn sẽ mang lại nhiều cải tiến đáng kể trong các ứng dụng thực tiễn.

5.1. Hướng phát triển mô hình mới

Nghiên cứu và phát triển các mô hình mới có khả năng xử lý tốt hơn các cấu trúc ngữ pháp phức tạp sẽ là một trong những hướng đi quan trọng trong tương lai.

5.2. Tích hợp công nghệ mới vào phân tích cú pháp

Việc tích hợp các công nghệ mới như học sâu và mạng nơron vào phân tích cú pháp phụ thuộc sẽ giúp nâng cao hiệu suất và độ chính xác của các mô hình hiện tại.

10/07/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp khoa học máy tính xây dựng mô hình phân tích cú pháp phụ thuộc cho tiếng việt

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1 GIỚI THIỆU 11 Giới thie Phân tích cú pháp pi ội ốc về ngữ pháp giữa các từ trong còn lại đóng vai trò Tã uộc - dependent) được liên kết trực tiếp với nhau. Nhờ đó ưu điểm của cú pháp phụ thuộc là nó có thé thu thập được thông tin một cách trực quan hơn, đặc biệt là trong ngữ cảnh đa ngôn ngữ so với các loại cầu trúc ngữ pháp khác chẳng hạn như cú pháp thành tố. Kết quả của phan tích cú pháp phụ thuộc có thể cải thiện độ chính xác của các tác vụ có tính ứng dụng cao trong NLP hiện nay như tóm tắt văn bản [20], hệ thong héi-dap (29; 64], địch máy [1; 32]. Org-AF) under Chi tịch [Microsoft] ong [Bill Gates] ppp sinh [ngày 28 tháng 10 năm 1955] py, Hình 1.1: Ứng dung của bai toán phân tích cú pháp phụ thuộc vào trong hệ thống rút trích thông tin.

Khóa luận xây dựng một mô hình phân tích cú pháp phụ thuộc cho tiếng Việt dựa trên mô Tình hình nghiên cứu hình phân tích biaffine sử dung mô hình pre-trained (tiền huấn luyện) PhoBERT embedding, kết hợp với kỹ thuật "probing"hậu xử lý [25] có khả năng rút trích được thong tin ngữ pháp từ các lớp huấn luyện của BERT. Ở thời điểm thực hiện khóa luận, đây là công trình đầu tiên trong việc tìm hiểu và áp dụng kỹ thuật “probing” mới này lên tiếng Việt. Chúng tôi hy vọng công trình này có thể đóng góp một phần vào sự phát triển của NLP trên ngôn ngữ dân tộc ta.2 Tình hình nghiên cứu 1.1 Tinh hình nghiên cứu trên các ngôn ngữ khác tiếng Việt So với thế kỷ 20 khi mà cú pháp thành tố còn được cộng đồng nghiên cứu ngôn ngữ ưa chuộng, cú pháp phụ thuộ ‘hi vừa bắt đầu được chú ý và dành được nhiều sự quan tâm kể từ vài thập kỷ trở lại đây. Nghiên cứu về cú pháp phụ thuộc là cơ sởseho nhiều bài toán ứng dụng thực tiễn khác nhờ vào tính đơn ngữ pháp và ngữ nghĩa trên nhiều ngôn ngữ của nó [5# nghiên cứu về phân tích cú pháp phụ thuộc có thể Ke e Shared task COD i | la, phap phyAhudc làm chủ đề.

Các đội tham gia sẽ huấn | mo ộ dit TERUG: 19 ngdn ngữ đã được chuẩn bị sẵn. e Shared task ngữ nghĩa với ngữ pháp phụ thuộc. bộ cuộc thi ia thà Bế Con: phân tích cú pháp phụ thuộc, xác định khử nhập nhằng cat semantic predicate), xác định các đối số (argument) và gan vai trò ngữ nghĩa cho mỗi vị từ. © Shared task SANCL 2012 tổ chức bởi Google [53] yêu cầu các đội xây dựng một hệ thống.

phân tích cú pháp với miền dữ liệu được mở rộng và có thể xử lý các đoạn văn bản bị nhiễu thường gặp trên web dựa trên bộ dữ liệu Google Web Treebank được cung cấp. Tại shared task CONLL 2006, hai hệ thống phân tích cú pháp được cho là mạnh mẽ nhất là MSTParser [39] và MaltParser [51] đạt thứ hạng cao nhất tại cuộc thi, đã mở ra xu hướng phân tích cú pháp theo hướng dữ liệu. Trong phương pháp phân tích hướng dữ liệu (data-driven), độ hiệu quả của mô hình học dựa một phần trên thuật toán đề xuất và dựa phần lớn vào chất lượng bộ dữ liệu, dữ liệu càng tốt sẽ được phản ánh qua chất lượng của mô hình. Mô hình dang này có uu điểm là nhanh hơn so với các hệ thống sử dụng luật để liên kết.

Kể từ thời điểm 2013, các hệ thông phân tích cú pháp phụ thuộc ứng dung mạng nơron ra đời, Tinh hình nghiên cứu trên tiếng Việt từ đó đưa nghiên cứu cú pháp phụ thuộc tiền lên thêm một bước phát triển mới. Đặc biệt vào năm 2017, cộng đồng nghiên cứu NLP nói chung và phân tích cú pháp phụ thuộc nói riêng tiến lên những bước đột phá kể từ sự ra đời của mô hình Transformer [62]. Ý tưởng cốt lõi của Transformer nằm ở cơ chế Attention, giúp nó biểu diễn mỗi quan hệ giữa các đơn vị thông tin với nhau đồng thời cung cấp khả năng thực hiện tính toán song song, vượt qua hạn chế của các mô hình trước đó có nền tảng dựa trên RNN (Recurrent Neural Network) [40] hay CRF (Conditional Random Fields) [34]. Hiện nay cơ chế Attention vẫn còn đang được cộng đồng nghiên cứu quan tâm và ứng dụng, và vẫn cho thấy sự ưu việt so với các phương pháp khác tính đến thời điểm hiện tại.

Các công trình nghiên cứu nổi bật thuộc lĩnh vực phân tích cú pháp phụ thuộc sử dụng mạng nơron có thể kể đến như: e Công trình "Deep Biaffine Attention for Neural Dependency Parsing"(Dozat và Manning, 2017) [15]: Công trình giới thiệu phương pháp sử dụng cơ chế biafine mà có thể kết hợp cơ chế Attention vào trong xử lý quan hệ hai ngôi và tỏ ra hiệu quả trong phân tích cú pháp phụ thuộc. Mô hìn) và LAS 94.08 % trên bộ dữ liệu. tiếng Anh PTB (Pq 69.23 % trên bộ dữ liệu e Công trình "Seltu@@fffv. bing et al., 2019) [35]: Cong trinh này lần đầu tiêu 5 ` cú pháp phụ thuộc, cụ thể là thay thế các ã hó ention.

Mô hình đạt độ chính xác UAS 96.57 % và “Anh PTB (Penn Treebank) và đạt UAS 92.01 % va mg Trung CTB (Chinese Treebank). © Công trình "ASS © for finding syntax in word representations" (Hewitt và Manning, 2019) [25]: Trong công trình này, tác giả đã đánh giá khả năng lưu giữ thông tin ngữ pháp trong biểu diễn từ của các mô hình ngôn ngữ được tiền huấn luyện như BERT và ELMo bằng phương pháp "probe". Kết quả của các thứ nghiệm cho thấy rằng các mô hình ngôn ngữ được tiền huấn luyện có khả năng ghi nhận thông tin cú pháp, nhưng chất lượng của thông tin cú pháp thì khác nhau giữa các mô hình.2 Tình hình nghiên cứu trên tiếng Việt Ở Việt Nam, phân tích cú pháp phụ thuộc là một chủ đề đang được chú ý trong cộng đồng NLP. Dã có một số công trình xây dựng mô hình phân tích cú pháp phụ thuộc cho tiếng Việt, bao gồm nghiên cứu về việc áp dụng các mô hình hiện có cho tiếng Việt và phát triển các md hình mới đặc thù cho các đặc điểm tiếng Việt.

Nhận xét Tuy nhiên, sự phát triển của phân tích cú pháp phụ thuộc cho tiếng Việt đã bị hạn chế bởi số lượng các tập dữ liệu gán nhãn được nghiên cứu và đảm bảo chất lượng; cũng như do đặc điểm riêng biệt của tiếng Việt, như hệ thống từ vựng có hình thái học phức tạp và ảnh hưởng do lịch sử văn hóa của tiếng Trung tạo ra các từ hán việt. Theo Kiet và Ngan [61] nhận định thì kết qua của các mô hình phân tích cú pháp phụ thuộc cho tiếng Việt vẫn còn thấp, cụ thể là thấp hơn 80%. Có nhiều nguyên nhân dẫn đến vấn đề này như các mô hình phân tích cú pháp phụ thuộc không phù hợp với các đặc điểm ngôn ngữ tiếng Việt, ngoài ra, bộ ngữ liệu cũng là một khía cạnh khác mà ta cần xem xét như khi [61] phân tích bộ ngữ liệu VnDT [13] thì việc xuất hiện nhiều câu dài chứa cấu trúc phức tạp cũng, gây ra độ chính xác thấp. Ngoài ra, sự không nhất quán của bộ ngữ liệu cú pháp phụ thuộc VietTreebank được trình bày trong công trình của Quy [46] cũng ảnh hưởng ít nhiều đến kết quả.

© VnCoreNLP (Vu và cộng s ột ci lý ngôn ngữ tự nhiên mã nguồn mở cho tiếng Việt, nó Ộ de lụng va hiệu suất cao cho các tác vụ của bài toái tích cú phap phụ thuộc, VnCoreNLP sử dụng phương, í én bộ (Vietnayhese Dependency Treebank), đạt độ chính xác « Nhóm Dat vớiế Trị TAYE 0c Í neufal network model for joint POS tagging am Ringe hình kết hợp tác vụ gén nhãn (POS tagging) với ít p Dhieth At gidi nhất với kết quả khá khả quan UAS 80.3 Nhận xét Mặc dù đóng vai trò quan trọng trong các hệ thống NLP, kết quả nghiên cứu phân tích cú pháp. phụ thuộc trên tiếng Việt vẫn còn nhiều hạn chế so với trên các ngôn ngữ phổ biến khác. Kết quả cao nhất trên tiếng Việt được báo cáo là 80.80% LAS, còn trên tiếng Anh là 97. Tinh đến thời điểm hiện tại, công trình mới nhất của Dat và cộng sự sử dụng PhoBERT [42], một mô hình pre-trained cho ngữ liệu tiếng Việt lấy ý tưởng từ mô hình BERT, cho lớp embedding mã hóa ngữ đầu vào kết hợp với mô hình sử dụng Biaffine Attention[15] cho ra độ chính xác cao nhất tại cuộc thi VLSP 2019 shared task[36] về phân tích cú pháp phụ thuộc.

Tuy nhiên, chúng tôi nhận thấy mô hình đề xuất của Dat chỉ mới sử dụng PhoBERT cho lớp embedding, tức là chỉ sử dụng lớp trên cùng trong kiến trúc BERT, mà theo nghiên cứu của Hewitt hay 4 Lý do chọn đề tài Jawahar [25; 28] cho rằng chưa phải là lớp chứa nhiều thông tin về đặc trưng ngôn ngữ nhất. Từ đó chúng tôi quyết định tìm cách cải tiến độ chính xác của mô hình trên sử dụng phương pháp “Probe”[25] có khả năng rút trích đặc trưng ngôn ngữ. Thử nghiệm được tiến hành và phân tích kết quả để tìm hiểu những ảnh hưởng của mô hình này đối với bài toán phân tích cú pháp phụ thuộc tiếng Việt.3 Lý do chọn đề tài Cú pháp phụ thuộc giúp cải thiện chất lượng của các mô hình xử lý bài toán thuộc các ứng dung NLP. Yu va cộng sự (2020)[73] ứng dụng phân tích cú pháp phụ thuộc vào bài toán nhận.

dạng thực thể, kết quả được đánh giá trên § bộ ngữ liệu của những ngôn ngữ khác nhau và đều đạt kết quả tiên tiến nhất tại thời điểm thực hiện công trình; Yin và cộng sự (2022)[72] ứng dụng phan tích cú pháp phụ thuộc để tăng cường thông tin ngữ pháp đầu vào cho bài toán. ô hình cơ sở; Wu và cộng sự (2018)|70] xây dựng một kuếấ “ng, hoc SÀ dụng thôn tin quan hệ phụ thuộc giữa. các từ trong câu dé sinh On ngữ dich trong dih máy, hay Việt và cộng sự (2017)65] 3Ã toán dịch máy tiếng Anh - inh rút trích thông tin[21].1 Phạm vi nghiền cứu e Cú pháp phụ thuộc của Tiếng Việt. © Việc xây dựng mô hình cú pháp phụ thuộc.2 Đối tượng nghiên cứu e Các hệ thống phân tích cú pháp phụ thuộc,.

e Các mô hình SOTA trên các ngôn ngữ lớn, đặc biệt là tiếng Trung có đặc điểm ngôn ngữ có độ tương đồng cao với tiếng Việt. e Phương pháp học máy. e Các mô hình phan tích cú pháp phụ thuộc MaltParser, MSTParser. e Mô phỏng chương trình thực nghiệm cho bài toán phân tích cú pháp phụ thuộc của tiếng Kết quả đạt được Việt.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Cú pháp phụ thuộc trong NLP

Mô hình và thuật toán trong xử lý ngôn ngữ

Ứng dụng của phân tích cú pháp

Nghiên cứu về tiếng Việt trong NLP