Luận văn Thạc sĩ: Phân tích cú pháp thống kê Lexicalized cho tiếng Việt

Luận văn thạc sĩ về lexicalized statistical parsing cho tiếng Việt. Nghiên cứu chuyên sâu ngành công nghệ thông tin, phân tích cú pháp thống kê chi tiết.

Trường đại học

Hanoi University of Engineering and Technology

Chuyên ngành

Computer Science

Người đăng

Ẩn danh

Thể loại

thesis

2010

Phí lưu trữ

30 Point

Mục lục chi tiết

Acknowledgements

1. Chapter 1 Introduction

1.1. What is syntactic parsing?

1.2. Current Studies in Parsing

1.3. Vietnamese syntactic parsing

1.4. Objective of the Thesis

1.5. Thesis structure

2. Chapter 2 Parsing approaches

2.1. Context Free Grammar (CFG)

2.2. Top-down parsing

2.3. Bottom-up parsing

2.4. Comparison between top-down parsing and bottom-up parsing

3. Vietnamese parsing and our approach

3.2. The POS tagset and Syntax tagset for Vietnamese

3.4. Our approach in building a Vietnamese parser

3.4.1. Adapting Bikel's parser for Vietnamese

3.4.2. Analyze error and propse using heuristic rules

4. Experiments and Discussion

4.2. Bikel's parsing tool

4.3. Adaptating Bikel's tool to Vietnamese

4.3.1. Investigate different configurations

4.4. Evaluation of the parser

4.5. Experimental results on using heuristic rules

5. Conclusions and Future Work

List of Figures

List of Tables

Tóm tắt

I. Tổng Quan Về Phân Tích Cú Pháp Thống Kê Tiếng Việt

Từ lâu, con người đã mơ về một cỗ máy thông minh có thể nghe, hiểu và thực hiện các yêu cầu của con người. Nhiều nhà khoa học đã cố gắng biến giấc mơ đó thành hiện thực và cống hiến nhiều thành tựu cho ngành khoa học trí tuệ nhân tạo. Trong trí tuệ nhân tạo, xử lý ngôn ngữ tự nhiên (NLP) là một lĩnh vực nghiên cứu về cách hiểu và tạo ra ngôn ngữ của con người một cách tự động. NLP có nhiều ứng dụng thực tế như dịch máy, trích xuất thông tin, phân tích diễn ngôn, tóm tắt văn bản. Các ứng dụng này có cùng các vấn đề cơ bản như phân tích từ vựng, phân tích cú pháp và phân tích ngữ nghĩa. Trong đó, phân tích cú pháp đóng vai trò trung tâm và cũng là mục tiêu của luận văn này. Phân tích cú pháp (còn gọi là parsing hoặc phân tích cú pháp) là quá trình phân tích một chuỗi các mã thông báo (ví dụ: một câu) để xác định cấu trúc ngữ pháp của chúng đối với một ngữ pháp đã cho. Cấu trúc ngữ pháp thường được biểu diễn dưới dạng hiển thị trực quan sự phụ thuộc của các thành phần dưới dạng cây (được gọi là cây phân tích cú pháp hoặc cây cú pháp). Nói cách khác, parsing là bài toán lấy một chuỗi các từ làm đầu vào và đầu ra là các cây phân tích cú pháp tương ứng với chuỗi đó. Hình 1.1 hiển thị các ví dụ về cây phân tích cú pháp: a) cây phân tích cú pháp tiếng Anh ở dạng thông thường và b) cây tiếng Việt ở dạng khác. Parsing là mô-đun chính của một hệ thống kiểm tra ngữ pháp. Để kiểm tra ngữ pháp, ta cần phân tích cú pháp các câu đầu vào, sau đó kiểm tra tính đúng đắn của các cấu trúc trong đầu ra. Hơn nữa, một câu không thể phân tích cú pháp có thể có lỗi ngữ pháp. Parsing cũng là giai đoạn trung gian quan trọng của biểu diễn cho phân tích ngữ nghĩa, và do đó đóng một vai trò quan trọng trong các ứng dụng như dịch máy, trả lời câu hỏi và trích xuất thông tin. Ví dụ, trong dịch máy dựa trên chuyển giao, hệ thống sẽ phân tích câu nguồn để xuất ra một cây phân tích cú pháp và sau đó xây dựng cây phân tích cú pháp tương đương trong ngôn ngữ đích. Câu đầu ra sẽ được tạo chủ yếu dựa trên cây phân tích cú pháp tương đương này. Cần hiểu rằng trong một hệ thống trả lời câu hỏi, chúng ta cần parsing để tìm ra đâu là chủ ngữ, tân ngữ hoặc hành động. Điều thú vị là parsing có thể giúp xử lý giọng nói. Nó hỗ trợ sửa lỗi của quá trình nhận dạng giọng nói. Mặt khác, trong tổng hợp giọng nói, parsing giúp đặt trọng âm vào đúng vị trí trong câu. Thông qua những ví dụ trên, chúng ta có thể thấy rằng việc xây dựng một trình phân tích cú pháp chính xác và hiệu quả sẽ mang lại lợi ích to lớn cho nhiều ứng dụng của xử lý ngôn ngữ tự nhiên.

1.1. Phân tích cú pháp là gì What is syntactic parsing

Phân tích cú pháp (parsing hay syntactic analysis) là quá trình phân tích một chuỗi token nhất định (ví dụ: một câu) để xác định cấu trúc ngữ pháp của chúng đối với một ngữ pháp nhất định. Cấu trúc ngữ pháp thường được biểu diễn dưới dạng hiển thị trực quan sự phụ thuộc của các thành phần dưới dạng cây (được gọi là cây phân tích cú pháp hoặc cây cú pháp). Nói cách khác, phân tích cú pháp là bài toán lấy một chuỗi các từ làm đầu vào và đầu ra là các cây cú pháp tương ứng với chuỗi đó. Hình 1.1 hiển thị các ví dụ cho cây cú pháp: a) một cây cú pháp tiếng Anh ở dạng thông thường và b) một cây tiếng Việt ở dạng khác. Phân tích cú pháp là mô-đun chính của một hệ thống kiểm tra ngữ pháp. Để kiểm tra ngữ pháp, chúng ta cần phân tích cú pháp các câu đầu vào, sau đó kiểm tra tính đúng đắn của các cấu trúc trong đầu ra. Hơn nữa, một câu không thể phân tích cú pháp có thể có lỗi ngữ pháp.

1.2. Ứng dụng của phân tích cú pháp trong NLP

Phân tích cú pháp cũng là giai đoạn trung gian quan trọng của biểu diễn cho phân tích ngữ nghĩa, và do đó đóng một vai trò quan trọng trong các ứng dụng như dịch máy, trả lời câu hỏi và trích xuất thông tin. Ví dụ, trong dịch máy dựa trên chuyển giao, hệ thống sẽ phân tích câu nguồn để xuất ra một cây cú pháp và sau đó xây dựng cây cú pháp tương đương trong ngôn ngữ đích. Câu đầu ra sẽ được tạo chủ yếu dựa trên cây cú pháp tương đương này. Cần hiểu rằng trong một hệ thống trả lời câu hỏi, chúng ta cần phân tích cú pháp để tìm ra đâu là chủ ngữ, tân ngữ hoặc hành động. Điều thú vị là phân tích cú pháp có thể giúp xử lý giọng nói. Nó hỗ trợ sửa lỗi của quá trình nhận dạng giọng nói. Mặt khác, trong tổng hợp giọng nói, phân tích cú pháp giúp đặt trọng âm vào đúng vị trí trong câu.

II. Nghiên Cứu Hiện Tại Về Các Phương Pháp Phân Tích Cú Pháp

Là một trong những bài toán cơ bản và trung tâm của NLP, phân tích cú pháp thu hút nhiều nghiên cứu. Chúng thuộc về một trong hai phương pháp tiếp cận: dựa trên quy tắc và dựa trên thống kê. Trong các hệ thống phân tích cú pháp thông thường, một ngữ pháp được tạo thủ công, thường liên quan đến một lượng lớn thông tin cụ thể về từ vựng dưới dạng thông tin phân loại con. Ở đó, sự mơ hồ, một vấn đề lớn trong phân tích cú pháp, được giải quyết thông qua các hạn chế lựa chọn. Ví dụ, một từ điển có thể chỉ định rằng "ăn" phải có một đối tượng với tính năng + "thực phẩm". Trong (Collins, 1999), tác giả đã chỉ ra một số vấn đề với các hạn chế lựa chọn như tăng khối lượng thông tin cần thiết khi kích thước từ vựng trở nên quá lớn. Nói cách khác, thách thức lớn nhất là lượng từ vựng lớn để yêu cầu cả hạn chế lựa chọn và ưu tiên cấu trúc nên được mã hóa dưới dạng các ưu tiên mềm thay vì các ràng buộc cứng. Để khắc phục những trở ngại này, các nhà nghiên cứu bắt đầu khám phá các phương pháp học máy cho bài toán phân tích cú pháp, chủ yếu thông qua các mô hình thống kê. Trong các phương pháp này, một tập hợp các cặp ví dụ về câu và cây cú pháp tương ứng được chú thích bằng tay và được sử dụng để huấn luyện các mô hình phân tích cú pháp. Một tập hợp các cây được gọi là "treebank". Một số phần của treebank được dành riêng làm dữ liệu thử nghiệm để đánh giá độ chính xác của mô hình. Các công trình ban đầu điều tra việc sử dụng ngữ pháp phi ngữ cảnh xác suất (PCFG). Sử dụng PCFG được coi là thế hệ tiếp theo của phân tích cú pháp và cũng là một bước khởi đầu trong phân tích cú pháp thống kê. Trong PCFG, mỗi quy tắc ngữ pháp được liên kết với một xác suất. Xác suất của một cây cú pháp là tích của các xác suất của tất cả các quy tắc được sử dụng trong cây đó. Trong trường hợp này, phân tích cú pháp về cơ bản là quá trình tìm kiếm cây có xác suất tối đa. Tuy nhiên, một PCFG đơn giản thường thất bại do thiếu độ nhạy cảm với thông tin từ vựng và các ưu tiên cấu trúc. Sau đó, một số giải pháp đã được đề xuất để giải quyết vấn đề này. Một số hướng đã được liệt kê trong (Collins, 1999) như: hướng tới phiên bản xác suất của ngữ pháp từ vựng hóa; sử dụng các thuật toán huấn luyện được giám sát; xây dựng các mô hình có độ nhạy cấu trúc tăng lên; xem xét các mô hình dựa trên lịch sử. Trong số đó, ngữ pháp phi ngữ cảnh xác suất từ vựng hóa (LPCFG) là một phương pháp đầy hứa hẹn. Nó có thể giải quyết nhiều hiện tượng mơ hồ trong phân tích cú pháp. Một số công trình dựa trên phương pháp này đã đạt được hiệu suất cao, chẳng hạn như trong (Collins, 1997). Sau nghiên cứu này, Daniel M. Bikel và đồng nghiệp của ông đã phát triển các mô hình của Collin và thiết kế một trình phân tích cú pháp cho nhiều ngôn ngữ. Nó đã được áp dụng thành công cho một số ngôn ngữ như tiếng Anh, tiếng Trung và tiếng Ả Rập (Bikel, 2004). Các kết quả cụ thể của trình phân tích cú pháp cho các ngôn ngữ này được báo cáo trong (Bikel, 2004): Đối với tiếng Anh, F-measure là 90,01%; đối với tiếng Trung, F-measure là 81,2% và trong tiếng Ả Rập F-measure là 75. Theo các kết quả này và so sánh giữa các trình phân tích cú pháp hiện tại (ví dụ: trình phân tích cú pháp Charniak, trình phân tích cú pháp Bekelley, trình phân tích cú pháp Standford), trình phân tích cú pháp của Bikel vẫn được đánh giá là một trong những trình phân tích cú pháp tốt nhất hiện nay. Gần đây, phương pháp sử dụng LPCFG này tiếp tục được áp dụng cho nhiều ngôn ngữ. Hơn nữa, một số chiến lược mới đã được đề xuất để cải thiện độ chính xác của trình phân tích cú pháp. Trong một số nghiên cứu, sử dụng các phương pháp huấn luyện bán giám sát trở thành một phương pháp đầy hứa hẹn. Kết quả thực nghiệm của họ cho thấy rằng phương pháp này vượt trội hơn phương pháp được giám sát, mà không tốn nhiều chi phí tính toán bổ sung. Một số nghiên cứu khác đã tích hợp thông tin ngữ nghĩa vào phân tích cú pháp để khai thác triệt để các lợi ích của tài nguyên từ vựng và nâng cấp trình phân tích cú pháp, chẳng hạn như trong (Xiong et al. (Xiong et al., 2005) đã mô tả cách kết hợp kiến thức ngữ nghĩa như sau: Đầu tiên, họ đã sử dụng hai từ điển ngữ nghĩa điện tử tiếng Trung và các quy tắc heuristic để trích xuất các danh mục ngữ nghĩa. Sau đó, họ đã xây dựng một mô hình con ưu tiên lựa chọn dựa trên các danh mục ngữ nghĩa được trích xuất. Tương tự, trong (Agirre & Baldwin, 2008), thông tin về nghĩa đã được thêm vào phân tích cú pháp bằng cách thay thế các từ gốc bằng các thẻ ngữ nghĩa tương ứng với các lớp ngữ nghĩa của chúng, ví dụ như dao và kéo thuộc lớp TOOL, bánh và thịt lợn được gán cho lớp FOOD. Ngoài ra, một số chiến thuật được đề xuất khác đã được tăng cường hiệu suất của phân tích cú pháp như một kỹ thuật học tập mạnh mẽ (lựa chọn mẫu) để giảm lượng dữ liệu huấn luyện được dán nhãn bởi con người (Carreras et al., 2008); hoặc, một chiến lược để sử dụng tài nguyên thẻ POS để chú thích đầu vào của trình phân tích cú pháp trong (Watson et al. Thông qua việc xem xét các phương pháp tiếp cận trong phân tích cú pháp và đặc biệt là một số nghiên cứu gần đây, chúng tôi thấy rằng LPCFG xuất hiện trong tất cả các hệ thống phân tích cú pháp hiện đại nhất. Do đó, theo ý kiến của chúng tôi, LPCFG là một lựa chọn tốt cho phân tích cú pháp tiếng Việt.

2.1. Phương pháp dựa trên quy tắc

Trong các hệ thống phân tích cú pháp thông thường, một ngữ pháp được tạo thủ công, thường liên quan đến một lượng lớn thông tin cụ thể về từ vựng dưới dạng thông tin phân loại con. Ở đó, sự mơ hồ, một vấn đề lớn trong phân tích cú pháp, được giải quyết thông qua các hạn chế lựa chọn. Ví dụ, một từ điển có thể chỉ định rằng "ăn" phải có một đối tượng với tính năng + "thực phẩm". Trong (Collins, 1999), tác giả đã chỉ ra một số vấn đề với các hạn chế lựa chọn như tăng khối lượng thông tin cần thiết khi kích thước từ vựng trở nên quá lớn. Nói cách khác, thách thức lớn nhất là lượng từ vựng lớn để yêu cầu cả hạn chế lựa chọn và ưu tiên cấu trúc nên được mã hóa dưới dạng các ưu tiên mềm thay vì các ràng buộc cứng.

2.2. Phương pháp dựa trên thống kê

Để khắc phục những trở ngại của phương pháp dựa trên quy tắc, các nhà nghiên cứu bắt đầu khám phá các phương pháp học máy cho bài toán phân tích cú pháp, chủ yếu thông qua các mô hình thống kê. Trong các phương pháp này, một tập hợp các cặp ví dụ về câu và cây cú pháp tương ứng được chú thích bằng tay và được sử dụng để huấn luyện các mô hình phân tích cú pháp. Một tập hợp các cây được gọi là "treebank". Một số phần của treebank được dành riêng làm dữ liệu thử nghiệm để đánh giá độ chính xác của mô hình. Các công trình ban đầu điều tra việc sử dụng ngữ pháp phi ngữ cảnh xác suất (PCFG). Sử dụng PCFG được coi là thế hệ tiếp theo của phân tích cú pháp và cũng là một bước khởi đầu trong phân tích cú pháp thống kê. Trong PCFG, mỗi quy tắc ngữ pháp được liên kết với một xác suất. Xác suất của một cây cú pháp là tích của các xác suất của tất cả các quy tắc được sử dụng trong cây đó. Trong trường hợp này, phân tích cú pháp về cơ bản là quá trình tìm kiếm cây có xác suất tối đa.

2.3. Ngữ pháp phi ngữ cảnh xác suất từ vựng hóa LPCFG

Trong số các phương pháp dựa trên thống kê, ngữ pháp phi ngữ cảnh xác suất từ vựng hóa (LPCFG) là một phương pháp đầy hứa hẹn. Nó có thể giải quyết nhiều hiện tượng mơ hồ trong phân tích cú pháp. Một số công trình dựa trên phương pháp này đã đạt được hiệu suất cao, chẳng hạn như trong (Collins, 1997). Sau nghiên cứu này, Daniel M. Bikel và đồng nghiệp của ông đã phát triển các mô hình của Collin và thiết kế một trình phân tích cú pháp cho nhiều ngôn ngữ. Nó đã được áp dụng thành công cho một số ngôn ngữ như tiếng Anh, tiếng Trung và tiếng Ả Rập (Bikel, 2004). Các kết quả cụ thể của trình phân tích cú pháp cho các ngôn ngữ này được báo cáo trong (Bikel, 2004).

III. Hiện Trạng Phân Tích Cú Pháp Tiếng Việt Thách Thức

Ở Việt Nam, các công trình về xử lý ngôn ngữ tự nhiên (ví dụ: ngôn ngữ học tính toán) nói chung và về phân tích cú pháp nói riêng chỉ mới được thúc đẩy gần đây. Một số ít các trình phân tích cú pháp theo phương pháp dựa trên tri thức được xây dựng với các quy tắc ngữ pháp thủ công. Vì việc xây dựng các quy tắc ngữ pháp là thủ công, nên độ chính xác của trình phân tích cú pháp không cao. Nó chỉ phân tích một số lượng hạn chế các câu được tạo bởi ngữ pháp. Phương pháp sử dụng thống kê cũng đã được nghiên cứu, nhưng cũng chỉ ở mức sơ lược và chưa có kết quả thực nghiệm. Ví dụ, (Quoc-The & Thanh-Huong, 2008) đã trình bày về LPCFG nhưng đáng ngạc nhiên là nó không cung cấp bất kỳ thí nghiệm nào, chỉ một số ví dụ được cung cấp để minh họa sự mơ hồ cú pháp của tiếng Việt. Với những kết quả hạn chế như vậy, không có trình phân tích cú pháp tiếng Việt nào được công bố rộng rãi. Có thể nói rằng trong khi nhiều quốc gia trên thế giới đã tiến xa trong phân tích cú pháp, Việt Nam chỉ mới ở giai đoạn bắt đầu. Điều kiện tiên quyết để triển khai các mô hình này cho tiếng Việt là một ngữ liệu chứa các câu đã được phân tích cú pháp, đây là tài nguyên quan trọng cho phân tích cú pháp thống kê. Vì thiếu ngữ liệu, các công trình trước đây về phân tích cú pháp tiếng Việt chưa có kết quả thực nghiệm đáng kể. May mắn thay, hiện tại có một ngữ liệu tiếng Việt đã được phân tích cú pháp tiêu chuẩn, được gọi là Viet Treebank, được phát triển trong một dự án được hỗ trợ bởi chính phủ Việt Nam. Ngữ liệu này bao gồm khoảng 10.000 câu đã được phân tích cú pháp theo định dạng của Penn Treebank, và do đó chúng ta có thể áp dụng nó cho công cụ của Bikel. Như đã đề cập ở trên, các mô hình từ vựng hóa đã được áp dụng thành công cho nhiều ngôn ngữ. Trong số các ngôn ngữ này, tiếng Trung đạt được điểm F trung bình là 81,2% như Bikel đã chỉ ra trong (Bikel, 2004). Kết quả này cũng thúc đẩy nghiên cứu của chúng tôi vì cấu trúc cú pháp của tiếng Trung có sự tương đồng với cấu trúc cú pháp của tiếng Việt.

3.1. Hạn chế của các trình phân tích cú pháp tiếng Việt hiện tại

Các trình phân tích cú pháp tiếng Việt hiện tại thường được xây dựng dựa trên quy tắc ngữ pháp thủ công, dẫn đến độ chính xác không cao và chỉ phân tích được một số lượng hạn chế các câu. Phương pháp thống kê cũng đã được nghiên cứu, nhưng còn sơ lược và chưa có kết quả thực nghiệm đáng kể.

3.2. Vai trò của Viet Treebank

Điều kiện tiên quyết để triển khai các mô hình cho tiếng Việt là một ngữ liệu chứa các câu đã được phân tích cú pháp, đây là tài nguyên quan trọng cho phân tích cú pháp thống kê. May mắn thay, hiện tại có một ngữ liệu tiếng Việt đã được phân tích cú pháp tiêu chuẩn, được gọi là Viet Treebank, được phát triển trong một dự án được hỗ trợ bởi chính phủ Việt Nam. Ngữ liệu này bao gồm khoảng 10.000 câu đã được phân tích cú pháp theo định dạng của Penn Treebank, và do đó chúng ta có thể áp dụng nó cho công cụ của Bikel.

IV. Mục Tiêu Phương Pháp Xây Dựng Trình Phân Tích Cú Pháp

Luận văn này tập trung vào việc xây dựng một trình phân tích cú pháp cho tiếng Việt bằng cách sử dụng phương pháp LPCFG. Chúng tôi sẽ sử dụng Viet Treebank làm ngữ liệu đã được phân tích cú pháp và điều chỉnh công cụ phân tích cú pháp của Bikel cho tiếng Việt. Sau đó, chúng tôi cũng sẽ điều tra một số lỗi phổ biến xuất hiện trong phân tích cú pháp và đề xuất một giải pháp để cải thiện độ chính xác của trình phân tích cú pháp. Để đạt được mục tiêu này, nghiên cứu này phải tìm ra câu trả lời cho các câu hỏi sau: Làm thế nào để điều chỉnh hệ thống của Bikel cho tiếng Việt? Kết quả ban đầu như thế nào? Mô hình/cấu hình nào phù hợp cho tiếng Việt? Làm thế nào để cải thiện hiệu suất của hệ thống dựa trên phân tích lỗi? Tóm lại, trong nghiên cứu này, chúng tôi cố gắng thực hiện các nhiệm vụ sau: - Nghiên cứu các kỹ thuật và phương pháp cơ bản trong phân tích cú pháp, tập trung vào các phương pháp thống kê từ vựng hóa; - Phân tích và điều chỉnh trình phân tích cú pháp của Bikel (Bikel, 2004) cho tiếng Việt; Với mục tiêu này, chúng tôi cố gắng xây dựng và xuất bản một công cụ phân tích cú pháp tiếng Việt hữu ích cho nhiều nhiệm vụ xử lý tiếng Việt. - Điều tra các mô hình phân tích cú pháp khác nhau và các đặc điểm ngôn ngữ khác nhau để khám phá cấu hình tốt nhất cho tiếng Việt; - Phân tích các lỗi ngữ pháp từ một tập thử nghiệm phát triển và tìm ra một giải pháp để cải thiện độ chính xác của trình phân tích cú pháp.

4.1. Sử dụng LPCFG và Viet Treebank

4.2. Phân tích lỗi và cải tiến độ chính xác

Sau đó, chúng tôi cũng sẽ điều tra một số lỗi phổ biến xuất hiện trong phân tích cú pháp và đề xuất một giải pháp để cải thiện độ chính xác của trình phân tích cú pháp. Để đạt được mục tiêu này, nghiên cứu này phải tìm ra câu trả lời cho các câu hỏi sau: Làm thế nào để điều chỉnh hệ thống của Bikel cho tiếng Việt? Kết quả ban đầu như thế nào? Mô hình/cấu hình nào phù hợp cho tiếng Việt? Làm thế nào để cải thiện hiệu suất của hệ thống dựa trên phân tích lỗi?

V. Cấu Trúc Luận Văn Từ Cơ Bản Đến Thực Nghiệm Cụ Thể

Phần còn lại của luận văn này được tổ chức như sau: Chương 2 giới thiệu các phương pháp phân tích cú pháp cơ bản từ các phương pháp cổ điển như chiến lược từ trên xuống hoặc từ dưới lên đến các phương pháp dựa trên thống kê như ngữ pháp phi ngữ cảnh xác suất (PCFG) và ngữ pháp phi ngữ cảnh xác suất từ vựng hóa (LPCFG). Trong chương này, chúng tôi cũng giới thiệu các thuật toán phân tích cú pháp quan trọng bao gồm CYK, Earley và Chart parsing. Chương 3 trình bày phân tích cú pháp tiếng Việt và phương pháp tiếp cận của chúng tôi. Các đặc điểm của tiếng Việt và Viet Treebank sẽ được giới thiệu so với Penn Treebank. Chương 4 mô tả các thí nghiệm và thảo luận của chúng tôi. Sau khi giới thiệu công cụ phân tích cú pháp Bikel, chúng tôi sẽ mô tả quy trình áp dụng và phát triển nó cho tiếng Việt: từ việc điều chỉnh công cụ cho tiếng Việt và điều tra nó để tìm ra cấu hình tốt nhất, và cuối cùng là xử lý một số lỗi ngữ pháp để giảm tỷ lệ lỗi và nâng cao hiệu suất của trình phân tích cú pháp. Chương 6 tóm tắt các kết quả thu được, đưa ra một số kết luận về công việc của chúng tôi và cho thấy kế hoạch của chúng tôi cho công việc trong tương lai.

5.1. Chương 2 Các phương pháp phân tích cú pháp cơ bản

Chương 2 giới thiệu các phương pháp phân tích cú pháp cơ bản từ các phương pháp cổ điển như chiến lược từ trên xuống hoặc từ dưới lên đến các phương pháp dựa trên thống kê như ngữ pháp phi ngữ cảnh xác suất (PCFG) và ngữ pháp phi ngữ cảnh xác suất từ vựng hóa (LPCFG). Trong chương này, chúng tôi cũng giới thiệu các thuật toán phân tích cú pháp quan trọng bao gồm CYK, Earley và Chart parsing.

5.2. Chương 3 4 Phân tích cú pháp tiếng Việt và thực nghiệm

Chương 3 trình bày phân tích cú pháp tiếng Việt và phương pháp tiếp cận của chúng tôi. Các đặc điểm của tiếng Việt và Viet Treebank sẽ được giới thiệu so với Penn Treebank. Chương 4 mô tả các thí nghiệm và thảo luận của chúng tôi. Sau khi giới thiệu công cụ phân tích cú pháp Bikel, chúng tôi sẽ mô tả quy trình áp dụng và phát triển nó cho tiếng Việt: từ việc điều chỉnh công cụ cho tiếng Việt và điều tra nó để tìm ra cấu hình tốt nhất, và cuối cùng là xử lý một số lỗi ngữ pháp để giảm tỷ lệ lỗi và nâng cao hiệu suất của trình phân tích cú pháp.

VI. Kết Luận Hướng Phát Triển Trình Phân Tích Cú Pháp

Nhìn chung, việc xây dựng một trình phân tích cú pháp thống kê cho tiếng Việt còn nhiều thách thức, nhưng nghiên cứu này đã cung cấp một nền tảng ban đầu để tiếp tục phát triển. Kết quả thực nghiệm cho thấy tiềm năng của phương pháp LPCFG kết hợp với các quy tắc heuristic để cải thiện độ chính xác. Trong tương lai, việc mở rộng quy mô Viet Treebank và tích hợp thêm các thông tin ngữ nghĩa có thể giúp nâng cao hiệu suất của trình phân tích cú pháp.

6.1. Tóm tắt kết quả nghiên cứu

Nghiên cứu này đã cung cấp một nền tảng ban đầu để tiếp tục phát triển trình phân tích cú pháp thống kê cho tiếng Việt. Kết quả thực nghiệm cho thấy tiềm năng của phương pháp LPCFG kết hợp với các quy tắc heuristic để cải thiện độ chính xác.

6.2. Hướng phát triển trong tương lai

Trong tương lai, việc mở rộng quy mô Viet Treebank và tích hợp thêm các thông tin ngữ nghĩa có thể giúp nâng cao hiệu suất của trình phân tích cú pháp.

24/09/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ lexicalized statistical parsing for vietnamese luận văn ths công nghệ thông tin

Tải đầy đủ

Trích đoạn nội dung tài liệu

Lexicalized Statistical Parsing for Vietnamese Pham Thi Minh Thu Faculty of Information Technology Hanoi University of Engineering and Technology Vietnam National University, Hanoi Supervised by Doctor Le Anh Cuong A thesis submitted in fulfillment of the requirements for the degree of Master of Computer Science June, 2010 TIEU LUAN MOI download : skknchat@gmail.com Table of Contents Acknowledgements ii 1 Introduction 1 1.1 What is syntactic parsing? .2 Current Studies in Parsing .3 Vietnamese syntactic parsing .4 Objective of the Thesis .1 Context Free Grammar (CFG) .1 Top-down parsing .2 Bottom-up parsing .3 Comparison between top-down parsing and bottom-up parsing .3 Probabilistic context-free grammar (PCFGs) .1 The concept of PCFG .2 Disadvantages of PCFGs .4 Lexical Probabilistic Context Free Grammar (LPCFGs) .2 The concept of Lexical Probabilistic Context Free Grammar (LPCFGs) 16 2.3 Three models of Collins. 18 3 Vietnamese parsing and our approach 21 3. 22 iii TIEU LUAN MOI download : skknchat@gmail.com TABLE OF CONTENTS iv 3.2 The POS tagset and Syntax tagset for Vietnamese .4 Our approach in building a Vietnamese parser .1 Adapting Bikel's parser for Vietnamese .2 Analyze error and propse using heuristic rules. 30 4 Experiments and Discussion 33 4.2 Bikel's parsing tool .3 Adaptating Bikel's tool to Vietnamese .1 Investigate different configurations .4 Evaluation of the parser .4 Experimental results on using heuristic rules.

42 5 Conclusions and Future Work 46 5. 47 TIEU LUAN MOI download : skknchat@gmail.com List of Figures 1.1 The parse tree of sentence "I go to school" .2 A parse tree in Vietnamese .1 The parse tree of the Vietnamese sentence "mÌo b¾t chuét" .2 Two derivations of the sentence "T«i hiÓu Lan h¬n Nga" .3 A parse tree of Vietnamese in LPCFG .4 A tree with the "C" suffix used to identify .1 Set of tag in Penn Treebank .2 A sample of labeled data in Penn Treebank before manually treatment .3 A sample of labeled data in Penn Treebank after manually treatment .4 Tagset of Penn Treebank .5 A sample of complete data in English and Vietnamese .1 The Bikel's system overview .2 Result of testing standard Collins' model 2 with training data's size change from 60% to 100% of the full data. Where series 1 and series 2 stand for testing on sentences with length less equal 40 and 100 respectively. 43 v TIEU LUAN MOI download : skknchat@gmail.com List of Tables 2.1 Analysis table with CYK algorithm .1 POS tagset in Viet Treebank .2 Phrase tagset in Viet Treebank .3 Clause tagset in Viet Treebank .4 Syntax function tagset in Viet Treebank .1 The initial results on Viet Treebank with different configurations.

Key:CB = average crossing brackets, 0CB = zero crossing brackets, ≤ 2CB =≤ 2 crossing brackets. All results are percentages, except for those in the CB column .2 Number of sentence for training .3 The results with the change of the training data set .4 The error rate. We use 520 sentences for development testing. Then filtering sentences which have the F-score less than 70 %.

As the result, we collect 147 sentences into the set of error sentences. The Percentage of a error is calculated by the number of sentences commit this error divide 147. Because a sentence may be some errors so the total percentage may exceed 100 .5 The obtained results after applying some proposal rules to correct some wrong syntactic parsing. 44 vi TIEU LUAN MOI download : skknchat@gmail.com Chapter 1 Introduction For a long time, human being have always dreamed of an intelligent machine which can listen to, understand and implement humans' requirements.

Many scientists have tried to make that dream and devoted many achievements for the science of artificial intelligence. In artificial intelligence, natural language processing (NLP) is a field which studies on how to understand and generate automatically human language. NLP has many practical applications such as machine translation, information extraction, discourse analysis, text summarization. These applications have the same basic problems such as lexical analysis, syntactic parsing and semantic analysis.

In which, syntactic parsing is the central role and it is also the goal of this thesis.1 What is syntactic parsing? Syntactic parsing (parsing or syntactic analysis ) is the process of analyzing a given se- quence of tokens (i. a sentence) to identify their grammatical structure with respect to a given grammar. The grammatical structure is often represented in the form which displays visually the dependence of components as a tree (is called parse tree or syntactic tree). In other words, parsing is the problem to get a given sequence of words as input and output is the parse trees corresponding to that sequence.1 shows examples for parse tree: a) a English parse tree in usual form and b) a Vietnamese tree in other form.

Parsing is the major module of a grammar checking system. In order to check gram- mar, we need to parse input sentences, then examine the correctness of the structures in the output. Furthermore, a sentence which cannot be parsed may have grammatical errors. 1 TIEU LUAN MOI download : skknchat@gmail.

What is syntactic parsing? 2 Figure 1.1: The parse tree of sentence "I go to school" Figure 1.2: A parse tree in Vietnamese Parsing is also the important intermediate stage of representation for semantic analysis, and thus plays an important role in applications like machine translation, question an- swering, and information extraction. For example, in transfer-based machine translation the system will analyze the source sentence to output a parse tree and then construct the equivalent parse tree in the target language. The output sentence will be generated mainly based on this equivalent parse tree. It is to understand that in a question answering system we need parsing to find out which is the subject, object, or action.

It is also interesting that parsing can help speech processing. It supports to correct the fault of the speech recognition process. On the other hand, in speech synthesis parsing help put stress on the correct position in the sentence. TIEU LUAN MOI download : skknchat@gmail.

Current Studies in Parsing 3 Through these above example we can see that construct an accurate and effective parser will bring great benefits to many applications of natural language processing.2 Current Studies in Parsing As one of the basic and central problem of NLP, parsing attracts many studies. They belong to one of the two approaches: rule-based and statistics-based. In conventional parsing systems, a grammar is hand-crafted, often involves a large amount of lexically specific information in the form of sub-categorization information. In there, ambiguity, a major problem in parsing, is solved through selectional restrictions.

For example, a lexicon might specify that "eat" must take an object with the feature + "food". In (Collins, 1999), the author has showed several problems with selectional restrictions such as increasing the volume of information required when the vocabulary size becomes so large. In the other word, the biggest challenge is the large amount of vocabulary to require both selectional restrictions and structural preference should be encoded as the soft preferences instead of hard constraints. To overcome these obstacles, the researchers began to explore machine-learning ap- proaches to parsing problem, primary through statistical models.

In these approaches, a set of example pairs of sentence and the corresponding syntactic tree is annotated by hand and used to train parsing models. A set of trees is called a " treebank". Several parts of the treebank are reserved as test data for evaluating the model's accuracy. Early works investigate the use of probabilistic context free grammar (PCFG).

Using PCFG is considered as the next generation of parsing and is also as a beginning step in statistical parsing. In a PCFG, each grammar rule is associated with a probability. The probability of a parse tree is the product of the probabilities of all rules used in that tree. In the case, parsing is essentially the process of searching the tree that has the maximum probability.

However, a simple PCFG often fail due to its lack of sensitivity to lexical information and structural preferences. Then some solutions were proposed to resolve this problem. Several directions were listed in (Collins, 1999) such as: towards probabilistic version of lexicalized grammars; using supervised training algorithms; to construct models that had increased structural sensitivity; to look into history-based models. Among them lexical- ized probabilistic context free grammar (LPCFG) is a promising approach.

It can solve many ambiguity phenomena in parsing. Some works that based on this approach achieved high performance, such as in (Collins, 1997). After this research, Daniel M. Bikel and TIEU LUAN MOI download : skknchat@gmail.

Vietnamese syntactic parsing 4 his coworker have developed Collins models and designed a parser for multiple lan- guages. It has been applied successfully for some languages as English, Chinese and Arabic (Bikel, 2004). The concrete results of the parser for these languages is reported in (Bikel, 2004): For English, F-measure is 90.01 %; for Chinese, F-measure is 81.2 % and in Arabic F-measure is 75. According to these results and the comparison between current parsers (e.

Charniak parser, Bekelley parser, Standford parser), Bikels parser is still rated one of the best parser at present. Recently, this approach of using LPCFG continues being applied for many languages. Moreover, a number of new strategies have proposed to improve the accuracy of parsers. In several researches, using semi-supervised training methods becomes a promising ap- proach.

Their experimental results show that this approach outperforms the supervised one, without much additional computational cost. Some other studies has integrated se- mantic information into parsing in order to fully exploit the benefits of lexical resources and upgrade the parser, such as in (Xiong et al. (Xiong et al., 2005) described the way of incorporating semantic knowledge as follow: Firstly, they used two Chinese electronic semantics dictionaries and heuristic rules in order to extract semantic categories. Then they built a selection preference sub-model based on extracted semantic categories.

Similarly, in (Agirre & Baldwin, 2008), the sense infor- mation was added to parsing by substituting the original words with their semantic tags which correspond with their semantic classes, for example knife and scissors belong to TOOL class, cake and pork are assigned to FOOD class. In addition, some other sug- gested tactics have been enhanced of the performance of parsing as a powerful learning technique (sample selection) for reducing the amount of human-labeled training data (Carreras et al., 2008); or, a strategy for utilizing POS tags resources to annotate parser input in (Watson et al. Through the review of approaches in parsing and especially some recent studies, we found that LPCFG appears in all of state-of-the-art parsing systems. Therefore in our opinion, LPCFG is a good choice for Vietnamese parsing.3 Vietnamese syntactic parsing In Vietnam, works in natural language processing (i.

computational linguistics) in general and in parsing in particular have been only motivated very recently. A few of the parsers which follow the knowledge-based approach are constructed with the manual TIEU LUAN MOI download : skknchat@gmail. Objective of the Thesis 5 grammar rules. Since the construction of grammar rules is manual, the accuracy of the parser is not high.

It only analyzes a limited number of sentences generated by the grammar. The approach using statistics has been also studied, but also only at brief and has no experimental results. For example, (Quoc-The & Thanh-Huong, 2008) presented about LPCFG but surprisingly it did not provide any experiment, only some examples were provided to illustrate the syntactic ambiguity of Vietnamese. With such restricted results, no Vietnamese parser has been published widely.

It can say that while many countries in the world has gone forward a long way in parsing, Vietnam has just been at the stage to start. The precondition for deployment these models for Vietnamese is a corpus containing parsed sentences which is the crucial resources for statistical parsing. Since lack of corpus, the previous works on Vietnamese parsing have not had the significant experimental results.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ