Luận văn: Đánh giá Tagset và Xác định Lỗi Tự Động trong POS Tagging

Luận văn: Đánh giá tập nhãn và xác định lỗi tự động trong kho ngữ liệu đã gán nhãn (POS Tagged Corpus). Nghiên cứu chuyên sâu về tagset evaluation và automatical error verificat...

Chuyên ngành

Information Technology

Người đăng

Ẩn danh

Thể loại

Master Thesis

2012

51
1
0

Phí lưu trữ

30 Point

Mục lục chi tiết

ACKNOWLEDGEMENTS

ORIGINALITY STATEMENT

1. CHAPTER 1: INTRODUCTION AND MOTIVATION

1.1. Characteristics of Vietnamese language

1.2. Vietnamese part of speech

1.2.1. Criteria to classify

1.3. The ways to build up tagset

1.4. Copora Annotated corpora

1.5. Motivation

1.6. Organization of the thesis

2. EVALUATING DISTRIBUTIONAL PROPERTIES - CONVERSION POSSIBILITY OF TAGSETS

2.1. A method for evaluating distributional properties of tagsets

2.2. Possibility of Tagsets convertibility

3. AUTOMATIC ERROR VERIFICATION OF POS - TAGGED CORPUS

3.1. Concept related to variation n-gram method

3.2. Types of Vietnamese tagging error

3.3. A algorithm for detecting errors

3.4. Word in Vietnamese

3.5. N-gram in word segmentation

4. CONCLUSION AND SUMMARY

4.1. The Vietnamese treebank tagset

4.2. Syntax function tags in VTB

4.3. Adverbial classification tag of verb in VTB

4.4. Phrase tagset in VTB

4.5. Clause tagset in VTB

LIST OF FIGURES

LIST OF TABLES

NOTATIONS/ABBREVIATIONS

Tóm tắt

I. Tổng Quan Về Đánh Giá Tagset và POS Tagging Tiếng Việt

Bài viết này tập trung vào việc đánh giá tagsetxác định lỗi tự động POS Tagging trong tiếng Việt. POS Tagging tiếng Việt là một bước quan trọng trong xử lý ngôn ngữ tự nhiên (NLP) tiếng Việt, giúp máy tính hiểu cấu trúc ngữ pháp của câu. Một tagset tiếng Việt tốt cần phải cân bằng giữa khả năng biểu đạt chi tiết các loại từ và tính khả thi trong việc gán nhãn tự động. Tài liệu gốc cho thấy các nghiên cứu tập trung vào phát triển corpus tiếng Việt như VnQtag và VietTreeBank. Việc xây dựng và đánh giá các tagset tiếng Việt là cần thiết vì tiếng Việt có đặc điểm riêng khác biệt so với các ngôn ngữ Ấn-Âu, đòi hỏi các phương pháp POS Tagging tiếng Việt phải được điều chỉnh và tối ưu hóa. Chất lượng của ngữ liệu huấn luyện POS tagging ảnh hưởng trực tiếp đến độ chính xác POS tagging. Việc kiểm lỗi POS tagging giúp nâng cao chất lượng corpus tiếng Việt và cải thiện hiệu suất của các ứng dụng NLP.

1.1. Giới thiệu về Tagset tiếng Việt và vai trò của POS Tagging

Tagset là tập hợp các nhãn từ loại (Part-of-Speech) được sử dụng để gán cho mỗi từ trong một văn bản. POS Tagging, hay còn gọi là gán nhãn từ loại, là quá trình tự động xác định và gán nhãn từ loại cho mỗi từ trong một câu. Trong POS tagging tiếng Việt, một từ có thể có nhiều nhãn khác nhau tùy thuộc vào ngữ cảnh. Mục tiêu của POS Tagging là xác định nhãn phù hợp nhất cho mỗi từ. Điều này rất quan trọng để các hệ thống NLP tiếng Việt có thể hiểu được cấu trúc ngữ pháp và ý nghĩa của câu. Các mô hình POS tagging thường sử dụng các thuật toán POS tagging như Hidden Markov Models (HMMs) hoặc Conditional Random Fields (CRFs) để dự đoán nhãn từ loại dựa trên ngữ liệu huấn luyện POS tagging. Tài liệu gốc đề cập đến việc sử dụng MEMs và CRFs để gán nhãn POS. Việc lựa chọn tagset tiếng Việt phù hợp và xây dựng ngữ liệu huấn luyện POS tagging chất lượng cao là hai yếu tố then chốt để đạt được độ chính xác POS tagging cao.

1.2. Các đặc điểm của tiếng Việt ảnh hưởng đến POS Tagging

Tiếng Việt là một ngôn ngữ đơn lập, có nghĩa là từ không biến đổi hình thái. Ý nghĩa ngữ pháp chủ yếu được thể hiện thông qua trật tự từ và các hư từ. Điều này gây ra nhiều thách thức cho POS tagging tiếng Việt, vì các biến thể từ vựng không thể được sử dụng để xác định từ loại. Ambiguity resolution (giải quyết mơ hồ) là một vấn đề quan trọng trong POS tagging tiếng Việt. Ví dụ, một từ có thể vừa là danh từ vừa là động từ tùy thuộc vào ngữ cảnh. Việc thiếu thông tin về hình thái khiến cho việc kiểm lỗi POS tagging trở nên khó khăn hơn. Các phương pháp POS Tagging tiếng Việt cần phải dựa vào ngữ cảnh và các quy tắc ngữ pháp để sửa lỗi POS tagging.

II. Thách Thức Xác Định Lỗi và Nâng Cao Độ Chính Xác POS Tagging

Một trong những thách thức lớn nhất trong POS Tagging tiếng Việt là làm thế nào để xác định lỗi một cách tự động. Các lỗi POS Tagging có thể do nhiều nguyên nhân, bao gồm sự mơ hồ của từ, sự thiếu nhất quán trong ngữ liệu huấn luyện POS tagging, hoặc các hạn chế của thuật toán POS tagging. Việc phân tích lỗi tự động POS tagging giúp chúng ta hiểu rõ hơn về các điểm yếu của hệ thống và tìm ra các phương pháp để cải thiện độ chính xác POS tagging. Các phương pháp phương pháp đánh giá POS tagging như so sánh kết quả với gold standard POS tagging được sử dụng để đánh giá hiệu suất của mô hình POS tagging. Theo tài liệu gốc, việc cải thiện tagsetsdetection errors là rất quan trọng để cải thiện Vietnamese processing. Việc sử dụng variation n-gram để kiểm lỗi POS tagging được đề xuất như một phương pháp hiệu quả.

2.1. Các loại lỗi thường gặp trong POS Tagging tiếng Việt

Các lỗi trong POS Tagging tiếng Việt có thể được phân loại thành nhiều loại khác nhau. Một số loại lỗi phổ biến bao gồm: Lỗi do mơ hồ từ vựng: Một từ có thể có nhiều nghĩa và do đó có thể được gán nhiều nhãn khác nhau. Ví dụ, từ "bàn" có thể là danh từ (cái bàn) hoặc động từ (bàn bạc). Lỗi do thiếu ngữ cảnh: Thuật toán POS tagging có thể không có đủ thông tin ngữ cảnh để xác định nhãn từ loại chính xác. Lỗi do dữ liệu huấn luyện không nhất quán: Ngữ liệu huấn luyện POS tagging có thể chứa các lỗi hoặc sự thiếu nhất quán, dẫn đến việc mô hình POS tagging học các quy tắc không chính xác. Lỗi do hạn chế của thuật toán POS tagging: Các thuật toán POS tagging có thể không thể xử lý các cấu trúc ngữ pháp phức tạp. Tài liệu gốc phân loại lỗi thành lỗi mơ hồ và không mơ hồ.

2.2. Ảnh hưởng của lỗi POS Tagging đến các ứng dụng NLP khác

Các lỗi trong POS Tagging tiếng Việt có thể ảnh hưởng nghiêm trọng đến hiệu suất của các ứng dụng NLP khác, chẳng hạn như Named Entity Recognition (NER), dependency parsing, và dịch máy. Nếu nhãn từ loại được gán không chính xác, các ứng dụng này có thể đưa ra các kết quả không chính xác. Ví dụ, nếu một danh từ riêng bị gán nhãn là danh từ chung, hệ thống NER có thể bỏ lỡ thực thể này. Độ chính xác POS tagging cao là điều kiện tiên quyết để xây dựng các ứng dụng NLP tiếng Việt hiệu quả.

III. Phương Pháp Đánh Giá Tagset Sử Dụng Tiêu Chí và Độ Đo

Để đánh giá tagset, cần sử dụng các tiêu chí và độ đo phù hợp. Các tiêu chí có thể bao gồm khả năng biểu đạt của tagset tiếng Việt, tính nhất quán, và tính dễ sử dụng. Các độ đo có thể bao gồm độ chính xác POS tagging, độ phủ, và độ tin cậy. Phương pháp phương pháp đánh giá POS tagging được sử dụng để so sánh các tagset tiếng Việt khác nhau và xác định tagset tiếng Việt nào phù hợp nhất cho một ứng dụng cụ thể. Tài liệu gốc đề xuất sử dụng internal và external criteria để evaluating tagsets.

3.1. Tiêu chí đánh giá Khả năng biểu đạt tính nhất quán dễ sử dụng

Khả năng biểu đạt của tagset tiếng Việt đề cập đến khả năng của tagset để biểu diễn các loại từ khác nhau trong tiếng Việt. Một tagset có khả năng biểu đạt cao sẽ có nhiều nhãn từ loại, cho phép nó phân biệt giữa các loại từ khác nhau một cách chi tiết. Tuy nhiên, một tagset quá phức tạp có thể khó sử dụng và có thể dẫn đến độ chính xác POS tagging thấp hơn. Tính nhất quán đề cập đến mức độ mà các nhãn từ loại được sử dụng một cách nhất quán trong ngữ liệu huấn luyện POS tagging. Nếu các nhãn từ loại được sử dụng không nhất quán, mô hình POS tagging có thể học các quy tắc không chính xác. Tính dễ sử dụng đề cập đến mức độ dễ dàng để sử dụng tagset trong các ứng dụng NLP. Một tagset dễ sử dụng sẽ có các nhãn từ loại rõ ràng và dễ hiểu, và sẽ có các công cụ hỗ trợ để gán nhãn từ loại tự động.

3.2. Độ đo Độ chính xác POS Tagging độ phủ độ tin cậy

Độ chính xác POS tagging là tỷ lệ phần trăm số từ được gán nhãn từ loại chính xác. Đây là một trong những độ đo quan trọng nhất để đánh giá tagset. Độ phủ đề cập đến tỷ lệ phần trăm số từ trong một văn bản có thể được gán nhãn từ loại bằng tagset. Một tagset có độ phủ cao sẽ có thể gán nhãn từ loại cho hầu hết các từ trong văn bản. Độ tin cậy đề cập đến mức độ mà các nhãn từ loại được gán bởi các người khác nhau là giống nhau. Một tagset có độ tin cậy cao sẽ cho phép các nhà ngôn ngữ học gán nhãn từ loại một cách nhất quán.

IV. Ứng Dụng Variation N gram Phát Hiện Lỗi Tự Động Trong POS Tagging

Phương pháp variation n-gram là một kỹ thuật hiệu quả để phát hiện lỗi tự động trong corpus tiếng Việt đã được gán nhãn. Phương pháp này dựa trên ý tưởng rằng các từ xuất hiện trong các ngữ cảnh tương tự nên có cùng nhãn từ loại. Nếu một từ xuất hiện trong một ngữ cảnh và được gán một nhãn từ loại khác với các lần xuất hiện khác trong cùng ngữ cảnh, thì có thể có lỗi. Tài liệu gốc đề cập đến việc sử dụng variation n-grams để phân tích lỗi tự động POS tagging.

4.1. Nguyên tắc hoạt động của phương pháp Variation N gram

Phương pháp variation n-gram hoạt động bằng cách so sánh các n-gram (chuỗi n từ) trong một văn bản. Nếu một n-gram xuất hiện nhiều lần trong văn bản, nhưng các từ trong n-gram được gán các nhãn từ loại khác nhau, thì đó có thể là một lỗi. Ví dụ, xét n-gram "tôi đi học". Nếu từ "đi" được gán nhãn là động từ trong một lần xuất hiện, nhưng được gán nhãn là giới từ trong một lần xuất hiện khác, thì có thể có lỗi. Phương pháp variation n-gram có thể được sử dụng để phát hiện lỗi trong cả POS tagging và word segmentation.

4.2. Ưu điểm và hạn chế của phương pháp Variation N gram

Ưu điểm của phương pháp variation n-gram là nó đơn giản, dễ thực hiện, và có thể được sử dụng để phát hiện lỗi trong cả POS tagging và word segmentation. Hạn chế của phương pháp variation n-gram là nó có thể tạo ra nhiều kết quả dương tính giả. Điều này có nghĩa là phương pháp này có thể báo cáo các lỗi không tồn tại. Để giảm số lượng kết quả dương tính giả, cần phải sử dụng các kỹ thuật lọc và giải quyết mơ hồ.

V. Ứng Dụng Thực Tế Cải Thiện Chất Lượng Corpus và Độ Chính Xác

Các phương pháp đánh giá tagsetxác định lỗi tự động có thể được sử dụng để cải thiện chất lượng corpus tiếng Việtđộ chính xác POS tagging. Bằng cách sử dụng các phương pháp này, chúng ta có thể xác định và sửa các lỗi trong corpus, và chúng ta có thể thiết kế các tagset tốt hơn. Điều này sẽ dẫn đến các ứng dụng NLP tiếng Việt hiệu quả hơn. Các tài nguyên ngôn ngữ tiếng Việt sẽ ngày càng phong phú và chính xác hơn.

5.1. Sử dụng kết quả đánh giá để tinh chỉnh Tagset tiếng Việt

Kết quả từ các phương pháp đánh giá POS tagging có thể được sử dụng để tinh chỉnh tagset tiếng Việt. Nếu các nhãn từ loại cụ thể gây ra nhiều lỗi, chúng có thể được loại bỏ hoặc sáp nhập với các nhãn khác. Nếu tagset thiếu các nhãn từ loại cần thiết, các nhãn mới có thể được thêm vào. Việc tinh chỉnh tagset có thể cải thiện độ chính xác POS tagging và làm cho tagset dễ sử dụng hơn.

5.2. Sửa lỗi trong Corpus Tăng cường độ tin cậy của dữ liệu

Việc sửa lỗi POS tagging trong corpus tiếng Việt là một quá trình tốn thời gian, nhưng nó có thể cải thiện đáng kể độ chính xác POS tagging. Các lỗi có thể được sửa thủ công hoặc tự động. Sửa lỗi thủ công là tốn thời gian, nhưng nó thường chính xác hơn. Sửa lỗi tự động nhanh hơn, nhưng nó có thể tạo ra các lỗi mới. Việc sử dụng kết hợp cả hai phương pháp có thể là hiệu quả nhất. Các công cụ công cụ đánh giá POS tagging hỗ trợ người dùng trong quá trình sửa lỗi.

VI. Kết Luận và Hướng Phát Triển Tối Ưu Tagset và POS Tagging

Việc đánh giá tagsetxác định lỗi tự động là các bước quan trọng để cải thiện POS Tagging tiếng Việt. Các phương pháp được trình bày trong bài viết này có thể được sử dụng để xây dựng các corpus tiếng Việt chất lượng cao và các ứng dụng NLP hiệu quả hơn. Hướng phát triển trong tương lai bao gồm việc phát triển các thuật toán POS tagging chính xác hơn, thiết kế các tagset biểu đạt hơn, và tạo ra các công cụ hỗ trợ tốt hơn cho việc gán nhãn từ loại tự động. Tài liệu gốc kết luận rằng việc cải thiện tagsets và detection errors là rất quan trọng.

6.1. Tầm quan trọng của việc xây dựng và duy trì Corpus tiếng Việt chất lượng

Corpus tiếng Việt chất lượng cao là nền tảng cho tất cả các ứng dụng NLP tiếng Việt. Việc xây dựng và duy trì corpus đòi hỏi nhiều công sức và nguồn lực, nhưng nó là một đầu tư xứng đáng. Một corpus tốt sẽ cho phép các nhà nghiên cứu phát triển các thuật toán POS tagging chính xác hơn, thiết kế các tagset biểu đạt hơn, và tạo ra các công cụ hỗ trợ tốt hơn cho việc gán nhãn từ loại tự động. Việc đóng góp tài nguyên ngôn ngữ tiếng Việt sẽ giúp cộng đồng phát triển.

6.2. Các hướng nghiên cứu tiếp theo Tối ưu hóa thuật toán và Tagset

Các hướng nghiên cứu tiếp theo trong POS Tagging tiếng Việt bao gồm: Phát triển các thuật toán POS tagging dựa trên học sâu, ví dụ như các mô hình transformer. Thiết kế các tagset đa dạng hơn, cho phép biểu diễn các thông tin ngữ pháp và ngữ nghĩa chi tiết hơn. Phát triển các phương pháp tự động hóa quá trình gán nhãn từ loại, ví dụ như sử dụng active learning. Nghiên cứu các phương pháp giải quyết mơ hồ hiệu quả hơn. Cải thiện các công cụ đánh giá POS tagging.

24/09/2025

Trích đoạn nội dung tài liệu

VIETNAM NATIONAL UNIVERSITY HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY THI-THANH-TAM DO TAGSET EVALUATION AND AUTOMATICAL ERROR VERRIFICATION IN POS TAGGED CORPUS MASTER THESIS (Natural language processing) Ha Noi - 2012 TIEU LUAN MOI download : skknchat@gmail.com VIETNAM NATIONAL UNIVERSITY HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY THI-THANH-TAM DO TAGSET EVALUATION AND AUTOMATICAL ERROR VERRIFICATION IN POS TAGGED CORPUS Branch of knowledge: Information technology Major: Computer science Code: 60 48 01 MASTER THESIS Supervisor: Dr. Nguyen Phuong Thai Ha Noi - 2012 ii TIEU LUAN MOI download : skknchat@gmail.com TABLE OF CONTENTS ACKNOWLEDGEMENTS. iii TABLE OF CONTENTS. iv LIST OF FIGURES.

vi LIST OF TABLES.vii NOTATIONS/ABBREVIATIONS .viii ORIGINALITY STATEMENT. 2 INTRODUCTION AND MOTIVATION. Characteristics of Vietnamese language. Vietnamese part of speech.

Criteria to classify .The ways to build up tagset. Organization of the thesis. 12 EVALUATING DISTRIBUTIONAL PROPERTIES -. 12 CONVERSION POSSIBILITY OF TAGSETS .A method for evaluating distributional properties of tagsets.

Result of tagset evaluation. 16 iv TIEU LUAN MOI download : skknchat@gmail. Possibility of Tagsets convertibility. 19 Result of tagset convertibility.

24 AUTOMATIC ERROR VERIFICATION. 24 OF POS - TAGGED CORPUS. Concept related to variation n-gram method. Types of Vietnamese tagging error.

A algorithm for detecting errors. Result of detecting errors in POS tagging. Word in Vietnamese. N-gram in word segmentation.

Result of detecting errors in word segmentation. 35 CONCLUSION AND SUMMARY. The Vietnamese treebank tagset. Syntax function tags in VTB.

Adverbial classification tag of verb in VTB. Phrase tagset in VTB. Clause tagset in VTB. 44 v TIEU LUAN MOI download : skknchat@gmail.com LIST OF FIGURES Figure 1.

The features of Vietnamese type. Purity as external evaluation criterion for cluster quality. Majority class and number of members of the majority class for the three cluster are: x,5 (cluster 1); o,4 (cluster 2); and , 3 (cluster 3). N-gram and variation nuclei in VTB corpus with n up to 29.

27 vi TIEU LUAN MOI download : skknchat@gmail.com LIST OF TABLES Table 1. The expression of grammatical meaning in Vietnamese. Corpus with VnQtag tagset annotation. Principle differences between Vietnamese and English.

Some frames is found in corpus. Result of tagset evaluation method. Some properties in tagset convertibility method in Hoangtube. Statistic ambiguous the word types in VnQtag corpus.

Statistic ambiguous the token in VnQtag corpus. Statistic detail ambiguous word types in VnQtag corppus. Statistic errors in corpus. The detail n-gram in tagged corpus.

The errors and ambiguous statistic in word segmentation algorithm. 33 Table 13: Detail of context and varitation in VTB corpus. 34 vii TIEU LUAN MOI download : skknchat@gmail.com CHAPTER 1 INTRODUCTION AND MOTIVATION 1. Characteristics of Vietnamese language Every language in the world has its own features and so has Vietnamese.

To understand more Vietnamese, we would like to list some emerging features and compare Vietnamese with some other languages such as Chinese, English.Ferlus and other domestic and international researchers in Vietnam, Vietnamese is native origin language, belongs to South Asian language, Mon-Khmer family, has relationship closely with Muong language. Besides, Vietnamese belongs to a isolating language type with three prominent features. Firstly, a syllable is foundation unit to form a word and a sentence. The syllable may be single word or be element to compose a complex word, a compound word and a reiteration word.

Secondly, the Vietnamese word is not inflectional. In particular, there are no difference between singular noun and plural noun; for example, “hai cuốn sách” (two books) and “một cuốn sách” (one book). Thirdly, grammatical meaning expresses mainly through word order and expletive method. Given some expletives such as “sẽ, đã, không” and sentence “Tôi ra ngoài”.

We can make three different meaning sentences from given input: “Tôi sẽ ra ngoài”; “tôi đã ra ngoài”;” tôi không ra ngoài”. The characteristics of Vietnamese Syllable is The grammatical foundation unit to Vietnamese word is meaning express mainly form word or not inflectional through word order and sentence expletive method Figure 1. The features of Vietnamese type In the world, some languages also belong to isolating language such as Chinese and Thai language. English, French, Russian are flexional language.

So, there are some different features, for instance comparing Vietnamese, English and Chinese sentence. 2 TIEU LUAN MOI download : skknchat@gmail. The expression of grammatical meaning in Vietnamese Vietnamese Chinese English Word order Tôi yêu anh ấy Wo ai ta I love him  Anh ấy yêu tôi  Ta ai wo  He loves me Expletive Tôi không yêu anh ấy Wo bu ai ta I do not love him Unlike Vietnamese and Chinese, in above English sentence when word order changes, object pronoun turns into personal pronoun (himhe). Vietnamese part of speech 1.

Criteria to classify In European language, POS notion glues with morphological category such as gender, numeral, mood, so on. In Vietnam, there are two idea followed:  Firstly, POS does not exist in Vietnamese because Vietnamese does not have morphological modification. (Le Quang Trinh, Nguyen Hien Le, Ho Huu Tung)  Secondly, like European language, Vietnamese has also POS but to classify words in tags, or define POS of words, it is necessary to base on certain criteria. So far, Vietnamese branch has almost agreed using criteria following ( Diep Quang Ban, Hoang Van Thung, 2010): a.

General meaning: “The meaning of a POS is the general meaning of a words group, bases on vocabulary generalization foundation to form common grammatical category generalization (lexical-grammatical category)”. POSs are suitable for definition of classification category. These are groups having giant number of words that each group has a classification feature: object, quality, action or state, so on. Therefore, nhà, bàn, chim, học sinh, con, quyển, sự, so on, are classified into nouns because their vocabulary meaning is generalized and abstracted as objects.

The grammar category belongs to noun. Combination ability: With general meaning, words can get involve to one meaningful combination: some words can replace each other in a certain position of a combination, the rest of the combination make the setting for appearing replacement ability. Followed example: nhà, bàn, chim, cát, and so on, can appear and replace each other in combination type: nhà này, chim này, cát này, etc and are classified as nouns. 3 TIEU LUAN MOI download : skknchat@gmail.

Syntax function: Participating in sentence composition, words can stand in one or some certain positions in a sentence, or can replace each other in the positions, and express one relation about syntax function with other parts in the sentence composition, can be classified into one POS. For instance, some words such as nhà, bàn, chim, cát are noun. They may be subjects in sentences in which the subject function is a syntax function to classify them into noun. The ways to build up tagset Nowadays, there are two kinds of set of POS tags have developed in which the first kind received attention much more from linguistic researchers.

The first kind bases on 8 basic POS tags that are used many in dictionaries or linguistic materials. These are: noun, verb, adjective, pronoun, adverb, conjunction, interjection, emotive word. From the 8 basic tags, some finer set of POS tags are built up. Each researcher relies on certain criteria to build up the tagset finer (criteria are discussed in the section 1.

Notably, VnQtag tagset of Tran Thi Oanh contains 14 tags; VietTreeBank consists of 17 tags; VnQtag 59 tags (see appendix). The second kind is built up by mapping a tagset from other language to Vietnamese based on association between words of two languages (Dinh Dien and Hoang Kiem 2003) 1. Copora Annotated corpora are large bodies of text with linguistically-informative mark-up. They play an important role for current work in computational linguistics, so great attention has gone into developing such corpora.

Any countries, there are their own corpora as well. Some common corpora such as: British National corpus (Leech et at, 1994), the Penn Treebank (Marcus et at, 1993), or the German NEGRA Treebank (Skut et at, 1997), the Lancaster corpus of Mandarin Chinese (Tony McEnery and Richard Xiao, 2005). In Vietnam, there are notable corpora: VnQtag, VnPos, VTB. To build a corpus, some obligatory criteria need be ensured (McEnery and Wilson, 2001, p.

 Sampling and representativeness: elements in a corpus must be general, diversified and plentiful. A sample is representative if what we find for the sample also holds for the general population. 4 TIEU LUAN MOI download : skknchat@gmail.com  Finite size: bigger the size of a corpus is, higher it is appreciated but it is still finite size.  Machine-readable form  Standard reference We must admit that it takes much time to build a large corpus by manual due to need huge linguistic knowledge.

With manually built large corpus, the quality of corpus is not surely good corpus. Therefore, our thesis will find out and improve it. Two corpora we used in our experiments are VietTreeBank and VnQtag. After that, we would like to deeper discuss about building way of the corpora.

VietTreeBank VietTreeBank is the result of a national project VLSP that is developed by VTB group (Nguyen Phuong Thai, Vu Luong, Nguyen Thi Minh Huyen and annotators). The corpus includes 142 documents belonging to a politics-society topic of the Youth news responding to 10.000 Vietnamese sentence annotated syntax (word segmentation, POS tagging, syntax structure). The group based on MEMs and CRFs machine learning model to assign POS tags. The preciseness of the model is over 93%.

VTB is developed with the purpose to aid programs building: word segmentation, POS tagging, syntax parsing, and so on. VTB group chose two criteria to classify POS: combination ability and syntactic function words. For instance, noun has role as subject or object in a sentence. Besides, noun can combine with numeral (three, four) and attribute (each, every).

One POS tag can contain information about basic class of words (noun, verb, adjective, so on), morphological information (countable or uncountable), subcategory (verb goes with noun, verb goes with a clause, etc), semantic information or other syntax information. VTB group built up the tagset just based on basic class of words without other information such as morphological information, subcategory, etc (see tagset in appendix). In addition to POS information, the group describes basic syntax elements as phrase and clause. Syntax tags are the most foundation information in syntax tree, they forms spine of the tree.

A7 and A8 in appendix list phrase and clause tagset, respectively. 5 TIEU LUAN MOI download : skknchat@gmail.com Function tag of a syntax element expresses its role in syntax element in higher level. The tags are assigned to the main elements in the sentence such as subject, predicative, object. They provide information help us identify basic grammar relationship as followed.

 Subject – Predicative  Predicative  Combination  Complement  …… Tagging process of each sentence in corpus consists of three steps: word segmentation, POS tagging, and syntactic parsing. VnQtag Building VnQtag tagset belongs to KC01 national project and is performed by development group including Nguyen Thi Minh Huyen, Vu Xuan Luong, Le Hong Phuong. The group based on a print dictionary (Vietnamese dictionary of Linguistic Institution in 2000) to carry out their work. First of all, they segmented sentences into words by a syllable otomat and a lexical otomat.

Then, they used Qtag tagger to assign POS label to Vietnamese words. The number of POS labels is 59 labels (see in appendix). In addition of grammar information, the group got adding semantic information (general meaning of word) to classify into 59 word class labels. For example, words are considered verb that they express general meaning about process.

Process meaning expresses directly in action feature of object. This is action meaning.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ