Mô Hình Tách Từ và Gán Nhãn Từ Loại Tích Hợp Cho Tiếng Việt

Luận văn thạc sĩ nghiên cứu vnu uet mô hình tách từ gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng việt, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện pháp hoàn thiện

Trường đại học

luận văn chat luong

Chuyên ngành

master thesis

Người đăng

Ẩn danh

Thể loại

thesis

2008

Phí lưu trữ

30 Point

Mục lục chi tiết

MỞ ĐẦU

1. CHƯƠNG 1: KHÁI QUÁT VỀ TÁCH TỪ VÀ GÁN NHÃN TỪ LOẠI TIẾNG VIỆT

1.1. Khái quát về tách từ tiếng Việt

1.2. Khái quát về gán nhãn từ loại - POS tagging

1.2.1. Giới thiệu về bài toán gán nhãn từ loại

1.2.2. Các hướng tiếp cận bài toán POS tagging

1.2.3. Các nghiên cứu gán nhãn từ loại cho tiếng Việt

1.2.4. Vấn đề tích hợp tách từ và gán nhãn từ loại

2. CHƯƠNG 2: MỘT MÔ HÌNH TÁCH TỪ TIẾNG VIỆT

2.1. Các mô hình liên quan

2.1.1. Mô hình dựa vào từ điển

2.1.2. Mô hình nhận dạng tên thực thể - Named Entity Recognition

2.1.3. Mô hình N-gram

2.2. Phân tích các mô hình

2.3. Thiết kế tập đặc trưng

2.3.1. FS1: Đặc trưng trích từ mô hình tách từ dựa vào từ điển

2.3.2. FS2: Đặc trưng dựa vào mô hình nhận dạng tên thực thể

2.3.3. FS3: Đặc trưng dựa vào mô hình N-gram

2.4. Kết quả thực nghiệm

2.4.1. Đánh giá các đặc trưng FS1 và FS2 so với các mô hình trước đó

2.4.2. Đánh giá tầm quan trọng của từng tập thuộc tính

2.5. Đánh giá kết quả tách từ

3. CHƯƠNG 3: MỘT MÔ HÌNH GÁN NHÃN TỪ LOẠI TIẾNG VIỆT

3.1. Xây dựng corpus gán nhãn từ loại cho tiếng Việt

3.1.1. Thiết kế tập thẻ VnPOSTag

3.1.2. Mô tả bộ dữ liệu làm vnPOS corpus

3.1.3. Xây dựng vnPOS corpus

3.2. Gán nhãn từ loại bằng phương pháp Maximum Entropy Model

3.2.1. Mô hình xác suất

3.2.2. Các đặc trưng của gán nhãn từ loại

3.2.3. Đề xuất mô hình gán nhãn từ loại cho tiếng Việt

3.2.3.1. Gán nhãn từ loại dựa vào thông tin từ

3.2.3.2. Gán nhãn từ loại dựa vào hình vị

3.2.4. Đánh giá kết quả gán nhãn từ loại

4. CHƯƠNG 4: MỘT MÔ HÌNH TÍCH HỢP TÁCH TỪ VÀ GÁN NHÃN TỪ LOẠI TIẾNG VIỆT

4.1. Các mô hình tích hợp cho tiếng Trung

4.2. Lựa chọn mô hình tích hợp cho tiếng Việt

4.3. Xây dựng mô hình và tiến hành thực nghiệm

Phụ lục A: Chú giải tập từ loại vnPOS

Danh sách hình vẽ

Danh sách bảng

Tóm tắt

I. Tổng quan về mô hình tách từ và gán nhãn từ loại tiếng Việt

Mô hình tách từ và gán nhãn từ loại là hai vấn đề quan trọng trong xử lý ngôn ngữ tự nhiên, đặc biệt là đối với tiếng Việt. Việc tách từ giúp xác định các đơn vị từ vựng, trong khi gán nhãn từ loại phân loại các từ vào các nhóm ngữ pháp khác nhau. Nghiên cứu này nhằm tìm hiểu và phát triển một mô hình tích hợp cho hai bài toán này, từ đó nâng cao hiệu quả trong các ứng dụng như dịch máy và phân tích cú pháp.

1.1. Khái quát về tách từ tiếng Việt

Tách từ trong tiếng Việt gặp nhiều khó khăn do ngôn ngữ này không có dấu cách giữa các từ. Các phương pháp tách từ hiện tại chủ yếu dựa vào từ điển và thống kê. Nghiên cứu đã chỉ ra rằng việc áp dụng mô hình N-gram có thể cải thiện độ chính xác của quá trình tách từ.

1.2. Khái quát về gán nhãn từ loại POS tagging

Gán nhãn từ loại là quá trình xác định loại từ cho mỗi từ trong văn bản. Các phương pháp gán nhãn hiện tại bao gồm gán nhãn dựa trên luật và xác suất. Tuy nhiên, việc áp dụng cho tiếng Việt vẫn còn nhiều thách thức do sự khác biệt về hình thái và ngữ pháp.

II. Vấn đề và thách thức trong tách từ và gán nhãn từ loại

Mặc dù có nhiều nghiên cứu về tách từ và gán nhãn từ loại, nhưng vẫn tồn tại nhiều thách thức. Đặc biệt, việc phát hiện từ mới và xử lý các trường hợp nhập nhằng là những vấn đề cần được giải quyết. Các nghiên cứu hiện tại chưa đủ để đáp ứng nhu cầu thực tiễn trong xử lý ngôn ngữ tự nhiên.

2.1. Thách thức trong tách từ tiếng Việt

Tách từ tiếng Việt gặp khó khăn do không có dấu cách giữa các từ. Các phương pháp hiện tại thường không đủ hiệu quả trong việc phát hiện từ mới và xử lý các trường hợp nhập nhằng.

2.2. Thách thức trong gán nhãn từ loại

Gán nhãn từ loại cho tiếng Việt vẫn còn là một thách thức lớn. Các phương pháp hiện tại thường không đạt được độ chính xác cao do sự khác biệt về ngữ pháp và hình thái giữa tiếng Việt và các ngôn ngữ khác.

III. Phương pháp tích hợp tách từ và gán nhãn từ loại hiệu quả

Để nâng cao hiệu quả của cả hai bài toán, nghiên cứu đề xuất một mô hình tích hợp. Mô hình này kết hợp thông tin từ điển, thống kê và ngữ cảnh để cải thiện độ chính xác trong tách từ và gán nhãn từ loại. Việc áp dụng các mô hình học máy cũng được xem xét để tối ưu hóa quy trình.

3.1. Mô hình tách từ dựa trên từ điển

Mô hình tách từ dựa trên từ điển sử dụng thông tin từ điển để xác định các đơn vị từ. Phương pháp này đơn giản nhưng thường không đủ hiệu quả trong việc phát hiện từ mới.

3.2. Mô hình gán nhãn từ loại sử dụng Maximum Entropy

Mô hình gán nhãn từ loại sử dụng Maximum Entropy Model (MEM) cho phép xác định loại từ dựa trên ngữ cảnh. Phương pháp này đã cho thấy hiệu quả cao trong các nghiên cứu trước đây.

IV. Ứng dụng thực tiễn của mô hình tích hợp tách từ và gán nhãn từ loại

Mô hình tích hợp tách từ và gán nhãn từ loại có thể được áp dụng trong nhiều lĩnh vực như dịch máy, phân tích cú pháp và tóm tắt văn bản. Việc cải thiện độ chính xác trong các ứng dụng này sẽ mang lại giá trị lớn cho người dùng và các nhà nghiên cứu.

4.1. Ứng dụng trong dịch máy

Mô hình tích hợp giúp cải thiện độ chính xác trong dịch máy, từ đó nâng cao chất lượng bản dịch. Việc tách từ và gán nhãn từ loại chính xác sẽ giúp máy tính hiểu rõ hơn về ngữ nghĩa của văn bản.

4.2. Ứng dụng trong phân tích cú pháp

Mô hình này cũng có thể được áp dụng trong phân tích cú pháp, giúp xác định cấu trúc ngữ pháp của câu. Điều này rất quan trọng trong việc phát triển các ứng dụng xử lý ngôn ngữ tự nhiên.

V. Kết luận và tương lai của mô hình tách từ và gán nhãn từ loại

Mô hình tách từ và gán nhãn từ loại tích hợp cho tiếng Việt đang mở ra nhiều cơ hội nghiên cứu mới. Việc tiếp tục phát triển và hoàn thiện mô hình sẽ giúp nâng cao hiệu quả trong xử lý ngôn ngữ tự nhiên. Tương lai của nghiên cứu này hứa hẹn sẽ mang lại nhiều ứng dụng thực tiễn và giá trị cho cộng đồng.

5.1. Tương lai của nghiên cứu tách từ

Nghiên cứu tách từ sẽ tiếp tục được phát triển với sự hỗ trợ của công nghệ AI và học máy. Điều này sẽ giúp cải thiện độ chính xác và khả năng phát hiện từ mới.

5.2. Tương lai của nghiên cứu gán nhãn từ loại

Nghiên cứu gán nhãn từ loại sẽ tiếp tục được mở rộng với các phương pháp mới. Việc áp dụng các mô hình học sâu có thể mang lại những bước tiến lớn trong lĩnh vực này.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet mô hình tách từ gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng việt

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1. KHÁI QUÁT VỀ TÁCH TỪ VÀ GÁN NHÃN TỪ LOẠI TIẾNG VIỆT 1.1 Khái quát về tách từ tiếng Việt Tiếng Việt là một ngôn ngữ đơn lập, không biến hình, các ký tự dựa trên hệ chữ cái Latin. Cũng giống một số tiếng khác như tiếng Trung, tiếng Nhật, tiếng Hàn thì từ trong tiếng Việt không được xác định bởi khoảng trắng. Một từ tiếng Việt có thể được tạo bởi một hoặc nhiều hình vị và mỗi hình vị phân tách nhau bởi các khoảng trắng.

Từ là đơn vị cơ bản để phân tích cấu trúc của ngôn ngữ, do vậy để tiến tới những ứng dụng xa hơn về xử lý ngôn ngữ tiếng Việt như gán nhãn chức năng từ loại, phân tích cú pháp thì việc đầu tiên ta phải giải quyết bài toán tách từ. Các nhà nghiên cứu đã đề xuất một số hướng tiếp cận để giải bài toán tách từ [11, 14, 16, 20, 23, 25, 27]. Nhìn chung, các hướng tiếp cận đó được chia thành 2 loại: tiếp cận dựa trên từ điển và tiếp cận dựa trên thống kê. Hai phương pháp tiêu biểu của hướng tiếp cận dựa vào từ điển là Longest Matching và Maximal Matching.

Hầu hết những nghiên cứu ban đầu về tách từ đều dựa trên cách tiếp cận này như trong [25, 29]. Hướng tiếp cận này có đặc điểm là đơn giản, dễ hiểu tuy nhiên hiệu quả mang lại không cao. Lý do là bởi nó không xử lý được rất nhiều trường hợp nhập nhằng cũng như không có khả năng phát hiện từ mới trong văn bản. Chính vì vậy mà các hệ thống tách từ có chất lượng cao hiện nay thường sử dụng hướng tiếp cận dựa trên thống kê.

Ví dụ, đối với tiếng Trung thì có các nghiên cứu liên quan [14, 27], tiếng Thái [25], cũng như tiếng Việt [12, 23]. Cụ thể, đối với tiếng Việt thì tác giả Lê An Hà[16] đã xây dựng corpus xấp xỉ 10 triệu hình vị và sử dụng thông tin N-gram để tối ưu tổng các xác suất tách cho mỗi phân cụm (chunk). Kết quả thực nghiệm tuy không cao nhưng cũng đã cho thấy N-gram sẽ trở nên hữu ích nếu ta biết cách sử dụng thông tin này khi liên kết với các nguồn thông tin khác. Hiện nay, rất nhiều hệ thống tách từ phổ biến sử dụng hướng tiếp cận lai.

Ví dụ, nhóm tác giả Cẩm Tú [23] đã nghiên cứu ứng dụng các mô hình CRF và SVM để tách 1 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 2 từ tiếng Việt. Hoặc như nhóm tác giả Đinh Điền [12] đã sử dụng mô hình MEM sử dụng giải thuật tối ưu GIS để huấn luyện bộ tách trên corpus gán nhãn. Trong nghiên cứu đó, tác giả đã phân tách hai quá trình nhận dạng từ mới (unknown word recognition) và tách từ đã biết (known word segmentation) như hai tiến trình độc lập nhau. Tuy nhiên, nhiều nghiên cứu đã cho thấy rằng hai tiến trình này nên được tiến hành đồng thời để nâng cao độ chính xác.

Một ví dụ điển hình của hướng tiếp cận như vậy cho tiếng Trung được J.Gao đề cập trong [14]. Trong các phương pháp lai, các tác giả đã tận dụng thông tin từ điển và một số thông tin khác nhằm phát hiện tên thực thể. Tuy nhiên, trong các nghiên cứu đó đều chưa quan tâm thích đáng tới việc đánh giá ảnh hưởng của từng nguồn tri thức và đặc biệt là chưa có những nghiên cứu để phát hiện từ mới (không chỉ là tên thực thể và các dạng factoid). Nghiên cứu các phương pháp phát hiện từ mới ta thấy thông tin Ngram đóng vai trò hữu ích giúp ta phát hiện từ mới khi mà corpus thống kê đủ lớn và xác định được độ đo phù hợp.

Câu hỏi đặt ra là làm cách nào để tận dụng được tất cả các nguồn tri thức đó. Đây cũng chính là động lực cho luận văn này.2 Khái quát về gán nhãn từ loại - POS tagging 1.1 Giới thiệu về bài toán gán nhãn từ loại Gãn nhãn từ loại là một công việc quan trọng và bắt buộc phải có đối với hầu hết các ứng dụng xử lý ngôn ngữ tự nhiên. Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó, tức là phân loại các từ vào các lớp từ loại của ngôn ngữ đó: • Input: Một chuỗi các từ và tập nhãn từ loại (Ví dụ đối với tiếng Anh: “Book that flight.”, và tập thẻ Penn Treebank) • Output: Một nhãn tốt nhất cho từng từ trong câu (Ví dụ: Book/VB that/DT flight/NN .) Quá trình gán nhãn từ loại có thể chia làm 3 bước như sau: 1. Giai đoạn tiền xử lý: Phân tách xâu ký tự thành chuỗi các từ.

Giai đoạn này có thể đơn giản hay phức tạp tuỳ theo ngôn ngữ và quan niệm về đơn vị từ vựng. 2 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3 Chẳng hạn đối với tiếng Anh hay tiếng Pháp, việc phân tách từ phần lớn là dựa vào các ký hiệu trắng. Tuy nhiên vẫn có những từ ghép hay những cụm từ gây tranh cãi về cách xử lý. Trong khi đó với tiếng Việt thì dấu trắng càng không phải là dấu hiệu để xác định ranh giới các đơn vị từ vựng do tần số xuất hiện từ ghép rất cao.

Khởi tạo gán nhãn: Tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có thể có. Tập nhãn này có thể thu được từ cơ sở dữ liệu từ điển hoặc kho ngữ liệu đã gán nhãn bằng tay. Đối với một từ mới chưa xuất hiện trong cơ sở ngữ liệu thì có thể dùng một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn. Trong các ngôn ngữ biến đổi hình thái người ta cũng dựa vào hình thái từ để đoán nhận lớp từ loại tương ứng của từ đang xét.

Quyết định kết quả gán nhãn: Đó là giai đoạn loại bỏ nhập nhằng, tức là lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn khởi tạo nói trên. Có nhiều phương pháp để thực hiện việc này, trong đó người ta phân biệt chủ yếu các phương pháp dựa vào quy tắc ngữ pháp mà đại diện nổi bật là phương pháp Brill và các phương pháp xác suất. Ngoài ra còn có các hệ thống sử dụng mạng nơ-ron, các hệ thống lai sử dụng kết hợp tính toán xác suất và ràng buộc ngữ pháp, gán nhãn nhiều tầng,. Việc gán nhãn từ loại đã được quan tâm từ rất sớm, cùng với nó là sự xuất hiện của rất nhiều phương pháp giải quyết.

Tới nay, các phương pháp mới vẫn đang tiếp tục được nghiên cứu nhằm hoàn thiện hơn nữa các kết quả đã đạt được. Hiện nay, bài toán gán nhãn từ loại cho tiếng Anh đã được giải quyết khá tốt, đạt độ chính xác khá cao tầm 97% [15]. Bên cạnh việc hoàn thiện hơn nữa các bộ gán nhãn đã có, ngày càng nhiều bộ gán nhãn mới ra đời, đem lại kết quả gần như tối ưu. Tuy nhiên, đối với các ngôn ngữ khác, đặc biệt là các ngôn ngữ tượng hình (như tiếng Trung Quốc, Nhật, Hàn Quốc .), các ngôn ngữ của Ấn Độ, Thái Lan, A Rập, Nga cũng như đối với tiếng Việt thì bài toán gán nhãn từ loại vẫn còn là một thách thức lớn.

Các phương pháp và công cụ đã được xây dựng gần như hoàn thiện cho Tiếng Anh khi đem áp dụng cho các ngôn ngữ khác loại trên thường đưa lại kết quả thấp [17]. Như vậy, yêu cầu đặt ra với từng ngôn ngữ là phải kế thừa, tận dụng được các phương pháp sẵn có, tiến hành hiệu chỉnh hoặc đề xuất ra các hướng tiếp cận mới sao cho phù hợp với các đặc điểm riêng biệt của từng ngôn ngữ. 3 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.2 Các hướng tiếp cận bài toán POS tagging Theo [18], hầu hết các thuật toán gán nhãn từ loại rơi vào một trong hai lớp: gán nhãn dựa trên luật (rule-based taggers) hoặc bộ gán nhãn xác suất (stochastic taggers). Các bộ gán nhãn dựa trên luật thường liên quan tới một cơ sở dữ liệu lớn các luật được viết bằng tay.

Ví dụ một từ nhập nhằng đang xét có xu hướng là một danh từ hơn là một động từ nếu nó đi sau một từ chỉ định. Phần tiếp sau sẽ mô tả một bộ gán nhãn dựa trên luật mẫu, ENGTWOL, dựa trên kiến trúc cú pháp ràng buộc của Karlson năm 1995. Bộ gán nhãn xác suất thường giải quyết nhập nhằng bằng cách sử dụng một corpus huấn luyện để tính toán xác suất của một từ cho sẵn sẽ được gán một thẻ nào đó trong ngữ cảnh cho trước. Phần sau sẽ mô tả một bộ gán nhãn HMM (HMM Tagger), hay còn được gọi là Maximum Likelihood Tagger cũng dựa trên mô hình Markov ẩn.

Ngoài ra còn có các hướng tiếp cận khác gồm bộ gán nhãn dựa trên chuyển đổi transformation-based tagger hoặc bộ gán nhãn Brill (Brill tagger). Bộ gán nhãn Brill sẽ sử dụng các đặc tính của cả 2 kiến trúc gán nhãn trên. Giống như bộ gán nhãn dựa trên luật, nó dựa vào luật để xác định khi một từ nhập nhằng thì nó có khả năng là một thẻ nào nhất. Giống như bộ gán nhãn xác suất, nó có một thành phần học máy để tạo ra các luật một cách tự động từ một corpus huấn luyện đã được gán nhãn trước.

Tuy nhiên, trong phạm vi luận văn này chúng tôi không trình bày cụ thể việc nghiên cứu 2 phương pháp này (xem thêm trong [18]). Gán nhãn chức năng cú pháp dựa trên luật Các thuật toán ban đầu về gán nhãn tự động từ loại thường gồm hai giai đoạn. Giai đoạn một nó sử dụng một từ điển để gán cho mỗi từ một danh sách các từ loại có thể có. Giai đoạn 2 nó sử dụng một danh sách gồm tập các luật không có nhập nhằng thường được soạn bằng tay để gán cho mỗi từ chỉ một từ loại phù hợp nhất.

Một bộ gán nhãn điển hình theo tiếp cận này cho tiếng Anh là bộ gán nhãn EN- GTWOL[19]. Giai đoạn 1 sử dụng bộ phân tích hình vị 2 mức, và giai đoạn 2 dựa vào ∼1100 luật soạn bằng tay để loại bỏ nhập nhằng của từ. Ví dụ, ta có câu đầu vào là: He had a book. Sau bước 1 thì phân tích đầu ra là: • he he/pronoun 4 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

xử lý ngôn ngữ tiếng Việt

Học máy và mô hình thống kê

Phân tích hình thái từ vựng

Mô Hình Tách Từ và Gán Nhãn Từ Loại Tích Hợp Cho Tiếng Việt

MỞ ĐẦU

1. CHƯƠNG 1: KHÁI QUÁT VỀ TÁCH TỪ VÀ GÁN NHÃN TỪ LOẠI TIẾNG VIỆT

1.1. Khái quát về tách từ tiếng Việt

1.2. Khái quát về gán nhãn từ loại - POS tagging

1.2.1. Giới thiệu về bài toán gán nhãn từ loại

1.2.2. Các hướng tiếp cận bài toán POS tagging

1.2.3. Các nghiên cứu gán nhãn từ loại cho tiếng Việt

1.2.4. Vấn đề tích hợp tách từ và gán nhãn từ loại

2. CHƯƠNG 2: MỘT MÔ HÌNH TÁCH TỪ TIẾNG VIỆT

2.1. Các mô hình liên quan

2.1.1. Mô hình dựa vào từ điển

2.1.2. Mô hình nhận dạng tên thực thể - Named Entity Recognition

2.1.3. Mô hình N-gram

2.2. Phân tích các mô hình

2.3. Thiết kế tập đặc trưng

2.3.1. FS1: Đặc trưng trích từ mô hình tách từ dựa vào từ điển

2.3.2. FS2: Đặc trưng dựa vào mô hình nhận dạng tên thực thể

2.3.3. FS3: Đặc trưng dựa vào mô hình N-gram

2.4. Kết quả thực nghiệm

2.4.1. Đánh giá các đặc trưng FS1 và FS2 so với các mô hình trước đó

2.4.2. Đánh giá tầm quan trọng của từng tập thuộc tính

2.5. Đánh giá kết quả tách từ

3. CHƯƠNG 3: MỘT MÔ HÌNH GÁN NHÃN TỪ LOẠI TIẾNG VIỆT

3.1. Xây dựng corpus gán nhãn từ loại cho tiếng Việt

3.1.1. Thiết kế tập thẻ VnPOSTag

3.1.2. Mô tả bộ dữ liệu làm vnPOS corpus

3.1.3. Xây dựng vnPOS corpus

3.2. Gán nhãn từ loại bằng phương pháp Maximum Entropy Model

3.2.1. Mô hình xác suất

3.2.2. Các đặc trưng của gán nhãn từ loại

3.2.3. Đề xuất mô hình gán nhãn từ loại cho tiếng Việt

3.2.3.1. Gán nhãn từ loại dựa vào thông tin từ

3.2.3.2. Gán nhãn từ loại dựa vào hình vị

3.2.4. Đánh giá kết quả gán nhãn từ loại

4. CHƯƠNG 4: MỘT MÔ HÌNH TÍCH HỢP TÁCH TỪ VÀ GÁN NHÃN TỪ LOẠI TIẾNG VIỆT

4.1. Các mô hình tích hợp cho tiếng Trung

4.2. Lựa chọn mô hình tích hợp cho tiếng Việt

4.3. Xây dựng mô hình và tiến hành thực nghiệm

Phụ lục A: Chú giải tập từ loại vnPOS

Danh sách hình vẽ

Danh sách bảng

I. Tổng quan về mô hình tách từ và gán nhãn từ loại tiếng Việt

1.1. Khái quát về tách từ tiếng Việt

1.2. Khái quát về gán nhãn từ loại POS tagging

II. Vấn đề và thách thức trong tách từ và gán nhãn từ loại

2.1. Thách thức trong tách từ tiếng Việt

2.2. Thách thức trong gán nhãn từ loại

III. Phương pháp tích hợp tách từ và gán nhãn từ loại hiệu quả

3.1. Mô hình tách từ dựa trên từ điển

3.2. Mô hình gán nhãn từ loại sử dụng Maximum Entropy

IV. Ứng dụng thực tiễn của mô hình tích hợp tách từ và gán nhãn từ loại

4.1. Ứng dụng trong dịch máy

4.2. Ứng dụng trong phân tích cú pháp

V. Kết luận và tương lai của mô hình tách từ và gán nhãn từ loại

5.1. Tương lai của nghiên cứu tách từ

5.2. Tương lai của nghiên cứu gán nhãn từ loại

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Trần Thị Oanh

Người hướng dẫn: TS. Lê Anh Cường

Trường học: luận văn chat luong

Chuyên ngành: master thesis

Đề tài: Mô Hình Tách Từ và Gán Nhãn Từ Loại Tích Hợp Cho Tiếng Việt

Loại tài liệu: thesis

Năm xuất bản: 2008

Địa điểm: hà nội

Có thể bạn quan tâm