I. Tổng Quan Về Nghiên Cứu Mô Hình Kết Hợp Đổi Mới VNU
Bài toán gán nhãn từ loại (Part-of-Speech - POS Tagging) là một trong những bài toán cơ bản của xử lý ngôn ngữ tự nhiên. Nhiệm vụ của bài toán là xây dựng một mô hình kết hợp đổi mới gán nhãn từ loại sao cho từ một câu đầu vào, ta phải thu được chuỗi đầu ra với các từ đã được gán nhãn từ loại tương ứng. Trong lĩnh vực xử lý ngôn ngữ tự nhiên, gán nhãn từ loại là pha cơ bản và quan trọng được sử dụng phục vụ cho các ứng dụng khác như: Phân tích cú pháp, phân tích ngữ nghĩa, dịch máy,... Theo [1], tiếng việt là ngôn ngữ phổ biến thứ 12 trên thế giới và là ngôn ngữ chính được sử dụng tại Việt Nam với trên 85% dân số trong cả nước và gần 3 triệu Việt kiều ở nước ngoài. Sự đa dạng và phong phú của ngữ pháp tiếng Việt bản chất xuất phát từ đặc trưng cấu tạo của ngôn ngữ.
1.1. Ứng Dụng Của Mô Hình Kết Hợp Đổi Mới Trong Xử Lý Ngôn Ngữ
Khử nhập nhằng từ loại có vai trò quan trọng trong nhiều ứng dụng xử lý ngôn ngữ tự nhiên. Nếu coi quá trình xử lý ngôn ngữ tự nhiên bao gồm các bước: Tiền xử lý văn bản, phân tích hình thái, phân tích cú pháp và phân tích ngữ nghĩa thì gán nhãn từ loại thuộc vào giai đoạn đầu của pha phân tích cú pháp. Bước này có nhiệm vụ phân tích câu thành một bảng các từ (hay cụm từ) riêng biệt, đồng thời kèm theo tất cả các thông tin về từ đó, như là: Từ loại (part-of-speech), phạm trù ngữ pháp (category), các biến cách của từ, tiền tố, hậu tố của từ (nếu có) [10] [11]. Gán nhãn từ loại làm cơ sở cho nhiều ứng dụng khác như: Tổng hợp và nhận dạng tiếng nói [12]; trích rút thông tin [13] [14] [15]; phân tích cú pháp, dịch máy,…
1.2. Đại Học Quốc Gia Hà Nội và Bài Toán Gán Nhãn Từ Loại
Ở Việt Nam đã có một số nghiên cứu về bài toán gán nhãn từ loại tuy nhiên độ chính xác vẫn còn thấp hơn một số nghiên cứu trên các ngôn ngữ thông dụng khác như tiếng Anh, tiếng Trung, bên cạnh một số đặc trưng ngôn ngữ cho bài toán này cũng chưa được phân tích kỹ. Trong những năm gần đây, học máy đã và đang trở thành một phương pháp hữu hiệu trong xử lý ngôn ngữ tự nhiên. Việc tìm hiểu các phương pháp gán nhãn từ loại trong tiếng Anh cho thấy hướng tiếp cận dựa theo phương pháp học máy cho kết quả tốt hơn các phương pháp dựa trên luật. Quan sát của chúng tôi cho thấy rằng việc kết hợp học máy thống kê và phương pháp dựa trên luật sẽ tận dụng được ưu điểm của hai cách tiếp cận này.
II. Thách Thức và Vấn Đề Trong Đổi Mới Đại Học Hiện Nay
Vấn đề gán nhãn từ loại được đề cập từ cuối thập niên 60. Các bộ gán nhãn dựa trên luật ở thời kỳ đầu thường được thiết kế một cách thủ công, sau đó các luật được tích hợp thêm các yếu tố tri thức về ngôn ngữ và được thiết kế bởi các nhà ngôn ngữ học. Điển hình cho cách tiếp cận này là công cụ TAGGIT [17], được sử dụng để gán nhãn cho kho ngữ liệu Brown. Từ đó cho đến nay đã có thêm rất nhiều nỗ lực đáng kể nhằm nâng cao độ chính xác và hiệu suất tuy nhiên các kết quả đạt được của công cụ này còn khá hạn chế. Gần đây các luật được xây dựng dựa vào ngữ cảnh chứa từ đang xét nhằm loại bỏ nhập nhằng nếu từ đó có nhiều nhãn từ loại khả thi. Đại diện tiêu biểu cho phương pháp này là bộ gán nhãn từ loại cho tiếng Anh ENGTWOL [18].
2.1. Hạn Chế Của Mô Hình MEM Trong Bài Toán Gán Nhãn
Tuy nhiên, mỗi luật trên đều chứa một số lượng lớn các ngoại lệ. Thậm chí ngay cả khi tích hợp tri thức chuyên gia vào các luật để tìm cách giải quyết hết các ngoại lệ mà họ nghĩ đến thì vẫn tồn tại những trường hợp chỉ xuất hiện khi hệ thống được đưa vào thực nghiệm. Mặt khác khi lực lượng của tập luật càng lớn thì nguy cơ xảy ra hiện tượng mâu thuẫn giữa các luật là càng cao. Hơn nữa, một hệ thống luật dù rất đồ sộ cũng khó có thể bao quát được...
2.2. Chính Sách Đổi Mới và Khả Năng Ứng Dụng Thực Tế
Với tầm quan trọng và nhu cầu thực tiễn cũng như những khó khăn của bài toán gán nhãn từ loại, vì thế trong luận văn này chúng tôi chọn đề tài “Kết hợp mô hình cực đại Entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại”. Đóng góp của luận văn là việc tìm hiểu, nghiên cứu và đề xuất mô hình kết hợp phục vụ nhiệm vụ gán nhãn từ loại. Trong mô hình kết hợp, MEM đóng vai trò làm mô hình cơ sở và mô hình TBL đóng vai trò là thành phần sửa sai cho mô hình cơ sở.
III. Phương Pháp Kết Hợp Đổi Mới Cho Bài Toán Gán Nhãn
Vì vậy luận văn tập trung nghiên cứu việc kết hợp mô hình cực đại Entropy (Maximum Entropy Model - MEM) và mô hình học luật chuyển đổi (Transformation-based Learning - TBL) để giải quyết bài toán gán nhãn từ loại cho ngữ liệu Treebank cho tiếng Việt và tiếng Anh. Kết quả thực nghiệm gán nhãn từ loại trên mô hình kết hợp cho thấy độ chính xác đối với tiếng Việt là khoảng 95.12%) so với phương pháp dựa trên mô hình cực đại Entropy. Những kết quả của luận văn cho thấy rằng, việc áp dụng mô hình kết hợp cho bài toán gán nhãn từ loại đem lại hiệu quả tốt hơn đối với kho ngữ liệu chưa đầy đủ như tiếng Việt.
3.1. Quá Trình Huấn Luyện Mô Hình Kết Hợp
Chương 3: Giới thiệu mô hình kết hợp mà nhóm tác giả đề xuất cho bài toán gán nhãn từ loại. Nội dung chương cũng đề cập đề cập quá trình phân tích đặc điểm ngôn ngữ để lựa chọn mô hình biểu diễn ngữ cảnh, phân tích và trích chọn đặc trưng ngôn ngữ để xây dựng tập luật mẫu phục vụ cho quá trình học của mô hình đề xuất. Nội dung chương cũng đặt nền tảng lý thuyết cho phần cài đặt và thực nghiệm của luận văn.
3.2. Chuyển Giao Công Nghệ và Ứng Dụng Mô Hình
Thực nghiệm được tiến hành trên hai kho ngữ liệu điển hình là Penn Treebank và Viet Treebank cho thấy mô hình kết hợp đem lại kết quả khả quan đối với ngôn ngữ chưa có kho dữ liệu đầy đủ. Các kết quả này sẽ đóng góp một phần hữu ích trong việc tiến hành các nghiên cứu ở mức cao hơn như phân tích cú pháp, dịch máy, tóm tắt văn bản …
3.3. Sơ Đồ Của Giải Thuật TBL Trong Mô Hình Đổi Mới
Sơ đồ của giải thuật TBL. Mô tả các giải thuật trong mô hình. Giải thuật TBL nguyên thủy. ĐỀ XUẤT MÔ HÌNH GÁN NHÃN TỪ LOẠI. Quá trình huấn luyện mô hình kết hợp. Dữ liệu thực nghiệm. Các tham số đánh giá thực nghiệm. Phương pháp K-Fold cross-Validation.
IV. Ứng Dụng Thực Tiễn và Kết Quả Nghiên Cứu Đổi Mới
Chương 4: Thực nghiệm mô hình kết hợp cho bài toán gán nhãn từ loại tiếng Việt, tiếng Anh và đánh giá kết quả. Chương này trình bày các công việc thực nghiệm mà luận văn đã tiến hành, bao gồm việc lựa chọn tập đặc trưng và áp dụng mô hình kết hợp để giải quyết bài toán gán nhãn từ loại. Từ kết quả thực nghiệm, tiến hành đối chiếu, so sánh và đưa ra một số nhận xét về ưu, nhược điểm của mô hình kết hợp đối với bài toán gán nhãn từ loại so với mô hình cơ sở và với một số mô hình sẵn có.
4.1. Đánh Giá Hiệu Quả Mô Hình Kết Hợp Đổi Mới
Phần kết luận cũng tóm lược các kết quả đã đạt được và đóng góp của luận văn, đồng thời định hướng một số hướng nghiên cứu trong thời gian tới. TỔNG QUAN VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI. 1. Bài toán gán nhãn từ loại Ngôn ngữ tự nhiên thường hàm chứa sự nhập nhằng ở nhiều mức khác nhau. Nhập nhằng từ loại là một trong những bài toán điển hình, một từ có thể có nhiều từ loại và ngược lại.
4.2. Tác Động Kinh Tế Xã Hội Của Nghiên Cứu
Từ loại chính xác của một từ trong một ngôn ngữ nhất định thường phụ thuộc vào hai yếu tố: Ngữ cảnh xuất hiện của từ đó và từ vị của từ. Chúng ta hãy xem xét các ví dụ sau: 1. Những câu trên đều có hơn một nghĩa mà nguyên nhân chính đều xuất phát từ hiện tượng nhập nhằng từ loại nên muốn xác định được nghĩa đúng của câu trước hết ta cần xác định chính xác từ loại của các từ. Ví dụ ở câu 1, từ “keep” và từ “book” có thể là danh từ hoặc động từ; “on” có thể là giới từ, trạng từ hoặc tính từ. Tương tự trong câu 2, từ “già” khi ghép với từ “đi” có thể là động từ, danh từ khi ghép với từ “Ông”.
V. Hệ Sinh Thái Đổi Mới và Liên Kết Doanh Nghiệp VNU
Trong hầu hết các trường hợp nhập nhằng từ loại có thể được giải quyết bằng cách xem xét ngữ cảnh xung quanh từ cần gán nhãn. Cho ta thấy chi tiết sự nhập nhằng từ loại trong câu tiếng Anh với 8 từ loại cơ bản. Hình chữ nhật có viền nét đơn chứa nhãn đúng của từ không có sự nhập nhằng về từ loại (từ chỉ có một từ loại). Ngược lại, hình chữ nhật với viền đôi là nhãn đúng và các nhãn có thể có của các từ tương ứng. N DET N ADV DET ADJ N . V ADJ V N P Hình 1-1: Nhập nhằng từ loại trong câu Tiếng Anh với 8 nhãn cơ bản Gán nhãn từ loại là việc xác định từ loại đúng của mỗi từ trong câu, tức là xác định một từ loại chính xác của từ dựa vào ngữ cảnh tồn tại và hình vị của từ đó [2], 2 [3].
5.1. Mô Hình Hợp Tác Trường Đại Học Doanh Nghiệp
Về cơ bản, gán nhãn từ loại thường được thể hiện bằng cách gán cho mỗi từ trong câu một “nhãn” trong tập nhãn từ loại cho trước. 3 Bài toán có thể được mô tả như sau: ✓ Input: Một câu và tập nhãn từ loại (Ví dụ như chuỗi các từ “Cô ấy cho tôi một quả cam.) ✓ Output: Một nhãn tốt nhất cho từng từ trong câu đã được đưa ra (Ví dụ: đối với câu “Cô ấy cho tôi một quả cam.”, thì nhãn thích hợp tương ứng cho từng từ sẽ là Cô/N ấy/P cho/E tôi/P một/M quả/N cam/N .)
5.2. Khởi Nghiệp Đại Học và Vườn Ươm Doanh Nghiệp
Trong lý thuyết xác suất thống kê, bài toán gán nhãn từ loại có thể được định nghĩa như sau: Cho một chuỗi bao gồm tập hợp các từ W=w1 … wn, ta cần tìm một chuỗi các từ loại tương ứng T=t1 … tn, tập từ loại {T} thỏa mãn tính chất: S = argmax P(t1.tn Theo [4], quá trình gán nhãn từ loại có thể chia làm 3 bước: + Bước 1. Tùy theo đặc trưng và quan niệm về từ vị của ngôn ngữ sẽ quy định cách thức thực hiện đối với giai đoạn này. Chẳng hạn đối với ngôn ngữ biến hình, việc phân tách từ thường dựa vào các ký hiệu trắng. Tuy nhiên trên thực tế, vẫn có những từ ghép hay những cụm từ gây ra tranh cãi nhất định về cách phân tách.
VI. Kết Luận và Hướng Phát Triển Đổi Mới Sáng Tạo VNU
Trong khi đó với các ngôn ngữ không biến hình như tiếng Việt thì dấu trắng càng không phải là dấu hiệu để xác định ranh giới các đơn vị từ vựng do tần số xuất hiện từ ghép khá cao. Với bài toán gán nhãn từ loại được xem xét trong luận văn thì chúng tôi giả sử bước này đã được thực hiện “đúng”. Gán nhãn tiên nghiệm, tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có thể có. Tập nhãn này có thể thu được từ cơ sở dữ liệu từ điển hoặc kho văn bản đã gán nhãn bằng tay. Đối với một từ mới chưa xuất hiện trong cơ sở ngữ liệu thì có thể dùng một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn.
6.1. Phát Triển Bền Vững và Quản Trị Đại Học
Trong các ngôn ngữ biến đổi hình thái người ta cũng dựa vào hình thái từ để đoán nhận lớp từ loại tương ứng của từ đang xét. Quyết định kết quả gán nhãn, đó là giai đoạn loại bỏ nhập nhằng, tức là 4 lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn tiên nghiệm. Có nhiều phương pháp để thực hiện việc này, trong đó người ta phân biệt chủ yếu các phương pháp dựa vào quy tắc ngữ pháp mà đại diện nổi bật là phương pháp Brill [5] và các phương pháp xác suất [6]. Ngoài ra còn có các hệ thống sử dụng mạng nơ-ron 5 [7], các hệ thống lai sử dụng kết hợp tính toán xác suất và ràng buộc ngữ pháp [8], gán nhãn nhiều tầng [9].
6.2. Sở Hữu Trí Tuệ và Tài Trợ Nghiên Cứu
Vấn đề cần giải quyết trong bài toán gán nhãn từ loại chính là hiện tượng nhập nhằng từ loại, tức là một từ có nhiều nhãn từ loại tiềm năng. Tuy nhiên hầu hết các từ thường chỉ nhận một từ loại nhất định trong ngữ cảnh cụ thể. Đôi khi, ngay cả khi có thông tin ngữ cảnh của một số từ nhưng vẫn tiềm tàng yếu tố nhập nhằng khi đó người ta cần xét đến yếu tố khác như: ngữ cảnh ngoài của câu, hình vị, nguồn gốc,…