Luận án tiến sĩ nghiên cứu việc xây dựng chuẩn hóa và khai thác kho ngữ liệu từ nguồn internet cho xử lý tiếng việt

Luận án tiến sĩ kỹ thuật phân tích nghiên cứu việc xây dựng chuẩn hóa và khai thác kho ngữ liệu từ nguồn internet cho xử lý tiếng việt, xây dựng cơ sở lý luận, kiểm chứng thực

Trường đại học

Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành

Truyền dữ liệu và mạng máy tính

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

2014

151

Phí lưu trữ

45 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỤC LỤC

1. CHƯƠNG 1: TỔNG QUAN VỀ KHO NGỮ LIỆU

1.1. Kho ngữ liệu văn bản

1.2. Xây dựng, chuẩn hóa và khai thác kho ngữ liệu

1.2.1. Thu thập kho ngữ liệu văn bản

1.2.2. Chú giải ngôn ngữ và vấn đề chuẩn hóa

1.2.3. Khai thác kho ngữ liệu

1.3. Kho ngữ liệu tiếng Việt

1.4. Các vấn đề được nghiên cứu trong luận án

1.5. Kết chương

2. CHƯƠNG 2: XÂY DỰNG KHO NGỮ LIỆU THÔ TỪ INTERNET

2.1. Xây dựng kho ngữ liệu thô tiếng Việt

2.1.1. Lựa chọn danh sách từ hạt giống

2.1.2. Thu thập địa chỉ URL

2.1.3. Lọc nội dung chính của các trang web (URLs)

2.1.4. Phát hiện sự trùng lặp gần nhau

2.1.5. Xây dựng công cụ và kết quả thu thập kho ngữ liệu

2.2. Kết chương

3. CHƯƠNG 3: CHUẨN HÓA MÔ HÌNH CHÚ GIẢI TIẾNG VIỆT

3.1. Mô hình MAF của ISO/TC 37/SC 4

3.2. Mô hình SynAF của ISO/TC 37/SC 4

3.3. Chuẩn hóa theo mô hình MAF cho tiếng Việt

3.3.1. Xác định đơn vị cơ sở (segment)

3.3.2. Hình thái từ (Wordform)

3.3.3. Nội dung hình thái cú pháp

3.4. Chuẩn hóa theo mô hình SynAF cho tiếng Việt

3.5. Kết chương

4. CHƯƠNG 4: KHAI THÁC KHO NGỮ LIỆU THÔ CHO NGHIÊN CỨU TỪ VỰNG TIẾNG VIỆT

4.1. Nghiên cứu từ vựng

4.2. Xây dựng ngữ liệu tiếng Việt cho Sketch Engine

4.2.1. Tách từ và gán nhãn từ loại

4.2.2. Xây dựng bộ quan hệ ngữ pháp tiếng Việt

4.2.3. Triển khai hệ thống Sketch Engine cho tiếng Việt

4.2.4. Đánh giá bộ quan hệ ngữ pháp tiếng Việt

4.3. Kết chương

5. CHƯƠNG 5: KHAI THÁC KHO NGỮ LIỆU CÓ CHÚ GIẢI CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT

5.1. Văn phạm hình thức

5.1.1. Khái niệm chung về văn phạm

5.1.2. Văn phạm phi ngữ cảnh (Context Free Grammar - CFG)

5.1.3. Văn phạm kết nối cây (Tree Adjoining Grammar – TAG)

5.2. Trích rút tự động văn phạm CFG cho tiếng Việt

5.2.1. Thuật toán trích rút từ VietTreebank

5.2.2. Phân tích cú pháp tiếng Việt với văn phạm PCFG

5.2.3. Thử nghiệm và đánh giá

5.2.4. Nhược điểm của văn phạm PCFG trong phân tích ngữ pháp

5.3. Trích rút tự động văn phạm LTAG cho tiếng Việt

5.3.1. Thuật toán trích rút từ VietTreebank

5.3.2. Xây dựng thuật toán trích rút từ từ điển tiếng Việt

5.3.3. So sánh, đánh giá tập cây khởi tạo trích rút từ VietTreebank và từ điển

5.4. Kết chương

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA NGHIÊN CỨU SINH LIÊN QUAN ĐẾN LUẬN ÁN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về kho ngữ liệu

Chương này giới thiệu khái niệm về kho ngữ liệu và các phương pháp xây dựng, chuẩn hóa, khai thác kho ngữ liệu. Các kho ngữ liệu đã chú giải từ loại và cú pháp trên thế giới được trình bày, cùng với các chuẩn hóa mô hình chú giải được phát triển bởi ISO/TC 37/SC 4. Mục tiêu của luận án là xây dựng và khai thác kho ngữ liệu từ Internet cho xử lý tiếng Việt, tập trung vào các mức hình thái và cú pháp.

1.1. Khái niệm kho ngữ liệu

Kho ngữ liệu là tập hợp các văn bản được thu thập và tổ chức để phục vụ nghiên cứu ngôn ngữ học và xử lý ngôn ngữ tự nhiên (NLP). Các kho ngữ liệu có thể được chú giải ở nhiều mức độ khác nhau, từ từ loại đến cú pháp và ngữ nghĩa. Việc xây dựng kho ngữ liệu đòi hỏi quy trình thu thập, chuẩn hóa và chú giải dữ liệu một cách hệ thống.

1.2. Chuẩn hóa mô hình chú giải

Các mô hình chú giải như MAF (Morphosyntactic Annotation Framework) và SynAF (Syntactic Annotation Framework) được phát triển bởi ISO/TC 37/SC 4 nhằm chuẩn hóa quy trình chú giải ngôn ngữ. Các mô hình này giúp đảm bảo tính nhất quán và khả năng tương thích giữa các kho ngữ liệu khác nhau, đặc biệt là trong việc xử lý ngôn ngữ tự nhiên.

II. Xây dựng kho ngữ liệu thô từ Internet

Chương này tập trung vào việc xây dựng kho ngữ liệu thô tiếng Việt từ Internet. Quy trình bao gồm lựa chọn danh sách từ hạt giống, thu thập địa chỉ URL, lọc nội dung chính từ các trang web, và phát hiện sự trùng lặp. Công cụ Vncopus được phát triển để tự động hóa quá trình thu thập và xử lý dữ liệu.

2.1. Thu thập dữ liệu từ web

Quy trình thu thập dữ liệu từ Internet bao gồm việc lựa chọn các trang web phù hợp, trích xuất nội dung chính, và loại bỏ các phần không cần thiết. Các thuật toán được áp dụng để đảm bảo tính chính xác và hiệu quả trong việc thu thập dữ liệu.

2.2. Xử lý và chuẩn hóa dữ liệu

Sau khi thu thập, dữ liệu được xử lý để loại bỏ các phần trùng lặp và chuẩn hóa định dạng. Các công cụ tự động được sử dụng để gán nhãn từ loại và chuẩn bị dữ liệu cho các bước chú giải tiếp theo.

III. Chuẩn hóa mô hình chú giải tiếng Việt

Chương này nghiên cứu và triển khai các mô hình chú giải MAF và SynAF cho tiếng Việt. Các mô hình này được áp dụng để chuẩn hóa quy trình chú giải hình thái và cú pháp, đảm bảo tính nhất quán và khả năng tương thích với các kho ngữ liệu quốc tế.

3.1. Mô hình MAF cho tiếng Việt

Mô hình MAF được áp dụng để chú giải hình thái từ và cú pháp trong tiếng Việt. Quy trình bao gồm xác định đơn vị cơ sở, hình thái từ, và nội dung hình thái cú pháp. Mô hình này giúp chuẩn hóa dữ liệu ngôn ngữ và tạo điều kiện cho việc phân tích sâu hơn.

3.2. Mô hình SynAF cho tiếng Việt

Mô hình SynAF tập trung vào chú giải cú pháp, bao gồm việc xác định các quan hệ ngữ pháp và cấu trúc câu. Mô hình này được triển khai để hỗ trợ phân tích cú pháp tiếng Việt và phát triển các công cụ xử lý ngôn ngữ tự nhiên.

IV. Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng tiếng Việt

Chương này trình bày việc khai thác kho ngữ liệu thô để nghiên cứu từ vựng tiếng Việt. Hệ thống Sketch Engine được sử dụng để phân tích ngữ cảnh và hành vi của các từ, hỗ trợ nghiên cứu từ vựng và phát triển các công cụ ngôn ngữ học.

4.1. Tách từ và gán nhãn từ loại

Quy trình tách từ và gán nhãn từ loại được thực hiện để chuẩn bị dữ liệu cho việc phân tích từ vựng. Các công cụ tự động được sử dụng để đảm bảo tính chính xác và hiệu quả trong quá trình này.

4.2. Xây dựng bộ quan hệ ngữ pháp

Bộ quan hệ ngữ pháp tiếng Việt được xây dựng để hỗ trợ phân tích cú pháp và nghiên cứu từ vựng. Các quan hệ ngữ pháp được biểu diễn thông qua ngôn ngữ truy vấn, cho phép khai thác sâu hơn vào cấu trúc ngôn ngữ.

V. Khai thác kho ngữ liệu có chú giải cho phân tích cú pháp tiếng Việt

Chương này tập trung vào việc khai thác kho ngữ liệu đã chú giải cú pháp để phân tích cú pháp tiếng Việt. Các thuật toán trích rút tự động văn phạm PCFG và TAG được phát triển để hỗ trợ phân tích cú pháp và cải thiện độ chính xác của các mô hình xử lý ngôn ngữ tự nhiên.

5.1. Trích rút văn phạm PCFG

Thuật toán trích rút văn phạm PCFG từ kho ngữ liệu đã chú giải được phát triển để hỗ trợ phân tích cú pháp tiếng Việt. Các luật văn phạm được trích rút tự động và sử dụng trong các mô hình thống kê để cải thiện độ chính xác.

5.2. Trích rút văn phạm TAG

Thuật toán trích rút văn phạm TAG từ kho ngữ liệu và từ điển tiếng Việt được phát triển để hỗ trợ phân tích cú pháp. Các cây cơ bản được trích rút và so sánh để đánh giá độ chính xác và hiệu quả của các mô hình.

01/03/2025

Bạn đang xem trước tài liệu:

Luận án tiến sĩ nghiên cứu việc xây dựng chuẩn hóa và khai thác kho ngữ liệu từ nguồn internet cho xử lý tiếng việt

Tải đầy đủ

Trích đoạn nội dung tài liệu

mở đầu và kết luận, luận án được chia thành năm chương. Tổng quan về kho ngữ liệu: Trình bày khái niệm về kho ngữ liệu; Giới thiệu một số kho ngữ liệu đã chú giải từ loại và cú pháp trên thế giới, phương pháp chung cho việc xây dựng các kho ngữ liệu này. Trình bày một số chuẩn hóa mô hình chú giải được phát triển bởi tiểu ban kỹ thuật ISO/TC 37/SC 4 [114]. Trên cơ sở đó xác định mục tiêu cho việc xây dựng và khai thác kho ngữ liệu từ Internet cho tiếng Việt.

Xây dựng kho ngữ liệu thô từ Internet:Trong chương này trình bày cụ thể việc xây dựng kho ngữ liệu thô tiếng Việt từ Internet thông qua các trang Web. xvi Chương 3. Chuẩn hóa mô hình chú giải tiếng Việt: Nghiên cúu mô hình chú giải MAF và SynAF được phát triển bởi ISO/ TC 37/ SC 4, từ đó xây dựng và triển khai chuẩn hóa mô hình chú giải hình thái cú pháp (MAF) và chuẩn hóa mô hình chú giải cú pháp (VnSynAF) cho tiếng Việt. Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng tiếng Việt: Nghiên cứu hệ thống truy vấn kho ngữ liệu có tên là Sketch Engine phục vụ cho nghiên cứu từ vựng, xây dựng ngữ liệu tiếng Việt cho hệ thống Sketch Engine.

Khai thác kho ngữ liệu có chú giải cho phân tích cú pháp tiếng Việt: Trong chương này trình bày kiến thức cơ bản về văn phạm PCFG, LTAG. Trích rút tự động các luật văn phạm CFG cho tiếng Việt, trích rút tự động văn phạm LTAG cho tiếng Việt. Cuối cùng là phần kết luận và định hướng của luận án. Các chương luận án là tổng hợp nội dung các bài báo công bố các kết quả nghiên cứu được thực hiện trong luận án (chương 2 với bài báo (4, 6), chương 3 với bài báo (1), chương 4 với bài báo (4), chương 5 với bài báo (2, 3, 5)).

TỔNG QUAN VỀ KHO NGỮ LIỆU 1.1 Kho ngữ liệu văn bản Kho ngữ liệu văn bản bao gồm một tập hợp lớn các văn bản, có thể được phân tích và xử lý phục vụ nhiều công việc của ngôn ngữ học tính toán. Thông tin ngôn ngữ trong đó là cơ sở tri thức ngôn ngữ học, được sử dụng trong việc phân tích thống kê và kiểm tra các giả thiết ngôn ngữ, kiểm tra sự xuất hiện hoặc xác nhận các quy tắc ngữ pháp trong mỗi ngôn ngữ. Kho ngữ liệu có thể chứa các văn bản của một ngôn ngữ (kho ngữ liệu đơn ngữ) hoặc chứa các văn bản của nhiều ngôn ngữ (kho ngữ liệu đa ngữ). Nội dung của các kho ngữ liệu được lấy từ nhiều lĩnh vực như kinh tế, xã hội, văn hóa, kỹ thuật v.

Đa số, kho ngữ liệu có nguồn gốc từ tạp chí, báo, sách giáo khoa, báo điện tử, web….Những năm gần đây đã chứng tỏ Web là nguồn tài nguyên ngôn ngữ khổng lồ, việc thu thập dữ liệu Web lại có ưu điểm là cho phép cập nhật ngữ liệu thường xuyên, phát hiện những hiện tượng ngôn ngữ đa dạng và phong phú một cách khách quan hơn so với thu thập dữ liệu truyền thống. Phương pháp thu thập kho ngữ liệu từ web cho tiếng Anh và một số ngôn ngữ phổ biến khác đã được giới thiệu trong một số nghiên cứu [20, 24, 25, 88]. Mỗi kho ngữ liệu được xây dựng, định dạng theo tiêu chí riêng nhưng vẫn phải tuân thủ theo một số tiêu chuẩn chung. Chẳng hạn, xây dựng kho ngữ liệu cho việc nghiên cứu từ vựng và xây dựng từ điển thì kho ngữ liệu phải có kích thước càng lớn càng tốt.

Để có thể sử dụng hữu ích trong lĩnh vực thống kê, các kho ngữ liệu văn bản phải được tách từ và chú giải ngôn ngữ ở các mức: mức từ loại (POS) mức cú pháp nông hoặc đầy đủ. Các kho ngữ liệu chú giải ở mức cú pháp còn được gọi là ngân hàng cây cú pháp (treebank). Treebank - kho văn bản mà trong đó mỗi câu được chú giải cấu trúc cú pháp, thông thường dưới dạng cấu trúc cây phân cấp, là nguồn tài nguyên rất hữu ích trong lĩnh vực xử lý ngôn ngữ tự nhiên. Treebank có nhiều ứng dụng quan trọng như đánh giá, kiểm định các công cụ xử lý ngôn ngữ tự động, các phần mềm dịch 2 máy, tóm tắt văn bản, các hệ thống hỏi đáp… Các hệ thống treebank [18] cho các thứ tiếng được nghiên cứu nhiều như Anh, Pháp, Hoa… đã được xây dựng từ lâu.

Các treebank có thể được chú giải 2 dạng cấu trúc cú pháp, đó là cấu trúc phụ thuộc và cấu trúc thành phần. Các cây cú pháp thường được mã hóa theo hai cách. Cách thứ nhất đơn giản sử dụng cấu trúc dấu ngoặc, theo cách này mỗi thành phần cú pháp sẽ có một cặp dấu ngoặc bao quanh. Cách thứ hai là sử dụng lược đồ mã hóa XML (eXtended Markup Language).

Cách này đã được nghiên cứu kỹ lưỡng và được áp dụng vào một số dự án về xử lý ngôn ngữ của Châu Âu [102]. Hiện nay trên thế giới có rất nhiều kho ngữ liệu được chia sẻ miễn phí cho cộng đồng nghiên cứu. Dưới đây sẽ liệt kê một số kho ngữ liệu tiêu biểu. Kho ngữ liệu Anh Mỹ (Brown Copus) Kho ngữ liệu Brown cho tiếng Anh Mỹ (Brown Corpus) [97] là kho ngữ liệu văn bản đã được Henry Kucera và W.

Nelson Francis biên soạn vào những năm 1960. Kho văn bản này chứa 500 văn bản tiếng Anh, biên soạn từ các tác phẩm xuất bản tại Hoa Kỳ năm 1961, tổng cộng 1.312 từ, được chú giải ở mức từ loại. Kho ngữ liệu tiếng Anh (BNC - The British National Corpus) Kho ngữ liệu này [103] có khoảng 100 triệu từ của ngôn ngữ nói và viết được lấy từ nhiều nguồn dữ liệu khác nhau, trong đó kho ngữ liệu viết chiếm 90 % đã được gán nhãn từ loại được trích rút từ báo chí nội địa và Quốc gia, tạp chí dành cho mọi lứa tuổi, sách giáo khoa….Kho ngữ liệu này bắt đầu được xây dựng từ năm 1991 và hoàn thành năm 1994, sau đó thì không có văn bản nào được thêm vào kho ngữ liệu trong dự án này này nhưng kho ngữ liệu này đã được chỉnh sửa thành một phiên bản thứ hai là BNC Wold (2001) và phiên bản thứ ba BNC XML Edition (2007). Kho ngữ liệu quốc gia Mỹ (ANC - The American National Corpus) Kho ngữ liệu này [104] hiện có 22 triệu từ thuộc ngôn ngữ viết và nói, được chú giải ở mức từ loại, cú pháp nông, và các chú giải tên thực thể… khung chú giải 3 ngôn ngữ của kho ngữ liệu được cung cấp theo các tiêu chuẩn thiết lập bởi tiểu ban kỹ thuật ISO/TC 37/SC4, sử dụng định dạng XML phù hợp với tiêu chuẩn mã hoá kho ngữ liệu XML (XML Corpus Encoding Standard -XCES) [105], hiện nay có khoảng 15 triệu từ đã được định dạng GrAF (Graph Annotation Fortmat) Hiện tại dự án xây dựng ANC đang tiếp tục được mở rộng thêm, mục đích là tạo ra một bộ sưu tập điện tử khổng lồ toàn diện nhất của tiếng Anh Mỹ, sẽ là nguồn tài nguyên hữu ích phục vụ cho giáo dục, cho nghiên cứu ngôn ngữ và phát triển công nghệ.

Kho ngữ liệu bao gồm văn bản của tất cả các thể loại và bảng dịch của dữ liệu nói được sản xuất từ năm 1990 trở đi. Kho ngữ liệu Anh Mỹ hiện đại (COCA - The Copus of Contemporary American English) Kho ngữ liệu hiện đại COCA [106] là kho ngữ liệu lớn nhất cho tiếng Anh Mỹ, có khoảng hơn 425 triệu từ và dữ liệu được lấy đều từ các nguồn tiểu thuyết, nói, các tạp chí nổi tiếng, báo chí, và các văn bản học thuật, được xây dựng từ năm 1990-2011, kho ngữ liệu được cập nhật một đến hai lần trong một năm (các văn bản gần đây nhất là từ tháng 3 năm 2012), mỗi năm lấy khoảng 20 triệu từ. Do cách cập nhật, thiết lập dữ liệu, đây có lẽ là kho ngữ liệu tiếng Anh phù hợp để nhìn vào hiện tại, thay đổi đang diễn ra trong ngôn ngữ. Ngân hàng cây cú pháp PENN Kho ngữ liệu này [18] được xây dựng trong 8 năm (1989-1996), có khoảng 7 triệu từ đã được gán nhãn từ loại, 3 triệu từ đã được phân tích cú pháp cơ bản, trên 2 triệu từ của văn bản đã phân tích cú pháp cho cấu trúc đối vị từ, 1.6 triệu từ là dữ liệu tiếng nói (phiên âm).

Dữ liệu văn bản định dạng dưới dạng đặt ngoặc, mỗi câu trong kho ngữ liệu sẽ được đặt ngoặc - mỗi thành phần cú pháp sẽ có một cặp dấu ngoặc bao quanh, ngay sau dấu ngoặc đầu tiên là ký hiệu ngữ pháp và các thuộc tính (nếu có), tiếp theo là danh sách các thành phần cú pháp con. Kho văn bản này được lấy từ các nguồn sách máy tính của IBM, tạp chí tài chính phố Wall, các cuộc đàm thoại. 4 Ngân hàng cây cú pháp TIGER tiếng Đức Kho ngữ liệu Tiger (Tiger Treebank, phiên bản 2.1) [101] có khoảng 900,000 từ (50,000 câu) được lấy từ báo Frankfurter Rundschau của tiếng Đức. Kho ngữ liệu này đã được gán nhãn từ loại và chú giải cú pháp cho các câu, việc chú giải được thực hiện bán tự động.

Ngoài các nhãn từ loại và nhãn cấu trúc cú pháp, kho ngữ liệu còn chứa các các thông tin về hình thái, từ nguyên thể cho các nút từ vựng. Ngân hàng cây cú pháp tiếng Trung (Chinese Treebank) Kho ngữ liệu tiếng Trung (Chinese Treebank 7.0) [107] được công bố qua Tổ chức dữ liệu ngôn ngữ (LDC- Linguistic Data Consortium ) bao gồm khoảng 1 triệu từ đã được chú giải cú pháp. Chinese Treebank được bắt đầu tại Đại học Pennsylvania vào năm 1998, sau đó tiếp tục ở Đại học Colorado và là hiện đang được phát triển tại Đại học Brandeis. Mục tiêu của dự án là cung cấp một kho ngữ liệu lớn được chú giải từ loại và đặt ngoặc toàn bộ.

Một số kho ngữ liệu song ngữ Kho ngữ liệu song ngữ song song do dự án EuroMatrix (tham khảo tại địa chỉ http://www.net/) xây dựng gồm các cặp ngôn ngữ khác nhau được lấy nguồn từ các kỷ yếu của Quốc hội Châu Âu từ năm 1996–2006. Kho ngữ liệu này gồm 9 cặp ngôn ngữ khác nhau; Kho ngữ liệu song ngữ song song Anh - Pháp (Canadian Hansard) của hiệp hội dữ liệu ngôn ngữ học (LDC), kho ngữ liệu này gồm 2.8 triệu cặp câu [109]. Dữ liệu văn bản thuần chủ yếu được lấy từ trang web của Quốc hội Canada [110]; Kho ngữ liệu WaCky (Web as Corpus kool ynitiative) Đây là kho ngữ liệu lớn [129], trong đó có 3 kho ngữ liệu của tiếng Anh (ukWaC), tiếng Đức (deWaC) và tiếng Ý (itWaC).

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận án tiến sĩ "Xây dựng và khai thác kho ngữ liệu chuẩn hóa từ internet cho xử lý tiếng Việt" tập trung vào việc phát triển một kho ngữ liệu có cấu trúc và chuẩn hóa, nhằm cải thiện khả năng xử lý ngôn ngữ tự nhiên cho tiếng Việt. Tài liệu này không chỉ cung cấp cái nhìn sâu sắc về các phương pháp thu thập và xử lý dữ liệu ngôn ngữ mà còn nhấn mạnh tầm quan trọng của việc chuẩn hóa dữ liệu trong việc nâng cao độ chính xác của các ứng dụng xử lý ngôn ngữ. Độc giả sẽ nhận được những lợi ích từ việc hiểu rõ hơn về cách thức xây dựng và khai thác kho ngữ liệu, từ đó có thể áp dụng vào các nghiên cứu và phát triển ứng dụng liên quan đến ngôn ngữ Việt.

Nếu bạn muốn mở rộng kiến thức về các ứng dụng công nghệ trong lĩnh vực ngôn ngữ và xử lý dữ liệu, hãy tham khảo thêm tài liệu Kỹ thuật tìm kiếm dựa trên giai điệu, nơi bạn có thể tìm hiểu về các phương pháp tìm kiếm thông tin trong ngữ liệu. Bên cạnh đó, tài liệu Phân loại chủ đề bản tin online sử dụng máy học sẽ giúp bạn nắm bắt cách áp dụng máy học trong việc phân loại và xử lý thông tin. Cuối cùng, tài liệu Nghiên cứu các phương pháp trích xuất thông tin trong ảnh tài liệu và ứng dụng sẽ mở ra những góc nhìn mới về việc trích xuất thông tin từ các nguồn dữ liệu hình ảnh, một lĩnh vực có liên quan mật thiết đến xử lý ngôn ngữ tự nhiên.

#xử lý ngôn ngữ tự nhiên

#luận án tiến sĩ

#khai thác dữ liệu

#công nghệ ngôn ngữ

#xử lý tiếng Việt

#kho ngữ liệu chuẩn hóa

Chủ đề

Luận án tiến sĩ nghiên cứu việc xây dựng chuẩn hóa và khai thác kho ngữ liệu từ nguồn internet cho xử lý tiếng việt

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỤC LỤC

1. CHƯƠNG 1: TỔNG QUAN VỀ KHO NGỮ LIỆU

1.1. Kho ngữ liệu văn bản

1.2. Xây dựng, chuẩn hóa và khai thác kho ngữ liệu

1.2.1. Thu thập kho ngữ liệu văn bản

1.2.2. Chú giải ngôn ngữ và vấn đề chuẩn hóa

1.2.3. Khai thác kho ngữ liệu

1.3. Kho ngữ liệu tiếng Việt

1.4. Các vấn đề được nghiên cứu trong luận án

1.5. Kết chương

2. CHƯƠNG 2: XÂY DỰNG KHO NGỮ LIỆU THÔ TỪ INTERNET

2.1. Xây dựng kho ngữ liệu thô tiếng Việt

2.1.1. Lựa chọn danh sách từ hạt giống

2.1.2. Thu thập địa chỉ URL

2.1.3. Lọc nội dung chính của các trang web (URLs)

2.1.4. Phát hiện sự trùng lặp gần nhau

2.1.5. Xây dựng công cụ và kết quả thu thập kho ngữ liệu

2.2. Kết chương

3. CHƯƠNG 3: CHUẨN HÓA MÔ HÌNH CHÚ GIẢI TIẾNG VIỆT

3.1. Mô hình MAF của ISO/TC 37/SC 4

3.2. Mô hình SynAF của ISO/TC 37/SC 4

3.3. Chuẩn hóa theo mô hình MAF cho tiếng Việt

3.3.1. Xác định đơn vị cơ sở (segment)

3.3.2. Hình thái từ (Wordform)

3.3.3. Nội dung hình thái cú pháp

3.4. Chuẩn hóa theo mô hình SynAF cho tiếng Việt

3.5. Kết chương

4. CHƯƠNG 4: KHAI THÁC KHO NGỮ LIỆU THÔ CHO NGHIÊN CỨU TỪ VỰNG TIẾNG VIỆT

4.1. Nghiên cứu từ vựng

4.2. Xây dựng ngữ liệu tiếng Việt cho Sketch Engine

4.2.1. Tách từ và gán nhãn từ loại

4.2.2. Xây dựng bộ quan hệ ngữ pháp tiếng Việt

4.2.3. Triển khai hệ thống Sketch Engine cho tiếng Việt

4.2.4. Đánh giá bộ quan hệ ngữ pháp tiếng Việt

4.3. Kết chương

5. CHƯƠNG 5: KHAI THÁC KHO NGỮ LIỆU CÓ CHÚ GIẢI CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT

5.1. Văn phạm hình thức

5.1.1. Khái niệm chung về văn phạm

5.1.2. Văn phạm phi ngữ cảnh (Context Free Grammar - CFG)

5.1.3. Văn phạm kết nối cây (Tree Adjoining Grammar – TAG)

5.2. Trích rút tự động văn phạm CFG cho tiếng Việt

5.2.1. Thuật toán trích rút từ VietTreebank

5.2.2. Phân tích cú pháp tiếng Việt với văn phạm PCFG

5.2.3. Thử nghiệm và đánh giá

5.2.4. Nhược điểm của văn phạm PCFG trong phân tích ngữ pháp

5.3. Trích rút tự động văn phạm LTAG cho tiếng Việt

5.3.1. Thuật toán trích rút từ VietTreebank

5.3.2. Xây dựng thuật toán trích rút từ từ điển tiếng Việt

5.3.3. So sánh, đánh giá tập cây khởi tạo trích rút từ VietTreebank và từ điển

5.4. Kết chương

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA NGHIÊN CỨU SINH LIÊN QUAN ĐẾN LUẬN ÁN

TÀI LIỆU THAM KHẢO

I. Tổng quan về kho ngữ liệu

1.1. Khái niệm kho ngữ liệu

1.2. Chuẩn hóa mô hình chú giải

II. Xây dựng kho ngữ liệu thô từ Internet

2.1. Thu thập dữ liệu từ web

2.2. Xử lý và chuẩn hóa dữ liệu

III. Chuẩn hóa mô hình chú giải tiếng Việt

3.1. Mô hình MAF cho tiếng Việt

3.2. Mô hình SynAF cho tiếng Việt

IV. Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng tiếng Việt

4.1. Tách từ và gán nhãn từ loại

4.2. Xây dựng bộ quan hệ ngữ pháp

V. Khai thác kho ngữ liệu có chú giải cho phân tích cú pháp tiếng Việt

5.1. Trích rút văn phạm PCFG

5.2. Trích rút văn phạm TAG

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Phan Thị Hà

Người hướng dẫn: TS. Trần Hồng Quân

Trường học: Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành: Truyền dữ liệu và mạng máy tính

Đề tài: Xây dựng và khai thác kho ngữ liệu chuẩn hóa từ internet cho xử lý tiếng Việt

Loại tài liệu: luận án tiến sĩ

Năm xuất bản: 2014

Địa điểm: Hà Nội