Nghiên Cứu Ứng Dụng Kỹ Thuật Học Bán Giám Sát Để Phân Loại Văn Bản Tiếng Việt

Luận án tiến sĩ kỹ thuật phân tích nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng việt, xây dựng cơ sở lý luận, kiểm chứng thực nghiệm, đóng

Trường đại học

Đại Học Đà Nẵng

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

2017

142

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. MỞ ĐẦU

1.1. Lý do chọn đề tài

1.2. Tổng quan tình hình nghiên cứu

1.2.1. Tình hình nghiên cứu trên thế giới

1.2.2. Tình hình nghiên cứu trong nước

1.3. Mục tiêu nghiên cứu

1.4. Đối tượng và phạm vi nghiên cứu

1.5. Nội dung nghiên cứu

1.6. Phương pháp nghiên cứu

1.7. Đóng góp chính của luận án

2. NGHIÊN CỨU TỔNG QUAN

2.1. Ứng dụng của học máy

2.2. Các dạng dữ liệu trong học máy

2.3. Các phương pháp học máy

2.3.1. Học không giám sát

2.3.2. Học tăng cường

2.3.3. Tổng quan về học bán giám sát

2.3.4. Một số phương pháp học bán giám sát

2.3.5. Thuật toán học có giám sát SVM và bán giám sát SVM

2.3.5.1. Huấn luyện SVM

2.3.5.2. SVM trong phân lớp văn bản

2.3.5.3. Bán giám sát SVM và phân lớp trang Web

2.3.6. Thuật toán phân lớp văn bản điển hình

2.3.7. Phân loại văn bản

2.3.7.1. Biểu diễn văn bản bằng véc tơ

2.3.7.2. Phân loại văn bản

2.3.8. Đề xuất nghiên cứu

2.3.9. Tiểu kết chương

3. XÂY DỰNG KHO DỮ LIỆU

3.1. Giới thiệu kho dữ liệu phân loại văn bản tiếng Việt

3.2. Tổng quan về kho dữ liệu

3.3. Khái niệm kho dữ liệu. Đặc điểm của kho dữ liệu

3.4. Mục đích của kho dữ liệu. Kiến trúc kho dữ liệu

3.5. Phân tích yêu cầu

3.6. Xây dựng kho

3.7. Khai thác kho

3.8. Cập nhật kho

3.9. Phân tích và đặc tả dữ liệu

3.10. Giải pháp xây dựng kho

3.11. Đề xuất mô hình tổng quát

3.12. Quá trình xây dựng kho dữ liệu

3.13. Quy trình của chương trình phân loại văn bản

3.14. Sử dụng thuật toán Naïve Bayes để phân loại văn bản

3.15. Định dạng đầu ra của dữ liệu trong kho

3.16. Kết quả kho dữ liệu thử nghiệm và đánh giá

3.16.1. Kết quả kho dữ liệu thử nghiệm

3.16.2. Đánh giá kho dữ liệu

3.17. Tiểu kết chương

4. PHÂN LOẠI VĂN BẢN DỰA TRÊN MÔ HÌNH CỰ LY TRẮC ĐỊA

4.1. Mô hình cự ly trắc địa trên máy véc tơ hỗ trợ

4.2. Mô hình cự ly trắc địa

4.3. Kỹ thuật phân cụm đa dạng sử dụng cự ly trắc địa

4.4. Phương pháp tính toán cự ly trắc địa

4.5. Hàm nhân trong máy véc tơ hỗ trợ sử dụng cự ly trắc địa

4.6. Phương pháp phân loại văn bản dựa trên mô hình cự ly trắc địa

4.7. Thực nghiệm phân loại văn bản dựa trên mô hình cự ly trắc địa

4.8. Phát triển chương trình ứng dụng

4.8.1. Chuẩn bị dữ liệu

4.8.2. Triển khai chương trình

4.8.3. Kết quả thực nghiệm

4.9. Tiểu kết chương

5. RÚT GỌN SỐ CHIỀU VÉC TƠ DỰA TRÊN ĐỒ THỊ DENDROGRAM

5.1. Định nghĩa đồ thị Dendrogram

5.2. Giải pháp đề xuất

5.3. Xây dựng đồ thị Dendrogram từ dữ liệu Wikipedia

5.4. Thuật toán xử lý Wikipedia

5.5. Thuật toán xử lý từ điển

5.6. Thuật toán tính toán ma trận P tần số xuất hiện chung

5.7. Thuật toán xây dựng đồ thị Dendrogram

5.8. Triển khai phân cụm

5.9. Áp dụng véc tơ rút gọn vào phân loại văn bản

5.9.1. Dữ liệu đầu vào

5.9.2. Kết quả thực nghiệm

5.10. Tiểu kết chương

CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Kỹ thuật học bán giám sát

Kỹ thuật học bán giám sát là một phương pháp kết hợp giữa dữ liệu có nhãn và không có nhãn để cải thiện hiệu suất của mô hình học máy. Phương pháp này đặc biệt hữu ích khi dữ liệu có nhãn khan hiếm và tốn kém để thu thập. Trong nghiên cứu này, kỹ thuật học bán giám sát được áp dụng để phân loại văn bản tiếng Việt, một ngôn ngữ có đặc thù phức tạp về ngữ nghĩa và cấu trúc. Các thuật toán như SVM bán giám sát và phân cụm đa dạng được sử dụng để tối ưu hóa quá trình phân loại. Nghiên cứu chỉ ra rằng việc kết hợp dữ liệu không có nhãn giúp cải thiện độ chính xác của mô hình, đặc biệt trong các tình huống dữ liệu có nhãn hạn chế.

1.1. Ứng dụng trong phân loại văn bản

Phân loại văn bản là quá trình gán nhãn cho các văn bản dựa trên nội dung của chúng. Kỹ thuật học bán giám sát được áp dụng để giải quyết bài toán này bằng cách sử dụng cả dữ liệu có nhãn và không có nhãn. Các phương pháp như Self-training và Co-training được đề xuất để tận dụng tối đa thông tin từ dữ liệu không có nhãn. Nghiên cứu cũng chỉ ra rằng việc sử dụng SVM bán giám sát giúp cải thiện độ chính xác trong phân loại văn bản tiếng Việt, đặc biệt khi dữ liệu có nhãn hạn chế.

1.2. Thách thức trong phân loại văn bản tiếng Việt

Văn bản tiếng Việt có nhiều đặc điểm phức tạp như từ đồng âm khác nghĩa và cấu trúc ngữ pháp đa dạng. Điều này gây khó khăn cho việc phân loại tự động. Kỹ thuật học bán giám sát được đề xuất để giải quyết các thách thức này bằng cách tận dụng dữ liệu không có nhãn để cải thiện mô hình. Nghiên cứu cũng chỉ ra rằng việc sử dụng phân tích ngữ nghĩa và từ khóa LSI giúp nâng cao hiệu quả phân loại.

II. Phân loại văn bản tiếng Việt

Phân loại văn bản tiếng Việt là một bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Nghiên cứu này tập trung vào việc áp dụng các phương pháp học máy và học bán giám sát để cải thiện hiệu suất phân loại. Các mô hình như SVM và Naïve Bayes được sử dụng để phân loại văn bản dựa trên các đặc trưng ngữ nghĩa và cú pháp. Nghiên cứu cũng đề xuất việc sử dụng mô hình cự ly trắc địa để đo lường khoảng cách giữa các văn bản, giúp cải thiện độ chính xác của quá trình phân loại.

2.1. Mô hình cự ly trắc địa

Mô hình cự ly trắc địa được đề xuất để đo lường khoảng cách giữa các văn bản trong không gian đa chiều. Khác với khoảng cách Euclid, cự ly trắc địa tính toán khoảng cách dựa trên đường cong phân bố dữ liệu, giúp phản ánh chính xác hơn mối quan hệ giữa các văn bản. Nghiên cứu chỉ ra rằng việc áp dụng mô hình cự ly trắc địa trong phân loại văn bản giúp cải thiện độ chính xác và tốc độ xử lý.

2.2. Rút gọn số chiều véc tơ

Để giảm độ phức tạp của mô hình, nghiên cứu đề xuất việc rút gọn số chiều véc tơ biểu diễn văn bản. Phương pháp này sử dụng đồ thị Dendrogram để phân cụm các từ dựa trên tần suất xuất hiện đồng thời. Kết quả cho thấy việc rút gọn số chiều giúp giảm thời gian phân loại mà vẫn duy trì độ chính xác cao. Phương pháp này cũng có thể áp dụng cho các bài toán khác trong xử lý ngôn ngữ tự nhiên.

III. Ứng dụng AI trong phân loại văn bản

Ứng dụng AI trong phân loại văn bản đang trở thành xu hướng quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Nghiên cứu này tập trung vào việc áp dụng các kỹ thuật học máy và học bán giám sát để tự động hóa quá trình phân loại văn bản tiếng Việt. Các mô hình như SVM và Naïve Bayes được sử dụng để phân loại văn bản dựa trên các đặc trưng ngữ nghĩa và cú pháp. Nghiên cứu cũng đề xuất việc sử dụng mô hình cự ly trắc địa để đo lường khoảng cách giữa các văn bản, giúp cải thiện độ chính xác của quá trình phân loại.

3.1. Tự động hóa phân loại văn bản

Tự động hóa phân loại văn bản là quá trình sử dụng các thuật toán học máy để gán nhãn cho văn bản một cách tự động. Nghiên cứu này đề xuất việc sử dụng kỹ thuật học bán giám sát để tối ưu hóa quá trình này, đặc biệt khi dữ liệu có nhãn hạn chế. Các phương pháp như Self-training và Co-training được áp dụng để tận dụng tối đa thông tin từ dữ liệu không có nhãn.

3.2. Tối ưu hóa nội dung

Tối ưu hóa nội dung là quá trình cải thiện chất lượng và độ chính xác của các văn bản được phân loại. Nghiên cứu này đề xuất việc sử dụng phân tích ngữ nghĩa và từ khóa LSI để nâng cao hiệu quả phân loại. Các kỹ thuật như SEO và phân tích dữ liệu văn bản cũng được áp dụng để tối ưu hóa quá trình phân loại.

01/03/2025

Bạn đang xem trước tài liệu:

Luận án tiến sĩ nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng việt

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1: Nghiên cứu tổng quan Chương này trình bày các kết quả nghiên cứu tổng quan liên quan đến học máy, các phương pháp học máy, phân lớp dữ liệu và phân loại văn bản, nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt. Trên cơ sở nghiên cứu, đánh giá các vấn đề còn tồn tại, đề xuất những nội dung nghiên cứu trình bày trong các chương tiếp theo. Xây dựng kho dữ liệu Chương này trình bày các vấn đề cơ bản về kho dữ liệu như: giới thiệu về kho dữ liệu, phân tích, đặc tả dữ liệu, đưa ra giải pháp xây dựng kho, phân tích thiết kế kho dữ liệu, đồng thời thiết kế cơ sở dữ liệu cho kho để phân loại văn bản tiếng Việt. Mục đích xây dựng kho dữ liệu ở chương này là để phục vụ huấn luyện và kiểm thử cho thực nghiệm ở các chương sau.

Chương 3: Phân loại dựa trên mô hình cự ly đường trắc địa Chương này trình bày kết quả nghiên cứu phân loại văn bản dựa trên mô hình cự ly trắc địa. Nội dung chủ yếu liên quan đến các khái niệm mô hình cự ly trắc địa, xây dựng mô hình cự ly trắc địa dựa trên máy véc tơ hỗ trợ, thuật toán tính cự ly trắc địa và ứng dụng để xây dựng phần mềm phân loại văn bản tiếng Việt. Chương 4: Rút gọn số chiều véc tơ dựa trên đồ thị Dendrogram Chương này trình bày kết quả nghiên cứu về đồ thị Dendrogram, kết hợp mô hình đồ thị Dendrogram và dữ liệu Từ điển Bách khoa toàn thư Wikipedia để thực hiện phân cụm từ và áp dụng để rút gọn số chiều của véc tơ trong quá trình phân loại văn bản tiếng Việt. NGHIÊN CỨU TỔNG QUAN Trong chương này, giới thiệu các kết quả nghiên cứu tổng quan liên quan đến học máy, phân loại văn bản và đề xuất các vấn đề nghiên cứu.

Nội dung chính trình bày các khái niệm, phương pháp và kỹ thuật sử dụng trong học máy. Tiếp theo, trình bày về phân loại văn bản, cách biểu diễn văn bản bằng véc tơ và các phương pháp phân loại văn bản đang sử dụng phổ biến hiện nay. Trên cơ sở đó, đề xuất những vấn đề nghiên cứu trong các chương tiếp theo. Khái niệm Học máy [51] là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc phát triển các kỹ thuật cho phép các máy tính có thể "học" [70][87].

Cụ thể hơn, học máy là một phương pháp để tạo ra các phần mềm máy tính thông qua việc phân tích các tập dữ liệu. Học máy là lĩnh vực liên quan nhiều đến thống kê do cả hai lĩnh vực đều tập trung vào việc nghiên cứu để phân tích dữ liệu. Tuy nhiên, học máy có sự khác biệt với thống kê, học máy tập trung vào nghiên cứu sự phức tạp của các giải thuật trong quá trình tính toán, xử lý dữ liệu. Trên thực tế, có nhiều bài toán suy luận được xếp loại là bài toán NP- khó, vì thế một phần của học máy là nghiên cứu sự phát triển các giải thuật suy luận xấp xỉ để có thể xử lý được lớp các bài toán nhị phân một cách tổng quát nhất.

Trên cơ sở đó, người ta phân loại học máy theo hai dạng sau: - Học máy dựa trên quy nạp: Máy học phân biệt các khái niệm dựa trên dữ liệu đã thu thập được trước đó. Phương pháp này cho phép tận dụng được nguồn dữ liệu rất nhiều, sẵn có. - Học máy dựa trên suy diễn: Máy học phân biệt các khái niệm dựa vào các luật. Phương pháp này cho phép tận dụng được các kiến thức chuyên ngành để hỗ trợ học máy.

Ứng dụng của học máy Chúng ta đều biết khái niệm về việc xếp hạng trang web. Đó là quá trình gửi một 9 câu truy vấn đến một công cụ tìm kiếm, sau đó sẽ được trả một danh sách các trang web có liên quan đến câu đã truy vấn theo một thứ tự nhất định. Để thực hiện được chức năng này, một công cụ tìm kiếm phải “Biết” được những kiến thức về các trang phù hợp hay liên quan với truy vấn. Ví dụ về kết quả sắp xếp của các trang web được truy vấn bởi từ khóa “Học máy”.

Những kiến thức như vậy có thể được tổng hợp từ nhiều nguồn khác nhau như: cấu trúc liên kết, nội dung hay tần số sử dụng của các trang web. Ngoài ra cũng có thể được kết hợp với cách xếp hạng thủ công để đưa ra kết quả xếp hạng tự động từ một câu truy vấn. Tuy nhiên học máy chính là một sự lựa chọn tốt hơn cả cho việc thiết kế một công cụ tìm kiếm. Việc sử dụng lọc cộng tác trong hệ thống tư vấn như ở các trang Amazon hay Netflix nhằm khuyến khích người sử dụng mua sách hay thuê phim cũng là một ví dụ minh họa cho một ứng dụng của học máy.

Tương tự như việc xếp hạng trang web, chúng ta cần một bảng sắp xếp danh sách các ấn phẩm (sách hoặc phim) theo sở thích của khách hàng. Điểm khác ở đây chính là chúng ta không có những câu truy vấn mà chỉ có những lời bình, lý lịch hay thói quen mua hoặc thuê ấn phẩm trước đó của khách hàng. Chúng ta có thể sử dụng những thông tin từ các khách hàng tương tự để đưa ra các quy luật, quy tắc cho việc sắp xếp. Vì vậy, việc giải quyết những vấn đề trên một cách tự động là hết sức cấp bách nhằm mục đích tránh phỏng đoán sai cũng như tiết kiệm thời gian.

Một ứng dụng khác của học máy đó chính là dịch tự động cho văn bản. Thông thường, để dịch văn bản từ thứ tiếng này sang thứ tiếng khác, chúng ta cần phải hiểu rõ tất cả những quy tắc được quy định bởi các chuyên gia (nhà ngôn ngữ học) am hiểu cả hai ngôn ngữ mà chúng ta cần dịch. Đây là một việc làm khá phức tạp và tốn nhiều chi phí bởi vì chúng ta không thể thu thập được hết tất cả các quy tắc, cũng như không phải bất kì văn bản nào cũng tuân theo một quy tắc nhất định. Thay vào đó chúng ta có thể sử dụng một số bản dịch mẫu để học một cách tự động phương pháp dịch giữa hai ngôn ngữ.

Nói cách khác, học máy chính là một công cụ tốt nhất để xây dựng một hệ thống phiên dịch tự động. 10 Có rất nhiều ứng dụng học máy như sử dụng nhận dạng khuôn mặt để phục vụ các hệ thống điều khiển tự động hay bảo mật. Khi cho một hình ảnh hay một đoạn phim của một người, bài toán được đặt ra đó là: “Hãy trả lời câu hỏi người đó là ai?”. Nói cách khác, hệ thống cần phân biệt, nhận dạng khuôn mặt của một người từ danh mục tên (Ví dụ: Tuấn, Liên, Tâm, …) hay cần trả lời đó là một khuôn mặt đã được đăng ký từ trước hay chưa.

Rất dễ giải quyết vấn đề này nếu như khuôn mặt của một người không bao giờ thay đổi. Tuy nhiên, trên thực tế khuôn mặt người có thể thay đổi theo cảm xúc, trạng thái sức khỏe,… Ngoài ra, việc thay đổi kiểu tóc, đeo kính hay không, cường độ ánh sáng cũng làm cho bức ảnh đầu vào sai lệch đi rất nhiều so với dữ liệu có trong hệ thống. Vì vậy, hệ thống cần phải học và tìm ra những đặc trưng tốt nhất trong việc nhận dạng mặt người. Đó chính là nhiệm vụ của học máy.

Các dạng dữ liệu trong học máy Khi nói tới học máy, chúng ta không thể bỏ qua việc định dạng các thể loại của dữ liệu. Việc định dạng dữ liệu giúp chúng ta có thể tìm ra những hướng giải quyết vấn đề mới nhờ vào việc sử dụng những kỹ thuật có chung kiểu dữ liệu. Ví dụ, trong xử lý ngôn ngữ tự nhiên, dữ liệu thường là những chuỗi ký tự. Vì vậy ta cũng có thể ứng dụng những kỹ thuật trong xử lý ngôn ngữ tự nhiên vào lĩnh vực tin sinh học như là phân tích trình tự DNA vì thực ra kiểu dữ liệu trong trình tự DNA cũng là chuỗi ký tự.

Sau đây là một số kiểu dữ liệu thường được nhắc tới và sử dụng trong học máy. - Véc tơ: là kiểu dữ liệu cơ bản nhất trong học máy. Nó thể hiện các đặc tính của một sự vật, sự việc trong một môi trường cụ thể. Ví dụ, ta thường thấy một công ty quản lý hồ sơ cá nhân của nhân viên bao gồm những đặc tính, thể hiện trên các biến của véc tơ (giới tính, chiều cao, cân nặng, ngày sinh, trình độ,.

Trong khi đó, một nông dân giới thiệu sản phẩm rau quả của họ thông qua tiêu chí (chủng loại, kích thước, trọng lượng, hình dáng, màu sắc). Cũng như vậy, chúng ta cũng có thể thể hiện mỗi văn bản được biểu diễn thành một véc tơ, mỗi thành phần của véc tơ là một từ khóa trong tập văn bản gốc và được gán một giá trị trọng số xác định dựa 11 trên tần suất xuất hiện của các từ hay cụm từ trong văn bản. - Danh sách: là danh sách các dữ liệu hoặc đặc tính được liệt kê của sự vật, sự việc. Khác với véc tơ, danh sách không nhất thiết phải liệt kê đầy đủ các thông số của đặc tính.

Ví dụ, một bác sỹ không nhất thiết phải thực hiện đầy đủ tất cả các bước trong quy trình khám mà vẫn có thể xác định được bệnh nhân có khỏe mạnh hay không. Trong trường hợp này, chúng ta có thể sử dụng danh sách để tiết kiệm bộ nhớ máy tính. - Tập hợp: là một tập hợp các dữ liệu, trong đó thứ tự của các phần tử dữ liệu có ảnh hưởng không quan trọng đến kết quả của các thuật toán trong học máy và các phần tử thường không ảnh hưởng lẫn nhau. - Ma trận: là thể hiện mối quan hệ cặp đôi.

Nó như là một bảng dữ liệu 2 chiều trong đó dữ liệu có thể được xác định khi và chỉ khi biết chính xác số hàng và số cột của dữ liệu đó. Ví dụ, ta có thể thể hiện một bảng điểm của một lớp học bằng một ma trận, mỗi hàng thể hiện điểm các môn học của một sinh viên và mỗi cột thể hiện điểm của tất cả các sinh viên đối với một môn học. Tương tự biểu diễn văn bản, ta chia văn bản thành n đoạn, mỗi đoạn biểu diễn bằng một véc tơ, ta có n véc tơ. Xắp xếp các véc tơ này thành n cột và n hàng liên tiếp thành một ma trận.

- Hình ảnh: hình ảnh được hiểu như một mảng hai chiều, trong đó dữ liệu là các con số. Nó cũng có thể hiểu như một ma trận.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Ứng Dụng Kỹ Thuật Học Bán Giám Sát Trong Phân Loại Văn Bản Tiếng Việt là một tài liệu chuyên sâu tập trung vào việc áp dụng phương pháp học bán giám sát để cải thiện hiệu quả phân loại văn bản tiếng Việt. Tài liệu này không chỉ giới thiệu các kỹ thuật tiên tiến mà còn cung cấp những lợi ích thiết thực như giảm thiểu nhu cầu dữ liệu gán nhãn, tối ưu hóa quy trình xử lý ngôn ngữ tự nhiên và nâng cao độ chính xác trong phân loại văn bản. Đây là nguồn tài nguyên quý giá cho các nhà nghiên cứu và chuyên gia trong lĩnh vực xử lý ngôn ngữ tiếng Việt.

Để mở rộng kiến thức về chủ đề này, bạn có thể tham khảo Luận văn thạc sĩ khoa học máy tính phân loại văn bản dựa trên mô hình tiền xử lý transformer, tài liệu này đi sâu vào việc sử dụng mô hình transformer để phân loại văn bản. Ngoài ra, Luận văn thạc sĩ khoa học máy tính ứng dụng học sâu vào xây dựng mô hình rút trích thông tin cung cấp cái nhìn chi tiết về việc áp dụng học sâu trong các bài toán xử lý ngôn ngữ. Cuối cùng, Luận văn thạc sĩ khoa học máy tính sử dụng contextual valence shifters để phân loại cảm xúc cho các văn bản đơn giản trong một lĩnh vực là một tài liệu thú vị khác giúp bạn hiểu rõ hơn về phân loại cảm xúc trong văn bản.

Hãy khám phá các tài liệu này để có cái nhìn toàn diện hơn về các phương pháp hiện đại trong xử lý ngôn ngữ tiếng Việt!

#phân tích ngôn ngữ

#phân loại văn bản

#ứng dụng AI

#học bán giám sát

#kỹ thuật học máy

#mô hình phân loại

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

Phân tích dữ liệu

Trí tuệ nhân tạo