Luận văn thạc sĩ VNU: Nghiên cứu giải thuật Co-training ứng dụng khai phá quan điểm

Luận văn thạc sĩ toán học phân tích vnu uet nghiên cứu giải thuật học cộng tác co training và ứng dụng vào bài toán khai phá quan điểm, đánh giá thực trạng, chỉ ra hạn chế, đề

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ Thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2012

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Lý do chọn đề tài

1.2. Mục tiêu, phạm vi nghiên cứu của đề tài

2. CHƯƠNG 2: KHAI PHÁ QUAN ĐIỂM VÀ ỨNG DỤNG

2.1. Khai phá quan điểm (Opinion mining)

2.2. Các khái niệm liên quan

2.3. Động lực và Ứng dụng của Khai phá quan điểm

3. CHƯƠNG 3: ỨNG DỤNG HỌC BÁN GIÁM SÁT VÀO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM

3.1. Tổng quát về hướng tiếp cận và giải quyết bài toán

3.2. Lựa chọn dữ liệu

3.3. Kho tài liệu MPQA2

3.4. Trích chọn đặc trưng và xác định nhãn

3.4.1. Đặc trưng SentiWordNet Score (SS)

3.4.2. Đặc trưng POS Statistics (PS)

3.4.3. Đặc trưng Word Count (WC)

3.4.4. Đặc trưng TFIDF

3.4.5. Xác định nhãn về tính chủ quan (sự tồn tại cảm nghĩ)

3.4.6. Xác định nhãn về tính phân cực cảm nghĩ

3.5. Tiền xử lý dữ liệu

3.6. Chuẩn bị dữ liệu

3.7. Thống kê dữ liệu sau tiền xử lý

3.8. Các tiêu chí chuẩn bị dữ liệu

3.9. Các cách chọn dữ liệu

3.10. Huấn luyện, đánh giá

3.10.1. Thư viện LibSVM

3.10.2. Học bán giám sát Co-training

4. CHƯƠNG 4: THỰC NGHIỆM

4.1. Những kết quả chính đạt được

4.2. Nhược điểm

4.3. Hướng phát triển

4.4. Khắc phục nhược điểm

4.5. Mở rộng, ứng dụng cho tiếng Việt

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về luận văn thạc sĩ VNU UET nghiên cứu giải thuật học cộng tác

Luận văn thạc sĩ tại Đại học Quốc gia Hà Nội, Trường Đại học Công nghệ, tập trung vào nghiên cứu giải thuật học cộng tác (co-training) và ứng dụng của nó trong bài toán khai phá quan điểm. Đề tài này không chỉ mang tính lý thuyết mà còn có ứng dụng thực tiễn cao trong việc phân tích dữ liệu lớn. Việc khai thác thông tin từ các nguồn dữ liệu không có cấu trúc như văn bản là một thách thức lớn trong lĩnh vực học máy và khai phá dữ liệu.

1.1. Lý do chọn đề tài nghiên cứu giải thuật học cộng tác

Nhu cầu phân tích dữ liệu lớn ngày càng tăng, đặc biệt là trong lĩnh vực khai phá quan điểm. Việc áp dụng giải thuật học cộng tác giúp tận dụng dữ liệu chưa gán nhãn, từ đó nâng cao hiệu quả phân lớp và giảm thiểu chi phí gán nhãn.

1.2. Mục tiêu và phạm vi nghiên cứu của luận văn

Mục tiêu chính của luận văn là so sánh hiệu quả giữa giải thuật học cộng tác và các thuật toán học có giám sát khác. Phạm vi nghiên cứu tập trung vào việc áp dụng các phương pháp này vào bài toán khai phá quan điểm trong ngữ cảnh tiếng Anh.

II. Vấn đề và thách thức trong khai phá quan điểm

Khai phá quan điểm là một lĩnh vực nghiên cứu mới, đối mặt với nhiều thách thức trong việc phân tích và xử lý dữ liệu. Các vấn đề chính bao gồm việc xác định tính chủ quan và phân cực của cảm nghĩ trong văn bản. Những thách thức này đòi hỏi các giải pháp hiệu quả để cải thiện độ chính xác của các mô hình phân lớp.

2.1. Thách thức trong việc phân loại cảm nghĩ

Phân loại cảm nghĩ thành tích cực, tiêu cực và trung lập là một nhiệm vụ khó khăn. Các yếu tố ngữ nghĩa và ngữ cảnh có thể ảnh hưởng lớn đến kết quả phân loại, đòi hỏi các thuật toán phải có khả năng xử lý linh hoạt.

2.2. Vấn đề dữ liệu chưa gán nhãn trong học máy

Dữ liệu chưa gán nhãn chiếm tỷ lệ lớn trong kho dữ liệu hiện có. Việc áp dụng giải thuật học cộng tác giúp khai thác hiệu quả nguồn dữ liệu này, từ đó cải thiện độ chính xác của mô hình mà không cần quá nhiều dữ liệu đã gán nhãn.

III. Phương pháp nghiên cứu giải thuật học cộng tác hiệu quả

Luận văn áp dụng giải thuật học cộng tác để giải quyết bài toán khai phá quan điểm. Phương pháp này cho phép sử dụng dữ liệu chưa gán nhãn để cải thiện hiệu suất của mô hình phân lớp. Các bước thực hiện bao gồm lựa chọn dữ liệu, tiền xử lý và huấn luyện mô hình.

3.1. Quy trình áp dụng giải thuật học cộng tác

Quy trình bao gồm việc lựa chọn dữ liệu từ kho dữ liệu MPQA2, thực hiện tiền xử lý và sau đó áp dụng giải thuật học cộng tác để huấn luyện mô hình phân lớp. Điều này giúp tối ưu hóa hiệu suất phân loại.

3.2. Đánh giá hiệu quả của mô hình phân lớp

Mô hình được đánh giá dựa trên các chỉ số như độ chính xác, độ nhạy và độ đặc hiệu. Việc so sánh với các thuật toán học có giám sát khác giúp xác định hiệu quả của giải thuật học cộng tác.

IV. Ứng dụng thực tiễn của giải thuật học cộng tác trong khai phá quan điểm

Kết quả nghiên cứu cho thấy giải thuật học cộng tác có thể được áp dụng hiệu quả trong nhiều lĩnh vực như phân tích cảm nghĩ trong đánh giá sản phẩm, dịch vụ và các chính sách. Việc khai thác thông tin từ dữ liệu không có cấu trúc giúp các tổ chức đưa ra quyết định chính xác hơn.

4.1. Ứng dụng trong phân tích cảm nghĩ sản phẩm

Các công ty có thể sử dụng giải thuật học cộng tác để phân tích ý kiến khách hàng về sản phẩm, từ đó cải thiện chất lượng dịch vụ và sản phẩm dựa trên phản hồi thực tế.

4.2. Ứng dụng trong chính sách công

Chính phủ có thể áp dụng phương pháp này để phân tích ý kiến của công chúng về các chính sách, từ đó điều chỉnh và cải thiện các quyết định chính trị dựa trên dữ liệu thực tế.

V. Kết luận và hướng phát triển tương lai của nghiên cứu

Luận văn đã chỉ ra rằng giải thuật học cộng tác là một công cụ mạnh mẽ trong việc khai phá quan điểm. Hướng phát triển tương lai có thể bao gồm việc mở rộng nghiên cứu sang các ngôn ngữ khác và cải thiện các thuật toán để xử lý tốt hơn các dữ liệu phức tạp.

5.1. Hướng phát triển nghiên cứu trong tương lai

Nghiên cứu có thể mở rộng sang các lĩnh vực khác như phân tích ngữ nghĩa và xử lý ngôn ngữ tự nhiên, nhằm nâng cao khả năng của giải thuật học cộng tác.

5.2. Tích hợp công nghệ mới vào nghiên cứu

Việc tích hợp các công nghệ mới như học sâu (deep learning) có thể giúp cải thiện độ chính xác và hiệu suất của các mô hình phân lớp trong khai phá quan điểm.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet nghiên cứu giải thuật học cộng tác co training và ứng dụng vào bài toán khai phá quan điểm

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh hiện nay, dữ liệu dạng văn bản chiếm khoảng 85% tổng lượng dữ liệu lưu trữ trong các tổ chức và doanh nghiệp, với hơn 3 tỷ tài liệu text được đánh chỉ số trên Internet. Việc khai thác tri thức từ nguồn dữ liệu này, đặc biệt là các ý kiến, quan điểm của người dùng, đóng vai trò quan trọng trong việc hỗ trợ ra quyết định cho doanh nghiệp, tổ chức và cá nhân. Luận văn tập trung nghiên cứu giải thuật học cộng tác (Co-training) – một thuật toán học bán giám sát – và ứng dụng vào bài toán khai phá quan điểm (opinion mining) ở mức câu văn tiếng Anh. Mục tiêu chính là xây dựng và đánh giá hiệu quả của thuật toán Co-training so với học có giám sát truyền thống trên tập dữ liệu MPQA2.0, với các nhãn phân loại về tính chủ quan và tính phân cực cảm nghĩ. Phạm vi nghiên cứu bao gồm phân lớp câu văn tiếng Anh trong kho dữ liệu MPQA2.0 gồm 692 tài liệu, 15.802 câu, được thu thập từ nhiều nguồn khác nhau. Ý nghĩa của nghiên cứu thể hiện qua việc giảm thiểu chi phí gán nhãn dữ liệu thủ công, đồng thời nâng cao hiệu quả phân lớp cảm nghĩ, góp phần phát triển các hệ thống khai phá quan điểm tự động, ứng dụng trong tiếp thị, chính sách công và phân tích thị trường.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Khai phá quan điểm (Opinion Mining): Là lĩnh vực nghiên cứu trích xuất và phân tích cảm nghĩ, ý kiến từ dữ liệu văn bản. Khai phá quan điểm bao gồm phân tích tính chủ quan (subjectivity classification) và phân tích tính phân cực cảm nghĩ (polarity classification) với ba lớp chính: tích cực, tiêu cực và trung lập.
Học máy (Machine Learning): Được định nghĩa là nghiên cứu các thuật toán cải thiện hiệu năng thực hiện nhiệm vụ dựa trên kinh nghiệm. Trong đó, học có giám sát (supervised learning) sử dụng dữ liệu có nhãn để xây dựng mô hình phân lớp, còn học bán giám sát (semi-supervised learning) tận dụng cả dữ liệu có nhãn và không nhãn nhằm nâng cao hiệu quả học.
Thuật toán Support Vector Machines (SVM): Là thuật toán học có giám sát hiệu quả trong phân lớp văn bản, đặc biệt với dữ liệu có số chiều lớn. SVM tìm siêu phẳng tối ưu phân tách các lớp dữ liệu với biên lớn nhất, giảm thiểu overfitting.
Thuật toán Co-training: Là kỹ thuật học bán giám sát, trong đó hai bộ phân lớp được huấn luyện trên hai tập thuộc tính độc lập (khung nhìn) của cùng một tập dữ liệu. Thuật toán lặp lại quá trình gán nhãn cho dữ liệu không nhãn dựa trên sự tin cậy của từng bộ phân lớp, từ đó mở rộng tập dữ liệu huấn luyện.
Các khái niệm chính: Tính chủ quan, tính phân cực cảm nghĩ, khung nhìn (view), vector đặc trưng (SentiWordNet Score, POS Statistics, Word Count, TFIDF), độ chính xác (precision), độ hồi tưởng (recall).

Phương pháp nghiên cứu

Nguồn dữ liệu: Sử dụng kho dữ liệu MPQA2.0 gồm 692 tài liệu, 15.802 câu tiếng Anh, được đánh dấu thủ công về tính chủ quan và tính phân cực cảm nghĩ ở mức câu. Tập dữ liệu được chia thành tập huấn luyện (DTrain) gồm tập có nhãn (L) và tập không nhãn (U), cùng tập đánh giá (DTest).
Phương pháp phân tích:
1. Tiền xử lý dữ liệu: Trích xuất câu, loại bỏ lỗi mã ký tự, chuẩn hóa dữ liệu.
2. Trích chọn đặc trưng: Sử dụng 4 nhóm đặc trưng chính gồm SentiWordNet Score (SS), POS Statistics (PS), Word Count (WC), TFIDF.
3. Xác định nhãn: Tính chủ quan dựa trên các đánh dấu "GATE_direct-subjective" và "GATE_expressive-subjectivity"; tính phân cực dựa trên tỷ lệ nhãn tích cực, tiêu cực, trung lập trong câu.
4. Huấn luyện và đánh giá: So sánh hiệu quả giữa thuật toán học có giám sát SVM và thuật toán học bán giám sát Co-training trên cùng tập dữ liệu.
5. Lựa chọn tham số tối ưu: Thử nghiệm các tham số p, n trong Co-training, lựa chọn bộ đặc trưng tốt nhất làm khung nhìn.
Timeline nghiên cứu:
- Thu thập và tiền xử lý dữ liệu: 2 tháng
- Trích chọn đặc trưng và xây dựng mô hình học có giám sát: 3 tháng
- Cài đặt và thử nghiệm thuật toán Co-training: 3 tháng
- Đánh giá, phân tích kết quả và hoàn thiện luận văn: 2 tháng

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của Co-training vượt trội so với học có giám sát:
Trên tập dữ liệu MPQA2.0, thuật toán Co-training đạt độ chính xác trung bình cao hơn khoảng 5-7% so với SVM truyền thống trong phân lớp tính chủ quan và tính phân cực cảm nghĩ. Ví dụ, với nhãn tính chủ quan, Co-training đạt độ chính xác khoảng 85%, trong khi SVM đạt khoảng 78%.
Lựa chọn đặc trưng ảnh hưởng lớn đến hiệu quả phân lớp:
Hai đặc trưng được chọn làm khung nhìn cho Co-training là SentiWordNet Score (SS) và POS Statistics (PS) cho kết quả tốt nhất, với độ chính xác lần lượt đạt 84% và 82% trong các thử nghiệm. Các đặc trưng Word Count (WC) và TFIDF cho kết quả thấp hơn khoảng 5-8%.
Tỷ lệ dữ liệu có nhãn và không nhãn ảnh hưởng đến hiệu quả Co-training:
Khi tỷ lệ dữ liệu có nhãn chiếm khoảng 30-40% tổng dữ liệu huấn luyện, hiệu quả phân lớp đạt mức tối ưu. Tỷ lệ này giúp cân bằng giữa độ tin cậy của dữ liệu có nhãn và khả năng mở rộng tập huấn luyện từ dữ liệu không nhãn.
Phân lớp đa lớp tính phân cực cảm nghĩ khó hơn phân lớp nhị phân tính chủ quan:
Độ chính xác phân lớp tính phân cực cảm nghĩ (3 lớp: tích cực, tiêu cực, trung lập) thấp hơn khoảng 7-10% so với phân lớp tính chủ quan (2 lớp). Điều này phản ánh tính phức tạp và đa dạng trong biểu đạt cảm nghĩ của ngôn ngữ tự nhiên.

Thảo luận kết quả

Kết quả thực nghiệm cho thấy thuật toán Co-training tận dụng hiệu quả dữ liệu không nhãn để cải thiện chất lượng phân lớp so với học có giám sát truyền thống. Việc lựa chọn đặc trưng SS và PS làm khung nhìn phù hợp với giả định độc lập có điều kiện giữa các tập thuộc tính, giúp các bộ phân lớp hỗ trợ lẫn nhau hiệu quả hơn. So sánh với các nghiên cứu trước đây, kết quả đạt được nằm trong khoảng hiệu quả trung bình đến cao, phù hợp với các báo cáo trong lĩnh vực khai phá quan điểm.

Nguyên nhân chính của sự cải thiện này là Co-training giảm thiểu nhu cầu gán nhãn thủ công, tận dụng tri thức từ dữ liệu không nhãn phong phú, đồng thời giảm thiểu hiện tượng overfitting nhờ vào việc huấn luyện trên hai khung nhìn độc lập. Tuy nhiên, việc phân lớp đa lớp tính phân cực cảm nghĩ vẫn còn nhiều thách thức do sự đa nghĩa và ngữ cảnh phức tạp trong ngôn ngữ tự nhiên, đòi hỏi các mô hình phức tạp hơn hoặc kết hợp thêm các kỹ thuật ngôn ngữ sâu.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh độ chính xác giữa các thuật toán trên từng tập đặc trưng, cũng như bảng thống kê chi tiết các chỉ số precision, recall cho từng lớp phân loại, giúp minh họa rõ ràng hiệu quả của Co-training.

Đề xuất và khuyến nghị

Triển khai hệ thống khai phá quan điểm dựa trên Co-training:
Áp dụng thuật toán Co-training với hai khung nhìn đặc trưng SS và PS để xây dựng hệ thống phân tích cảm nghĩ tự động, nhằm nâng cao độ chính xác và giảm chi phí gán nhãn. Thời gian triển khai dự kiến 6-9 tháng, chủ thể thực hiện là các nhóm nghiên cứu và phát triển công nghệ xử lý ngôn ngữ tự nhiên.
Mở rộng nghiên cứu sang ngôn ngữ tiếng Việt:
Do hiện chưa có tập dữ liệu tiếng Việt chuẩn cho khai phá quan điểm, cần xây dựng kho dữ liệu tương tự MPQA2.0 cho tiếng Việt, đồng thời điều chỉnh thuật toán phù hợp với đặc thù ngôn ngữ. Thời gian nghiên cứu 12-18 tháng, chủ thể là các viện nghiên cứu và trường đại học.
Kết hợp kỹ thuật học sâu (Deep Learning) với Co-training:
Nghiên cứu tích hợp các mô hình học sâu như mạng nơ-ron tích chập (CNN) hoặc mạng nơ-ron hồi tiếp (RNN) với thuật toán Co-training để cải thiện khả năng nhận diện ngữ cảnh và đa nghĩa trong phân lớp cảm nghĩ. Thời gian thực hiện 9-12 tháng, chủ thể là các nhóm nghiên cứu chuyên sâu về AI.
Phát triển công cụ hỗ trợ gán nhãn bán tự động:
Xây dựng công cụ giúp chuyên gia gán nhãn dữ liệu nhanh và chính xác hơn dựa trên kết quả dự đoán của mô hình Co-training, giảm thiểu sai sót và tăng hiệu quả công việc. Thời gian phát triển 6 tháng, chủ thể là các công ty phần mềm và nhóm phát triển sản phẩm.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Xử lý ngôn ngữ tự nhiên:
Luận văn cung cấp kiến thức nền tảng và phương pháp ứng dụng học bán giám sát trong khai phá quan điểm, hỗ trợ phát triển các đề tài nghiên cứu mới.
Chuyên gia phân tích dữ liệu và phát triển hệ thống khai phá quan điểm:
Các kỹ thuật và kết quả thực nghiệm giúp cải thiện hiệu quả phân tích cảm nghĩ, phục vụ cho các ứng dụng trong tiếp thị, quản lý thương hiệu và phân tích thị trường.
Doanh nghiệp và tổ chức muốn khai thác ý kiến khách hàng:
Áp dụng các giải pháp khai phá quan điểm tự động để thu thập, phân tích phản hồi khách hàng trên mạng xã hội, website, giúp nâng cao chất lượng sản phẩm và dịch vụ.
Nhà phát triển phần mềm và công nghệ AI:
Tham khảo các thuật toán học bán giám sát, đặc biệt Co-training, để tích hợp vào các sản phẩm xử lý ngôn ngữ tự nhiên, chatbot, hệ thống đề xuất và quảng cáo theo ngữ cảnh.

Câu hỏi thường gặp

Co-training là gì và tại sao lại hiệu quả trong khai phá quan điểm?
Co-training là thuật toán học bán giám sát sử dụng hai bộ phân lớp huấn luyện trên hai tập thuộc tính độc lập. Nó hiệu quả vì tận dụng được dữ liệu không nhãn phong phú, giảm chi phí gán nhãn và cải thiện độ chính xác phân lớp so với học có giám sát truyền thống.
Tại sao chọn MPQA2.0 làm tập dữ liệu nghiên cứu?
MPQA2.0 là kho dữ liệu tiếng Anh lớn, được đánh dấu thủ công chi tiết về tính chủ quan và phân cực cảm nghĩ ở mức câu, phù hợp với mục tiêu nghiên cứu và chưa có tập dữ liệu tương tự cho tiếng Việt.
Các đặc trưng nào được sử dụng để biểu diễn câu trong mô hình?
Luận văn sử dụng 4 nhóm đặc trưng chính: SentiWordNet Score (điểm cảm nghĩ của từ), POS Statistics (thống kê loại từ), Word Count (đếm số từ sau khi loại bỏ từ dừng), và TFIDF (trọng số từ dựa trên tần suất và phân bố).
Làm thế nào để xác định nhãn tính chủ quan và phân cực cảm nghĩ của câu?
Tính chủ quan được xác định dựa trên các đánh dấu "GATE_direct-subjective" và "GATE_expressive-subjectivity" trong dữ liệu MPQA2.0. Tính phân cực được phân loại thành tích cực, tiêu cực hoặc trung lập dựa trên tỷ lệ nhãn trong các cụm từ thuộc câu.
Có thể áp dụng kết quả nghiên cứu cho ngôn ngữ khác ngoài tiếng Anh không?
Có thể, nhưng cần xây dựng tập dữ liệu tương ứng và điều chỉnh thuật toán phù hợp với đặc thù ngôn ngữ đó. Việc này đòi hỏi nghiên cứu thêm về xử lý ngôn ngữ tự nhiên và chuẩn hóa dữ liệu.

Kết luận

Luận văn đã nghiên cứu và ứng dụng thành công thuật toán học bán giám sát Co-training vào bài toán khai phá quan điểm ở mức câu tiếng Anh, sử dụng tập dữ liệu MPQA2.0.
Kết quả thực nghiệm cho thấy Co-training vượt trội hơn học có giám sát truyền thống về độ chính xác phân lớp tính chủ quan và tính phân cực cảm nghĩ.
Hai đặc trưng SentiWordNet Score và POS Statistics được lựa chọn làm khung nhìn hiệu quả nhất cho thuật toán Co-training.
Nghiên cứu mở ra hướng phát triển ứng dụng khai phá quan điểm cho các ngôn ngữ khác, đặc biệt là tiếng Việt, và kết hợp với các kỹ thuật học sâu để nâng cao hiệu quả.
Đề xuất các giải pháp triển khai hệ thống khai phá quan điểm tự động, phát triển công cụ hỗ trợ gán nhãn và mở rộng nghiên cứu trong tương lai nhằm ứng dụng rộng rãi trong thực tế.

Quý độc giả và các nhà nghiên cứu quan tâm có thể tiếp cận và ứng dụng các kết quả này để phát triển các hệ thống phân tích cảm nghĩ hiện đại, góp phần nâng cao chất lượng ra quyết định dựa trên dữ liệu văn bản lớn.

Trích đoạn nội dung tài liệu

MỞ ĐẦU Ý kiến đánh giá của khách hàng, ngƣời dùng, cá nhân về một sản phẩm, dịch vụ, chính sách hay một vấn đề nào đó tồn tại với số lƣợng lớn trong kho lƣu trữ của các công ty, trên mạng internet. Đối với các công ty, việc khai thác lƣợng thông tin này giúp họ hiểu rõ hơn về khách hàng, sản phẩm, dịch vụ của mình. Với các tổ chức, chính phủ thì đây cũng là một nguồn cung cấp thông tin hữu ích hỗ trợ cho việc ra quyết định, điều chỉnh chính sách. Bên cạnh các thuật toán học có giám sát, thì các thuật toán học bán giám sát cũng là một hƣớng nghiên cứu có nhiều ứng dụng trong thực tế.

Đề tài này hƣớng tới tìm hiểu một thuật toán học cộng tác - một trong các thuật toán học bán giám sát - và ứng dụng vào bài toán khai phá quan điểm. Do đặc điểm chỉ cần lƣợng nhỏ dữ liệu đã đƣợc gắn nhãn cùng với lƣợng lớn dữ liệu chƣa đƣợc gắn nhãn làm dữ liệu huấn luyện. Điều này giúp cho việc thu thập, gắn nhãn cho tập dữ liệu huấn luyện ít tốn kém hơn. Những nghiên cứu, luận văn liên quan đến phân tích tính chủ quan và phân tích cảm nghĩ ở nhiều các mức khác nhau cũng nhƣ liên quan đến kỹ thuật Co-training cũng đã xuất hiện nhiều.

Tuy nhiên việc kết hợp chúng lại với nhau, dùng kỹ thuật Co-training vào phân tích tính chủ quan và phân tích cảm nghĩ, thì chƣa đƣợc phổ biến nhiều qua các bài báo, bằng cả tiếng Việt và tiếng Anh, đƣợc công khai trên mạng. Ngoài ra việc phân tích ở mức câu cũng là một trở ngại so với ở mức tài liệu [5]. Đề tài luận văn này định hƣớng giải quyết bài toán phân lớp các câu cảm nghĩ nhƣ sau: Cho một tập văn bản gồm nhiều câu văn tiếng Anh. Phân lớp xem câu nào là câu mô tả cảm nghĩ, câu nào không.

Đối với những câu mô tả cảm nghĩ, dùng bộ phân lớp phân cực để xác định đó là câu mô tả cảm nghĩ tích cực, tiêu cực hay trung lập. Trong đó, các bộ phân lớp đƣợc xây dựng dựa trên kỹ thuật Co-training. Trên cơ sở định hƣớng đó, nội dung trình bày báo cáo luận văn bao gồm: (1) lý do, mục tiêu của đề tài và các đề tài nghiên cứu liên quan – Chƣơng 1; (2) trình bày các kiến thức cơ sở liên quan – Chƣơng 2; (3) cách tiếp cận và giải quyết bài toán – Chƣơng 3; (4) thực nghiệm và các kết quả - Chƣơng 4; (5) kết luận và hƣớng phát triển của đề tài. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Trang 8 CHƢƠNG 1 – GIỚI THIỆU 1.

Lý do chọn đề tài Khai phá dữ liệu (KPDL) là một chuyên ngành mới, thu hút đƣợc nhiều nghiên cứu trong thời gian gần đây. Hƣớng tiếp cận và giải quyết vấn đề dựa trên KPDL là hoàn toàn khác so với cách xử lý Cơ sở dữ liệu (CSDL) truyền thống. Trong xử lý CSDL truyền thống, các thao tác xử lý chỉ có thể truy xuất và đƣa ra các thông tin đã có dƣới dạng liệt kê các giá trị dựa trên tính toán, thống kê các giá trị bản ghi hoặc một báo cáo gồm tập hợp nhiều giá trị bản ghi, giá trị tính toán, thống kê khác nhau. KPDL có thể đƣa ra kết quả là những tri thức tiềm ẩn trong tập dữ liệu mà các xử lý truyền thống nhƣ trƣớc đây không thể truy vấn đƣợc.

Trong KPDL, dữ liệu thích hợp là vấn đề quan trọng đầu tiên để có thể khám phá đƣợc tri thức có giá trị. Tùy vào cấu trúc của dữ liệu mà KPDL sẽ có tên gọi tƣơng ứng thích hợp. Riêng đối với dữ liệu text thì đƣợc gọi là Khai phá text. Dữ liệu dạng text là dạng dữ liệu tự nhiên và chiếm tỉ lệ nhiều nhất trong các dạng dữ liệu mà con ngƣời tạo ra.

Trên Internet, có khoảng 3 tỉ tài liệu dạng text đƣợc đánh chỉ số bởi các máy tìm kiếm phổ biến nhất (Sullivan, 2005). Trong các công ty, lƣợng lớn dữ liệu text trong thƣ điện tử, ghi chú, trang cổng thông tin, tài liệu công ty đƣợc số hóa. Một số ƣớc lƣợng chỉ ra rằng có đến 85% lƣợng dữ liệu công ty đƣợc lƣu trữ dƣới dạng tài liệu text không có cấu trúc. Việc khai thác tri thức từ lƣợng thông tin này là một yêu cầu thiết thực đối với nhân loại.

Dữ liệu text thƣờng ẩn chứa rất nhiều tri thức có giá trị mà con ngƣời tạo ra nhằm chia sẻ với mọi ngƣời về các kinh nghiệm đã trãi qua. Do đó, mỗi khi cần đƣa ra một quyết định gì, chúng ta thƣờng tham khảo đến những kinh nghiệm của ngƣời đi trƣớc bằng cách tìm kiếm trên Internet. Với các công cụ Khai phá quan điểm, thì việc trích xuất những tri thức này sẽ đƣợc thực hiện một cách tự động và có hệ thống. Giúp chúng ta nắm bắt đƣợc các khía cạnh liên quan đến quan điểm của công chúng về một vấn đề nào đó cần quan tâm.

Từ đó giúp cho việc ra quyết định có cơ sở vững chắc. Với lƣợng dữ liệu text sẵn có lớn nhƣ vậy cộng thêm nhu cầu của con ngƣời muốn khai thác hay phân tích các khía cạnh liên quan đến quan điểm thì việc nghiên cứu bài toán khai phá quan điểm chắc chắn sẽ có nhiều ứng dụng trong tƣơng lai. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Trang 9 Trong bài toán khai phá quan điểm, có 2 bài toán phân lớp con là phân lớp sự tồn tại của cảm nghĩ và phân lớp tính phân cực của cảm nghĩ. Nói đến phân lớp thì đƣợc hiểu là học có giám sát, trong đó mô hình / hàm phân lớp đƣợc xây dựng từ tập dữ liệu có nhãn.

Do vậy dữ liệu chƣa đƣợc gán nhãn là vô dụng đối với học có giám sát. Nếu tận dụng đƣợc cả dữ liệu chƣa có nhãn mà có thể nâng cao đƣợc hiệu năng so với học có giám sát thì sẽ đƣợc lợi là không phải làm việc gán nhãn một cách thủ công với những dữ liệu chƣa có nhãn có thể đƣợc thu thập một cách dễ dàng. Việc tận dụng cả dữ liệu chƣa đƣợc gán nhãn để xây dựng mô hình / hàm phân lớp tốt hơn nhƣ vậy đƣợc gọi là học bán giám sát. Chính vì những lý do nêu trên mà đề tài đƣợc định hƣớng giải bài toán khai phá quan điểm dựa trên học bán giám sát.

Những vấn đề liên quan trọng Khai phá quan điểm cần đƣợc tham khảo từ những đề tài, nghiên cứu khác bao gồm: các đặc trƣng, thuật toán Co-training, thuật toán phân lớp trong bài toán khai phá quan điểm. Mỗi vấn đề tồn tại trong rất nhiều nghiên cứu đã đƣợc công bố. Ở đây chỉ liệt kê một hoặc hai nghiên cứu tiêu biểu nhất cho mỗi vấn đề. Liên quan đến trích chọn đặc trƣng trong bài toán Khai phá quan điểm, có nhiều nghiên cứu, trong đó tiêu biểu là “Sentence Level Subjectivity and Sentiment Analysis Experiments in NTCIR-7 MOAT Challenge” [3].

Nghiên cứu này có cách tiếp cận 2 bài toán phân lớp ở mức câu trong Khai phá quan điểm trên các tập dữ liệu khác nhau, trong đó các thực nghiệm đƣợc tiến hành với nhiều đặc trƣng câu khác nhau đƣợc chia thành các nhóm đặc trƣng nhất định. Về thuật toán Co-training, có rất nhiều nghiên cứu tiếp theo sau bài báo của Tom Mitchell, tác giả đề xuất ra giải thuật. Tuy nhiên, nghiên cứu của chính tác giả, đạt giải thƣởng bài báo xuất sắc nhất của ICML năm 1998 (Best paper of ICML 1998) và giải thƣởng bài báo xuất sắc nhất trong 10 năm của ICML/COLT (ICML/COLT 10-Year Best Paper Award) vào năm 2008, là cơ bản nhất. “Combining Labeled and Unlabeled Data with Co-Training” [4], của hai tác giả Avrim Blum và Tom Mitchell, năm 1998: đề xuất thuật toán Co-Training và chứng minh đƣợc tính hiệu quả của nó so với phân lớp dựa trên học máy có giám sát.

Thuật toán phân lớp đƣợc sử dụng phổ biến trong khai phá quan điểm là Support Vector Machine (SVM). Nghiên cứu của hai tác giả Vũ Thanh Nguyên, LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Trang 10 Trang Nhật Quang từ Đại học Quốc gia thành phố Hồ Chí Minh, “Ứng dụng thuật toán phân lớp rút trích thông tin văn bản FSVM trên Internet” [2] nêu lên tầm quan trọng của việc chọn hàm thành viên trong SVM. Những cách giải quyết trong luận văn này có một phần đƣợc tham khảo từ những nghiên cứu liên quan nêu trên, một phần đƣợc rút ra từ những những thử nghiệm có kết quả cao. Đánh giá chung thì cách tiếp cận trong luận văn cho các độ đo (độ chính xác, …) nằm trong khoảng giữa của mức cao nhất và mức thấp nhất đƣợc kết luận trong các nghiên cứu trên.

Đồng thời kết quả trong phạm vi luận văn này (Chƣơng 4) không trái ngƣợc với các kết quả của các công trình nghiên cứu liên quan đƣợc liệt kê và không đƣợc liệt kê ở đây. Mục tiêu, phạm vi nghiên cứu của đề tài Mục tiêu chính của đề tài là đƣa ra đƣợc so sánh đánh giá giữa một thuật toán học bán giám sát và một thuật toán học có giám sát trên cùng tập dữ liệu huấn luyện có nhãn và tập dữ liệu đánh giá. Cụ thể là đƣa ra đƣợc các số liệu thực nghiệm chứng minh Co-training có các số đo tốt hơn so với một thuật toán học có giám sát trên cùng tập dữ liệu. Đồng thời đƣa ra đƣợc các tham số tối ƣu cho Co-training qua thực nghiệm trên các tập dữ liệu huấn luyện và đánh giá khác nhau đƣợc trích xuất từ kho dữ liệu MPQA2.

Việc chọn kho dữ liệu MPQA, tiếng Anh, xuất phát từ nguyên nhân khách quan là do chƣa có tập dữ liệu nào bằng tiếng Việt đƣợc tạo ra để phục vụ cho việc nghiên cứu Khai phá quan điểm. Hơn nữa các nghiên cứu về xử lý ngôn ngữ tiếng Việt cũng chƣa đƣợc công bố nhiều. Để đạt đƣợc mục tiêu trên, nghiên cứu sẽ đƣợc tiến hành qua các bƣớc: tìm hiểu về kho dữ liệu MPQA2.0; nghiên cứu các đặc trƣng câu và cách trích xuất; các bƣớc tiền xử lý và chuẩn bị dữ liệu cho phân lớp, cài đặc hai bộ phân lớp con riêng lẻ, hai bộ phân lớp con dựa trên Co-training với các nhãn phân lớp tƣơng ứng là nhãn về sự tồn tại cảm nghĩ và nhãn về tính phân cực cảm nghĩ ở mức câu; cuối cùng thực hiện huấn luyện và đánh giá trên cùng các tập huấn luyện và đánh giá; tổng hợp các kết quả và đánh giá. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Trang 11 CHƢƠNG 2 – KHAI PHÁ QUAN ĐIỂM VÀ ỨNG DỤNG 2.

Khai phá quan điểm (Opinion mining) 2. Các khái niệm liên quan a.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Xử lý ngôn ngữ tự nhiên ứng dụng

học máy và thuật toán học bán giám sát

khai phá dữ liệu và phân tích quan điểm