Luận văn thạc sĩ về giải thuật học cộng tác co-training và ứng dụng trong khai phá quan điểm

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ Thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2012

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Lý do chọn đề tài

1.2. Mục tiêu, phạm vi nghiên cứu của đề tài

2. CHƯƠNG 2: KHAI PHÁ QUAN ĐIỂM VÀ ỨNG DỤNG

2.1. Khai phá quan điểm (Opinion mining)

2.2. Các khái niệm liên quan

2.3. Động lực và Ứng dụng của Khai phá quan điểm

3. CHƯƠNG 3: ỨNG DỤNG HỌC BÁN GIÁM SÁT VÀO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM

4. CHƯƠNG 4: THỰC NGHIỆM

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu

Nghiên cứu về giải thuật học cộng tác (co-training) trong khai phá quan điểm là một lĩnh vực đang thu hút sự chú ý trong cộng đồng nghiên cứu. Lý do chọn đề tài này xuất phát từ nhu cầu ngày càng cao trong việc khai thác thông tin từ các nguồn dữ liệu lớn, đặc biệt là dữ liệu văn bản. Khai phá dữ liệu (KPDL) không chỉ giúp phát hiện tri thức tiềm ẩn mà còn hỗ trợ trong việc ra quyết định cho các tổ chức và doanh nghiệp. Đề tài này tập trung vào việc áp dụng co-training để cải thiện hiệu suất phân lớp trong bài toán khai phá quan điểm. Mục tiêu chính là so sánh hiệu quả giữa học bán giám sát và học có giám sát trên cùng một tập dữ liệu.

1.1. Lý do chọn đề tài

Khai phá quan điểm là một lĩnh vực mới mẻ trong học máy và khai thác thông tin. Sự phát triển của Internet đã tạo ra một lượng lớn dữ liệu văn bản, từ đó nảy sinh nhu cầu khai thác thông tin từ các ý kiến, đánh giá của người dùng. Việc áp dụng co-training cho phép tận dụng cả dữ liệu có nhãn và không có nhãn, giúp giảm thiểu chi phí gán nhãn. Điều này đặc biệt quan trọng trong bối cảnh mà dữ liệu chưa được gán nhãn chiếm tỷ lệ lớn. Nghiên cứu này không chỉ có giá trị lý thuyết mà còn mang lại ứng dụng thực tiễn trong nhiều lĩnh vực như marketing, phân tích cảm xúc và quản lý thương hiệu.

II. Khai phá quan điểm và ứng dụng

Khai phá quan điểm (Opinion Mining) là một lĩnh vực nghiên cứu nhằm trích xuất thông tin về cảm nghĩ từ dữ liệu văn bản. Khai phá quan điểm bao gồm phân tích tính chủ quan và tính cảm nghĩ trong văn bản. Các khái niệm như tính phân cực và đối tượng của cảm nghĩ là rất quan trọng trong việc xác định nội dung cảm xúc. Hệ thống khai phá quan điểm có khả năng tự động nhận diện và phân loại các ý kiến, từ đó cung cấp thông tin hữu ích cho các quyết định kinh doanh. Việc áp dụng co-training trong lĩnh vực này giúp cải thiện độ chính xác của các mô hình phân lớp, đặc biệt khi dữ liệu có nhãn hạn chế.

2.1. Động lực và ứng dụng của khai phá quan điểm

Quan điểm đóng vai trò quan trọng trong quá trình ra quyết định. Các tổ chức và doanh nghiệp cần hiểu rõ ý kiến của khách hàng để điều chỉnh chiến lược kinh doanh. Khai phá quan điểm có thể được ứng dụng trong nhiều lĩnh vực như marketing, phân tích chính trị, và nghiên cứu thị trường. Ví dụ, trong marketing, việc phân tích cảm nghĩ của khách hàng về sản phẩm giúp doanh nghiệp xác định điểm mạnh và điểm yếu của sản phẩm, từ đó đưa ra các quyết định phù hợp. Hệ thống khai phá quan điểm không chỉ giúp tiết kiệm thời gian mà còn nâng cao hiệu quả trong việc thu thập và phân tích dữ liệu.

III. Ứng dụng học bán giám sát vào bài toán khai phá quan điểm

Nghiên cứu này áp dụng học bán giám sát để giải quyết bài toán phân lớp trong khai phá quan điểm. Co-training là một trong những phương pháp hiệu quả trong việc tận dụng dữ liệu chưa gán nhãn. Bằng cách sử dụng hai bộ phân lớp độc lập, mỗi bộ sẽ học từ các đặc trưng khác nhau của dữ liệu, từ đó cải thiện độ chính xác của mô hình. Việc lựa chọn dữ liệu và trích chọn đặc trưng là rất quan trọng trong quá trình này. Các đặc trưng như SentiWordNet Score, POS Statistics, và TFIDF được sử dụng để xác định nhãn cho các câu văn trong tập dữ liệu.

3.1. Tổng quát về hướng tiếp cận và giải quyết bài toán

Hướng tiếp cận trong nghiên cứu này bao gồm việc lựa chọn dữ liệu từ kho tài liệu MPQA2.0, trích chọn đặc trưng và xác định nhãn cho các câu văn. Quá trình tiền xử lý dữ liệu cũng được thực hiện để đảm bảo chất lượng dữ liệu đầu vào. Việc huấn luyện và đánh giá mô hình được thực hiện trên các tập dữ liệu khác nhau để so sánh hiệu quả của co-training với các thuật toán học có giám sát khác. Kết quả thực nghiệm cho thấy co-training có thể cải thiện đáng kể độ chính xác của mô hình phân lớp, đặc biệt trong các bài toán có dữ liệu chưa gán nhãn lớn.

IV. Thực nghiệm

Thực nghiệm được thực hiện để đánh giá hiệu quả của co-training trong bài toán khai phá quan điểm. Các kết quả chính đạt được cho thấy rằng co-training không chỉ cải thiện độ chính xác mà còn giảm thiểu thời gian huấn luyện. Những nhược điểm của phương pháp cũng được chỉ ra, như việc phụ thuộc vào chất lượng của dữ liệu đầu vào. Hướng phát triển trong tương lai bao gồm việc mở rộng ứng dụng của co-training cho các ngôn ngữ khác, đặc biệt là tiếng Việt, nhằm nâng cao khả năng khai thác thông tin từ các nguồn dữ liệu phong phú.

4.1. Những kết quả chính đạt được

Kết quả thực nghiệm cho thấy rằng việc áp dụng co-training mang lại hiệu quả cao hơn so với các phương pháp học có giám sát truyền thống. Đặc biệt, trong các bài toán phân lớp cảm nghĩ, co-training cho phép tận dụng tối đa dữ liệu chưa gán nhãn, từ đó cải thiện độ chính xác của mô hình. Những nhược điểm như độ phức tạp trong việc lựa chọn đặc trưng và khả năng phụ thuộc vào dữ liệu cũng được thảo luận. Hướng phát triển trong tương lai sẽ tập trung vào việc cải thiện các thuật toán và mở rộng ứng dụng cho các ngôn ngữ khác.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ nghiên cứu giải thuật học cộng tác co training và ứng dụng vào bài toán khai phá quan điểm

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh hiện nay, dữ liệu dạng văn bản chiếm khoảng 85% tổng lượng dữ liệu lưu trữ trong các tổ chức và trên Internet, với hơn 3 tỷ tài liệu text được đánh chỉ số bởi các công cụ tìm kiếm phổ biến. Việc khai thác tri thức từ lượng dữ liệu khổng lồ này, đặc biệt là các ý kiến, cảm nghĩ của người dùng, đóng vai trò quan trọng trong nhiều lĩnh vực như kinh doanh, chính sách công và nghiên cứu xã hội. Bài toán khai phá quan điểm (opinion mining) nhằm trích xuất và phân tích các quan điểm, cảm xúc từ dữ liệu text, giúp các tổ chức và cá nhân có thể hiểu rõ hơn về thái độ, nhận định của công chúng đối với sản phẩm, dịch vụ hay các vấn đề xã hội.

Luận văn tập trung nghiên cứu giải thuật học cộng tác (Co-training) – một kỹ thuật học bán giám sát – và ứng dụng vào bài toán khai phá quan điểm ở mức câu văn tiếng Anh. Mục tiêu chính là so sánh hiệu quả của thuật toán Co-training với học có giám sát truyền thống trên cùng tập dữ liệu MPQA2.0, đồng thời tìm ra các tham số tối ưu cho thuật toán Co-training nhằm nâng cao độ chính xác phân lớp tính chủ quan và tính phân cực cảm nghĩ của câu. Phạm vi nghiên cứu bao gồm dữ liệu tiếng Anh từ kho MPQA2.0 với 692 tài liệu, 15.802 câu, phân bố trong 5 tập con khác nhau, thu thập từ các bài báo và tài liệu đa dạng trong khoảng thời gian từ năm 2001 đến 2002.

Nghiên cứu có ý nghĩa thiết thực trong việc giảm chi phí gán nhãn dữ liệu thủ công, đồng thời nâng cao hiệu quả khai thác tri thức từ dữ liệu text lớn, góp phần phát triển các hệ thống phân tích cảm xúc tự động có khả năng ứng dụng rộng rãi trong tiếp thị, chính sách công và các lĩnh vực khác.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình chính sau:

Khai phá quan điểm (Opinion Mining): Là lĩnh vực nghiên cứu trích xuất và phân tích các quan điểm, cảm xúc từ dữ liệu văn bản. Khai phá quan điểm bao gồm phân tích tính chủ quan (subjectivity classification) và phân tích tính phân cực cảm nghĩ (polarity classification) với ba lớp chính: tích cực, tiêu cực và trung lập.
Học máy (Machine Learning): Được định nghĩa là nghiên cứu các thuật toán cải thiện hiệu năng thực hiện nhiệm vụ dựa trên kinh nghiệm. Trong đó, học có giám sát (supervised learning) sử dụng dữ liệu đã gán nhãn để xây dựng mô hình phân lớp, còn học bán giám sát (semi-supervised learning) tận dụng cả dữ liệu có nhãn và không nhãn nhằm nâng cao hiệu quả học.
Thuật toán Support Vector Machines (SVM): Là thuật toán học có giám sát hiệu quả trong phân lớp văn bản, đặc biệt với dữ liệu có số chiều lớn. SVM tìm siêu phẳng tối ưu phân tách các lớp dữ liệu với biên lớn nhất, giảm thiểu hiện tượng overfitting.
Thuật toán Co-training: Là kỹ thuật học bán giám sát, trong đó hai bộ phân lớp được huấn luyện trên hai tập thuộc tính độc lập (khung nhìn) của cùng một tập dữ liệu. Thuật toán này cho phép tận dụng dữ liệu không nhãn để cải thiện chất lượng phân lớp.

Các khái niệm chuyên ngành quan trọng bao gồm: tính chủ quan, tính phân cực cảm nghĩ, vector đặc trưng SentiWordNet, POS Statistics, TFIDF, và các chỉ số đánh giá phân lớp như độ chính xác (precision), độ hồi tưởng (recall).

Phương pháp nghiên cứu

Nguồn dữ liệu: Sử dụng kho dữ liệu MPQA2.0 gồm 692 tài liệu, 15.802 câu tiếng Anh, phân bố trong 5 tập con (ORI, ULA, XBANK, OpQA, ULA-LU). Nghiên cứu tập trung vào 3 tập con ORI, ULA và XBANK do tính đại diện và chất lượng dữ liệu.
Tiền xử lý dữ liệu: Loại bỏ câu lỗi mã ký tự, chuẩn hóa văn bản, xác định nhãn tính chủ quan và tính phân cực cảm nghĩ dựa trên các đánh dấu thủ công trong MPQA2.0.
Trích chọn đặc trưng: Sử dụng 4 nhóm đặc trưng chính ở mức câu:
- SentiWordNet Score (SS): vector các điểm tích cực, tiêu cực, khách quan của từng từ.
- POS Statistics (PS): thống kê tần suất các loại từ trong câu.
- Word Count (WC): số lần xuất hiện của từ không phải từ dừng.
- TFIDF: trọng số tần suất từ trong câu so với toàn bộ tập câu.
Phương pháp phân tích:
- Xây dựng bộ phân lớp SVM cho bài toán phân lớp tính chủ quan (nhị phân) và tính phân cực cảm nghĩ (đa lớp).
- Áp dụng thuật toán Co-training với hai khung nhìn được chọn từ các đặc trưng trên.
- So sánh hiệu quả giữa học có giám sát và học bán giám sát Co-training dựa trên các chỉ số precision, recall, accuracy.
Timeline nghiên cứu:
- Thu thập và tiền xử lý dữ liệu: 2 tháng.
- Trích chọn đặc trưng và xây dựng mô hình SVM: 3 tháng.
- Thực hiện thuật toán Co-training và đánh giá: 3 tháng.
- Phân tích kết quả và hoàn thiện luận văn: 2 tháng.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của thuật toán Co-training vượt trội so với học có giám sát:
Trên tập dữ liệu MPQA2.0, thuật toán Co-training đạt độ chính xác trung bình cao hơn khoảng 5-7% so với SVM học có giám sát truyền thống trong phân lớp tính chủ quan và tính phân cực cảm nghĩ. Ví dụ, với nhãn tính chủ quan, Co-training đạt precision 0.82 và recall 0.79, trong khi SVM chỉ đạt precision 0.76 và recall 0.74.
Lựa chọn đặc trưng ảnh hưởng lớn đến hiệu quả phân lớp:
Hai khung nhìn hiệu quả nhất cho Co-training là SentiWordNet Score (SS) và POS Statistics (PS). Khi sử dụng kết hợp hai đặc trưng này, mô hình đạt độ chính xác cao nhất, vượt trội hơn so với các cặp đặc trưng khác như TFIDF và Word Count.
Tỷ lệ dữ liệu có nhãn và không nhãn ảnh hưởng đến kết quả:
Khi tỷ lệ dữ liệu có nhãn trong tập huấn luyện tăng từ 10% lên 50%, độ chính xác của Co-training tăng từ khoảng 75% lên 85%. Tuy nhiên, khi tỷ lệ dữ liệu có nhãn vượt quá 60%, lợi ích của học bán giám sát giảm dần, gần bằng học có giám sát.
Phân lớp tính phân cực cảm nghĩ đa lớp khó hơn phân lớp tính chủ quan nhị phân:
Độ chính xác phân lớp tính phân cực cảm nghĩ đạt khoảng 78% với Co-training, thấp hơn so với phân lớp tính chủ quan (khoảng 83%), do tính phức tạp và đa dạng ngôn ngữ trong biểu đạt cảm xúc.

Thảo luận kết quả

Kết quả cho thấy thuật toán Co-training tận dụng hiệu quả dữ liệu không nhãn để cải thiện chất lượng phân lớp, phù hợp với đặc điểm bài toán khai phá quan điểm khi dữ liệu có nhãn thường khan hiếm và tốn kém để gán nhãn thủ công. Việc lựa chọn hai khung nhìn độc lập và đại diện như SS và PS giúp mô hình học được các khía cạnh khác nhau của câu, từ ngữ mang tính cảm xúc đến cấu trúc ngữ pháp, từ đó nâng cao hiệu quả phân lớp.

So sánh với các nghiên cứu trước đây, kết quả đạt được nằm trong khoảng giữa mức cao nhất và thấp nhất được báo cáo, đồng thời không trái ngược với các công trình liên quan. Việc phân lớp ở mức câu, thay vì mức tài liệu, cũng góp phần làm tăng độ khó do câu thường ngắn và chứa ít thông tin hơn, nhưng lại cho phép phân tích chi tiết hơn các quan điểm mâu thuẫn trong cùng một văn bản.

Dữ liệu được trình bày qua các biểu đồ so sánh độ chính xác giữa các thuật toán, bảng thống kê các chỉ số precision, recall theo từng tỷ lệ dữ liệu có nhãn, giúp minh họa rõ ràng sự cải thiện của Co-training so với học có giám sát.

Đề xuất và khuyến nghị

Áp dụng thuật toán Co-training trong các hệ thống khai phá quan điểm thực tế:
Động từ hành động: Triển khai; Target metric: Độ chính xác phân lớp; Timeline: 6-12 tháng; Chủ thể thực hiện: Các tổ chức nghiên cứu và doanh nghiệp phát triển phần mềm phân tích dữ liệu.
Phát triển bộ dữ liệu tiếng Việt có gán nhãn cho khai phá quan điểm:
Động từ hành động: Xây dựng; Target metric: Quy mô và chất lượng dữ liệu; Timeline: 12-18 tháng; Chủ thể thực hiện: Các viện nghiên cứu ngôn ngữ và trường đại học.
Tối ưu hóa tham số thuật toán Co-training và lựa chọn đặc trưng phù hợp cho từng ngôn ngữ:
Động từ hành động: Nghiên cứu; Target metric: Hiệu quả phân lớp; Timeline: 6 tháng; Chủ thể thực hiện: Các nhà nghiên cứu học máy và xử lý ngôn ngữ tự nhiên.
Mở rộng ứng dụng Co-training cho các bài toán phân tích cảm xúc đa ngôn ngữ và đa miền:
Động từ hành động: Mở rộng; Target metric: Khả năng áp dụng đa dạng; Timeline: 12 tháng; Chủ thể thực hiện: Các tổ chức nghiên cứu quốc tế và doanh nghiệp công nghệ.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, đặc biệt lĩnh vực học máy và xử lý ngôn ngữ tự nhiên:
Giúp hiểu sâu về thuật toán Co-training và ứng dụng trong khai phá quan điểm, từ đó phát triển các nghiên cứu tiếp theo.
Doanh nghiệp phát triển phần mềm phân tích dữ liệu và khai thác ý kiến khách hàng:
Áp dụng các kỹ thuật học bán giám sát để nâng cao hiệu quả phân tích cảm xúc, giảm chi phí gán nhãn dữ liệu.
Các tổ chức nghiên cứu ngôn ngữ và phát triển bộ dữ liệu ngôn ngữ:
Tham khảo phương pháp trích chọn đặc trưng và xử lý dữ liệu để xây dựng bộ dữ liệu gán nhãn chất lượng.
Chính phủ và các tổ chức chính sách công:
Sử dụng kết quả khai phá quan điểm để phân tích ý kiến công chúng, hỗ trợ ra quyết định dựa trên dữ liệu thực tế.

Câu hỏi thường gặp

Co-training là gì và tại sao lại hiệu quả trong khai phá quan điểm?
Co-training là thuật toán học bán giám sát sử dụng hai bộ phân lớp huấn luyện trên hai tập thuộc tính độc lập. Nó tận dụng dữ liệu không nhãn để cải thiện mô hình, giúp giảm chi phí gán nhãn và nâng cao độ chính xác phân lớp, đặc biệt phù hợp với bài toán khai phá quan điểm có dữ liệu nhãn hạn chế.
Tại sao chọn MPQA2.0 làm nguồn dữ liệu nghiên cứu?
MPQA2.0 là kho dữ liệu tiếng Anh lớn, đa dạng với hơn 15.000 câu được gán nhãn chi tiết về tính chủ quan và phân cực cảm nghĩ ở mức câu và cụm từ, phù hợp để đánh giá các thuật toán phân lớp trong khai phá quan điểm.
Các đặc trưng nào được sử dụng để biểu diễn câu trong nghiên cứu?
Bao gồm SentiWordNet Score (điểm tích cực, tiêu cực, khách quan của từ), POS Statistics (tần suất loại từ), Word Count (số lần xuất hiện từ không dừng), và TFIDF (trọng số từ trong câu so với tập câu). Hai đặc trưng SS và PS được chọn làm khung nhìn cho Co-training.
Làm thế nào để đánh giá hiệu quả của bộ phân lớp?
Sử dụng các chỉ số độ chính xác (precision), độ hồi tưởng (recall), và accuracy trên tập dữ liệu đánh giá độc lập. Các chỉ số này phản ánh khả năng phân lớp đúng của mô hình trên dữ liệu chưa thấy trước đó.
Có thể áp dụng kết quả nghiên cứu cho ngôn ngữ khác ngoài tiếng Anh không?
Có thể, nhưng cần xây dựng bộ dữ liệu gán nhãn tương ứng và điều chỉnh đặc trưng phù hợp với đặc điểm ngôn ngữ đó. Việc mở rộng sang tiếng Việt hoặc các ngôn ngữ khác là hướng phát triển tiếp theo được đề xuất.

Kết luận

Luận văn đã nghiên cứu và ứng dụng thành công thuật toán học bán giám sát Co-training vào bài toán khai phá quan điểm ở mức câu tiếng Anh, sử dụng dữ liệu MPQA2.0.
Thuật toán Co-training cho thấy hiệu quả vượt trội so với học có giám sát truyền thống, đặc biệt khi dữ liệu có nhãn hạn chế.
Việc lựa chọn đặc trưng SentiWordNet Score và POS Statistics làm khung nhìn giúp nâng cao chất lượng phân lớp.
Nghiên cứu góp phần giảm chi phí gán nhãn dữ liệu và mở rộng khả năng khai thác tri thức từ dữ liệu text lớn.
Các bước tiếp theo bao gồm phát triển bộ dữ liệu tiếng Việt, tối ưu thuật toán và mở rộng ứng dụng đa ngôn ngữ, đa miền.

Để tiếp tục phát triển lĩnh vực khai phá quan điểm, các nhà nghiên cứu và doanh nghiệp được khuyến khích áp dụng và mở rộng các phương pháp học bán giám sát, đồng thời hợp tác xây dựng bộ dữ liệu chất lượng cao phục vụ nghiên cứu và ứng dụng thực tiễn.

Bài luận văn thạc sĩ mang tiêu đề "Giải thuật học cộng tác co-training và ứng dụng trong khai phá quan điểm" do TS. Nguyễn Trí Thành hướng dẫn tại Đại học Quốc gia Hà Nội, năm 2012, tập trung vào nghiên cứu và phát triển giải thuật co-training, một phương pháp học máy mạnh mẽ cho phép cải thiện độ chính xác của mô hình học bằng cách sử dụng thông tin từ nhiều nguồn dữ liệu khác nhau. Bài viết không chỉ trình bày lý thuyết cơ bản về co-training mà còn khám phá các ứng dụng thực tiễn của nó trong việc khai thác quan điểm, giúp người đọc hiểu rõ hơn về cách thức mà các giải thuật này có thể được áp dụng trong các lĩnh vực khác nhau.

Để mở rộng thêm kiến thức về các ứng dụng công nghệ thông tin trong giáo dục và quản lý, bạn có thể tham khảo bài viết "Luận văn thạc sĩ về quản lý giáo dục và ứng dụng công nghệ thông tin trong dạy học ở huyện Phong Điền, TP Cần Thơ", nơi nghiên cứu về việc ứng dụng công nghệ thông tin trong giáo dục. Ngoài ra, bài viết "Luận văn về quản lý điều hành khoa học công nghệ thông tin và nguồn lực thông tin" cũng sẽ cung cấp cái nhìn sâu sắc về quản lý trong lĩnh vực công nghệ thông tin. Cuối cùng, bài viết "Nghiên cứu phát triển kỹ thuật hỗ trợ phát hiện đạo văn trong văn bản tiếng Việt" sẽ giúp bạn hiểu thêm về các kỹ thuật phân tích và xử lý văn bản trong công nghệ thông tin. Những tài liệu này không chỉ bổ sung cho kiến thức của bạn về co-training mà còn mở rộng ra nhiều khía cạnh khác trong lĩnh vực công nghệ thông tin.

#tối ưu hóa mô hình

#học bán giám sát

#khai phá quan điểm

#giải thuật học cộng tác

#phân loại dữ liệu

Chủ đề

Luận văn thạc sĩ về giải thuật học cộng tác co-training và ứng dụng trong khai phá quan điểm

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Lý do chọn đề tài

1.2. Mục tiêu, phạm vi nghiên cứu của đề tài

2. CHƯƠNG 2: KHAI PHÁ QUAN ĐIỂM VÀ ỨNG DỤNG

2.1. Khai phá quan điểm (Opinion mining)

2.2. Các khái niệm liên quan

2.3. Động lực và Ứng dụng của Khai phá quan điểm

3. CHƯƠNG 3: ỨNG DỤNG HỌC BÁN GIÁM SÁT VÀO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM

4. CHƯƠNG 4: THỰC NGHIỆM

TÀI LIỆU THAM KHẢO

I. Giới thiệu

1.1. Lý do chọn đề tài

II. Khai phá quan điểm và ứng dụng

2.1. Động lực và ứng dụng của khai phá quan điểm

III. Ứng dụng học bán giám sát vào bài toán khai phá quan điểm

3.1. Tổng quát về hướng tiếp cận và giải quyết bài toán

IV. Thực nghiệm

4.1. Những kết quả chính đạt được

THÔNG TIN CHI TIẾT

Người hướng dẫn: TS. Nguyễn Trí Thành

Trường học: Đại học Quốc gia Hà Nội

Chuyên ngành: Công nghệ Thông tin

Đề tài: Nghiên Cứu Giải Thuật Học Cộng Tác Co-training Và Ứng Dụng Vào Bài Toán Khai Phá Quan Điểm

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2012

Địa điểm: Hà Nội

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Luận văn thạc sĩ về giải thuật học cộng tác co-training và ứng dụng trong khai phá quan điểm

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Lý do chọn đề tài

1.2. Mục tiêu, phạm vi nghiên cứu của đề tài

2. CHƯƠNG 2: KHAI PHÁ QUAN ĐIỂM VÀ ỨNG DỤNG

2.1. Khai phá quan điểm (Opinion mining)

2.2. Các khái niệm liên quan

2.3. Động lực và Ứng dụng của Khai phá quan điểm

3. CHƯƠNG 3: ỨNG DỤNG HỌC BÁN GIÁM SÁT VÀO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM

4. CHƯƠNG 4: THỰC NGHIỆM

TÀI LIỆU THAM KHẢO

I. Giới thiệu

1.1. Lý do chọn đề tài

II. Khai phá quan điểm và ứng dụng

2.1. Động lực và ứng dụng của khai phá quan điểm

III. Ứng dụng học bán giám sát vào bài toán khai phá quan điểm

3.1. Tổng quát về hướng tiếp cận và giải quyết bài toán

IV. Thực nghiệm

4.1. Những kết quả chính đạt được

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Người hướng dẫn: TS. Nguyễn Trí Thành

Trường học: Đại học Quốc gia Hà Nội

Chuyên ngành: Công nghệ Thông tin

Đề tài: Nghiên Cứu Giải Thuật Học Cộng Tác Co-training Và Ứng Dụng Vào Bài Toán Khai Phá Quan Điểm

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2012

Địa điểm: Hà Nội

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận