Luận văn thạc sĩ về phát hiện văn bản chủ quan trong khai phá quan điểm

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2015

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CÁM ƠN

TÓM TẮT NỘI DUNG

Lời cam đoan

1. CHƯƠNG 1: Giới thiệu chung về khai phá quan điểm

1.1. Tổng quan Internet đã và đang phát triển với tốc độ chóng mặt

1.2. Sự phát triển Internet ở Việt Nam

1.3. Khai thác tìm kiếm tài nguyên trên Internet

1.4. Khai phá quan điểm (Opinions)

1.5. Định nghĩa quan điểm

2. CHƯƠNG 2: Bài toán phân lớp và phân tích quan điểm

2.1. Các bài toán phân lớp

2.2. Phân lớp quan điểm

2.3. Quá trình phân lớp

2.4. Khái quát một số phương pháp phân lớp văn bản

2.5. Phân lớp dựa trên luật

2.6. Phân lớp dùng các phương pháp học máy có giám sát

2.7. Phân lớp dùng học máy không giám sát

2.8. Phân lớp dùng học máy bán giám sát

2.9. Kết luận chung

3. CHƯƠNG 3: Phát hiện văn bản chủ quan trong khai phá quan điểm

3.1. Phân biệt chủ quan và khách quan

3.2. Thông tin chủ quan

3.3. Thông tin khách quan

3.4. Bài toán xây dựng bộ phân lớp để phân lớp các văn bản vào một trong hai lớp chủ quan hoặc khách quan

3.5. Phát biểu bài toán

3.6. Mô tả bài toán

3.7. Trích chọn đặc trưng

3.8. Đặc trưng và cách biểu diễn

3.9. Vấn đề trích chọn đặc trưng

3.10. Phương pháp trích chọn đặc trưng

3.11. Áp dụng một số phương pháp phân lớp

4. CHƯƠNG 4: Thực nghiệm phân lớp cho hai miền dữ liệu

4.1. Môi trường thực nghiệm

4.2. Phần mềm và các công cụ

4.3. Quá trình thực nghiệm

4.4. Dữ liệu sử dụng cho thực nghiệm

4.5. Thực hiện gán nhãn dữ liệu

4.6. Trích chọn đặc trưng trong hệ thống của chúng tôi

4.7. Bộ phân lớp Naive Bayes

4.8. Bộ phân lớp SVM

4.9. Đánh giá kết quả

4.10. Phương pháp đánh giá

Tài liệu tham khảo

Tóm tắt

I. Giới thiệu chung về khai phá quan điểm

Khai phá quan điểm là một lĩnh vực nghiên cứu quan trọng trong công nghệ thông tin, đặc biệt trong bối cảnh dữ liệu lớn hiện nay. Văn bản chủ quan thường chứa đựng những ý kiến, cảm xúc và thái độ của con người đối với các thực thể như sản phẩm, dịch vụ hay sự kiện. Việc phát hiện và phân tích văn bản chủ quan giúp các doanh nghiệp hiểu rõ hơn về nhu cầu và mong muốn của khách hàng. Nghiên cứu này không chỉ có giá trị lý thuyết mà còn mang lại ứng dụng thực tiễn trong việc xây dựng chiến lược marketing và phát triển sản phẩm. Theo các nghiên cứu trước đây, việc khai thác thông tin từ văn bản chủ quan có thể giúp xác định xu hướng tiêu dùng và cải thiện chất lượng dịch vụ. Tuy nhiên, việc áp dụng các phương pháp này cho ngôn ngữ tiếng Việt vẫn còn nhiều thách thức do sự đa dạng và phức tạp của ngôn ngữ.

1.1. Định nghĩa quan điểm

Quan điểm được định nghĩa là sự thể hiện tình cảm hoặc ngụ ý của con người về một sự vật, sự việc nào đó. Theo Bing Liu, một quan điểm bao gồm hai thành phần chính: một đối tượng và một tình cảm trên đối tượng đó. Đối tượng có thể là một thực thể hoặc một đặc trưng của thực thể, trong khi tình cảm có thể mang giá trị tích cực, tiêu cực hoặc trung lập. Việc phân loại các quan điểm này là rất quan trọng trong khai phá quan điểm, giúp xác định được thái độ của người dùng đối với các sản phẩm hoặc dịch vụ cụ thể.

II. Các nghiên cứu và phương pháp giải quyết

Nghiên cứu về khai phá quan điểm đã được thực hiện trên nhiều ngôn ngữ khác nhau, tuy nhiên, đối với tiếng Việt, các nghiên cứu vẫn còn hạn chế. Các phương pháp như phân tích ngữ nghĩa và học máy đã được áp dụng để phát hiện văn bản chủ quan. Các phương pháp này bao gồm việc sử dụng các đặc trưng như bag of words, trích chọn động từ và tính từ để phân loại văn bản. Việc áp dụng các phương pháp này cho tiếng Việt đòi hỏi phải có những điều chỉnh phù hợp với ngữ cảnh và cấu trúc ngôn ngữ. Các nghiên cứu hiện tại đã chỉ ra rằng việc sử dụng các mô hình học máy như Naive Bayes và SVM có thể mang lại kết quả khả quan trong việc phân loại văn bản chủ quan và khách quan.

2.1. Phương pháp học máy

Phương pháp học máy là một trong những công cụ quan trọng trong khai phá quan điểm. Các mô hình như Naive Bayes và SVM đã được áp dụng để phân loại văn bản chủ quan. Naive Bayes dựa trên định lý Bayes và giả định rằng các đặc trưng là độc lập với nhau, trong khi SVM tìm kiếm một siêu phẳng tối ưu để phân tách các lớp dữ liệu. Cả hai phương pháp này đều có ưu điểm và nhược điểm riêng, tuy nhiên, việc lựa chọn phương pháp phù hợp phụ thuộc vào đặc điểm của dữ liệu và yêu cầu của bài toán.

III. Bài toán phát hiện văn bản chủ quan trong khai phá quan điểm

Bài toán phát hiện văn bản chủ quan trong khai phá quan điểm là một thách thức lớn. Việc phân biệt giữa thông tin chủ quan và khách quan không chỉ dựa vào từ ngữ mà còn phụ thuộc vào ngữ cảnh và cách diễn đạt. Các nghiên cứu hiện tại đã chỉ ra rằng việc áp dụng các phương pháp học máy có thể giúp cải thiện độ chính xác trong việc phân loại văn bản. Việc trích chọn đặc trưng cũng đóng vai trò quan trọng trong việc xây dựng mô hình phân loại. Các đặc trưng như tần suất từ, vị trí từ trong câu và các yếu tố ngữ nghĩa khác cần được xem xét kỹ lưỡng để đạt được kết quả tốt nhất.

3.1. Phân biệt chủ quan và khách quan

Phân biệt giữa thông tin chủ quan và khách quan là một trong những nhiệm vụ chính trong khai phá quan điểm. Thông tin chủ quan thường thể hiện cảm xúc, ý kiến cá nhân, trong khi thông tin khách quan thường mang tính chất thông tin, dữ liệu thực tế. Việc xác định ranh giới giữa hai loại thông tin này không phải lúc nào cũng rõ ràng, đặc biệt trong ngữ cảnh tiếng Việt. Các nghiên cứu đã chỉ ra rằng việc sử dụng các mô hình học máy có thể giúp cải thiện khả năng phân loại và nhận diện các đặc điểm của văn bản chủ quan.

IV. Thực nghiệm phân lớp trên hai miền dữ liệu sản phẩm và giá xăng

Thực nghiệm phân lớp trên hai miền dữ liệu sản phẩm và giá xăng đã được thực hiện để kiểm tra tính khả thi của các phương pháp đã đề xuất. Dữ liệu được thu thập từ các bình luận trên mạng xã hội và các trang web thương mại điện tử. Quá trình tiền xử lý dữ liệu bao gồm việc gán nhãn dữ liệu, trích chọn đặc trưng và áp dụng các phương pháp phân lớp như Naive Bayes và SVM. Kết quả thực nghiệm cho thấy rằng các phương pháp này có thể đạt được độ chính xác cao trong việc phân loại văn bản chủ quan và khách quan, từ đó cung cấp thông tin hữu ích cho các doanh nghiệp trong việc cải thiện sản phẩm và dịch vụ.

4.1. Đánh giá kết quả

Đánh giá kết quả là một bước quan trọng trong quá trình thực nghiệm. Các chỉ số như độ chính xác, độ nhạy và độ đặc hiệu được sử dụng để đánh giá hiệu quả của các mô hình phân lớp. Kết quả cho thấy rằng mô hình SVM có độ chính xác cao hơn so với Naive Bayes trong việc phân loại văn bản chủ quan. Tuy nhiên, việc lựa chọn mô hình phù hợp còn phụ thuộc vào đặc điểm của dữ liệu và yêu cầu cụ thể của bài toán. Các nghiên cứu tiếp theo cần tiếp tục cải thiện và tối ưu hóa các phương pháp để đạt được kết quả tốt hơn.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ phát hiện văn bản chủ quan trong khai phá quan điểm

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của Internet và mạng xã hội tại Việt Nam, việc khai thác và phân tích quan điểm người dùng trở thành một lĩnh vực nghiên cứu quan trọng, đặc biệt trong ngành Công nghệ Thông tin chuyên sâu về Kỹ thuật Phần mềm. Theo báo cáo năm 2014, Việt Nam đứng thứ 8 trong khu vực Châu Á về số lượng người dùng Internet, với hơn 30% dân số sử dụng, trong đó độ tuổi trung bình là 29, thấp hơn so với độ tuổi trung bình dân số là 36. Điều này tạo ra một kho dữ liệu khổng lồ từ các bình luận, đánh giá, và ý kiến trên các trang web, blog, mạng xã hội. Tuy nhiên, các nghiên cứu về khai phá quan điểm cho ngôn ngữ tiếng Việt còn khá hạn chế so với các ngôn ngữ khác như tiếng Anh.

Luận văn “Phát hiện văn bản chủ quan trong khai phá quan điểm” tập trung vào việc xây dựng và thử nghiệm các phương pháp phân lớp văn bản chủ quan và khách quan trong tiếng Việt, nhằm phục vụ cho các ứng dụng khai phá quan điểm. Mục tiêu chính là phát triển bộ phân lớp hiệu quả để phân loại các bình luận tiếng Việt thành hai lớp chủ quan và khách quan, từ đó làm tiền đề cho các bước phân tích quan điểm sâu hơn như phân loại tích cực, tiêu cực hay trung lập. Phạm vi nghiên cứu tập trung vào dữ liệu bình luận từ các trang web và mạng xã hội tiếng Việt, với thời gian thu thập và phân tích dữ liệu trong khoảng năm 2014-2015.

Nghiên cứu có ý nghĩa lớn trong việc hỗ trợ doanh nghiệp, tổ chức và các nhà quản lý xã hội khai thác hiệu quả thông tin từ cộng đồng mạng, giúp đưa ra các quyết định chính xác hơn trong kinh doanh, chính trị và xã hội. Đồng thời, nghiên cứu góp phần phát triển các công cụ xử lý ngôn ngữ tự nhiên cho tiếng Việt, một lĩnh vực còn nhiều thách thức do đặc thù ngôn ngữ và thiếu hụt tài nguyên ngôn ngữ chuẩn.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình nghiên cứu về khai phá quan điểm (opinion mining) và phân tích tình cảm (sentiment analysis). Khái niệm quan điểm được định nghĩa là sự thể hiện cảm xúc hoặc nhận xét tích cực, tiêu cực hoặc trung lập về một thực thể hoặc đặc trưng của nó. Các thành phần của quan điểm bao gồm thực thể, đặc trưng, quan điểm trên đặc trưng, người đưa quan điểm và thời gian.

Phân lớp văn bản chủ quan và khách quan là bước đầu tiên trong khai phá quan điểm, giúp loại bỏ các câu không chứa quan điểm để tập trung phân tích sâu hơn. Các phương pháp phân lớp được nghiên cứu bao gồm:

Phân lớp dựa trên luật: Sử dụng các mẫu cú pháp và biểu thức chính quy để xác định câu chủ quan.
Phân lớp sử dụng học máy có giám sát: Áp dụng các thuật toán như Naïve Bayes, Support Vector Machine (SVM), Maximum Entropy Model (MEM) với các đặc trưng như bag-of-words, trích chọn động từ, tính từ.
Phân lớp sử dụng học máy bán giám sát: Phương pháp Self-training và Co-training nhằm tận dụng dữ liệu chưa gán nhãn.
Mô hình vector không gian (Vector Space Model): Biểu diễn văn bản dưới dạng vector đặc trưng với trọng số TF-IDF, giúp mô hình hóa dữ liệu văn bản hiệu quả.

Các khái niệm chính bao gồm: chủ quan (subjective), khách quan (objective), bag-of-words, TF-IDF, SVM, Naïve Bayes, học máy có giám sát, học máy bán giám sát.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là các bình luận tiếng Việt thu thập từ các trang web thương mại điện tử và mạng xã hội trong giai đoạn 2014-2015, với tổng số mẫu khoảng vài nghìn bình luận đã được gán nhãn chủ quan hoặc khách quan. Dữ liệu được tiền xử lý bao gồm chuẩn hóa từ ngữ, sửa lỗi chính tả, tách từ và loại bỏ từ dừng.

Phương pháp phân tích sử dụng các thuật toán học máy có giám sát như Naïve Bayes và SVM để xây dựng bộ phân lớp. Các đặc trưng được trích chọn bao gồm bag-of-words, các động từ và tính từ trong câu. Quá trình nghiên cứu gồm các bước: thu thập dữ liệu, tiền xử lý, trích chọn đặc trưng, xây dựng mô hình phân lớp, đánh giá kết quả bằng các chỉ số độ chính xác, độ nhạy và độ đặc hiệu.

Timeline nghiên cứu kéo dài trong khoảng 12 tháng, từ thu thập dữ liệu đến hoàn thiện mô hình và đánh giá kết quả thực nghiệm.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân lớp văn bản chủ quan - khách quan: Bộ phân lớp Naïve Bayes đạt độ chính xác khoảng 78%, trong khi SVM đạt khoảng 82% trên tập dữ liệu thử nghiệm. SVM cho thấy hiệu quả vượt trội hơn nhờ khả năng xử lý không gian đặc trưng lớn và phân tách tuyến tính tốt hơn.
Ảnh hưởng của đặc trưng trích chọn: Việc sử dụng kết hợp bag-of-words với các đặc trưng động từ và tính từ giúp tăng độ chính xác phân lớp lên khoảng 5% so với chỉ dùng bag-of-words đơn thuần.
Khó khăn trong xử lý tiếng Việt: Các vấn đề như tách từ chưa chuẩn, từ lóng, sai chính tả và thiếu dấu câu làm giảm hiệu quả phân lớp khoảng 10% so với các nghiên cứu tương tự trên tiếng Anh.
Tác động của miền dữ liệu: Mô hình huấn luyện trên dữ liệu sản phẩm khi áp dụng cho dữ liệu bình luận về giá xăng cho kết quả giảm khoảng 7% độ chính xác, cho thấy tính đặc thù miền dữ liệu ảnh hưởng lớn đến hiệu quả phân lớp.

Thảo luận kết quả

Kết quả thực nghiệm cho thấy các phương pháp học máy có giám sát như SVM và Naïve Bayes phù hợp để giải quyết bài toán phân lớp văn bản chủ quan - khách quan trong tiếng Việt, mặc dù còn nhiều thách thức do đặc thù ngôn ngữ. Việc kết hợp các đặc trưng ngôn ngữ như động từ, tính từ giúp mô hình nhận diện tốt hơn các câu chứa quan điểm.

So sánh với các nghiên cứu quốc tế, độ chính xác của mô hình trên tiếng Việt thấp hơn khoảng 10-15%, chủ yếu do thiếu hụt tài nguyên ngôn ngữ chuẩn và các công cụ xử lý ngôn ngữ tự nhiên chưa hoàn thiện. Việc áp dụng kỹ thuật giảm chiều như phân tích giá trị đơn (SVD) có thể giúp cải thiện hiệu quả bằng cách loại bỏ nhiễu và giảm không gian đặc trưng.

Dữ liệu thử nghiệm được trình bày qua các bảng kết quả phân lớp và biểu đồ so sánh độ chính xác giữa các phương pháp, minh họa rõ ràng sự khác biệt về hiệu quả.

Đề xuất và khuyến nghị

Phát triển bộ công cụ xử lý ngôn ngữ tự nhiên cho tiếng Việt: Tăng cường nghiên cứu và hoàn thiện các công cụ tách từ, phân tích cú pháp, nhận dạng từ loại để nâng cao chất lượng tiền xử lý dữ liệu, từ đó cải thiện hiệu quả phân lớp văn bản chủ quan.
Mở rộng và đa dạng hóa bộ dữ liệu huấn luyện: Thu thập thêm dữ liệu từ nhiều miền khác nhau như chính trị, xã hội, sản phẩm để xây dựng bộ dữ liệu chuẩn, giúp mô hình phân lớp có tính tổng quát cao hơn và giảm phụ thuộc miền dữ liệu.
Áp dụng kỹ thuật học bán giám sát và học sâu: Sử dụng các phương pháp học bán giám sát như Self-training, Co-training để tận dụng dữ liệu chưa gán nhãn, đồng thời nghiên cứu áp dụng mạng nơ-ron sâu (deep learning) nhằm nâng cao độ chính xác phân lớp.
Xây dựng hệ thống tự động thu thập và phân tích quan điểm: Phát triển hệ thống tích hợp thu thập dữ liệu tự động từ mạng xã hội, phân loại chủ quan - khách quan và tổng hợp quan điểm để hỗ trợ doanh nghiệp và nhà quản lý xã hội trong việc ra quyết định nhanh chóng và chính xác.

Các giải pháp trên nên được triển khai trong vòng 1-2 năm, với sự phối hợp giữa các viện nghiên cứu, trường đại học và doanh nghiệp công nghệ.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Xử lý ngôn ngữ tự nhiên: Luận văn cung cấp cơ sở lý thuyết và phương pháp thực nghiệm chi tiết về phân lớp văn bản chủ quan trong tiếng Việt, hỗ trợ nghiên cứu sâu hơn về khai phá quan điểm.
Doanh nghiệp phát triển sản phẩm và dịch vụ trực tuyến: Các công ty thương mại điện tử, mạng xã hội có thể ứng dụng kết quả nghiên cứu để phân tích phản hồi khách hàng, nâng cao chất lượng sản phẩm và dịch vụ.
Cơ quan quản lý nhà nước và tổ chức xã hội: Hỗ trợ trong việc giám sát dư luận xã hội, phân tích quan điểm cộng đồng về các chính sách, sự kiện xã hội nhằm đưa ra các quyết định phù hợp.
Nhà phát triển phần mềm và kỹ sư dữ liệu: Tham khảo các thuật toán, kỹ thuật trích chọn đặc trưng và xây dựng mô hình phân lớp để phát triển các ứng dụng khai phá quan điểm và phân tích tình cảm cho tiếng Việt.

Câu hỏi thường gặp

Phân biệt văn bản chủ quan và khách quan như thế nào?
Văn bản chủ quan chứa quan điểm, cảm xúc hoặc nhận xét cá nhân, trong khi văn bản khách quan trình bày thông tin thực tế, có thể kiểm chứng. Ví dụ, câu “Hà Nội là thành phố đẹp để sống” là chủ quan, còn “Dân số Hà Nội là 10.899 người” là khách quan.
Tại sao phân lớp văn bản chủ quan quan trọng trong khai phá quan điểm?
Phân lớp chủ quan giúp loại bỏ các câu không chứa quan điểm, tập trung phân tích các câu có ý kiến, từ đó nâng cao hiệu quả và độ chính xác của các bước phân tích quan điểm tiếp theo như phân loại tích cực, tiêu cực.
Các phương pháp học máy nào được sử dụng trong nghiên cứu?
Luận văn áp dụng Naïve Bayes và Support Vector Machine (SVM) với các đặc trưng như bag-of-words, động từ, tính từ. SVM cho kết quả tốt hơn nhờ khả năng xử lý không gian đặc trưng lớn và phân tách tuyến tính hiệu quả.
Khó khăn chính khi xử lý ngôn ngữ tiếng Việt là gì?
Tiếng Việt có đặc thù như tách từ phức tạp, nhiều từ lóng, sai chính tả, thiếu dấu câu, và thiếu hụt tài nguyên ngôn ngữ chuẩn, gây khó khăn trong tiền xử lý và trích chọn đặc trưng, ảnh hưởng đến hiệu quả phân lớp.
Làm thế nào để cải thiện độ chính xác phân lớp văn bản chủ quan?
Có thể cải thiện bằng cách phát triển công cụ xử lý ngôn ngữ tự nhiên tốt hơn, mở rộng bộ dữ liệu huấn luyện đa dạng, áp dụng kỹ thuật học bán giám sát và học sâu, đồng thời kết hợp nhiều loại đặc trưng ngôn ngữ.

Kết luận

Luận văn đã xây dựng thành công bộ phân lớp văn bản chủ quan - khách quan cho tiếng Việt với độ chính xác đạt khoảng 82% khi sử dụng SVM.
Nghiên cứu làm rõ vai trò quan trọng của việc trích chọn đặc trưng ngôn ngữ như động từ, tính từ trong phân lớp văn bản chủ quan.
Phân tích chỉ ra những thách thức đặc thù của tiếng Việt trong xử lý ngôn ngữ tự nhiên, ảnh hưởng đến hiệu quả khai phá quan điểm.
Đề xuất các giải pháp phát triển công cụ xử lý ngôn ngữ, mở rộng dữ liệu và áp dụng học máy nâng cao nhằm cải thiện kết quả trong tương lai.
Khuyến nghị xây dựng hệ thống tự động thu thập và phân tích quan điểm phục vụ doanh nghiệp và quản lý xã hội trong vòng 1-2 năm tới.

Luận văn mở ra hướng nghiên cứu mới cho khai phá quan điểm tiếng Việt, đồng thời kêu gọi sự hợp tác giữa các nhà nghiên cứu và doanh nghiệp để phát triển các ứng dụng thực tiễn. Để tiếp tục, các bên quan tâm có thể liên hệ với tác giả hoặc khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội để trao đổi và hợp tác nghiên cứu.

Bài luận văn thạc sĩ mang tiêu đề "Luận văn thạc sĩ về phát hiện văn bản chủ quan trong khai phá quan điểm" của tác giả Nguyễn Ngọc Trường, dưới sự hướng dẫn của PGS.TS Lê Anh Cường, được thực hiện tại Đại học Quốc gia Hà Nội vào năm 2015. Bài viết tập trung vào việc phát hiện và phân tích các văn bản chủ quan trong quá trình khai phá quan điểm, một lĩnh vực quan trọng trong công nghệ thông tin. Nội dung của luận văn không chỉ giúp người đọc hiểu rõ hơn về các phương pháp và kỹ thuật trong việc nhận diện văn bản chủ quan mà còn mở ra những ứng dụng thực tiễn trong việc xử lý và phân tích dữ liệu văn bản.

Để mở rộng thêm kiến thức về các chủ đề liên quan, bạn có thể tham khảo các bài viết sau: Nghệ Thuật Cải Lương Tại Thành Phố Hồ Chí Minh Trong Bối Cảnh Hội Nhập, nơi khám phá nghệ thuật và văn hóa trong bối cảnh hiện đại, hay Luận văn thạc sĩ: Tác động của biến đổi khí hậu và phát triển kinh tế đến hồ thủy điện Nam Mang 3, nghiên cứu về tác động của các yếu tố môi trường đến phát triển kinh tế, và cuối cùng là Nghiên cứu tổng hợp nguồn nước mặt sông Cái Phan Rang, một nghiên cứu về tài nguyên nước, có thể cung cấp thêm góc nhìn về quản lý và khai thác tài nguyên. Những tài liệu này sẽ giúp bạn có cái nhìn sâu sắc hơn về các vấn đề liên quan đến công nghệ thông tin và quản lý tài nguyên.

#Luận văn Thạc sĩ

#xử lý ngôn ngữ tự nhiên

#phân tích văn bản

#khai thác dữ liệu

#phân loại văn bản

#phát hiện văn bản chủ quan

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

nghiên cứu văn bản

Học máy và trí tuệ nhân tạo

Khai thác dữ liệu

Luận văn thạc sĩ về phát hiện văn bản chủ quan trong khai phá quan điểm

LỜI CÁM ƠN

TÓM TẮT NỘI DUNG

Lời cam đoan

1. CHƯƠNG 1: Giới thiệu chung về khai phá quan điểm

1.1. Tổng quan Internet đã và đang phát triển với tốc độ chóng mặt

1.2. Sự phát triển Internet ở Việt Nam

1.3. Khai thác tìm kiếm tài nguyên trên Internet

1.4. Khai phá quan điểm (Opinions)

1.5. Định nghĩa quan điểm

2. CHƯƠNG 2: Bài toán phân lớp và phân tích quan điểm

2.1. Các bài toán phân lớp

2.2. Phân lớp quan điểm

2.3. Quá trình phân lớp

2.4. Khái quát một số phương pháp phân lớp văn bản

2.5. Phân lớp dựa trên luật

2.6. Phân lớp dùng các phương pháp học máy có giám sát

2.7. Phân lớp dùng học máy không giám sát

2.8. Phân lớp dùng học máy bán giám sát

2.9. Kết luận chung

3. CHƯƠNG 3: Phát hiện văn bản chủ quan trong khai phá quan điểm

3.1. Phân biệt chủ quan và khách quan

3.2. Thông tin chủ quan

3.3. Thông tin khách quan

3.4. Bài toán xây dựng bộ phân lớp để phân lớp các văn bản vào một trong hai lớp chủ quan hoặc khách quan

3.5. Phát biểu bài toán

3.6. Mô tả bài toán

3.7. Trích chọn đặc trưng

3.8. Đặc trưng và cách biểu diễn

3.9. Vấn đề trích chọn đặc trưng

3.10. Phương pháp trích chọn đặc trưng

3.11. Áp dụng một số phương pháp phân lớp

4. CHƯƠNG 4: Thực nghiệm phân lớp cho hai miền dữ liệu

4.1. Môi trường thực nghiệm

4.2. Phần mềm và các công cụ

4.3. Quá trình thực nghiệm

4.4. Dữ liệu sử dụng cho thực nghiệm

4.5. Thực hiện gán nhãn dữ liệu

4.6. Trích chọn đặc trưng trong hệ thống của chúng tôi

4.7. Bộ phân lớp Naive Bayes

4.8. Bộ phân lớp SVM

4.9. Đánh giá kết quả

4.10. Phương pháp đánh giá

Tài liệu tham khảo

I. Giới thiệu chung về khai phá quan điểm

1.1. Định nghĩa quan điểm

II. Các nghiên cứu và phương pháp giải quyết

2.1. Phương pháp học máy

III. Bài toán phát hiện văn bản chủ quan trong khai phá quan điểm

3.1. Phân biệt chủ quan và khách quan

IV. Thực nghiệm phân lớp trên hai miền dữ liệu sản phẩm và giá xăng

4.1. Đánh giá kết quả

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Ngọc Trường

Người hướng dẫn: PGS.TS Lê Anh Cường

Trường học: Đại học Quốc gia Hà Nội

Chuyên ngành: Công nghệ thông tin

Đề tài: Phát hiện văn bản chủ quan trong khai phá quan điểm

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2015

Địa điểm: Hà Nội

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận