Luận văn thạc sĩ khoa học máy tính: Rút trích và phân loại thông tin từ phản hồi trên mạng xã hội

Tài liệu chuyên sâu Rút trích và phân loại thông tin từ phản hồi mạng xã hội ..., phân tích đa chiều, cung cấp kiến thức nền tảng vững chắc cho

Trường đại học

Đại học Bách Khoa - Đại học Quốc gia TP. HCM

Chuyên ngành

Khoa học Máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2013

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CÁM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Lý do chọn đề tài

1.2. Mục tiêu và giới hạn của đề tài

1.3. Đóng góp của đề tài

2. CHƯƠNG 2: TỔNG QUAN

2.1. Các phương pháp phân loại văn bản theo cảm xúc

2.2. Vấn đề được chú ý gần đây: Cross-domain classification

2.3. Domain Adaptation

3. CHƯƠNG 3: CƠ SỞ LÝ THUYẾT

3.1. Support Vector Machine (SVM)

3.2. Tiền xử lý văn bản

3.3. Biểu diễn văn bản — Vector Space Model

3.4. Đánh giá kết quả phân loại

4. CHƯƠNG 4: THIẾT KẾ VÀ HIỆN THỰC CHƯƠNG TRÌNH

4.1. Phương pháp đề xuất

4.2. Thiết kế và hiện thực chương trình

5. CHƯƠNG 5: THỰC NGHIỆM

5.1. Tập dữ liệu

5.2. Kết quả thí nghiệm

6. CHƯƠNG 6: KẾT LUẬN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Rút trích thông tin từ phản hồi mạng xã hội

Rút trích thông tin từ phản hồi mạng xã hội là một quá trình phức tạp, đòi hỏi sự kết hợp giữa xử lý ngôn ngữ tự nhiên và phân tích dữ liệu. Với sự phát triển của mạng xã hội, lượng thông tin lớn được tạo ra hàng ngày, đặc biệt là các phản hồi, bình luận của người dùng. Các phản hồi này chứa nhiều thông tin hữu ích về sản phẩm, dịch vụ, giúp người tiêu dùng đưa ra quyết định mua sắm và các công ty cải thiện sản phẩm. Tuy nhiên, việc rút trích thông tin từ lượng dữ liệu khổng lồ này không hề đơn giản, đòi hỏi các kỹ thuật tiên tiến như trí tuệ nhân tạo và kỹ thuật máy học.

1.1. Phương pháp rút trích thông tin

Các phương pháp rút trích thông tin từ phản hồi mạng xã hội thường bao gồm các bước tiền xử lý dữ liệu, phân tích ngữ nghĩa và phân loại thông tin. Một trong những phương pháp phổ biến là sử dụng Support Vector Machine (SVM) để phân loại văn bản dựa trên xu hướng cảm xúc. Ngoài ra, các kỹ thuật như DeltaTFIDF cũng được áp dụng để xác định các từ khóa độc lập miền, giúp nâng cao độ chính xác của quá trình rút trích.

II. Phân loại thông tin từ phản hồi mạng xã hội

Phân loại thông tin là bước quan trọng tiếp theo sau khi rút trích dữ liệu. Các phản hồi trên mạng xã hội thường được phân loại thành tích cực, tiêu cực hoặc trung tính dựa trên xu hướng cảm xúc của người dùng. Quá trình này đòi hỏi sự kết hợp giữa phân tích cảm xúc và xử lý ngôn ngữ tự nhiên. Một trong những thách thức lớn là Domain Dependence, tức là các bộ phân lớp thường chỉ hoạt động hiệu quả trên miền dữ liệu được huấn luyện, khi áp dụng sang miền khác thì độ chính xác giảm đáng kể.

2.1. Kỹ thuật phân loại thông tin

Các kỹ thuật phân loại thông tin bao gồm hai phương pháp chính: dựa trên giải thuật học máy và dựa trên xu hướng tình cảm của từ vựng. Phương pháp học máy sử dụng các tập dữ liệu huấn luyện để xây dựng bộ phân lớp, trong khi phương pháp thứ hai dựa trên xu hướng cảm xúc của các từ trong văn bản. Cả hai phương pháp đều có ưu nhược điểm riêng, và việc lựa chọn phương pháp phù hợp phụ thuộc vào đặc điểm của dữ liệu.

III. Ứng dụng trong luận văn thạc sĩ khoa học máy tính

Luận văn thạc sĩ khoa học máy tính của Trần Minh Hùng tập trung vào việc rút trích và phân loại thông tin từ phản hồi mạng xã hội. Nghiên cứu này đã phát triển một hệ thống Sentiment Classification có khả năng hoạt động hiệu quả trên nhiều miền dữ liệu khác nhau. Hệ thống sử dụng kỹ thuật DeltaTFIDF để xác định các từ khóa độc lập miền, giúp nâng cao độ chính xác của quá trình phân loại. Kết quả thực nghiệm cho thấy hệ thống đạt độ chính xác cao hơn so với các công trình nghiên cứu trước đó.

3.1. Đóng góp của luận văn

Luận văn đã đóng góp quan trọng vào lĩnh vực phân tích cảm xúc và xử lý ngôn ngữ tự nhiên. Cụ thể, nghiên cứu đã chứng minh hiệu quả của việc kết hợp thông tin về xu hướng tình cảm của các từ trong feature vector, giúp nâng cao hiệu quả phân loại. Ngoài ra, việc sử dụng DeltaTFIDF cũng mang lại kết quả tốt hơn so với phương pháp TFIDF truyền thống.

IV. Phân tích và đánh giá giá trị thực tiễn

Nghiên cứu về rút trích và phân loại thông tin từ phản hồi mạng xã hội có giá trị thực tiễn cao, đặc biệt trong lĩnh vực hệ thống thông tin và phân tích dữ liệu. Các kết quả từ luận văn có thể được ứng dụng trong việc xây dựng các hệ thống tự động phân tích phản hồi khách hàng, giúp các doanh nghiệp cải thiện sản phẩm và dịch vụ. Ngoài ra, các kỹ thuật được đề xuất cũng có thể áp dụng trong các bài toán tìm kiếm thông tin và phân tích ngữ nghĩa.

4.1. Ứng dụng thực tế

Các ứng dụng thực tế của nghiên cứu bao gồm việc xây dựng các công cụ phân tích cảm xúc tự động, giúp các doanh nghiệp theo dõi và đánh giá phản hồi khách hàng trên mạng xã hội. Ngoài ra, các kỹ thuật được đề xuất cũng có thể được tích hợp vào các hệ thống hệ thống thông tin để nâng cao hiệu quả quản lý và phân tích dữ liệu.

09/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính rút trích phân loại và tổng hợp thông tin từ các phản hồi trên mạng xã hội

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Với sự phát triển mạnh mẽ của mạng xã hội, lượng phản hồi và đánh giá của người dùng về sản phẩm và dịch vụ ngày càng tăng lên đáng kể, tạo thành một kho dữ liệu phong phú và đa dạng. Theo ước tính, mỗi ngày có hàng triệu bình luận được chia sẻ trên các nền tảng như Facebook, Twitter, và các trang đánh giá sản phẩm. Những phản hồi này không chỉ giúp người tiêu dùng đưa ra quyết định mua sắm chính xác hơn mà còn hỗ trợ các doanh nghiệp cải tiến sản phẩm và dịch vụ. Tuy nhiên, việc rút trích thông tin hữu ích từ lượng dữ liệu khổng lồ này là một thách thức lớn, đòi hỏi nhiều thời gian và công sức.

Luận văn tập trung vào bài toán phân loại văn bản theo cảm xúc (Sentiment Classification), một lĩnh vực quan trọng trong khai thác dữ liệu văn bản. Mục tiêu cụ thể là xây dựng một bộ phân lớp có khả năng phân loại hiệu quả các phản hồi thuộc nhiều miền dữ liệu khác nhau (cross-domain), khắc phục hạn chế của các bộ phân lớp truyền thống chỉ hoạt động tốt trên miền dữ liệu huấn luyện. Nghiên cứu áp dụng kỹ thuật nhận dạng các từ khóa phân loại độc lập miền (domain-independent keywords) dựa trên trọng số DeltaTFIDF để nâng cao độ chính xác phân loại.

Phạm vi nghiên cứu sử dụng tập dữ liệu đa miền gồm các phản hồi tiếng Anh về sách, DVD, thiết bị điện tử và đồ gia dụng, thu thập trong khoảng thời gian gần đây. Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện độ chính xác phân loại trên các miền dữ liệu khác nhau, góp phần phát triển các hệ thống khai thác thông tin tự động từ mạng xã hội và các nguồn dữ liệu phi cấu trúc.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình nghiên cứu chính:

Support Vector Machine (SVM): Là bộ phân lớp dựa trên lý thuyết học thống kê, SVM tìm kiếm siêu phẳng tối ưu phân chia dữ liệu thành các lớp khác nhau với khoảng cách lề lớn nhất. SVM được sử dụng phổ biến trong phân loại văn bản nhờ khả năng xử lý dữ liệu đa chiều và hiệu quả cao. Hàm kernel RBF được chọn làm hàm kernel mặc định để xử lý các trường hợp phi tuyến tính.
DeltaTFIDF: Là trọng số cải tiến dựa trên TFIDF, DeltaTFIDF tính toán sự khác biệt tần suất xuất hiện của từ giữa các tập dữ liệu tích cực và tiêu cực, giúp xác định các từ mang xu hướng cảm xúc rõ ràng hơn. Phương pháp này ưu việt hơn TFIDF truyền thống trong việc nhận dạng từ khóa cảm xúc.

Các khái niệm chính bao gồm:

Domain-independent keywords: Từ khóa có xu hướng cảm xúc ổn định trên nhiều miền dữ liệu khác nhau, đóng vai trò làm pivot features trong domain adaptation.
Domain-specific keywords: Từ khóa có xu hướng cảm xúc thay đổi tùy theo miền dữ liệu.
Pointwise Mutual Information (PMI): Được sử dụng để ước lượng xu hướng cảm xúc của từ trong văn bản chưa gán nhãn dựa trên mối liên hệ với các từ khóa độc lập miền.
Feature vector: Biểu diễn văn bản dưới dạng vector số, sử dụng các trọng số như DeltaTFIDF hoặc giá trị boolean kết hợp xu hướng cảm xúc (+1, -1, 0).

Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập Multi-Domain Sentiment Dataset gồm 4 miền: sách (books), DVD, thiết bị điện tử (electronics) và đồ gia dụng (kitchen appliances), mỗi miền có 1000 phản hồi tích cực và 1000 phản hồi tiêu cực. Ngoài ra, tập dữ liệu Movie Review với 1000 phản hồi tích cực và 1000 phản hồi tiêu cực được sử dụng để kiểm tra khả năng tổng quát của bộ phân lớp.

Phương pháp nghiên cứu gồm các bước:

Tiền xử lý văn bản: Sử dụng Stanford CoreNLP để gán nhãn từ loại (POS tagging), loại bỏ từ không mang xu hướng cảm xúc, rút gọn từ về dạng gốc (lemmatization) và xử lý các cụm từ phủ định.
Xác định từ khóa độc lập miền: Tính chỉ số DeltaTFIDF trên tập huấn luyện để phân loại từ khóa thành độc lập miền và phụ thuộc miền dựa trên xu hướng cảm xúc đồng nhất hay thay đổi giữa các miền.
Ước lượng xu hướng cảm xúc: Áp dụng PMI để xác định xu hướng cảm xúc của từ trong tập kiểm tra chưa gán nhãn dựa trên các từ khóa độc lập miền.
Biến đổi văn bản thành feature vector: Hai cách biến đổi được sử dụng gồm dựa trên sự có mặt của từ (giá trị 0 hoặc 1) và kết hợp thêm xu hướng cảm xúc (+1, -1, 0).
Huấn luyện và phân loại: Sử dụng thư viện LIBSVM với hàm kernel RBF, chuẩn hóa dữ liệu và tối ưu tham số để xây dựng bộ phân lớp.

Timeline nghiên cứu kéo dài từ tháng 7/2012 đến tháng 11/2012, bao gồm thu thập dữ liệu, phát triển thuật toán, thực hiện thí nghiệm và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Độ chính xác phân loại đa miền: Bộ phân lớp đề xuất đạt độ chính xác trung bình trên 80% khi huấn luyện trên ba miền và kiểm tra trên miền còn lại, cao hơn so với các phương pháp SCL-MI (khoảng 74.2%) và SFA-MI (khoảng 75%). Ví dụ, khi huấn luyện trên các miền DVD, electronics, kitchen appliances và kiểm tra trên miền books, độ chính xác đạt 80.1%.
Ảnh hưởng của feature vector: Việc kết hợp xu hướng cảm xúc của từ trong feature vector (Proposed-2) giúp tăng độ chính xác phân loại khoảng 2-3% so với chỉ dựa vào sự có mặt của từ (Proposed-1).
Khả năng tổng quát trên dữ liệu phim ảnh: Khi áp dụng bộ phân lớp đa miền huấn luyện trên bốn miền sản phẩm để phân loại nhận xét phim ảnh, độ chính xác giảm xuống còn khoảng 66%, do đặc thù ngôn ngữ và cách biểu đạt cảm xúc phức tạp trong nhận xét phim.

Thảo luận kết quả

Nguyên nhân chính khiến các bộ phân lớp truyền thống không đạt hiệu quả cao trên dữ liệu cross-domain là do sự khác biệt về ngữ cảnh và từ vựng giữa các miền. Ví dụ, từ “delicious” mang ý nghĩa tích cực trong miền ẩm thực nhưng hiếm khi xuất hiện trong nhận xét sách, dẫn đến việc bộ phân lớp không học được trọng số phù hợp cho từ này khi huấn luyện trên miền sách.

Việc sử dụng trọng số DeltaTFIDF giúp nhận dạng chính xác các từ khóa độc lập miền, làm giảm sự phụ thuộc vào miền dữ liệu huấn luyện. Kết quả thí nghiệm cho thấy phương pháp đề xuất vượt trội hơn các phương pháp domain adaptation trước đây như SCL-MI và SFA-MI.

Biểu đồ so sánh độ chính xác phân loại giữa các phương pháp minh họa rõ sự cải thiện khi áp dụng kỹ thuật nhận dạng từ khóa độc lập miền và kết hợp xu hướng cảm xúc trong feature vector. Tuy nhiên, kết quả trên tập dữ liệu phim ảnh cho thấy cần có các kỹ thuật bổ sung để xử lý các trường hợp nhận xét có nội dung mâu thuẫn hoặc phức tạp về ngữ nghĩa.

Đề xuất và khuyến nghị

Mở rộng tập huấn luyện đa miền: Thu thập và gán nhãn thêm dữ liệu từ nhiều miền khác nhau để tăng tính đại diện và cải thiện khả năng tổng quát của bộ phân lớp. Thời gian thực hiện dự kiến 6-12 tháng, do các đơn vị nghiên cứu và doanh nghiệp khai thác dữ liệu.
Kết hợp yếu tố mạng xã hội: Ứng dụng các đặc trưng mạng xã hội như lượt thích (like), lượt chia sẻ, bình luận phụ để tăng độ chính xác phân loại. Chủ thể thực hiện là các nhóm nghiên cứu về khai thác dữ liệu mạng xã hội trong vòng 3-6 tháng.
Phát triển kỹ thuật xử lý ngôn ngữ tự nhiên nâng cao: Áp dụng các mô hình ngôn ngữ sâu (deep learning) và kỹ thuật xử lý phủ định, mâu thuẫn trong câu để xử lý các nhận xét phức tạp. Thời gian nghiên cứu 12 tháng, do các phòng thí nghiệm AI và NLP đảm nhiệm.
Mở rộng ứng dụng sang ngôn ngữ khác: Áp dụng phương pháp cho các ngôn ngữ khác như tiếng Việt, tiếng Trung với việc xây dựng từ điển cảm xúc và bộ công cụ tiền xử lý phù hợp. Thời gian thực hiện 6-9 tháng, do các trung tâm nghiên cứu ngôn ngữ và công nghệ thông tin.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ nhân tạo: Nghiên cứu về phân loại văn bản, khai thác dữ liệu mạng xã hội, học máy và xử lý ngôn ngữ tự nhiên sẽ được cung cấp kiến thức chuyên sâu và phương pháp thực nghiệm cụ thể.
Doanh nghiệp phát triển sản phẩm và dịch vụ: Các công ty muốn khai thác phản hồi khách hàng để cải tiến sản phẩm có thể áp dụng bộ phân lớp đa miền để phân tích nhanh và chính xác các đánh giá từ nhiều nguồn khác nhau.
Chuyên gia phân tích dữ liệu và marketing: Hỗ trợ trong việc phân tích xu hướng cảm xúc khách hàng trên các nền tảng mạng xã hội, từ đó xây dựng chiến lược marketing hiệu quả hơn.
Nhà phát triển phần mềm và hệ thống thông tin: Tham khảo để phát triển các công cụ tự động phân loại và tổng hợp ý kiến người dùng, tích hợp vào các hệ thống CRM hoặc nền tảng thương mại điện tử.

Câu hỏi thường gặp

Phân loại văn bản theo cảm xúc là gì?
Là quá trình tự động xác định xu hướng cảm xúc (tích cực hoặc tiêu cực) của một văn bản, thường là các nhận xét hoặc bình luận, giúp hiểu được thái độ của người viết.
Tại sao cần phân loại đa miền (cross-domain)?
Vì các bộ phân lớp huấn luyện trên một miền dữ liệu thường không hoạt động tốt khi áp dụng cho miền khác do sự khác biệt về từ vựng và ngữ cảnh, nên cần xây dựng bộ phân lớp có khả năng tổng quát cao.
DeltaTFIDF khác gì so với TFIDF truyền thống?
DeltaTFIDF tính toán sự khác biệt tần suất xuất hiện của từ giữa tập dữ liệu tích cực và tiêu cực, giúp nhận dạng từ khóa cảm xúc hiệu quả hơn, trong khi TFIDF chỉ đo tần suất và độ phổ biến của từ.
Làm thế nào để xác định từ khóa độc lập miền?
Dựa trên việc so sánh xu hướng cảm xúc của từ trong các miền dữ liệu khác nhau, nếu từ có xu hướng cảm xúc giống nhau trên nhiều miền thì được coi là độc lập miền.
Phương pháp này có áp dụng cho ngôn ngữ khác không?
Có thể áp dụng cho các ngôn ngữ khác như tiếng Việt, tuy nhiên cần xây dựng bộ công cụ tiền xử lý và từ điển cảm xúc phù hợp với đặc thù ngôn ngữ đó.

Kết luận

Xây dựng thành công bộ phân lớp đa miền sử dụng kỹ thuật nhận dạng từ khóa độc lập miền dựa trên DeltaTFIDF, đạt độ chính xác cao hơn các phương pháp trước.
Kết hợp thông tin xu hướng cảm xúc của từ trong feature vector giúp nâng cao hiệu quả phân loại.
Phương pháp có khả năng áp dụng cho nhiều miền dữ liệu khác nhau, phù hợp với đặc thù dữ liệu mạng xã hội.
Kết quả trên tập dữ liệu phim ảnh cho thấy cần phát triển thêm kỹ thuật xử lý ngôn ngữ phức tạp.
Hướng phát triển tiếp theo là tích hợp các yếu tố mạng xã hội và mở rộng sang các ngôn ngữ khác.

Đề nghị các nhà nghiên cứu và doanh nghiệp quan tâm ứng dụng phương pháp này để nâng cao hiệu quả khai thác thông tin từ phản hồi người dùng trên mạng xã hội và các nền tảng trực tuyến khác.

Trích đoạn nội dung tài liệu

Chương 1: GIỚI THIỆU 1. Lý do chọn đề tài: Các phản hồi, bình luận được chia sẻ bởi người dùng trên các trang mạng xã hội là một nguồn dữ liệu phong phú, cung cấp nhiều thông tin hữu ích về ưu khuyết điểm của các sản phẩm, dịch vụ mà họ đã sử dung. Các thông tin này góp phan không nhỏ vào việc quyết định mua sắm của người tiêu dùng và là cơ sở để nhà sản suất xác định hướng phát triên, cải tiên các sản phâm. Tuy nhiên, với sự phát triên ngày càng mạnh của các mạng xã hội, sô lượng các phản hoi được chia sẻ ngày càng nhiêu, việc rút trích ra các thông tin hữu ích là một vân đê khó khăn, tôn nhiêu thời gian và công sức.

Đề giải quyết vấn đề này, nhiều hướng nghiên cứu mới đã được đưa ra, một trong số đó là Sentiment Classification (phan loại văn bản theo cảm xúc). Phân loại văn bản theo cảm xúc là một trường hợp đặc biệt của bài toán phân loại văn bản, các văn bản được phân loại dựa vào xu hướng cảm xúc của chúng. Đối tượng phân loại trong lĩnh vực này thường là các câu bình luận, phản hồi trên các mạng xã hội hoặc các bài đánh giá, phê bình về một sản phẩm, dịch vụ. Các văn bản này thường được phân loại làm hai lớp chính là tích cực và tiêu cực.

Một trong những thách thức cân giải quyết trong lĩnh vực phân loại văn bản theo cảm xúc là vẫn đề Domain Dependence (phụ thuộc miền). Các bộ phân lớp được xây dựng chỉ đạt được kết quả phân loại tốt trên miền dữ liệu được huấn luyện, khi áp dụng sang miễn dữ liệu khác thì kết quả đạt được có độ chính xác rất thấp. Nguyên nhân là do có những từ chỉ xuất hiện ở một số miền dữ liệu nhất định, ví dụ như từ “delicious” thường được dùng để thé hiện cảm xúc tích cực khi đánh giá các món ăn nhưng lại hiém khi được sử dụng trong các nhận xét về sách. Như vậy một bộ phân lớp được huấn luyện trên tập dữ liệu là các nhận xét về sách sẽ không có trọng số được học về từ “delicious”, do đó rất khó dé dùng bộ phân lớp này để phân loại các nhận xét vê các món ăn.

Ngoài ra, xu hướng tình cảm của một sô từ có thê thay đôi tùy theo ngữ cảnh mà nó được sử dung. Ví dụ, từ “unpredictable” mang ý nghĩa tích cực khi được dùng để | đánh giá các bộ phim nhưng lại có ý nghĩa tiêu cực khi nói về kha năng vận hành ôn định cua một chiéc xe. Hiện nay việc xây dựng một bộ phân lớp có khả năng phân loại tốt dữ liệu thuộc nhiều miền khác nhau là một van dé dang được quan tâm giải quyết. Muc tiêu và giới hạn của đề tài: Mục tiêu của dé tài là nghiên cứu hiện thực một bộ phân lớp có thể phân loại hiệu quả các phản hồi thuộc nhiều miền dữ liệu khác nhau, sử dụng kỹ thuật nhận dạng các f khoá phân loại độc láp miễn (domain-independent keywords).

Đề tài nay chi tập trung xử ly các phản hồi bang ngôn ngữ tiếng Anh va phương pháp đẻ xuất chưa ứng dụng được các yếu tô của mạng xã hội dé nâng cao độ chính xác của bộ phân lớp. Đóng gop của đề tài: Với mục tiêu đề ra và kết quả thu được, những đóng góp mà đề tài mang lại là: e Xây dựng được bộ phân lớp cho dữ liệu thuộc nhiều miền dữ liệu. Độ chính xác của bộ phân lớp cao hơn so với một sô công trình nghiên cứu khác. e Tìm hiểu và áp dụng kỹ thuật nhận dạng các tir khoá phân loại độc lap miễn (domain-independent keywords) dựa trên trọng số DeltaTFIDF dé phát hiện thành công các từ khóa độc lập miền va phụ thuộc miền.

Cho thay VIỆC su dụng trọng số DeltaTFIDF trong phân loại văn bản theo cảm xúc cho kết quả phân loại tốt hơn so với trọng số TFIDE. e Góp phần chứng minh được việc kết hợp thêm thông tin về xu hướng tinh cảm của các từ trong feature vector cũng góp phan nâng cao hiệu quả trong lĩnh vực phân loại văn bản theo cảm xúc. Chương 2: TONG QUAN Trong chương này ta sẽ khảo sát một sô công trình nghiên cứu có liên quan mật thiết đến dé tài. Các phương pháp phân loại văn ban theo cảm xúc Phân loại văn bản theo cảm xúc là một trường hợp đặc biệt của bài toán phân loại văn bản.

Đên nay, nhiêu nghiên cứu đã được tiên hành nhăm xây dựng các bộ phân lớp trong lĩnh vực này, trong đó nhìn chung có hai loại phương pháp chính: > Dựa trên các giải thuật học máy (machine learning): Với phương pháp này, bộ phân lớp được xây dựng dựa trên các giải thuật học máy và tập dữ liệu huấn luyện gồm các văn bản đã được gán nhãn sẵn. Độ chính xác của bộ phân lớp phụ thuộc khá nhiều vào quá trình gán nhãn cho các văn bản. Các giải thuật học máy thường được sử dụng là Support Vector Machine (SVM), Naive Bayes, maximum entropy,. Phương pháp dựa trên các giải thuật học may đã đạt được độ chính xác khá cao với bài toán phân loại văn bản truyền thông theo chu dé.

Pang et al. [10] đã khảo sát hiệu qua của phương pháp nay với bài toán phân loại văn bản cảm xúc. Các giải thuật học may Naive Bayes, maximum entropy và support vector machines (SVMs) được áp dụng trên tập dữ liệu là những nhận xét về phim ảnh. Kết quả thực nghiệm cho thay độ chính xác dat được thấp hơn so với phân loại văn bản theo chủ để truyền thống.

Nguyên nhân dẫn đến điều này là do trong một số nhận xét về phim ảnh, người nhận xét cố ý đưa ra đánh giá tong quát trái ngược với các phân tích được trình bày trước đó. Ví dụ xét các câu nhận xét vê một bộ phim như sau: “This film should be brilliant. It sounds like a great plot, the actors are first grade, and the supporting cast is good as well, and Stallone is attempting to deliver a good performance. However, it can't hold up” Tuy trong văn ban có sử dung nhiều từ mang xu hướng tích cực như “brilliant”, “great”, “first grade”, “good” nhưng day lại là một nhận xét tiêu cực.

32 ce Với những trường hợp này, xu hướng tình cảm của văn bản thường trái ngược với xu hướng tình cam của hau hêt các từ trong văn ban, do đó các bộ phân lớp khó đưa ra kết quả phân loại chính xác. > Dựa trên xu hướng tình cảm của các từ vựng Với phương pháp này, việc phân loại được thực hiện chỉ dựa trên xu hướng tình cảm của các từ vựng, ta không cân sử dụng tập dữ liệu đã gan nhãn dé huân luyện. Turney [14] đã dé ra một giải thuật tiêu biểu cho phương pháp này. Một nhận xét đầu vào sẽ được phân loại là tích cực hay tiêu cực qua một giải thuật đơn giản gom ba bước như sau: a.

Từ nhận xét đầu vào, áp dụng bộ gan nhãn từ loại (part-of-speech tagger) dé xác định trong đó các cum từ có chứa các từ mang nhiều xu hướng tình cảm như tính từ, phó từ. Ước lượng xu hướng tình cảm của các cụm từ đã được xác định. Chon hai từ “exellent” và “poor” làm đại diện cho các từ tích cực và tiêu cực, dựa trên độ liên kết ngữ nghĩa của các cụm từ với hai từ này để xác định xu hướng tình cảm của chúng. Cụm từ có mối liên kết với từ “excellent” nhiều hơn từ “poor” thì mang nghĩa tích cực, ngược lại sẽ mang nghĩa tiêu cực.

Tinh trung bình xu hướng tình cảm của tat cả các cụm từ, từ đó phân loại câu nhận xét là tích cực hay tiêu cực. Turney đã khảo sát trên tập dữ liệu gôm các câu nhận xét về sản phâm và phim ảnh. Tương tự với kêt quả cua Pang et al. [10], xu hướng cảm xúc của các nhận xét vê phim anh có thê không phụ thuộc vào xu hướng cảm xúc của các cụm từ trong câu, độ chính xác của bộ phân lớp chỉ đạt khoảng 66%.

Dé gia tăng độ chính xác của các phương pháp nay, ta có thé áp dụng thêm các kỹ thuật xử lý ngôn ngữ tự nhiên như các từ phủ định, từ tăng cường hoặc giảm nhẹ mức độ. Ví dụ như bộ phân lớp SO-CAL (the Semantic Orientation CALculator) của Taboada et al. SO-CAL đã được khảo sát trên một vài tập dữ liệu khác nhau và cho kết quả phân loại khá tốt, ôn định, không phụ thuộc nhiều vào một miên dữ liệu cụ thê nào. Tóm lại, có hai loại phương pháp chính để xây dựng bộ phân lớp trong lĩnh vực phân loại văn bản theo cảm xúc.

Trong đó, một loại dựa trên các giải thuật học máy để tạo ra các bộ phân lớp sử dụng các tập dữ liệu huấn luyện. Loại thứ hai không cần sử dụng các tập dữ liệu huấn luyện, các bộ phân lớp được tạo ra dựa trên tính toán xu hướng tình cảm của các từ và các kỹ thuật xử lý ngôn ngữ tự nhiên. Vẫn đề được chú ý gần đây: Cross-domain classification Nhiều nghiên cứu đã được thực hiện để so sánh giữa hai loại phương pháp trên. Chaovalit và Zhou [3] đã áp dụng cả hai loại phương pháp để phân loại các nhận xét về phim ảnh.

Kết quả cho thay phương pháp dựa trên giải thuật học máy cho kết qua tốt hơn nhưng can có thời gian huấn luyện dài và yêu cau tập dữ liệu huan luyện phải đủ lớn. Hau hết các nghiên cứu được thực hiện trên tập dữ liệu là các nhận xét về phim ảnh và các sản phẩm thu từ các trang web đánh giá. Các văn bản loại này thường có nội dung dài và chỉ tập trung vào một loại đối tượng, sản phẩm cụ thể. Tuy nhiên, trên các trang mạng xã hội, các nhận xét, đánh giá thường mang tính tương tác xã hội nhiều hon.

Các văn bản được viết ngắn gọn, không tuân theo một chuẩn nào và có thé đề cập đến các đối tượng thuộc nhiều miền dữ liệu khác nhau. Vậy với các nhận xét loại này, phương pháp phân loại nào sẽ cho kết quả tốt hơn? Để trả lời câu hỏi này, Paltoglou et al. [11] đã khảo sát hiệu quả của hai phương pháp phân loại với tập dữ liệu là các đoạn đối thoại, phản hồi của người dùng trên các trang mạng xã hội. Kết quả thực nghiệm cho thấy, trong trường hợp này, các phương pháp dựa trên xu hướng tình cảm của từ vựng đạt hiệu quả cao hơn, đặc biệt là với các văn bản có nội dung ngan, chi gom một hoặc hai câu.

Trong khi đó, các bộ phân lớp dựa trên giải thuật học máy cho kết quả với độ chính xác rất thấp.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Rút trích và phân loại thông tin từ phản hồi mạng xã hội trong luận văn thạc sĩ khoa học máy tính" tập trung vào việc ứng dụng các kỹ thuật khoa học máy tính để phân tích và phân loại thông tin từ các phản hồi trên mạng xã hội. Nghiên cứu này không chỉ giúp hiểu rõ hơn về cách thức xử lý dữ liệu phi cấu trúc mà còn mang lại những giải pháp hiệu quả trong việc quản lý và tận dụng thông tin từ các nền tảng xã hội. Độc giả sẽ nhận được cái nhìn sâu sắc về các phương pháp rút trích dữ liệu, phân loại thông tin, và ứng dụng thực tiễn của chúng trong lĩnh vực khoa học máy tính.

Để mở rộng kiến thức về các chủ đề liên quan, bạn có thể tham khảo thêm bài viết Luận văn thạc sĩ khoa học máy tính phân giải nhập nhằng thực thể bằng phương pháp học máy, nơi tập trung vào việc giải quyết vấn đề nhập nhằng thực thể thông qua các phương pháp học máy tiên tiến. Ngoài ra, bài viết Luận văn thạc sĩ khoa học máy tính phân loại đối tượng chuyển động trong video cũng là một tài liệu hữu ích, cung cấp góc nhìn chi tiết về việc phân loại đối tượng trong video bằng các kỹ thuật khoa học máy tính. Những bài viết này sẽ giúp bạn khám phá thêm các ứng dụng đa dạng của khoa học máy tính trong thực tế.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#khoa học máy tính

#xử lý ngôn ngữ tự nhiên

#rút trích thông tin

#phân loại thông tin

Chủ đề

Học máy trong khoa học máy tính

Xử lý ngôn ngữ tự nhiên (NLP)

Phân tích dữ liệu mạng xã hội

Nghiên cứu ứng dụng trong luận văn thạc sĩ