Khai Phá Quan Điểm Cho Dữ Liệu Twitter: Luận Văn Thạc Sĩ Kỹ Thuật

Tài liệu nghiên cứu Luận văn khai phá quan điểm dữ liệu twitter, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên sâu về .

Trường đại học

Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ kỹ thuật

2017

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: CƠ SỞ LÝ LUẬN

1.1. Giới thiệu về xử lý ngôn ngữ tự nhiên

1.2. Khai phá quan điểm

1.2.1. Giới thiệu

1.2.2. Một số bài toán trong khai phá quan điểm

1.2.3. Một số khó khăn trong khai phá quan điểm

1.2.4. Các cấp độ dữ liệu phân tích quan điểm

1.3. Tổng quan bài toán khai phá quan điểm trên dữ liệu mạng xã hội Twitter

1.3.1. Giới thiệu về mạng xã hội Twitter

1.3.2. Phát biểu bài toán

1.3.3. Ý nghĩa bài toán

1.3.4. Khó khăn và thách thức

1.4. Một số kỹ thuật trong khai phá quan điểm

1.5. Một số nghiên cứu liên quan

1.6. Kết luận chương 1

2. CHƯƠNG 2: PHƯƠNG PHÁP PHÂN LOẠI QUAN ĐIỂM TRÊN TWITTER SỬ DỤNG HỌC MÁY

2.1. Phương pháp phân loại quan điểm

2.1.1. Thu thập dữ liệu

2.1.2. Tiền xử lý dữ liệu

2.1.3. Trích chọn đặc trưng và vector hóa dữ liệu

2.1.4. Sử dụng thuật toán huấn luyện tạo mô hình phân lớp

2.2. Các phương pháp trích chọn đặc trưng

2.2.1. Đặc trưng N-gram

2.2.2. Độ tương đồng dựa trên tâm (CBS)

2.2.3. Đặc trưng Log-count Ratio

2.3. SVM – Support Vector Machine

2.3.1. Giới thiệu chung

2.3.2. Thuật toán SVM

2.3.3. Huấn luyện SVM

2.3.4. Các ưu điểm của SVM trong phân lớp

2.3.5. Cách áp dụng thuật toán SVM vào bài toán phân lớp quan điểm

2.4. Kết luận chương 2

3. CHƯƠNG 3: THỰC NGHIỆM HỆ THỐNG KHAI PHÁ QUAN ĐIỂM CHO DỮ LIỆU TWITTER

3.1. Dữ liệu thực nghiệm

3.2. Thiết lập thực nghiệm

3.2.1. Hướng tiếp cận thực nghiệm

3.2.2. Phương pháp sử dụng các đặc trưng trong thực nghiệm

3.2.3. Phương pháp đánh giá tập dữ liệu

3.3. Công cụ thực nghiệm

3.3.1. Môi trường thực nghiệm

3.3.2. Công cụ phần mềm

3.3.3. Giới thiệu LibSVM

3.4. Kết quả thực nghiệm

3.5. Đánh giá kết quả

3.6. Kết luận chương 3

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Khai Phá Quan Điểm Từ Dữ Liệu Twitter

Khai phá quan điểm từ dữ liệu Twitter là một lĩnh vực nghiên cứu quan trọng, nằm trong ứng dụng rộng lớn của xử lý ngôn ngữ tự nhiên (NLP). Mục tiêu chính là thu thập và phân tích thông tin về quan điểm, thái độ của người dùng đối với các chủ đề, sự kiện, sản phẩm hoặc dịch vụ cụ thể. Bài toán này bao gồm việc phân loại các đánh giá theo hướng tích cực, tiêu cực hoặc trung lập, đồng thời tổng hợp các quan điểm từ nhiều nguồn khác nhau. Với sự phát triển mạnh mẽ của mạng xã hội Twitter, đây trở thành một nguồn dữ liệu vô giá cho các nhà nghiên cứu và doanh nghiệp. Việc hiểu rõ quan điểm của cộng đồng có thể mang lại lợi ích to lớn trong nhiều lĩnh vực, từ kinh tế, chính trị đến quảng cáo và quản lý thương hiệu. Các phương pháp học máy (machine learning) đóng vai trò then chốt trong việc tự động hóa quá trình phân tích và khai thác thông tin từ dữ liệu lớn (big data) trên Twitter.

1.1. Giới Thiệu Về Mạng Xã Hội Twitter và Dữ Liệu

Twitter là một nền tảng mạng xã hội phổ biến, nơi người dùng chia sẻ những đoạn tin nhắn ngắn gọi là "tweets". Với hàng triệu người dùng hoạt động hàng ngày, Twitter tạo ra một lượng lớn dữ liệu liên tục được cập nhật. Dữ liệu này bao gồm văn bản, hình ảnh, video và các thông tin khác liên quan đến người dùng, chủ đề và sự kiện. Việc thu thập dữ liệu Twitter thường được thực hiện thông qua API Twitter, cho phép các nhà phát triển truy cập và trích xuất thông tin cần thiết. Dữ liệu này sau đó có thể được sử dụng cho nhiều mục đích khác nhau, bao gồm phân tích cảm xúc Twitter, phân tích hashtag Twitter, brand monitoring Twitter và social listening Twitter.

1.2. Ứng Dụng Của Khai Phá Quan Điểm Từ Twitter Trong Thực Tế

Việc khai thác dữ liệu Twitter và phân tích cảm xúc Twitter có nhiều ứng dụng thực tế quan trọng. Trong lĩnh vực kinh doanh, các công ty có thể sử dụng phân tích quan điểm để theo dõi phản hồi của khách hàng về sản phẩm hoặc dịch vụ của họ, từ đó cải thiện chất lượng và đáp ứng nhu cầu thị trường. Trong lĩnh vực chính trị, các nhà phân tích có thể sử dụng dữ liệu Twitter để đo lường sự ủng hộ của công chúng đối với các ứng cử viên hoặc chính sách. Ngoài ra, phân tích mạng xã hội Twitter cũng có thể được sử dụng để dự đoán xu hướng thị trường, phát hiện tin giả và theo dõi các sự kiện thời sự. Ứng dụng phân tích quan điểm này mang lại giá trị to lớn cho nhiều ngành công nghiệp và lĩnh vực khác nhau.

II. Thách Thức Trong Phân Tích Cảm Xúc Từ Dữ Liệu Twitter

Mặc dù dữ liệu Twitter mang lại nhiều cơ hội cho phân tích cảm xúc, nhưng cũng đi kèm với nhiều thách thức đáng kể. Một trong những thách thức lớn nhất là tính ngắn gọn của các tweet, giới hạn ở 280 ký tự. Điều này thường dẫn đến việc sử dụng ngôn ngữ không chính thức, từ viết tắt, từ lóng và biểu tượng cảm xúc, gây khó khăn cho việc xử lý ngôn ngữ tự nhiên (NLP). Ngoài ra, dữ liệu Twitter thường chứa nhiều nhiễu, bao gồm spam, quảng cáo và các thông tin không liên quan. Việc xử lý và làm sạch dữ liệu là một bước quan trọng để đảm bảo tính chính xác của kết quả phân tích. Hơn nữa, sự đa dạng về ngôn ngữ và văn hóa trên Twitter cũng đặt ra những thách thức trong việc xây dựng các mô hình phân loại văn bản Twitter có khả năng hoạt động tốt trên nhiều ngôn ngữ và vùng miền khác nhau.

2.1. Vấn Đề Xử Lý Ngôn Ngữ Không Chính Thức Trên Twitter

Ngôn ngữ sử dụng trên Twitter thường không tuân theo các quy tắc ngữ pháp và chính tả thông thường. Người dùng thường sử dụng từ viết tắt, từ lóng, biểu tượng cảm xúc và các hình thức biểu đạt phi chính thức khác. Điều này gây khó khăn cho các công cụ xử lý ngôn ngữ tự nhiên (NLP) truyền thống, vốn được thiết kế để xử lý văn bản chính thức. Để giải quyết vấn đề này, các nhà nghiên cứu đã phát triển các phương pháp đặc biệt để xử lý ngôn ngữ không chính thức trên Twitter, bao gồm việc sử dụng từ điển từ lóng, mô hình hóa biểu tượng cảm xúc và các kỹ thuật học máy (machine learning) để nhận diện và hiểu các hình thức biểu đạt phi chính thức.

2.2. Xử Lý Dữ Liệu Nhiễu và Spam Trong Phân Tích Twitter

Dữ liệu Twitter thường chứa một lượng lớn nhiễu, bao gồm spam, quảng cáo và các thông tin không liên quan. Việc loại bỏ dữ liệu nhiễu là một bước quan trọng để đảm bảo tính chính xác của kết quả phân tích. Các phương pháp thường được sử dụng để xử lý dữ liệu nhiễu bao gồm việc sử dụng bộ lọc spam, phát hiện tài khoản giả mạo và loại bỏ các tweet chứa nội dung không liên quan. Ngoài ra, các kỹ thuật học máy (machine learning) cũng có thể được sử dụng để tự động phát hiện và loại bỏ dữ liệu nhiễu.

III. Phương Pháp Học Máy Phân Loại Quan Điểm Trên Dữ Liệu Twitter

Các phương pháp học máy (machine learning) đóng vai trò quan trọng trong việc phân loại quan điểm trên dữ liệu Twitter. Các thuật toán như SVM (Support Vector Machines), Naive Bayes và Random Forest thường được sử dụng để xây dựng các mô hình phân loại văn bản Twitter. Quá trình này bao gồm việc thu thập dữ liệu Twitter, tiền xử lý dữ liệu, trích chọn đặc trưng và huấn luyện mô hình. Các đặc trưng thường được sử dụng bao gồm N-gram, TF-IDF và các đặc trưng ngữ nghĩa. Sau khi mô hình được huấn luyện, nó có thể được sử dụng để dự đoán quan điểm của các tweet mới. Việc đánh giá hiệu suất của mô hình là rất quan trọng để đảm bảo tính chính xác và độ tin cậy của kết quả phân tích.

3.1. Trích Chọn Đặc Trưng Hiệu Quả Cho Phân Tích Cảm Xúc Twitter

Việc trích chọn đặc trưng là một bước quan trọng trong quá trình phân loại quan điểm trên dữ liệu Twitter. Các đặc trưng được trích chọn phải có khả năng phân biệt giữa các quan điểm khác nhau (tích cực, tiêu cực, trung lập). Các đặc trưng phổ biến bao gồm N-gram, TF-IDF, các đặc trưng ngữ nghĩa và các đặc trưng dựa trên từ điển cảm xúc. N-gram là các chuỗi liên tiếp của N từ trong một tweet. TF-IDF (Term Frequency-Inverse Document Frequency) đo lường tầm quan trọng của một từ trong một tweet so với toàn bộ tập dữ liệu. Các đặc trưng ngữ nghĩa có thể được trích chọn bằng cách sử dụng các công cụ xử lý ngôn ngữ tự nhiên (NLP) như WordNet hoặc các mô hình word embedding. Các đặc trưng dựa trên từ điển cảm xúc sử dụng các từ điển chứa các từ và cụm từ liên quan đến cảm xúc để xác định quan điểm của một tweet.

3.2. Sử Dụng Thuật Toán SVM Trong Phân Loại Quan Điểm Twitter

SVM (Support Vector Machines) là một thuật toán học máy (machine learning) mạnh mẽ, thường được sử dụng trong phân loại văn bản Twitter. SVM hoạt động bằng cách tìm một siêu phẳng tối ưu để phân chia các lớp dữ liệu khác nhau. Trong bài toán phân loại quan điểm, SVM cố gắng tìm một siêu phẳng để phân chia các tweet tích cực và tiêu cực. SVM có nhiều ưu điểm, bao gồm khả năng xử lý dữ liệu có chiều cao lớn và khả năng khái quát hóa tốt. Tuy nhiên, SVM cũng có một số nhược điểm, bao gồm độ phức tạp tính toán cao và yêu cầu điều chỉnh tham số cẩn thận.

IV. Ứng Dụng Nghiên Cứu Khai Phá Quan Điểm Cho Dữ Liệu Twitter

Nghiên cứu về khai phá quan điểm cho dữ liệu Twitter đã được thực hiện rộng rãi trong nhiều lĩnh vực khác nhau. Các nghiên cứu này đã sử dụng nhiều phương pháp và kỹ thuật khác nhau để phân tích cảm xúc Twitter, dự đoán xu hướng Twitter và phân tích ảnh hưởng Twitter. Một số nghiên cứu đã tập trung vào việc cải thiện độ chính xác của các mô hình phân loại quan điểm bằng cách sử dụng các đặc trưng mới hoặc các thuật toán học máy (machine learning) tiên tiến hơn. Các nghiên cứu khác đã tập trung vào việc ứng dụng khai phá quan điểm vào các lĩnh vực cụ thể, chẳng hạn như brand monitoring Twitter, social listening Twitter và phân tích hashtag Twitter. Kết quả của các nghiên cứu này đã mang lại những hiểu biết sâu sắc về quan điểm của cộng đồng và đã được sử dụng để đưa ra các quyết định kinh doanh và chính trị quan trọng.

4.1. Phân Tích Ảnh Hưởng Của Hashtag Trong Dữ Liệu Twitter

Hashtag là một công cụ quan trọng trên Twitter, cho phép người dùng gắn thẻ các tweet của họ với các chủ đề cụ thể. Việc phân tích hashtag Twitter có thể cung cấp thông tin hữu ích về các chủ đề đang được thảo luận nhiều nhất và quan điểm của cộng đồng về các chủ đề đó. Các nhà nghiên cứu đã sử dụng phân tích hashtag Twitter để theo dõi các sự kiện thời sự, đo lường sự ủng hộ của công chúng đối với các chính sách và xác định các xu hướng mới nổi. Phân tích hashtag Twitter cũng có thể được sử dụng để phân tích mạng xã hội Twitter và xác định các cộng đồng người dùng có chung sở thích và quan điểm.

4.2. Dự Đoán Xu Hướng Thị Trường Dựa Trên Phân Tích Twitter

Dữ liệu Twitter có thể được sử dụng để dự đoán xu hướng Twitter thị trường bằng cách theo dõi quan điểm của người dùng về các sản phẩm và dịch vụ khác nhau. Nếu một sản phẩm hoặc dịch vụ nhận được nhiều đánh giá tích cực trên Twitter, điều này có thể là dấu hiệu cho thấy nó sẽ trở nên phổ biến trong tương lai. Ngược lại, nếu một sản phẩm hoặc dịch vụ nhận được nhiều đánh giá tiêu cực, điều này có thể là dấu hiệu cho thấy nó sẽ gặp khó khăn trong việc cạnh tranh trên thị trường. Các nhà phân tích thị trường có thể sử dụng phân tích cảm xúc Twitter để đưa ra các quyết định đầu tư và kinh doanh sáng suốt hơn.

V. Kết Luận và Hướng Phát Triển Của Khai Phá Quan Điểm Twitter

Khai phá quan điểm từ dữ liệu Twitter là một lĩnh vực nghiên cứu đầy tiềm năng, mang lại nhiều lợi ích cho các nhà nghiên cứu, doanh nghiệp và chính phủ. Mặc dù đã có nhiều tiến bộ trong lĩnh vực này, nhưng vẫn còn nhiều thách thức cần được giải quyết. Trong tương lai, chúng ta có thể mong đợi sự phát triển của các phương pháp phân tích cảm xúc Twitter tiên tiến hơn, có khả năng xử lý ngôn ngữ không chính thức, dữ liệu nhiễu và sự đa dạng về ngôn ngữ và văn hóa. Ngoài ra, chúng ta cũng có thể mong đợi sự ứng dụng rộng rãi hơn của khai phá quan điểm trong nhiều lĩnh vực khác nhau, từ kinh doanh và chính trị đến y tế và giáo dục.

5.1. Tích Hợp Học Sâu Để Nâng Cao Hiệu Quả Phân Tích Cảm Xúc

Việc tích hợp các kỹ thuật học sâu (deep learning) vào phân tích cảm xúc Twitter có thể mang lại những cải tiến đáng kể về hiệu suất. Các mô hình học sâu (deep learning) như mạng nơ-ron tích chập (CNN) và mạng nơ-ron hồi quy (RNN) có khả năng tự động học các đặc trưng phức tạp từ dữ liệu, giúp giảm bớt sự phụ thuộc vào việc trích chọn đặc trưng thủ công. Ngoài ra, các mô hình học sâu (deep learning) cũng có khả năng xử lý ngôn ngữ không chính thức và dữ liệu nhiễu tốt hơn so với các phương pháp truyền thống.

5.2. Nghiên Cứu Đa Ngôn Ngữ Trong Khai Phá Quan Điểm Twitter

Với sự đa dạng về ngôn ngữ trên Twitter, việc phát triển các phương pháp khai phá quan điểm đa ngôn ngữ là rất quan trọng. Các phương pháp này có thể được sử dụng để phân tích cảm xúc Twitter trên nhiều ngôn ngữ khác nhau mà không cần phải xây dựng các mô hình riêng biệt cho từng ngôn ngữ. Các kỹ thuật như dịch máy và học chuyển giao có thể được sử dụng để xây dựng các mô hình phân loại văn bản Twitter đa ngôn ngữ hiệu quả.

05/06/2025

Bạn đang xem trước tài liệu:

Luận văn khai phá quan điểm dữ liệu twitter

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1: Cơ sở lý luận Nội dung của chƣơng này trình bày một số kiến thức tổng quan về lĩnh vực xử lý ngôn ngữ tự nhiên, đồng thời giới thiệu bài toán khai phá quan điểm 2 cho dữ liệu Twitter. Chƣơng này cũng giới thiệu một số kỹ thuật đƣợc sử dụng trong khai phá quan điểm.  Chương 2: Khai phá quan điểm và hệ thống học máy Chƣơng này trình bày về việc áp dụng phƣơng pháp học máy và phƣơng pháp biểu diễn đặc trƣng trong giải quyết bài toán khai phá quan điểm trên miền dữ liệu Twitter. Trong chƣơng này, chúng tôi trình bày cụ thể về thuật toán học máy SVM, các mô hình N-gram, đặc trƣng Log-count ratio và đặc trƣng Độ tƣơng đồng dựa trên tâm (CBS).

 Chương 3: Thực nghiệm và đánh giá kết quả Trong chƣơng này, chúng tôi đề cập đến tập dữ liệu đƣợc sử dụng trong đề tài, xây dựng mô hình bài toán, cách thức tiến hành thực nghiệm với tập dữ liệu, đƣa ra kết quả thực nghiệm bài toán với các phƣơng pháp mà chúng tôi đã lựa chọn ở chƣơng 2. Cuối cùng, chúng tôi đƣa ra phân tích, đánh giá dựa trên kết quả của bài toán.  Phần kết luận Tổng kết thành quả nghiên cứu và phƣơng hƣớng mở rộng. CƠ SỞ LÝ LUẬN Chương này của luận văn trình bày bốn nội dung chính là: - Giới thiệu chung về lĩnh vực xử lý ngôn ngữ tự nhiên và các ứng dụng trong thực tế.

- Giới thiệu về bài toán khai phá quan điểm và phân loại một số dạng bài toán trong khai phá quan điểm. - Giới thiệu về mạng xã hội Twitter và tổng quan về bài toán khai phá quan điểm cho mạng xã hội này. - Giới thiệu tổng quan về một số kỹ thuật khai phá quan điểm. Đồng thời, trình bày các nghiên cứu liên quan đến các kỹ thuật khai phá quan điểm.1 Giới thiệu về xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên (natural language processing – NLP) là một lĩnh vực nghiên cứu của trí tuệ nhân tạo, tập trung vào nghiên cứu các phƣơng pháp, kỹ thuật cho phép xử lý ngôn ngữ tự nhiên bằng máy tính, từ đó xây dựng các chƣơng trình, hệ thống máy tính xử lý ngôn ngữ của con ngƣời.

Xử lý ngôn ngữ tự nhiên đƣợc áp dụng trong nhiều bài toán và ứng dụng thực tế, trong nhiều lĩnh vực: Nhận dạng chữ viết: Có hai kiểu nhận dạng. Thứ nhất là nhận dạng chữ in. Thứ hai, phức tạp hơn là nhận dạng chữ viết tay, có khó khăn bởi vì chữ viết tay không có khuôn dạng rõ ràng và thay đổi từ ngƣời này sang ngƣời khác. Với chƣơng trình nhận dạng chữ viết in có thể chuyển hàng ngàn đầu sách trong thƣ viện thành văn bản điện tử trong thời gian ngắn.

Nhận dạng chữ viết của con ngƣời có ứng dụng trong khoa học hình sự và bảo mật thông tin (nhận dạng chữ ký điện tử). Nhận dạng tiếng nói: Nhận dạng tiếng nói rồi chuyển chúng thành văn bản tƣơng ứng. Giúp thao tác của con ngƣời trên các thiết bị nhanh hơn và đơn giản hơn. Đây cũng là bƣớc đầu tiên cần phải thực hiện trong ƣớc mơ thực hiện giao tiếp giữa con ngƣời với robot.

Nhận dạng tiếng nói có khả năng trợ giúp ngƣời khiếm thị rất nhiều. 4 Tổng hợp tiếng nói: Từ một văn bản tự động tổng hợp thành tiếng nói. Giống nhƣ nhận dạng tiếng nói, tổng hợp tiếng nói là sự trợ giúp tốt cho ngƣời khiếm thị, nhƣng ngƣợc lại nó là bƣớc cuối cùng trong giao tiếp giữa robot với ngƣời. Dịch máy (machine translate): Nhƣ tên gọi đây là chƣơng trình dịch tự động từ ngôn ngữ này sang ngôn ngữ khác.

Tìm kiếm và truy xuất thông tin: Đặt câu hỏi và chƣơng trình tự tìm ra nội dung phù hợp nhất. Thông tin ngày càng đầy lên theo cấp số nhân, đặc biệt với sự trợ giúp của internet việc tiếp cận thông tin trở lên dễ dàng hơn bao giờ hết. Việc khó khăn lúc này là tìm đúng nhất thông tin mình cần giữa bề bộn tri thức và đặc biệt thông tin đó phải đáng tin cậy. Tóm tắt văn bản: Từ một văn bản dài tóm tắt thành một văn bản ngắn hơn theo mong muốn nhƣng vẫn chứa những nội dung thiết yếu nhất.

Khai phá dữ liệu: Từ rất nhiều tài liệu khác nhau phát hiện ra tri thức mới. Thực tế để làm đƣợc điều này rất khó, nó gần nhƣ là mô phỏng quá trình học tập, khám phá khoa học của con ngƣời, đây là lĩnh vực đang trong giai đoạn đầu phát triển.2 Khai phá quan điểm 1.1 Giới thiệu Khai phá quan điểm là một trong các lĩnh vực khai thác thông tin nằm trong ứng dụng của xử lý ngôn ngữ tự nhiên, giúp thu thập đƣợc những thông tin mong muốn về quan điểm của dữ liệu. Bài toán phân tích các đánh giá cho một chủ đề nhất định, hoặc sự kiện, sản phẩm để tự động phân loại đánh giá theo hƣớng tích cực, tiêu cực của quan điểm. Bài toán còn bao gồm nội dung tổng hợp quan điểm từ các tài liệu quan điểm thu đƣợc.

Khai phá quan điểm có ảnh hƣởng lớn đến hành vi của con ngƣời trong tƣơng lai vì nó là nhận thức, niềm tin của con ngƣời về vấn đề thực tế và phụ thuộc vào cách nhìn của mỗi ngƣời. 5 Bất cứ khi nào cần đƣa ra quyết định, chúng ta thƣờng tham khảo ý kiến của ngƣời khác, đối với cá nhân, lấy ý kiến từ cha mẹ, bạn bè, đối với tổ chức có thể là các cuộc điều tra, khảo sát hay các cuộc thăm dò dƣ luận. Khai phá quan điểm là kỹ thuật để phát hiện và trích xuất thông tin về tình cảm của con ngƣời đƣợc lƣu trong cơ sở dữ liệu, để làm đƣợc việc này vấn đề quan trọng là phân cực đƣợc tình cảm, quan điểm đối với vấn đề, hay nói cách khác đó là gán nhãn cho tài liệu, đánh giá đó là tích cực hay tiêu cực với đối tƣợng mục tiêu (chủ đề). Các ý kiến quan điểm có thể thể hiện theo hai hƣớng: - Quan điểm trực tiếp: cho ý kiến hoặc là tích cực, hoặc là tiêu cực trực tiếp về các đối tƣợng quan tâm.

- Quan điểm gián tiếp: so sánh các đối tƣợng quan tâm với đối tƣợng tƣơng tự khác để đƣa ra ý kiến cá nhân. Với mỗi vấn đề trao đổi, mỗi ý kiến đều là quan điểm chủ quan của cá nhân đƣa ra, không đủ cơ sở nhận định chung cho vấn đề. Do vậy, cần thu thập dữ liệu chứa ý kiến, quan điểm từ nhiều ngƣời, sau đó tổng hợp các ý kiến, quan điểm để rút ra cái nhìn tổng quan cho toàn vấn đề.2 Một số bài toán trong khai phá quan điểm a) Bài toán xác định quan điểm Phát biểu bài toán: Đầu vào: Văn bản đầu vào (thƣờng là một câu). Đầu ra: Đánh giá văn bản vào một trong hai lớp: khách quan và chủ quan.

Bài toán này tƣơng đƣơng với việc xác định xem văn bản đầu vào có mang quan điểm hay đánh giá về quan điểm hay không. Vấn đề này đôi khi khó khăn hơn so với phân lớp phân cực. Tính chủ quan của từ và cụm từ có thể phụ thuộc vào hoàn cảnh của văn bản đó, và một tài liệu khách quan có thể chứa câu chủ quan (ví dụ, một bài báo trích dẫn ý kiến của ngƣời dân). 6 b) Bài toán phân loại quan điểm Phát biểu bài toán: Đầu vào: Văn bản đầu vào mang quan điểm chủ quan.

Đầu ra: Đánh giá quan điểm của văn bản vào một trong hai lớp: tích cực và tiêu cực. Với bài toán này có thể coi khai phá quan điểm nhƣ bài toán phân lớp văn bản. Bài toán phân lớp một văn bản đánh giá là tích cực hay tiêu cực. Ví dụ: với một đánh giá sản phẩm, hệ thống xác định xem nhận xét về sản phẩm ấy là tốt hay xấu.

Phân lớp này thƣờng là phân lớp ở mức tài liệu. Thông tin đƣợc phát hiện không mô tả chi tiết về những gì mọi ngƣời thích hay không thích. c) Bài toán khai phá quan điểm theo đặc trƣng, khía cạnh Phát biểu bài toán: Đầu vào: Văn bản đầu vào. Đầu ra: Đánh giá quan điểm của văn bản theo đặc trƣng khía cạnh.

Bài toán này xác định những ý kiến hay những cảm xúc thể hiện trên những đặc trƣng khác nhau hoặc khía cạnh khác của các thực thể, ví dụ, một chiếc điện thoại di động, một cái máy ảnh kỹ thuật số hoặc một ngân hàng. Một đặc trƣng hay khía cạnh là một thuộc tính hoặc một thành phần của thực thể, ví dụ, màn hình của một chiếc điện thoại di động hoặc chất lƣợng hình ảnh của máy ảnh. Ƣu điểm của phân tích quan điểm dựa theo đặc trƣng, khía cạnh là việc khả năng nắm bắt đƣợc những sắc thái về các đối tƣợng quan tâm. d) Bài toán tóm tắt quan điểm Phát biểu bài toán: Đầu vào: Văn bản đầu vào.

Đầu ra: Bản đánh giá tổng hợp quan điểm về đối tƣợng đƣợc đề cập. 7 Trong luận văn này, chúng tôi tập trung vào bài toán phân loại quan điểm trên miền dữ liệu Twitter.3 Một số khó khăn trong khai phá quan điểm Phong cách viết của mỗi người là khác nhau: Mỗi cá nhân con ngƣời là khác nhau, cách thức diễn đạt và sử dụng ngôn ngữ cũng khác nhau. Sự phong phú của ngôn ngữ dẫn đến đa dạng hóa cách thể hiện quan điểm của từng ngƣời. Hơn thế nữa, quan điểm của từng ngƣời còn phụ thuộc vào nhiều yếu tố nhƣ: tính cách, trình độ, tuổi tác v.

Sự phụ thuộc vào bối cảnh và thời gian: Cùng một từ, một câu nói ở tình huống này thể hiện tính chất tích cực, nhƣng cũng chính từ đó, câu nói đó trong tình huống khác lại thể hiện tính chất tiêu cực. Các lối nói ẩn dụ, hay đặc biệt là trong các hoàn cảnh với ngụ ý mỉa mai, châm biếm có thể gây ra sự hiểu lầm về quan điểm. Quan điểm về một bộ phận của vấn đề cũng làm ảnh hƣởng đến quan điểm về toàn bộ vấn đề nói chung. Tồn tại nhiều quan điểm mâu thuẫn trong cùng một tài liệu: Trong cùng một tài liệu, cụ thể nhƣ một bài viết, một bình luận có thể chứa nhiều quan điểm trái ngƣợc nhau, bao gồm cả tích cực lẫn tiêu cực.

Đây cũng là một trong những vấn đề gây khó khăn trong việc khai phá quan điểm.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Khai Phá Quan Điểm Từ Dữ Liệu Twitter: Nghiên Cứu và Ứng Dụng cung cấp cái nhìn sâu sắc về cách khai thác và phân tích dữ liệu từ Twitter để rút ra những quan điểm và xu hướng xã hội. Bài viết không chỉ trình bày các phương pháp phân tích dữ liệu mà còn nêu bật những ứng dụng thực tiễn của chúng trong việc hiểu rõ hơn về hành vi người dùng và các vấn đề xã hội hiện nay. Độc giả sẽ tìm thấy những lợi ích thiết thực từ việc áp dụng các kỹ thuật phân tích này, giúp họ có thể đưa ra quyết định thông minh hơn trong các lĩnh vực như marketing, nghiên cứu thị trường và truyền thông.

Để mở rộng thêm kiến thức về lĩnh vực này, bạn có thể tham khảo tài liệu Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả, nơi trình bày các cải tiến trong thuật toán phân lớp, một yếu tố quan trọng trong việc xử lý dữ liệu không cân bằng, điều này có thể hỗ trợ cho việc phân tích dữ liệu từ Twitter một cách hiệu quả hơn. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về cách thức khai thác và ứng dụng dữ liệu trong thực tiễn.

#nghiên cứu luận văn thạc sĩ

#phân tích cảm xúc

#ứng dụng học máy

#phân tích dữ liệu Twitter

#khai thác quan điểm

#nghiên cứu dữ liệu xã hội

Chủ đề

ứng dụng học máy trong nghiên cứu

Khai thác dữ liệu xã hội

Phân tích cảm xúc trong truyền thông

Nghiên cứu và phân tích dữ liệu Twitter