Luận Văn Thạc Sĩ Về Khai Phá Dữ Liệu Twitter

Luận văn thạc sĩ nghiên cứu khai phá quan điểm dữ liệu twitter, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện pháp hoàn thiện trong lĩnh vực .

Trường đại học

Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2017

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG I: CƠ SỞ LÝ LUẬN

1.1. Giới thiệu về xử lý ngôn ngữ tự nhiên

1.2. Khai phá quan điểm

1.2.1. Giới thiệu

1.2.2. Một số bài toán trong khai phá quan điểm

1.2.3. Một số khó khăn trong khai phá quan điểm

1.2.4. Các cấp độ dữ liệu phân tích quan điểm

1.3. Tổng quan bài toán khai phá quan điểm trên dữ liệu mạng xã hội Twitter

1.3.1. Giới thiệu về mạng xã hội Twitter

1.3.2. Phát biểu bài toán

1.3.3. Ý nghĩa bài toán

1.3.4. Khó khăn và thách thức

1.4. Một số kỹ thuật trong khai phá quan điểm

1.4.1. Các phương pháp cây quyết định

1.4.2. Phương pháp K-láng giềng gần nhất (K-Nearest Neighbor)

1.4.3. Thuật toán SVM

1.4.4. Một số nghiên cứu liên quan

1.4.5. Kết luận chương 1

2. CHƯƠNG II: PHƯƠNG PHÁP PHÂN LOẠI QUAN ĐIỂM TRÊN TWITTER SỬ DỤNG HỌC MÁY

2.1. Phương pháp phân loại quan điểm

2.1.1. Thu thập dữ liệu

2.1.2. Tiền xử lý dữ liệu

2.1.3. Trích chọn đặc trưng và vector hóa dữ liệu

2.1.4. Sử dụng thuật toán huấn luyện tạo mô hình phân lớp

2.2. Các phương pháp trích chọn đặc trưng

2.2.1. Đặc trưng N-gram

2.2.2. Độ tương đồng dựa trên tâm (CBS)

2.2.3. Đặc trưng Log-count Ratio

2.3. SVM – Support Vector Machine

2.3.1. Giới thiệu chung

2.3.2. Thuật toán SVM

2.3.3. Huấn luyện SVM

2.3.4. Các ưu điểm của SVM trong phân lớp

2.3.5. Cách áp dụng thuật toán SVM vào bài toán phân lớp quan điểm

2.4. Kết luận chương 2

3. CHƯƠNG III: THỰC NGHIỆM HỆ THỐNG KHAI PHÁ QUAN ĐIỂM CHO DỮ LIỆU TWITTER

3.1. Dữ liệu thực nghiệm

3.2. Thiết lập thực nghiệm

3.2.1. Hướng tiếp cận thực nghiệm

3.2.2. Phương pháp sử dụng các đặc trưng trong thực nghiệm

3.2.3. Phương pháp đánh giá tập dữ liệu

3.3. Công cụ thực nghiệm

3.3.1. Môi trường thực nghiệm

3.3.2. Công cụ phần mềm

3.3.3. Giới thiệu LibSVM

3.4. Kết quả thực nghiệm

3.4.1. Đánh giá kết quả

3.5. Kết luận chương 3

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về khai thác dữ liệu Twitter

Khai thác dữ liệu Twitter là một lĩnh vực nghiên cứu quan trọng trong việc phân tích và hiểu biết về các quan điểm của người dùng trên mạng xã hội. Khai thác dữ liệu từ Twitter cho phép các nhà nghiên cứu thu thập thông tin về cảm xúc, ý kiến và xu hướng của cộng đồng. Việc này không chỉ giúp hiểu rõ hơn về hành vi người tiêu dùng mà còn hỗ trợ trong việc phát triển các chiến lược marketing hiệu quả. Phân tích dữ liệu Twitter có thể được áp dụng trong nhiều lĩnh vực như chính trị, xã hội, và kinh doanh. Theo một nghiên cứu, Twitter đã trở thành một nguồn dữ liệu phong phú cho việc phân tích quan điểm, với hàng triệu tweet được tạo ra mỗi ngày. Điều này mở ra cơ hội cho việc khai thác thông tin từ một nguồn dữ liệu lớn và đa dạng.

1.1. Tầm quan trọng của dữ liệu Twitter

Dữ liệu từ Twitter không chỉ phong phú mà còn phản ánh nhanh chóng các xu hướng và sự kiện đang diễn ra. Dữ liệu mạng xã hội này cho phép các nhà nghiên cứu theo dõi và phân tích các phản ứng của người dùng đối với các sự kiện thời sự, sản phẩm mới, hoặc các chiến dịch truyền thông. Việc phân tích dữ liệu Twitter giúp xác định các xu hướng nổi bật và cảm xúc của cộng đồng, từ đó đưa ra những quyết định chiến lược cho các doanh nghiệp và tổ chức. Hơn nữa, Twitter còn cung cấp một nền tảng để người dùng thể hiện quan điểm của mình một cách tự do, điều này làm cho việc khai thác dữ liệu từ nền tảng này trở nên đặc biệt quan trọng trong việc hiểu biết về tâm lý xã hội.

II. Phương pháp khai thác dữ liệu Twitter

Phương pháp khai thác dữ liệu Twitter thường bao gồm các bước như thu thập dữ liệu, tiền xử lý, và phân tích. Phương pháp nghiên cứu được sử dụng trong khai thác dữ liệu Twitter có thể là học máy, thống kê, hoặc các kỹ thuật xử lý ngôn ngữ tự nhiên. Việc tiền xử lý dữ liệu là rất quan trọng để loại bỏ các yếu tố không cần thiết và chuẩn hóa dữ liệu trước khi phân tích. Các kỹ thuật như phân loại văn bản, phân tích cảm xúc, và trích xuất đặc trưng được áp dụng để hiểu rõ hơn về quan điểm của người dùng. Một trong những thách thức lớn trong việc khai thác dữ liệu Twitter là sự đa dạng trong cách diễn đạt và ngữ nghĩa của người dùng. Do đó, việc phát triển các mô hình phân tích chính xác là rất cần thiết.

2.1. Kỹ thuật phân tích cảm xúc

Phân tích cảm xúc là một trong những kỹ thuật quan trọng trong khai thác dữ liệu Twitter. Kỹ thuật này giúp xác định cảm xúc tích cực, tiêu cực hoặc trung lập trong các tweet. Phân tích ngữ nghĩa và khai thác thông tin từ các tweet cho phép các nhà nghiên cứu hiểu rõ hơn về cảm xúc của người dùng đối với các sự kiện hoặc sản phẩm cụ thể. Các mô hình học máy như SVM (Support Vector Machine) và KNN (K-Nearest Neighbor) thường được sử dụng để phân loại cảm xúc trong dữ liệu Twitter. Việc áp dụng các kỹ thuật này không chỉ giúp cải thiện độ chính xác trong phân loại mà còn cung cấp cái nhìn sâu sắc về tâm lý người tiêu dùng.

III. Ứng dụng thực tiễn của khai thác dữ liệu Twitter

Khai thác dữ liệu Twitter có nhiều ứng dụng thực tiễn trong các lĩnh vực khác nhau. Trong kinh doanh, các công ty có thể sử dụng dữ liệu từ Twitter để theo dõi phản hồi của khách hàng về sản phẩm và dịch vụ của họ. Ứng dụng Twitter trong nghiên cứu giúp các nhà khoa học xã hội hiểu rõ hơn về hành vi và xu hướng của người tiêu dùng. Ngoài ra, các tổ chức phi lợi nhuận có thể sử dụng dữ liệu Twitter để nâng cao nhận thức về các vấn đề xã hội và môi trường. Việc phân tích dữ liệu Twitter cũng có thể hỗ trợ trong việc dự đoán các xu hướng tương lai và phát triển các chiến lược truyền thông hiệu quả.

3.1. Khai thác dữ liệu trong marketing

Trong lĩnh vực marketing, khai thác dữ liệu Twitter cho phép các công ty nắm bắt được cảm xúc và ý kiến của khách hàng một cách nhanh chóng. Phân tích xu hướng từ dữ liệu Twitter giúp các nhà tiếp thị điều chỉnh chiến lược của họ để phù hợp hơn với nhu cầu và mong muốn của khách hàng. Việc sử dụng dữ liệu Twitter để theo dõi các chiến dịch quảng cáo cũng giúp các công ty đánh giá hiệu quả của các hoạt động truyền thông. Hơn nữa, việc khai thác dữ liệu từ Twitter có thể giúp các công ty phát hiện ra các vấn đề tiềm ẩn và cải thiện dịch vụ khách hàng.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khai phá quan điểm dữ liệu twitter

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Mạng xã hội Twitter đã trở thành một nguồn dữ liệu quan trọng với hơn 310 triệu người dùng tích cực hàng tháng và trung bình 6000 tweet được tạo ra mỗi giây. Sự bùng nổ dữ liệu này mở ra nhiều cơ hội cho việc khai thác thông tin, đặc biệt là khai phá quan điểm – một lĩnh vực ứng dụng của xử lý ngôn ngữ tự nhiên (NLP) nhằm phân loại các đánh giá, ý kiến thành các nhóm tích cực, tiêu cực hoặc trung lập. Bài toán khai phá quan điểm trên dữ liệu Twitter không chỉ giúp nhận diện xu hướng dư luận mà còn hỗ trợ các doanh nghiệp trong việc định hướng sản phẩm, chiến lược kinh doanh và đánh giá danh tiếng cá nhân hay tổ chức.

Luận văn tập trung vào việc phát triển phương pháp phân loại quan điểm trên dữ liệu Twitter tiếng Anh, sử dụng bộ dữ liệu Sentiment140 gồm 1 triệu câu tweet đã được gán nhãn tích cực và tiêu cực. Mục tiêu nghiên cứu là xây dựng mô hình phân loại quan điểm chính xác, hiệu quả, đồng thời đánh giá các kỹ thuật trích chọn đặc trưng như N-gram, độ tương đồng dựa trên tâm (CBS) và Log-count ratio kết hợp với thuật toán học máy SVM. Phạm vi nghiên cứu tập trung vào dữ liệu Twitter thu thập qua API, với các đặc điểm đặc trưng như giới hạn 140 ký tự, từ viết tắt, biểu tượng cảm xúc và các yếu tố mạng xã hội như hashtag, retweet.

Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao hiệu quả khai phá quan điểm trên mạng xã hội, góp phần cải thiện các ứng dụng trong lĩnh vực kinh tế, quảng cáo, truyền thông và phân tích dư luận xã hội. Các chỉ số đánh giá như độ chính xác phân loại và khả năng tổng quát hóa mô hình được sử dụng làm thước đo hiệu quả nghiên cứu.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên ba lý thuyết và mô hình nghiên cứu chính:

Xử lý ngôn ngữ tự nhiên (NLP): Là lĩnh vực trí tuệ nhân tạo nghiên cứu các phương pháp xử lý ngôn ngữ con người bằng máy tính, bao gồm các ứng dụng như nhận dạng chữ viết, nhận dạng tiếng nói, dịch máy, tóm tắt văn bản và khai phá dữ liệu. Khai phá quan điểm là một bài toán quan trọng trong NLP, nhằm phân loại và tổng hợp các ý kiến, đánh giá từ dữ liệu văn bản.
Phân loại học máy (Machine Learning Classification): Thuật toán học máy được sử dụng để xây dựng mô hình phân loại dựa trên dữ liệu đã gán nhãn. Trong luận văn, thuật toán SVM (Support Vector Machine) được lựa chọn do khả năng xử lý không gian đặc trưng lớn và hiệu quả phân loại cao. SVM tìm siêu phẳng tối ưu phân tách hai lớp dữ liệu với khoảng cách biên lớn nhất, giúp giảm sai số phân lớp.
Kỹ thuật trích chọn đặc trưng (Feature Extraction): Ba phương pháp trích chọn đặc trưng được áp dụng gồm:
- N-gram: Biểu diễn văn bản dưới dạng chuỗi các từ liên tiếp (unigram, bigram, trigram), giúp mô hình học máy nắm bắt ngữ cảnh và cấu trúc câu.
- Độ tương đồng dựa trên tâm (Center-based Similarity - CBS): Giải quyết vấn đề phân phối dữ liệu huấn luyện và kiểm thử khác nhau (covariate shift) bằng cách chuyển đổi không gian đặc trưng sang không gian tương đồng dựa trên vector trung tâm của lớp tích cực, giúp tăng độ chính xác phân loại.
- Log-count ratio: Kỹ thuật kết hợp giữa Naïve Bayes và SVM, sử dụng tỷ lệ log của tần suất xuất hiện đặc trưng trong các lớp để cải thiện hiệu quả phân loại, đặc biệt với dữ liệu ngắn như tweet.

Các khái niệm chuyên ngành như "tweet", "hashtag", "retweet", "stop word", "phủ định" cũng được định nghĩa rõ ràng để phục vụ cho việc tiền xử lý và trích chọn đặc trưng.

Phương pháp nghiên cứu

Nguồn dữ liệu: Sử dụng bộ dữ liệu Sentiment140 gồm 1 triệu tweet tiếng Anh đã được gán nhãn tích cực và tiêu cực, thu thập qua Twitter API. Dữ liệu có cấu trúc dạng CSV, bao gồm văn bản tweet và nhãn quan điểm.
Phương pháp phân tích:
- Tiền xử lý dữ liệu: Loại bỏ thông tin dư thừa (ID, thời gian, người dùng), chuẩn hóa từ viết tắt, từ kéo dài, chuyển đổi chữ hoa thành chữ thường, thay thế các biểu tượng cảm xúc bằng các thẻ đặc trưng, xử lý phủ định bằng ký hiệu ||NOT||, thay thế tên người dùng, hashtag, link bằng các thẻ ||T||, ||H||, ||U||.
- Trích chọn đặc trưng: Xây dựng bộ từ điển unigram, bigram, trigram; chuyển đổi dữ liệu sang vector đặc trưng theo các phương pháp N-gram, CBS và Log-count ratio.
- Huấn luyện mô hình: Sử dụng thuật toán SVM với thư viện LibSVM để huấn luyện mô hình phân loại trên tập huấn luyện đã tiền xử lý và trích chọn đặc trưng.
- Đánh giá mô hình: Áp dụng K-fold cross validation (k=10) để đánh giá độ chính xác, độ hồi tưởng và F1-score của mô hình trên tập kiểm thử.
Timeline nghiên cứu: Quá trình thu thập, tiền xử lý, trích chọn đặc trưng, huấn luyện và đánh giá mô hình được thực hiện trong khoảng thời gian học tập tại Học viện Công nghệ Bưu chính Viễn thông năm 2017.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của thuật toán SVM: Thuật toán SVM cho kết quả phân loại quan điểm trên dữ liệu Twitter vượt trội hơn so với các phương pháp truyền thống như Naïve Bayes và K-láng giềng gần nhất. Độ chính xác phân loại đạt khoảng 82-85%, cao hơn từ 5-10% so với các phương pháp khác.
Ảnh hưởng của các đặc trưng trích chọn:
- Sử dụng N-gram (unigram, bigram, trigram) giúp mô hình nắm bắt ngữ cảnh tốt hơn, tăng độ chính xác phân loại lên khoảng 80%.
- Đặc trưng CBS giúp giảm thiểu ảnh hưởng của sự khác biệt phân phối dữ liệu huấn luyện và kiểm thử, nâng cao độ chính xác thêm khoảng 3-4%.
- Đặc trưng Log-count ratio kết hợp với SVM cải thiện hiệu quả phân loại, đặc biệt với các tweet ngắn, đạt độ chính xác trên 83%.
Tác động của tiền xử lý dữ liệu: Việc chuẩn hóa từ viết tắt, xử lý phủ định và biểu tượng cảm xúc giúp tăng độ chính xác phân loại khoảng 2-3%, đồng thời giảm thiểu sai sót do ngôn ngữ không chuẩn trong tweet.
Độ chính xác phân loại theo nhãn: Lớp tích cực có độ chính xác phân loại cao hơn lớp tiêu cực khoảng 5%, do lớp tiêu cực thường khó phân biệt hơn vì ngôn ngữ phủ định và mỉa mai trong tweet.

Thảo luận kết quả

Kết quả thực nghiệm cho thấy sự kết hợp giữa thuật toán SVM và các kỹ thuật trích chọn đặc trưng hiện đại như CBS và Log-count ratio là hướng đi hiệu quả trong khai phá quan điểm trên dữ liệu Twitter. Việc sử dụng không gian tương đồng dựa trên tâm (CBS) giúp giải quyết vấn đề phân phối dữ liệu không đồng nhất, một thách thức lớn trong dữ liệu mạng xã hội. So với các nghiên cứu trước đây, kết quả này phù hợp với báo cáo của nhiều tác giả cho thấy SVM là thuật toán phân loại ưu việt trong lĩnh vực phân tích quan điểm.

Biểu đồ độ chính xác phân loại theo từng đặc trưng và bảng ma trận nhầm lẫn minh họa rõ sự cải thiện khi áp dụng các kỹ thuật trích chọn đặc trưng và tiền xử lý dữ liệu. Ngoài ra, việc giữ lại biểu tượng cảm xúc và xử lý phủ định là yếu tố quan trọng giúp mô hình nhận diện chính xác hơn các quan điểm tiêu cực, vốn thường bị bỏ sót trong các phương pháp truyền thống.

Tuy nhiên, vẫn tồn tại một số hạn chế như độ chính xác phân loại lớp tiêu cực thấp hơn, do đặc điểm ngôn ngữ phức tạp, mỉa mai và đa nghĩa trong tweet. Điều này mở ra hướng nghiên cứu tiếp theo về việc áp dụng các kỹ thuật học sâu (deep learning) và mô hình ngôn ngữ tiên tiến để cải thiện khả năng nhận diện sắc thái quan điểm.

Đề xuất và khuyến nghị

Triển khai hệ thống phân loại quan điểm dựa trên SVM kết hợp CBS và Log-count ratio: Đề xuất xây dựng hệ thống khai phá quan điểm tự động cho các doanh nghiệp và tổ chức truyền thông, nhằm phân tích nhanh chóng và chính xác xu hướng dư luận trên Twitter. Thời gian triển khai dự kiến trong 6 tháng, do phòng công nghệ thông tin hoặc nhóm nghiên cứu dữ liệu thực hiện.
Mở rộng bộ dữ liệu huấn luyện và cập nhật liên tục: Để nâng cao độ chính xác và khả năng tổng quát hóa, cần thu thập thêm dữ liệu mới, đa dạng chủ đề và cập nhật thường xuyên nhằm giảm thiểu hiện tượng chuyển đổi phân phối dữ liệu (covariate shift). Khuyến nghị thực hiện hàng quý bởi bộ phận phân tích dữ liệu.
Phát triển module tiền xử lý nâng cao: Tích hợp các kỹ thuật nhận diện ngôn ngữ tự nhiên nâng cao như nhận diện mỉa mai, châm biếm, và xử lý ngôn ngữ không chuẩn để cải thiện khả năng phân loại lớp tiêu cực. Thời gian nghiên cứu và phát triển khoảng 9-12 tháng, do nhóm nghiên cứu NLP đảm nhiệm.
Ứng dụng mô hình vào các lĩnh vực kinh tế, quảng cáo và truyền thông: Sử dụng kết quả phân loại quan điểm để hỗ trợ ra quyết định trong marketing, quản lý danh tiếng và dự báo xu hướng thị trường. Các phòng ban kinh doanh và marketing nên phối hợp với nhóm công nghệ để triển khai trong vòng 3-6 tháng.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành khoa học máy tính, xử lý ngôn ngữ tự nhiên: Luận văn cung cấp kiến thức chuyên sâu về kỹ thuật trích chọn đặc trưng và ứng dụng thuật toán SVM trong phân loại quan điểm, phù hợp cho nghiên cứu và phát triển các đề tài liên quan.
Chuyên gia phân tích dữ liệu và khoa học dữ liệu: Các phương pháp tiền xử lý dữ liệu, trích chọn đặc trưng và đánh giá mô hình được trình bày chi tiết giúp nâng cao kỹ năng xây dựng hệ thống phân tích dữ liệu mạng xã hội.
Doanh nghiệp và tổ chức truyền thông: Có thể áp dụng kết quả nghiên cứu để xây dựng hệ thống giám sát và phân tích dư luận trên mạng xã hội, hỗ trợ ra quyết định chiến lược kinh doanh và quản lý thương hiệu.
Nhà phát triển phần mềm và kỹ sư AI: Luận văn cung cấp hướng dẫn thực nghiệm và ứng dụng thư viện LibSVM, giúp phát triển các ứng dụng khai phá quan điểm và phân tích cảm xúc trên nền tảng Twitter.

Câu hỏi thường gặp

Tại sao chọn thuật toán SVM cho bài toán phân loại quan điểm trên Twitter?
SVM có khả năng xử lý không gian đặc trưng lớn (hơn 10.000 chiều) và tìm siêu phẳng tối ưu với khoảng cách biên lớn nhất, giúp giảm sai số phân lớp. Nhiều nghiên cứu cho thấy SVM cho kết quả phân loại tốt hơn các thuật toán khác như Naïve Bayes hay KNN, đặc biệt với dữ liệu văn bản ngắn như tweet.
Các đặc trưng N-gram, CBS và Log-count ratio khác nhau như thế nào?
N-gram biểu diễn chuỗi từ liên tiếp giúp nắm bắt ngữ cảnh; CBS chuyển đổi không gian đặc trưng sang không gian tương đồng dựa trên vector trung tâm để giảm ảnh hưởng của sự khác biệt phân phối dữ liệu; Log-count ratio kết hợp tỷ lệ log tần suất xuất hiện đặc trưng trong các lớp, cải thiện hiệu quả phân loại, đặc biệt với dữ liệu ngắn.
Làm thế nào để xử lý các từ viết tắt và biểu tượng cảm xúc trong tweet?
Luận văn sử dụng từ điển chuẩn hóa từ viết tắt và biểu tượng cảm xúc, thay thế chúng bằng các thẻ đặc trưng như ||P|| (tích cực), ||N|| (tiêu cực), giúp mô hình nhận diện chính xác hơn các quan điểm ẩn chứa trong ngôn ngữ không chuẩn.
Độ chính xác phân loại có thể đạt được là bao nhiêu?
Thực nghiệm cho thấy độ chính xác phân loại tổng thể đạt khoảng 82-85%, trong đó lớp tích cực có độ chính xác cao hơn lớp tiêu cực khoảng 5%. Việc áp dụng các kỹ thuật trích chọn đặc trưng và tiền xử lý nâng cao giúp cải thiện đáng kể kết quả.
Có thể áp dụng mô hình này cho các ngôn ngữ khác ngoài tiếng Anh không?
Mô hình có thể được điều chỉnh và áp dụng cho các ngôn ngữ khác, tuy nhiên cần xây dựng bộ dữ liệu huấn luyện phù hợp, từ điển biểu tượng cảm xúc và từ viết tắt tương ứng, cũng như điều chỉnh các bước tiền xử lý để phù hợp với đặc điểm ngôn ngữ đó.

Kết luận

Luận văn đã xây dựng thành công mô hình phân loại quan điểm trên dữ liệu Twitter tiếng Anh sử dụng thuật toán SVM kết hợp các kỹ thuật trích chọn đặc trưng N-gram, CBS và Log-count ratio.
Kết quả thực nghiệm cho thấy độ chính xác phân loại đạt khoảng 82-85%, vượt trội so với các phương pháp truyền thống.
Phương pháp tiền xử lý dữ liệu, bao gồm chuẩn hóa từ viết tắt, xử lý phủ định và biểu tượng cảm xúc, đóng vai trò quan trọng trong việc nâng cao hiệu quả phân loại.
Nghiên cứu góp phần giải quyết thách thức về sự khác biệt phân phối dữ liệu huấn luyện và kiểm thử thông qua kỹ thuật CBS, mở rộng khả năng ứng dụng trong thực tế.
Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, phát triển module xử lý ngôn ngữ nâng cao và ứng dụng mô hình vào các lĩnh vực kinh tế, quảng cáo và truyền thông.

Để tiếp tục phát triển và ứng dụng mô hình, các nhà nghiên cứu và doanh nghiệp được khuyến khích triển khai thử nghiệm thực tế, đồng thời cập nhật dữ liệu và kỹ thuật mới nhằm nâng cao độ chính xác và khả năng tổng quát hóa của hệ thống.

Trích đoạn nội dung tài liệu

Chương 1: Cơ sở lý luận Nội dung của chƣơng này trình bày một số kiến thức tổng quan về lĩnh vực xử lý ngôn ngữ tự nhiên, đồng thời giới thiệu bài toán khai phá quan điểm Luan van 2 cho dữ liệu Twitter. Chƣơng này cũng giới thiệu một số kỹ thuật đƣợc sử dụng trong khai phá quan điểm.  Chương 2: Khai phá quan điểm và hệ thống học máy Chƣơng này trình bày về việc áp dụng phƣơng pháp học máy và phƣơng pháp biểu diễn đặc trƣng trong giải quyết bài toán khai phá quan điểm trên miền dữ liệu Twitter. Trong chƣơng này, chúng tôi trình bày cụ thể về thuật toán học máy SVM, các mô hình N-gram, đặc trƣng Log-count ratio và đặc trƣng Độ tƣơng đồng dựa trên tâm (CBS).

 Chương 3: Thực nghiệm và đánh giá kết quả Trong chƣơng này, chúng tôi đề cập đến tập dữ liệu đƣợc sử dụng trong đề tài, xây dựng mô hình bài toán, cách thức tiến hành thực nghiệm với tập dữ liệu, đƣa ra kết quả thực nghiệm bài toán với các phƣơng pháp mà chúng tôi đã lựa chọn ở chƣơng 2. Cuối cùng, chúng tôi đƣa ra phân tích, đánh giá dựa trên kết quả của bài toán.  Phần kết luận Tổng kết thành quả nghiên cứu và phƣơng hƣớng mở rộng. Luan van 3 CHƢƠNG I.

CƠ SỞ LÝ LUẬN Chương này của luận văn trình bày bốn nội dung chính là: - Giới thiệu chung về lĩnh vực xử lý ngôn ngữ tự nhiên và các ứng dụng trong thực tế. - Giới thiệu về bài toán khai phá quan điểm và phân loại một số dạng bài toán trong khai phá quan điểm. - Giới thiệu về mạng xã hội Twitter và tổng quan về bài toán khai phá quan điểm cho mạng xã hội này. - Giới thiệu tổng quan về một số kỹ thuật khai phá quan điểm.

Đồng thời, trình bày các nghiên cứu liên quan đến các kỹ thuật khai phá quan điểm.1 Giới thiệu về xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên (natural language processing – NLP) là một lĩnh vực nghiên cứu của trí tuệ nhân tạo, tập trung vào nghiên cứu các phƣơng pháp, kỹ thuật cho phép xử lý ngôn ngữ tự nhiên bằng máy tính, từ đó xây dựng các chƣơng trình, hệ thống máy tính xử lý ngôn ngữ của con ngƣời. Xử lý ngôn ngữ tự nhiên đƣợc áp dụng trong nhiều bài toán và ứng dụng thực tế, trong nhiều lĩnh vực: Nhận dạng chữ viết: Có hai kiểu nhận dạng. Thứ nhất là nhận dạng chữ in. Thứ hai, phức tạp hơn là nhận dạng chữ viết tay, có khó khăn bởi vì chữ viết tay không có khuôn dạng rõ ràng và thay đổi từ ngƣời này sang ngƣời khác.

Với chƣơng trình nhận dạng chữ viết in có thể chuyển hàng ngàn đầu sách trong thƣ viện thành văn bản điện tử trong thời gian ngắn. Nhận dạng chữ viết của con ngƣời có ứng dụng trong khoa học hình sự và bảo mật thông tin (nhận dạng chữ ký điện tử). Nhận dạng tiếng nói: Nhận dạng tiếng nói rồi chuyển chúng thành văn bản tƣơng ứng. Giúp thao tác của con ngƣời trên các thiết bị nhanh hơn và đơn giản hơn.

Đây cũng là bƣớc đầu tiên cần phải thực hiện trong ƣớc mơ thực hiện giao tiếp giữa con ngƣời với robot. Nhận dạng tiếng nói có khả năng trợ giúp ngƣời khiếm thị rất nhiều. Luan van 4 Tổng hợp tiếng nói: Từ một văn bản tự động tổng hợp thành tiếng nói. Giống nhƣ nhận dạng tiếng nói, tổng hợp tiếng nói là sự trợ giúp tốt cho ngƣời khiếm thị, nhƣng ngƣợc lại nó là bƣớc cuối cùng trong giao tiếp giữa robot với ngƣời.

Dịch máy (machine translate): Nhƣ tên gọi đây là chƣơng trình dịch tự động từ ngôn ngữ này sang ngôn ngữ khác. Tìm kiếm và truy xuất thông tin: Đặt câu hỏi và chƣơng trình tự tìm ra nội dung phù hợp nhất. Thông tin ngày càng đầy lên theo cấp số nhân, đặc biệt với sự trợ giúp của internet việc tiếp cận thông tin trở lên dễ dàng hơn bao giờ hết. Việc khó khăn lúc này là tìm đúng nhất thông tin mình cần giữa bề bộn tri thức và đặc biệt thông tin đó phải đáng tin cậy.

Tóm tắt văn bản: Từ một văn bản dài tóm tắt thành một văn bản ngắn hơn theo mong muốn nhƣng vẫn chứa những nội dung thiết yếu nhất. Khai phá dữ liệu: Từ rất nhiều tài liệu khác nhau phát hiện ra tri thức mới. Thực tế để làm đƣợc điều này rất khó, nó gần nhƣ là mô phỏng quá trình học tập, khám phá khoa học của con ngƣời, đây là lĩnh vực đang trong giai đoạn đầu phát triển.2 Khai phá quan điểm 1.1 Giới thiệu Khai phá quan điểm là một trong các lĩnh vực khai thác thông tin nằm trong ứng dụng của xử lý ngôn ngữ tự nhiên, giúp thu thập đƣợc những thông tin mong muốn về quan điểm của dữ liệu. Bài toán phân tích các đánh giá cho một chủ đề nhất định, hoặc sự kiện, sản phẩm để tự động phân loại đánh giá theo hƣớng tích cực, tiêu cực của quan điểm.

Bài toán còn bao gồm nội dung tổng hợp quan điểm từ các tài liệu quan điểm thu đƣợc. Khai phá quan điểm có ảnh hƣởng lớn đến hành vi của con ngƣời trong tƣơng lai vì nó là nhận thức, niềm tin của con ngƣời về vấn đề thực tế và phụ thuộc vào cách nhìn của mỗi ngƣời. Luan van 5 Bất cứ khi nào cần đƣa ra quyết định, chúng ta thƣờng tham khảo ý kiến của ngƣời khác, đối với cá nhân, lấy ý kiến từ cha mẹ, bạn bè, đối với tổ chức có thể là các cuộc điều tra, khảo sát hay các cuộc thăm dò dƣ luận. Khai phá quan điểm là kỹ thuật để phát hiện và trích xuất thông tin về tình cảm của con ngƣời đƣợc lƣu trong cơ sở dữ liệu, để làm đƣợc việc này vấn đề quan trọng là phân cực đƣợc tình cảm, quan điểm đối với vấn đề, hay nói cách khác đó là gán nhãn cho tài liệu, đánh giá đó là tích cực hay tiêu cực với đối tƣợng mục tiêu (chủ đề).

Các ý kiến quan điểm có thể thể hiện theo hai hƣớng: - Quan điểm trực tiếp: cho ý kiến hoặc là tích cực, hoặc là tiêu cực trực tiếp về các đối tƣợng quan tâm. - Quan điểm gián tiếp: so sánh các đối tƣợng quan tâm với đối tƣợng tƣơng tự khác để đƣa ra ý kiến cá nhân. Với mỗi vấn đề trao đổi, mỗi ý kiến đều là quan điểm chủ quan của cá nhân đƣa ra, không đủ cơ sở nhận định chung cho vấn đề. Do vậy, cần thu thập dữ liệu chứa ý kiến, quan điểm từ nhiều ngƣời, sau đó tổng hợp các ý kiến, quan điểm để rút ra cái nhìn tổng quan cho toàn vấn đề.2 Một số bài toán trong khai phá quan điểm a) Bài toán xác định quan điểm Phát biểu bài toán: Đầu vào: Văn bản đầu vào (thƣờng là một câu).

Đầu ra: Đánh giá văn bản vào một trong hai lớp: khách quan và chủ quan. Bài toán này tƣơng đƣơng với việc xác định xem văn bản đầu vào có mang quan điểm hay đánh giá về quan điểm hay không. Vấn đề này đôi khi khó khăn hơn so với phân lớp phân cực. Tính chủ quan của từ và cụm từ có thể phụ thuộc vào hoàn cảnh của văn bản đó, và một tài liệu khách quan có thể chứa câu chủ quan (ví dụ, một bài báo trích dẫn ý kiến của ngƣời dân).

Luan van 6 b) Bài toán phân loại quan điểm Phát biểu bài toán: Đầu vào: Văn bản đầu vào mang quan điểm chủ quan. Đầu ra: Đánh giá quan điểm của văn bản vào một trong hai lớp: tích cực và tiêu cực. Với bài toán này có thể coi khai phá quan điểm nhƣ bài toán phân lớp văn bản. Bài toán phân lớp một văn bản đánh giá là tích cực hay tiêu cực.

Ví dụ: với một đánh giá sản phẩm, hệ thống xác định xem nhận xét về sản phẩm ấy là tốt hay xấu. Phân lớp này thƣờng là phân lớp ở mức tài liệu. Thông tin đƣợc phát hiện không mô tả chi tiết về những gì mọi ngƣời thích hay không thích. c) Bài toán khai phá quan điểm theo đặc trƣng, khía cạnh Phát biểu bài toán: Đầu vào: Văn bản đầu vào.

Đầu ra: Đánh giá quan điểm của văn bản theo đặc trƣng khía cạnh. Bài toán này xác định những ý kiến hay những cảm xúc thể hiện trên những đặc trƣng khác nhau hoặc khía cạnh khác của các thực thể, ví dụ, một chiếc điện thoại di động, một cái máy ảnh kỹ thuật số hoặc một ngân hàng. Một đặc trƣng hay khía cạnh là một thuộc tính hoặc một thành phần của thực thể, ví dụ, màn hình của một chiếc điện thoại di động hoặc chất lƣợng hình ảnh của máy ảnh. Ƣu điểm của phân tích quan điểm dựa theo đặc trƣng, khía cạnh là việc khả năng nắm bắt đƣợc những sắc thái về các đối tƣợng quan tâm.

d) Bài toán tóm tắt quan điểm Phát biểu bài toán: Đầu vào: Văn bản đầu vào. Đầu ra: Bản đánh giá tổng hợp quan điểm về đối tƣợng đƣợc đề cập. Luan van 7 Trong luận văn này, chúng tôi tập trung vào bài toán phân loại quan điểm trên miền dữ liệu Twitter.3 Một số khó khăn trong khai phá quan điểm Phong cách viết của mỗi người là khác nhau: Mỗi cá nhân con ngƣời là khác nhau, cách thức diễn đạt và sử dụng ngôn ngữ cũng khác nhau. Sự phong phú của ngôn ngữ dẫn đến đa dạng hóa cách thể hiện quan điểm của từng ngƣời.

Hơn thế nữa, quan điểm của từng ngƣời còn phụ thuộc vào nhiều yếu tố nhƣ: tính cách, trình độ, tuổi tác v. Sự phụ thuộc vào bối cảnh và thời gian: Cùng một từ, một câu nói ở tình huống này thể hiện tính chất tích cực, nhƣng cũng chính từ đó, câu nói đó trong tình huống khác lại thể hiện tính chất tiêu cực. Các lối nói ẩn dụ, hay đặc biệt là trong các hoàn cảnh với ngụ ý mỉa mai, châm biếm có thể gây ra sự hiểu lầm về quan điểm. Quan điểm về một bộ phận của vấn đề cũng làm ảnh hƣởng đến quan điểm về toàn bộ vấn đề nói chung.

Tồn tại nhiều quan điểm mâu thuẫn trong cùng một tài liệu: Trong cùng một tài liệu, cụ thể nhƣ một bài viết, một bình luận có thể chứa nhiều quan điểm trái ngƣợc nhau, bao gồm cả tích cực lẫn tiêu cực. Đây cũng là một trong những vấn đề gây khó khăn trong việc khai phá quan điểm.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Luận Văn Thạc Sĩ Về Khai Phá Dữ Liệu Twitter" của tác giả Nguyễn Thị Hồng Quỳnh, dưới sự hướng dẫn của TS. Ngô Xuân Bách, được thực hiện tại Học viện Công nghệ Bưu chính Viễn thông vào năm 2017. Bài viết tập trung vào việc khai thác và phân tích dữ liệu từ Twitter, một trong những nền tảng mạng xã hội phổ biến nhất hiện nay. Nội dung của luận văn không chỉ giúp người đọc hiểu rõ hơn về các phương pháp khai thác dữ liệu mà còn chỉ ra những ứng dụng thực tiễn của nó trong việc phân tích quan điểm và xu hướng của người dùng trên mạng xã hội.

Để mở rộng thêm kiến thức về các khía cạnh liên quan đến marketing và hành vi người tiêu dùng trên mạng xã hội, bạn có thể tham khảo bài viết "Phân tích ảnh hưởng của quảng cáo trên Facebook đến quyết định mua sắm của người dùng tại TP.HCM", nơi nghiên cứu tác động của quảng cáo trên mạng xã hội đến hành vi tiêu dùng. Ngoài ra, bài viết "Tác động của marketing trên mạng xã hội đến nhận thức và khuyến nghị thương hiệu" cũng sẽ cung cấp cái nhìn sâu sắc về cách mà marketing trên mạng xã hội ảnh hưởng đến nhận thức thương hiệu của người tiêu dùng. Cuối cùng, bạn có thể tìm hiểu thêm về "Hành vi tiêu dùng của tín đồ thờ Mẹ trong mua sắm trang sức", một nghiên cứu về hành vi tiêu dùng trong bối cảnh văn hóa và xã hội hiện đại. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về lĩnh vực khai thác dữ liệu và marketing trên mạng xã hội.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#mạng xã hội

#nghiên cứu học thuật

#khai thác thông tin

#khai phá dữ liệu

Chủ đề

Phân tích dữ liệu lớn

Phương pháp nghiên cứu trong luận văn thạc sĩ

Khai thác dữ liệu trong nghiên cứu

Ứng dụng của Twitter trong nghiên cứu xã hội