Luận Văn Thạc Sĩ Khoa Học Máy Tính: Phương Pháp Lọc Tin Theo Chủ Đề Và Truy Nguồn Trên Mạng Xã Hội

Luận văn thạc sĩ khoa học máy tính nghiên cứu phương pháp lọc tin theo chủ đề và truy nguồn thông tin trên mạng xã hội, ứng dụng công nghệ hiện đại.

Trường đại học

Đại học Công nghệ Thông tin, Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2016

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Tính khoa học và tính mới của đề tài

1.2. Lý do chọn đề tài

1.3. Mục tiêu nghiên cứu

1.4. Đối tượng nghiên cứu

1.5. Phạm vi nghiên cứu

1.6. Tình hình nghiên cứu

1.6.1. Tình hình nghiên cứu thế giới

1.6.2. Tình hình nghiên cứu trong nước

1.7. Phương pháp thực hiện

1.8. Dự kiến kết quả đạt được

1.9. Dự kiến cấu trúc luận văn sẽ thực hiện

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Khái niệm mạng xã hội

2.2. Cấu trúc mạng xã hội

2.3. Ảnh hưởng của mạng xã hội

2.4. Các lợi ích của việc khai phá dữ liệu mạng xã hội

2.5. Các trang mạng xã hội hiện nay

2.6. Email tích cực, tiêu cực

2.7. Mô hình LDA

2.7.1. Giải thuật lấy mẫu Gibbs cho mô hình LDA

2.8. Giải thuật SVM

2.9. Giải thuật Naive Bayes

2.10. Lan truyền trên mạng xã hội

2.10.1. Lan truyền theo thời gian

3. CHƯƠNG 3: PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG

3.1. Giới thiệu Database của hệ thống

3.2. Mô hình các đối tượng

3.3. Mô hình hệ thống

3.4. Chạy LDA trên tập dữ liệu Enron Email

3.4.1. Làm sạch dữ liệu

3.4.2. Tạo tập tin .dat

3.4.3. Chạy LDA

3.5. Chạy LDA trên tập dữ liệu huấn luyện

3.5.1. Chạy LDA

3.5.2. Đọc tập tin đặc trưng, gán nhãn chủ đề và tìm chủ đề ẩn của từng email

3.5.3. Gán nhãn chủ đề

3.5.4. Xác định tin xấu

3.6. Xác định lan truyền

3.6.1. Xác định lan truyền theo thời gian

3.7. Thiết kế giao diện

4. CHƯƠNG 4: XÂY DỰNG HỆ THỐNG THỰC NGHIỆM

4.1. Tập dữ liệu Enron Email

4.2. Xác định tin tích cực

4.3. Xác định lan truyền

4.4. Lan truyền theo thời gian

4.5. Lược đồ thống kê dữ liệu

4.6. Tốc độ chương trình

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Một số kết quả đạt được

5.1.1. Về mặt lý thuyết

5.1.2. Về mặt ứng dụng

5.2. Những hạn chế

5.3. Hướng phát triển

TÀI LIỆU THAM KHẢO

PHỤ LỤC

Tóm tắt

I. Tổng quan về luận văn

Luận văn Thạc Sĩ Khoa Học Máy Tính tập trung vào việc lọc tin theo chủ đề và truy nguồn thông tin trên mạng xã hội. Với sự phát triển nhanh chóng của công nghệ thông tin, lượng dữ liệu trên mạng xã hội tăng đột biến, đặt ra thách thức lớn trong việc lọc và quản lý thông tin. Luận văn đề xuất một hệ thống tự động để xác định chủ đề, phân loại thông tin tích cực/tiêu cực, và theo dõi quá trình lan truyền thông tin. Các thuật toán lọc tin như LDA, SVM, và Naive Bayes được nghiên cứu và áp dụng để xây dựng hệ thống thực nghiệm.

1.1 Tính khoa học và tính mới

Luận văn mang tính khoa học cao khi kết hợp các thuật toán xử lý ngôn ngữ tự nhiên và phân tích dữ liệu để giải quyết vấn đề lọc thông tin tự động. Tính mới nằm ở việc áp dụng mô hình LDA để phân tích chủ đề ẩn và thuật toán SVM để phân loại thông tin. Hệ thống còn có khả năng truy nguồn dữ liệu, xác định nguồn gốc và đường lan truyền của thông tin trên mạng xã hội trực tuyến.

1.2 Mục tiêu nghiên cứu

Mục tiêu chính của luận văn là xây dựng một hệ thống lọc tin thông minh có khả năng phân loại thông tin theo chủ đề, xác định thông tin tiêu cực, và theo dõi quá trình lan truyền. Hệ thống sử dụng các thuật toán lọc tin như LDA, SVM, và Naive Bayes để phân tích và xử lý dữ liệu từ mạng xã hội. Kết quả mong đợi là một công cụ hỗ trợ hiệu quả cho việc quản lý thông tin trên mạng xã hội.

II. Cơ sở lý thuyết

Luận văn dựa trên các cơ sở lý thuyết về mạng xã hội, phân tích dữ liệu, và xử lý ngôn ngữ tự nhiên. Các thuật toán lọc tin như LDA, SVM, và Naive Bayes được nghiên cứu kỹ lưỡng để áp dụng vào hệ thống. Mạng xã hội được định nghĩa là một nền tảng kết nối người dùng, cho phép chia sẻ và lan truyền thông tin nhanh chóng. Luận văn cũng phân tích các lợi ích của khai phá dữ liệu mạng xã hội trong việc quản lý và kiểm soát thông tin.

2.1 Mô hình LDA

Mô hình LDA (Latent Dirichlet Allocation) là một phương pháp phân tích chủ đề dựa trên phân bố xác suất. Luận văn sử dụng LDA để xác định các chủ đề ẩn trong dữ liệu văn bản từ mạng xã hội. Giải thuật lấy mẫu Gibbs được áp dụng để tối ưu hóa quá trình phân tích. Kết quả là một hệ thống có khả năng phân loại thông tin theo chủ đề một cách chính xác.

2.2 Thuật toán SVM và Naive Bayes

Thuật toán SVM (Support Vector Machine) và Naive Bayes được sử dụng để phân loại thông tin tích cực và tiêu cực. SVM là một phương pháp học máy dựa trên việc tìm kiếm siêu phẳng tối ưu để phân tách dữ liệu. Naive Bayes dựa trên định lý Bayes để tính toán xác suất và phân loại thông tin. Cả hai thuật toán đều được tích hợp vào hệ thống để nâng cao hiệu quả lọc thông tin tự động.

III. Phân tích và thiết kế hệ thống

Luận văn trình bày chi tiết quá trình phân tích và thiết kế hệ thống lọc tin. Hệ thống được xây dựng dựa trên các thuật toán lọc tin và phân tích dữ liệu. Quy trình bao gồm việc làm sạch dữ liệu, tạo tập tin đặc trưng, chạy LDA, và phân loại thông tin. Hệ thống còn có khả năng truy xuất thông tin và xác định lan truyền theo thời gian. Weka được sử dụng như một công cụ hỗ trợ trong quá trình thực nghiệm.

3.1 Xử lý dữ liệu

Quá trình xử lý dữ liệu bao gồm làm sạch dữ liệu, tạo tập tin đặc trưng, và chạy LDA trên tập dữ liệu Enron Email. Kết quả là một tập dữ liệu được phân loại theo chủ đề, sẵn sàng cho việc phân tích và lọc thông tin. Weka được sử dụng để hỗ trợ quá trình này, đảm bảo tính chính xác và hiệu quả.

3.2 Thiết kế giao diện

Hệ thống được thiết kế với giao diện thân thiện, bao gồm các tab như Training, Spread, và Spread Time. Giao diện cho phép người dùng dễ dàng thao tác và theo dõi quá trình lọc tin và truy nguồn thông tin. Kết quả được hiển thị trực quan thông qua biểu đồ và bảng thống kê.

IV. Kết quả và ứng dụng

Luận văn đạt được kết quả đáng kể trong việc xây dựng một hệ thống lọc tin thông minh. Hệ thống có khả năng phân tích chủ đề, phân loại thông tin, và truy nguồn dữ liệu trên mạng xã hội. Ứng dụng thực tế của hệ thống bao gồm hỗ trợ quản lý thông tin, kiểm soát tin tiêu cực, và theo dõi quá trình lan truyền thông tin. Luận văn cũng đề xuất hướng phát triển trong tương lai, bao gồm nâng cao độ chính xác và mở rộng phạm vi ứng dụng.

4.1 Kết quả đạt được

Hệ thống đã thành công trong việc xác định chủ đề ẩn, phân loại thông tin tích cực/tiêu cực, và theo dõi lan truyền thông tin. Kết quả thực nghiệm trên tập dữ liệu Enron Email cho thấy hiệu quả cao của các thuật toán lọc tin được áp dụng.

4.2 Ứng dụng thực tế

Hệ thống có thể được ứng dụng trong việc quản lý thông tin trên mạng xã hội, kiểm soát tin tiêu cực, và hỗ trợ các chiến dịch tiếp thị. Khả năng truy nguồn thông tin giúp xác định nguồn gốc và đường lan truyền của thông tin, đóng vai trò quan trọng trong việc ngăn chặn tin giả và thông tin độc hại.

21/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính lọc tin theo một chủ đề và truy nguồn trên mạng xã hội

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển bùng nổ của công nghệ thông tin, số lượng người dùng Internet và mạng xã hội tăng lên nhanh chóng, tạo ra một lượng dữ liệu khổng lồ vượt xa khả năng xử lý của các hệ quản trị cơ sở dữ liệu truyền thống. Theo ước tính, hàng ngày có hàng triệu bài viết, hình ảnh, video và các tương tác được tạo ra trên các nền tảng như Facebook, Twitter, LinkedIn, với số lượng thành viên lên đến hàng trăm triệu người. Việc khai thác và lọc ra những thông tin hữu ích từ khối dữ liệu này là một thách thức lớn nhưng cũng mang lại nhiều cơ hội trong việc xác định thị hiếu người dùng, kiểm soát thông tin và ngăn chặn tin xấu lan truyền.

Luận văn tập trung nghiên cứu và xây dựng hệ thống lọc tin theo chủ đề và truy nguồn trên mạng xã hội, sử dụng các mô hình và giải thuật tiên tiến như Latent Dirichlet Allocation (LDA), Support Vector Machine (SVM), Naive Bayes và công cụ khai phá dữ liệu Weka. Phạm vi nghiên cứu tập trung trên dữ liệu mạng Enron Email, với mục tiêu xác định chủ đề ẩn trong các thông điệp, phân loại tin tích cực và tiêu cực, xác định người lan truyền tin xấu và mô hình hóa quá trình lan truyền theo thời gian. Nghiên cứu có ý nghĩa quan trọng trong việc hỗ trợ quản lý thông tin trên mạng xã hội, góp phần nâng cao hiệu quả kiểm soát và phân tích dữ liệu lớn trong lĩnh vực khoa học máy tính.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên ba mô hình và giải thuật chính:

Latent Dirichlet Allocation (LDA): Mô hình thống kê phân bố chủ đề ẩn trong tập văn bản, cho phép mỗi tài liệu là sự pha trộn của nhiều chủ đề với xác suất khác nhau. LDA sử dụng giải thuật lấy mẫu Gibbs để suy diễn phân bố hậu nghiệm của các biến tiềm ẩn, giúp trích xuất chủ đề chính từ dữ liệu văn bản.
Support Vector Machine (SVM): Phương pháp phân loại dựa trên lý thuyết thống kê, tìm siêu phẳng tối ưu phân tách các lớp dữ liệu trong không gian vector đặc trưng. SVM tối đa hóa biên phân cách giữa các lớp để đạt độ chính xác cao trong phân loại.
Naive Bayes: Giải thuật phân loại dựa trên định lý Bayes với giả định các thuộc tính độc lập điều kiện. Phương pháp này tính xác suất hậu nghiệm của các lớp dựa trên dữ liệu huấn luyện, từ đó phân loại các văn bản mới.

Ngoài ra, công cụ Weka được sử dụng để triển khai các thuật toán khai phá dữ liệu, hỗ trợ xử lý, phân tích và đánh giá mô hình một cách hiệu quả. Các khái niệm về mạng xã hội, cấu trúc mạng, lan truyền thông tin và các thuật toán lan truyền trên mạng xã hội cũng được nghiên cứu làm nền tảng cho việc xây dựng hệ thống.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập Enron Email, bao gồm hàng nghìn email với các thông tin chi tiết về người gửi, người nhận, nội dung, thời gian gửi và các hành động liên quan như reply, forward, cc, bcc. Dữ liệu được làm sạch bằng cách loại bỏ ký tự đặc biệt, từ dừng và từ không có trong từ điển chuẩn.

Phương pháp phân tích gồm các bước:

Tạo tập tin dữ liệu đầu vào (.dat) cho mô hình LDA từ dữ liệu đã làm sạch.
Chạy mô hình LDA để xác định chủ đề ẩn trong từng email.
Sử dụng SVM và Naive Bayes để phân loại email thành tích cực hoặc tiêu cực dựa trên đặc trưng từ LDA.
Xác định người lan truyền tin xấu và mô hình hóa quá trình lan truyền theo thời gian dựa trên các hành động gửi email.
Đánh giá hiệu quả hệ thống qua các chỉ số phân loại và khả năng truy xuất nguồn tin.

Cỡ mẫu nghiên cứu là khoảng 1000 email từ tập dữ liệu Enron Email, được chọn ngẫu nhiên để đảm bảo tính đại diện. Phương pháp chọn mẫu và phân tích được thực hiện theo quy trình chuẩn của khai phá dữ liệu và học máy, với số lần lặp của giải thuật Gibbs từ 1000 đến 2000 để đảm bảo hội tụ.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Xác định chủ đề ẩn hiệu quả: Mô hình LDA với 10 chủ đề đã phân tích thành công tập dữ liệu gồm 1000 email, với tần suất từ khóa đặc trưng cho từng chủ đề được xác định rõ ràng. Ví dụ, chủ đề kinh tế có các từ khóa như "market", "brand", "commodity" xuất hiện với xác suất cao, giúp phân loại chính xác nội dung email.
Phân loại tin tích cực và tiêu cực: Sử dụng SVM và Naive Bayes trên đặc trưng từ LDA, hệ thống đạt độ chính xác phân loại khoảng 85-90% trong việc nhận diện các email mang nội dung tích cực hoặc tiêu cực. Tỷ lệ phân loại chính xác của SVM cao hơn Naive Bayes khoảng 5%, cho thấy ưu thế của SVM trong bài toán này.
Xác định người lan truyền tin xấu: Qua phân tích mạng Enron Email, hệ thống đã xác định được các nút (người dùng) có vai trò trung tâm trong việc phát tán thông tin tiêu cực, với tỷ lệ lan truyền đến hơn 60% các thành viên trong mạng chỉ sau 2 bước chia sẻ.
Mô hình hóa lan truyền theo thời gian: Biểu đồ lan truyền theo thời gian cho thấy các thông điệp tiêu cực thường có tốc độ lan truyền nhanh trong khoảng 24 giờ đầu tiên, sau đó giảm dần. Ví dụ, một email tiêu cực được gửi vào ngày 13/8/2001 đã được chia sẻ và phản hồi liên tục trong vòng 48 giờ, tạo thành chuỗi lan truyền mạnh mẽ.

Thảo luận kết quả

Kết quả cho thấy mô hình LDA là công cụ hiệu quả để trích xuất chủ đề ẩn trong dữ liệu mạng xã hội, hỗ trợ tốt cho việc phân loại nội dung bằng SVM và Naive Bayes. Việc xác định người lan truyền tin xấu giúp quản trị mạng xã hội có thể can thiệp kịp thời, hạn chế tác động tiêu cực. So với các nghiên cứu trước đây, hệ thống này tích hợp đồng thời nhiều mô hình và giải thuật, đồng thời áp dụng trên dữ liệu thực tế của mạng Enron Email, tạo nên sự mới mẻ và tính ứng dụng cao.

Dữ liệu có thể được trình bày qua các biểu đồ tần suất từ khóa theo chủ đề, bảng phân loại chính xác của các mô hình, sơ đồ mạng thể hiện các nút lan truyền chính và biểu đồ lan truyền theo thời gian để minh họa quá trình phát tán thông tin.

Đề xuất và khuyến nghị

Phát triển hệ thống lọc tin tự động: Triển khai hệ thống dựa trên mô hình LDA kết hợp SVM để tự động phân loại và lọc các thông điệp tiêu cực trên mạng xã hội, nhằm nâng cao hiệu quả quản lý nội dung. Thời gian thực hiện dự kiến trong 6 tháng, chủ thể thực hiện là các đơn vị phát triển phần mềm và quản trị mạng xã hội.
Tăng cường giám sát người dùng có ảnh hưởng: Xây dựng công cụ phân tích mạng xã hội để xác định và theo dõi các cá nhân có khả năng lan truyền tin xấu mạnh, từ đó có biện pháp cảnh báo hoặc hạn chế. Mục tiêu giảm tỷ lệ lan truyền tin xấu xuống dưới 30% trong vòng 1 năm.
Phân tích lan truyền theo thời gian: Áp dụng mô hình lan truyền theo thời gian để dự đoán và kiểm soát sự bùng phát của các thông tin tiêu cực, giúp các cơ quan quản lý phản ứng kịp thời. Chủ thể thực hiện là các tổ chức nghiên cứu và quản lý mạng xã hội.
Đào tạo và nâng cao nhận thức người dùng: Tổ chức các chương trình đào tạo, tuyên truyền về tác hại của việc phát tán thông tin sai lệch, khuyến khích người dùng mạng xã hội có trách nhiệm trong việc chia sẻ thông tin. Mục tiêu nâng cao nhận thức cho ít nhất 50% người dùng trong vòng 1 năm.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu khoa học máy tính: Có thể ứng dụng các mô hình LDA, SVM, Naive Bayes trong khai phá dữ liệu và phân tích mạng xã hội, từ đó phát triển các giải pháp mới trong lĩnh vực xử lý ngôn ngữ tự nhiên và học máy.
Chuyên gia quản trị mạng xã hội: Sử dụng kết quả nghiên cứu để xây dựng hệ thống giám sát, kiểm soát nội dung và ngăn chặn tin xấu lan truyền, nâng cao chất lượng thông tin trên các nền tảng mạng xã hội.
Doanh nghiệp truyền thông và marketing: Áp dụng mô hình phân tích chủ đề và lan truyền để hiểu rõ thị hiếu người dùng, tối ưu hóa chiến lược tiếp thị lan truyền (viral marketing) và quản lý thương hiệu trên mạng xã hội.
Cơ quan quản lý nhà nước: Tham khảo để xây dựng chính sách, công cụ kiểm soát thông tin trên Internet, đặc biệt trong việc phát hiện và xử lý các thông tin sai lệch, tin xấu gây ảnh hưởng đến xã hội.

Câu hỏi thường gặp

Mô hình LDA hoạt động như thế nào trong việc xác định chủ đề?
LDA giả định mỗi tài liệu là sự pha trộn của nhiều chủ đề, mỗi chủ đề là phân bố xác suất trên tập từ vựng. Qua quá trình lấy mẫu Gibbs, mô hình suy ra phân bố chủ đề tiềm ẩn dựa trên dữ liệu quan sát, giúp trích xuất chủ đề chính trong văn bản.
Tại sao chọn SVM và Naive Bayes để phân loại tin tích cực và tiêu cực?
SVM có khả năng phân tách dữ liệu phức tạp với biên tối ưu, trong khi Naive Bayes đơn giản, nhanh và hiệu quả với giả định độc lập điều kiện. Kết hợp hai giải thuật giúp tăng độ chính xác và tính ổn định trong phân loại.
Làm thế nào để xác định người lan truyền tin xấu trên mạng xã hội?
Dựa vào dữ liệu gửi nhận email hoặc tương tác trên mạng xã hội, hệ thống xây dựng mạng lưới các nút và liên kết, từ đó xác định các nút trung tâm có vai trò phát tán thông tin tiêu cực dựa trên số lượng và tần suất chia sẻ.
Quá trình lan truyền theo thời gian được mô hình hóa ra sao?
Hệ thống ghi nhận thời điểm các hành động như gửi, reply, forward diễn ra, từ đó xây dựng biểu đồ lan truyền theo thời gian, giúp đánh giá mức độ “hot” và tốc độ lan truyền của thông tin.
Hệ thống có thể áp dụng cho các mạng xã hội khác ngoài Enron Email không?
Có thể, với điều kiện dữ liệu đầu vào có cấu trúc tương tự và đủ thông tin về người gửi, người nhận, nội dung và thời gian. Các mô hình và giải thuật có tính tổng quát cao, dễ dàng điều chỉnh cho các nền tảng mạng xã hội phổ biến hiện nay.

Kết luận

Luận văn đã xây dựng thành công hệ thống lọc tin theo chủ đề và truy nguồn trên mạng xã hội, sử dụng mô hình LDA, SVM, Naive Bayes và công cụ Weka.
Hệ thống cho phép xác định chủ đề ẩn, phân loại tin tích cực và tiêu cực, xác định người lan truyền tin xấu và mô hình hóa quá trình lan truyền theo thời gian.
Kết quả thực nghiệm trên tập dữ liệu Enron Email đạt độ chính xác phân loại khoảng 85-90%, đồng thời mô hình hóa hiệu quả quá trình lan truyền thông tin.
Nghiên cứu góp phần nâng cao khả năng quản lý và kiểm soát thông tin trên mạng xã hội, hỗ trợ các nhà quản trị và doanh nghiệp trong việc khai thác dữ liệu lớn.
Các bước tiếp theo bao gồm mở rộng hệ thống cho các nền tảng mạng xã hội khác, cải tiến thuật toán phân loại và phát triển công cụ cảnh báo sớm tin xấu lan truyền.

Hãy áp dụng những kết quả này để nâng cao hiệu quả quản lý thông tin và phát triển các giải pháp công nghệ phù hợp với xu thế phát triển của mạng xã hội hiện đại.

Trích đoạn nội dung tài liệu

Chương 1 : Tông quan: Trong chương nay sẽ trình bay các van dé cần nghiên cứu dựa vào các mục tiêu đã đặt ra, nêu lên ý nghĩa khoa học của công trình nghiên cứu, tình hình nghiên cứu trong nước và ngoài nước, phương pháp thực hiện. Cuối cùng là kết quả đạt được. Chương 2: Cơ sở lý thuyết: Là các cơ sở lý thuyết làm nền tản cho việc nghiên cứu của luận văn này. Các khái niêm liên quan đến mạng xã hội, mô hình LDA, giải thuật SVM, Naïve bayes và Weka.

Chương 3: Phân tích và thiết kế hệ thống thực nghiệm: Trong chương này sẽ trình bày các bước dé hiện thực chương trình. Mô tả hệ thống, xử lý chỉ tiết cho từng module. 16 Chương 4: Xây dựng hệ thống thực nghiệm: Trong chương này sẽ trình bày quá trình thử nghiệm phần mềm ở chương 3. Thử nghiệm chương trình trên một bộ dữ liệu thử nghiệm.

Chương 5: Kết luận và hướng phát triển : Trong chương này sẽ đưa ra những kết quả đạt được, những hạn chế cũng như khó khăn trong quá trình làm luận văn và đưa ra hướng phát triển của luận văn. Kết chương: Trong chương | này đã trình bày một số khái niệm mang xã hội, phân tích mang xã hội.Tính khoa học, tính mới, mục tiêu nghiên cứu, phạm vi nghiên cứu của luận văn. Bên cạnh đó trong chương này cũng trình bày về tình hình nghiên cứu trong nước và ngoài nước. Hướng tiếp cận và kết quả đạt được của luận văn.

17 Chương 2: CƠ SỞ LÝ THUYET Trong chương này tôi sẽ trình bày về các cơ sở lý thuyết về mạng xã hội, cấu trúc mạng xã hội. Tôi sẽ lần lượt đi sâu vào các thuật toán được áp dụng trong luận văn này.1Khái niệm mạng xã hội Mạng xã hội [3] là dịch vụ nối kết các thành viên cùng sở thích trên Internet lại với nhau với nhiều mục đích khác nhau không phân biệt không gian và thời gian. Những người tham gia vào mạng xã hội còn được gọi là cư dan mạng. Mạng xã hội có những tính năng như chat, email, phim ảnh, voice chat, chia sẻ file, blog và xã luận.

Các dịch vụ này có nhiều phương cách dé các thành viên tìm kiếm bạn bè, đối tác: dựa theo group (ví dụ như tên trường hoặc tên thành phó), dựa trên thông tin cá nhân (như địa chi e-mail hoặc screen name), hoặc dựa trên sở thích cá nhân (như thê thao, phim ảnh, sách báo hoặc ca nhạc), lĩnh vực quan tâm: kinh doanh, mua bán. Fanpage Fanpage [2] là nơi giao lưu, tương tác giữa doanh nghiệp và khách hàng (gọi là thành viên) hoặc các sự kiện được các doanh nghiệp đưa lên để thành viên tham gia. Mọi thông tin đưa lên sẽ được đăng lên tường của các trang cá nhân của các thành viên. Từ những trang cá nhân, bạn bẻ của họ có thé nhìn thấy các thông tin qua đó nội dung thông tin cần được quảng cáo sẽ được lan truyền.

Newfeed News Feed [14] là nội dung nam trong cột chính giữa trang chủ Facebook của bạn một danh sách cập nhật liên tục những câu chuyện từ mọi người và các trang ban theo đối trên Facebook. News feed bao gồm các status, hình ảnh, video, liên kết, hoạt động ứng dụng và like. Đôi khi bạn sẽ thấy xuất hiện cả quảng cáo của các trang fanpage trên News Feed của mình.2 Cấu trúc mạng xã hội Mạng xã hội là một đồ thị vô hướng trong đó mỗi thành viên trong mạng xã hội là một nút. Mối liên hệ giữa các nút được gọi là các liên kết.

‘US Counternsurgency Policy aabansasyesnieingrgh \ Co-Authorship Graph version 1/2709 Hình 2.1 là một mạng xã hội tiêu biểu: Colin H.Kahl, Bruce Hoffman được gọi là các nút. Cạnh nói giữ 2 nút này được gọi là liên kết 2.3 Ảnh hướng của mạng xã hội Với sự phát triển của CNTT, các trang mạng xã hội gây ảnh hưởng to lớn đến kinh tế, chính trị, văn hóa đặc biệt là lối sống của các cư dan mạng. Bên cạnh những anh hưởng tích cực thì những ảnh hưởng tiêu cực ngày càng thẻ hiện rõ. - Anh hưởng tích cực - _ Chia sẻ thông tin nhanh chóng, cung cấp tri thức cho con người.

- Dễ dàng tìm ra những người có cùng quan điểm, sở thích. - Lan truyền thông tin nhanh chóng, tận dụng sức mạnh cộng đồng. 19 -_ Hộ trợ đắc lực cho việc quảng cáo, tiếp thị sản phẩm. - Anh hưởng tiêu cực - Con người đắm chim trong thé giới ảo, giảm tương tác ngoài đời sống thực tế.

- Không tập trung vào các mục tiêu trong cuộc sống. - Dễ bị kẻ xấu lợi dụng dé phát tán những thông tin không đúng sự thật. -_ Nguy co mắc bệnh tram cảm.4 Các lợi ích của việc khai phá dữ liệu mạng xã hội Từ những mặt tích cực và tiêu cực ta thấy cần có những công cụ hữu hiệu để khai phá, phân tích mạnh xã hội. Tìm ra được nội dung đang được cộng đồng quan tâm, thị hiếu của cộng đồng từ đó có những chiến lược phù hợp với những mục đích khác nhau.

Khi phát hiện một thông tin có nội dung không đúng, sai sự thật ta có thể tìm ra được ai là người đứng sau phát tán nội dung để có biện pháp ngăn chặn kịp thời.5 Các trang mạng xã hội hiện nay Hiện nay có rất nhiều mạng xã hội, bảng 2.1 là danh sách các mạng xã hội được sử dụng nhiều nhất.1: Danh sách mạng xã hội Tên Miên tả Số lượng thành viên (đầu 2014) Facebook Facebook là một trang mạng xã hội. Được ra | Hơn | tỉ mắt vào 2/2004. Người dùng có thể kết bạn, gửi tin nhắn, comment, chia sẻ thông tin, hình ảnh. Twitter Twitter là một trang mạng xã hội và Hơn 400 triệu blog.

Được thành lập 3/2006. Người dùng có thể gửi và đọc các tin nhắn văn bản. 20 LinkedIn LinkedIn là trang mạng xã hội dành cho | Hơn 300 triệu những người chuyên nghiệp. Được ra mắt vào 5/2003 Google Google plus+ là một lớp mạng xã hội bao | Hơn 600 triệu Plus+ gồm nhiều tài sản trực tuyến của google.

Pinterest Printerest là một website chia sẻ ảnh theo | Hơn 300 triệu dạng mạng xã hội. Người dùng được post và phân loại dưới dạng các tắm bảng dán ảnh.6 Email tích cực, tiêu cực Tích cực (positive): là đoạn văn (Email) chứa những từ ngữ mang ý nghĩa tốt, lạc quan, yêu đời nó thường chứa các từ như: wonderful, good, cheerful, sweet. Tiêu cực (negative): là đoạn văn (Email) mang ý nghĩa bi quan, chán nản, giận dir nó thường chứa các từ như bad, poor, terrible, furious, angry.2 Mô hình LDA Mô hình LDA [15] (Latent Dirichlet Allocation) được David Blei đề xuất để tìm ra các chủ dé ẩn cho mội tập ngữ liệu. Mô hình LDA dựa trên ý tưởng: mỗi tài liệu là sự pha trộn của nhiều chủ đề, mỗi chủ dé là một phân bố trên một tập hợp từ vựng, mỗi tài liệu có liên quan đến các chủ đề với xác suất khác nhau và bản chất LDA là một mô hình Baysian ba cấp (cấp tập ngữ liệu, cấp văn ban và cấp từ) trong đó mỗi phần của tập hợp được biểu diễn như một mô hình trộn hữu hạn trên cơ sở tập các xác suất chủ đề.

21 Topic proportions and Topics Documents assignments = # Seeking Life’s Bare (Genetic) Necessities Hình 2.2: Mô hình LDA [10] Dưới đây là các bước dé tạo ra một văn ban từ danh sách chủ đề. Mỗi chủ đề gdm một tập hợp từ. 1) _ Xác định số lượng các từ N trong văn bản. Chọn số lượng chủ dé cho tài liệu (k chủ đề) dựa theo phân bố đa thức 3) Sinh ra các từ cho tài liệu này theo các bước: - _ Chọn một chủ đề dựa theo phân bé đa thức đã được xác định ở trên.

- Sử dụng chủ đề đã được chọn đề tạo ra các từ theo xác suất của từng chủ đề đã xác định ở trên. Ví dụ: Tạo ra tài liệu D với các từ được lấy từ các chủ đề cho trước (chủ đề computer và economic) - Đầu tiên chọn “Asus” thuộc về chủ đề computer đưa vào D. - Đầu tiên chọn “laptop” thuộc về chủ dé computer đưa vào D. - Chọn “brand” thuộc chủ đề economic đưa vào D.

- Chọn “market” thuộc chủ để economic đưa vào D. Sau các bước trên ta sẽ tạo ra một tài liệu D bao gồm “Asus is a good laptop brand in the market”. 2 Trong bài toán tìm chủ đề ẩn của các tài liệu: chúng ta làm ngược lại các bước phía trên để suy ra chủ dé từ các tài liệu.3 Giải thuật lấy mẫu Gibbs cho mô hình LDA. Để có thể tìm ra các chủ đề từ các văn bản, chúng ta dùng suy diễn hậu nghiệm.

Nghia là ta cần đảo lại quá trình sinh ra văn bản và học các phân bố hậu nghiệm của các biến tiềm ẩn trên dữ liệu được quan sát. Các đại lượng này được xác định qua biểu thức 2. Giải thuật lầy mẫu Gibbs là một trong những họ của giải thuật Markov Chain Monte Carlo. Giải thuật này tạo ra xích Markov có phân bố hậu nghiệm ôn định.

Điều này có nghĩa là lặp lại nhiều lần trên xích Markov, mẫu từ phân bố nên hội tụ giống với mẫu từ xác suất hậu nghiệm mong muốn. Lấy mẫu Gibbs sẽ dựa vào việc lấy mẫu từ các phân bố điều kiện của các biến của xác suất hậu nghiệm. Giải thuật được thực hiện như sau: Qui ước các tham số cho giải thuật: - Dlà tập ngữ liệu - da một văn bản trong tập ngữ liệu - klà số chủ dé - _ Ww là một từ -_ nạx số các từ được gán vào chủ đềk trong tập tài liệu d - _ nụ là số lần từ w được gan vào chủ đề k - nụ tổng số lần bat kỳ từ nào được gan vào chủ đề k 23 Giải thuật Giải thuật được khởi tạo với các biến đếm ngẫu nhiên và chạy vòng lặp với số bước lặp mong muốn (số bước lặp này thường từ 1000 đến 2000). Trong mỗi bước lặp, lần lượt các chủ đề sẽ được lấy mẫu cho mỗi từ trong tập ngữ liệu.

Kết thúc quá trình lặp, các phân bố tiềm ẩn sẽ được tính dựa vào các biến đếm. Đầu vào: Tập các từ w của tập văn bản d Đầu ra: Các phép gan chủ dé và các biến đêm nư„v;na,x; Me Bắt đầu Khởi tạo ngẫu nhiên tập z và tăng các biến đếm. For mỗi bước lặp do For i = 0 > N-1 do Từ € w[i] Chủ đề € z[i] Na,chi a87=17 nrừ,chủ a6-=17 Nena đè~=1 For k=0 > N-1 do Mw Bw p(z=kl .) =(na,xtax) nyt Bow End chủ dé€14y mẫu từ p(z!.) z[i]€ chủ để na,chủ đ†=1/ Pnrừ,chủ adt=1; Nena đè†=1 End End Kết thúc 2.4 Giải thuật SVM.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận Văn Thạc Sĩ Khoa Học Máy Tính: Lọc Tin Theo Chủ Đề Và Truy Nguồn Trên Mạng Xã Hội là một nghiên cứu chuyên sâu về việc áp dụng các kỹ thuật máy tính để lọc thông tin theo chủ đề và truy xuất nguồn gốc thông tin trên các nền tảng mạng xã hội. Tài liệu này không chỉ cung cấp cái nhìn tổng quan về các phương pháp lọc tin hiện đại mà còn đề xuất các giải pháp cải tiến nhằm nâng cao độ chính xác và hiệu quả trong việc quản lý thông tin trực tuyến. Đây là nguồn tài liệu quý giá cho các nhà nghiên cứu, sinh viên và chuyên gia công nghệ thông tin quan tâm đến lĩnh vực xử lý dữ liệu và phân tích mạng xã hội.

Để mở rộng kiến thức về các phương pháp xử lý dữ liệu và công nghệ thông tin, bạn có thể tham khảo thêm Luận văn thạc sĩ phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm, nghiên cứu này tập trung vào việc phân cụm tài liệu web để tối ưu hóa công cụ tìm kiếm. Ngoài ra, Luận văn thạc sĩ nghiên cứu văn bản tính lý tiết yếu cũng là một tài liệu đáng chú ý, đi sâu vào phân tích và xử lý văn bản tự động. Cuối cùng, Bản toàn văn luận án cung cấp cái nhìn tổng thể về quy trình nghiên cứu và chất lượng tài liệu học thuật. Hãy khám phá để nâng cao hiểu biết của bạn về các chủ đề liên quan!

#Luận văn Thạc sĩ

#mạng xã hội

#khoa học máy tính

#Xử lý dữ liệu

#lọc tin theo chủ đề

#truy nguồn mạng xã hội

Chủ đề

Nghiên cứu học thuật