Chương 1 : Tông quan: Trong chương nay sẽ trình bay các van dé cần nghiên cứu dựa vào các mục tiêu đã đặt ra, nêu lên ý nghĩa khoa học của công trình nghiên cứu, tình hình nghiên cứu trong nước và ngoài nước, phương pháp thực hiện. Cuối cùng là kết quả đạt được. Chương 2: Cơ sở lý thuyết: Là các cơ sở lý thuyết làm nền tản cho việc nghiên cứu của luận văn này. Các khái niêm liên quan đến mạng xã hội, mô hình LDA, giải thuật SVM, Naïve bayes và Weka.
Chương 3: Phân tích và thiết kế hệ thống thực nghiệm: Trong chương này sẽ trình bày các bước dé hiện thực chương trình. Mô tả hệ thống, xử lý chỉ tiết cho từng module. 16 Chương 4: Xây dựng hệ thống thực nghiệm: Trong chương này sẽ trình bày quá trình thử nghiệm phần mềm ở chương 3. Thử nghiệm chương trình trên một bộ dữ liệu thử nghiệm.
Chương 5: Kết luận và hướng phát triển : Trong chương này sẽ đưa ra những kết quả đạt được, những hạn chế cũng như khó khăn trong quá trình làm luận văn và đưa ra hướng phát triển của luận văn. Kết chương: Trong chương | này đã trình bày một số khái niệm mang xã hội, phân tích mang xã hội.Tính khoa học, tính mới, mục tiêu nghiên cứu, phạm vi nghiên cứu của luận văn. Bên cạnh đó trong chương này cũng trình bày về tình hình nghiên cứu trong nước và ngoài nước. Hướng tiếp cận và kết quả đạt được của luận văn.
17 Chương 2: CƠ SỞ LÝ THUYET Trong chương này tôi sẽ trình bày về các cơ sở lý thuyết về mạng xã hội, cấu trúc mạng xã hội. Tôi sẽ lần lượt đi sâu vào các thuật toán được áp dụng trong luận văn này.1Khái niệm mạng xã hội Mạng xã hội [3] là dịch vụ nối kết các thành viên cùng sở thích trên Internet lại với nhau với nhiều mục đích khác nhau không phân biệt không gian và thời gian. Những người tham gia vào mạng xã hội còn được gọi là cư dan mạng. Mạng xã hội có những tính năng như chat, email, phim ảnh, voice chat, chia sẻ file, blog và xã luận.
Các dịch vụ này có nhiều phương cách dé các thành viên tìm kiếm bạn bè, đối tác: dựa theo group (ví dụ như tên trường hoặc tên thành phó), dựa trên thông tin cá nhân (như địa chi e-mail hoặc screen name), hoặc dựa trên sở thích cá nhân (như thê thao, phim ảnh, sách báo hoặc ca nhạc), lĩnh vực quan tâm: kinh doanh, mua bán. Fanpage Fanpage [2] là nơi giao lưu, tương tác giữa doanh nghiệp và khách hàng (gọi là thành viên) hoặc các sự kiện được các doanh nghiệp đưa lên để thành viên tham gia. Mọi thông tin đưa lên sẽ được đăng lên tường của các trang cá nhân của các thành viên. Từ những trang cá nhân, bạn bẻ của họ có thé nhìn thấy các thông tin qua đó nội dung thông tin cần được quảng cáo sẽ được lan truyền.
Newfeed News Feed [14] là nội dung nam trong cột chính giữa trang chủ Facebook của bạn một danh sách cập nhật liên tục những câu chuyện từ mọi người và các trang ban theo đối trên Facebook. News feed bao gồm các status, hình ảnh, video, liên kết, hoạt động ứng dụng và like. Đôi khi bạn sẽ thấy xuất hiện cả quảng cáo của các trang fanpage trên News Feed của mình.2 Cấu trúc mạng xã hội Mạng xã hội là một đồ thị vô hướng trong đó mỗi thành viên trong mạng xã hội là một nút. Mối liên hệ giữa các nút được gọi là các liên kết.
‘US Counternsurgency Policy aabansasyesnieingrgh \ Co-Authorship Graph version 1/2709 Hình 2.1 là một mạng xã hội tiêu biểu: Colin H.Kahl, Bruce Hoffman được gọi là các nút. Cạnh nói giữ 2 nút này được gọi là liên kết 2.3 Ảnh hướng của mạng xã hội Với sự phát triển của CNTT, các trang mạng xã hội gây ảnh hưởng to lớn đến kinh tế, chính trị, văn hóa đặc biệt là lối sống của các cư dan mạng. Bên cạnh những anh hưởng tích cực thì những ảnh hưởng tiêu cực ngày càng thẻ hiện rõ. - Anh hưởng tích cực - _ Chia sẻ thông tin nhanh chóng, cung cấp tri thức cho con người.
- Dễ dàng tìm ra những người có cùng quan điểm, sở thích. - Lan truyền thông tin nhanh chóng, tận dụng sức mạnh cộng đồng. 19 -_ Hộ trợ đắc lực cho việc quảng cáo, tiếp thị sản phẩm. - Anh hưởng tiêu cực - Con người đắm chim trong thé giới ảo, giảm tương tác ngoài đời sống thực tế.
- Không tập trung vào các mục tiêu trong cuộc sống. - Dễ bị kẻ xấu lợi dụng dé phát tán những thông tin không đúng sự thật. -_ Nguy co mắc bệnh tram cảm.4 Các lợi ích của việc khai phá dữ liệu mạng xã hội Từ những mặt tích cực và tiêu cực ta thấy cần có những công cụ hữu hiệu để khai phá, phân tích mạnh xã hội. Tìm ra được nội dung đang được cộng đồng quan tâm, thị hiếu của cộng đồng từ đó có những chiến lược phù hợp với những mục đích khác nhau.
Khi phát hiện một thông tin có nội dung không đúng, sai sự thật ta có thể tìm ra được ai là người đứng sau phát tán nội dung để có biện pháp ngăn chặn kịp thời.5 Các trang mạng xã hội hiện nay Hiện nay có rất nhiều mạng xã hội, bảng 2.1 là danh sách các mạng xã hội được sử dụng nhiều nhất.1: Danh sách mạng xã hội Tên Miên tả Số lượng thành viên (đầu 2014) Facebook Facebook là một trang mạng xã hội. Được ra | Hơn | tỉ mắt vào 2/2004. Người dùng có thể kết bạn, gửi tin nhắn, comment, chia sẻ thông tin, hình ảnh. Twitter Twitter là một trang mạng xã hội và Hơn 400 triệu blog.
Được thành lập 3/2006. Người dùng có thể gửi và đọc các tin nhắn văn bản. 20 LinkedIn LinkedIn là trang mạng xã hội dành cho | Hơn 300 triệu những người chuyên nghiệp. Được ra mắt vào 5/2003 Google Google plus+ là một lớp mạng xã hội bao | Hơn 600 triệu Plus+ gồm nhiều tài sản trực tuyến của google.
Pinterest Printerest là một website chia sẻ ảnh theo | Hơn 300 triệu dạng mạng xã hội. Người dùng được post và phân loại dưới dạng các tắm bảng dán ảnh.6 Email tích cực, tiêu cực Tích cực (positive): là đoạn văn (Email) chứa những từ ngữ mang ý nghĩa tốt, lạc quan, yêu đời nó thường chứa các từ như: wonderful, good, cheerful, sweet. Tiêu cực (negative): là đoạn văn (Email) mang ý nghĩa bi quan, chán nản, giận dir nó thường chứa các từ như bad, poor, terrible, furious, angry.2 Mô hình LDA Mô hình LDA [15] (Latent Dirichlet Allocation) được David Blei đề xuất để tìm ra các chủ dé ẩn cho mội tập ngữ liệu. Mô hình LDA dựa trên ý tưởng: mỗi tài liệu là sự pha trộn của nhiều chủ đề, mỗi chủ dé là một phân bố trên một tập hợp từ vựng, mỗi tài liệu có liên quan đến các chủ đề với xác suất khác nhau và bản chất LDA là một mô hình Baysian ba cấp (cấp tập ngữ liệu, cấp văn ban và cấp từ) trong đó mỗi phần của tập hợp được biểu diễn như một mô hình trộn hữu hạn trên cơ sở tập các xác suất chủ đề.
21 Topic proportions and Topics Documents assignments = # Seeking Life’s Bare (Genetic) Necessities Hình 2.2: Mô hình LDA [10] Dưới đây là các bước dé tạo ra một văn ban từ danh sách chủ đề. Mỗi chủ đề gdm một tập hợp từ. 1) _ Xác định số lượng các từ N trong văn bản. Chọn số lượng chủ dé cho tài liệu (k chủ đề) dựa theo phân bố đa thức 3) Sinh ra các từ cho tài liệu này theo các bước: - _ Chọn một chủ đề dựa theo phân bé đa thức đã được xác định ở trên.
- Sử dụng chủ đề đã được chọn đề tạo ra các từ theo xác suất của từng chủ đề đã xác định ở trên. Ví dụ: Tạo ra tài liệu D với các từ được lấy từ các chủ đề cho trước (chủ đề computer và economic) - Đầu tiên chọn “Asus” thuộc về chủ đề computer đưa vào D. - Đầu tiên chọn “laptop” thuộc về chủ dé computer đưa vào D. - Chọn “brand” thuộc chủ đề economic đưa vào D.
- Chọn “market” thuộc chủ để economic đưa vào D. Sau các bước trên ta sẽ tạo ra một tài liệu D bao gồm “Asus is a good laptop brand in the market”. 2 Trong bài toán tìm chủ đề ẩn của các tài liệu: chúng ta làm ngược lại các bước phía trên để suy ra chủ dé từ các tài liệu.3 Giải thuật lấy mẫu Gibbs cho mô hình LDA. Để có thể tìm ra các chủ đề từ các văn bản, chúng ta dùng suy diễn hậu nghiệm.
Nghia là ta cần đảo lại quá trình sinh ra văn bản và học các phân bố hậu nghiệm của các biến tiềm ẩn trên dữ liệu được quan sát. Các đại lượng này được xác định qua biểu thức 2. Giải thuật lầy mẫu Gibbs là một trong những họ của giải thuật Markov Chain Monte Carlo. Giải thuật này tạo ra xích Markov có phân bố hậu nghiệm ôn định.
Điều này có nghĩa là lặp lại nhiều lần trên xích Markov, mẫu từ phân bố nên hội tụ giống với mẫu từ xác suất hậu nghiệm mong muốn. Lấy mẫu Gibbs sẽ dựa vào việc lấy mẫu từ các phân bố điều kiện của các biến của xác suất hậu nghiệm. Giải thuật được thực hiện như sau: Qui ước các tham số cho giải thuật: - Dlà tập ngữ liệu - da một văn bản trong tập ngữ liệu - klà số chủ dé - _ Ww là một từ -_ nạx số các từ được gán vào chủ đềk trong tập tài liệu d - _ nụ là số lần từ w được gan vào chủ đề k - nụ tổng số lần bat kỳ từ nào được gan vào chủ đề k 23 Giải thuật Giải thuật được khởi tạo với các biến đếm ngẫu nhiên và chạy vòng lặp với số bước lặp mong muốn (số bước lặp này thường từ 1000 đến 2000). Trong mỗi bước lặp, lần lượt các chủ đề sẽ được lấy mẫu cho mỗi từ trong tập ngữ liệu.
Kết thúc quá trình lặp, các phân bố tiềm ẩn sẽ được tính dựa vào các biến đếm. Đầu vào: Tập các từ w của tập văn bản d Đầu ra: Các phép gan chủ dé và các biến đêm nư„v;na,x; Me Bắt đầu Khởi tạo ngẫu nhiên tập z và tăng các biến đếm. For mỗi bước lặp do For i = 0 > N-1 do Từ € w[i] Chủ đề € z[i] Na,chi a87=17 nrừ,chủ a6-=17 Nena đè~=1 For k=0 > N-1 do Mw Bw p(z=kl .) =(na,xtax) nyt Bow End chủ dé€14y mẫu từ p(z!.) z[i]€ chủ để na,chủ đ†=1/ Pnrừ,chủ adt=1; Nena đè†=1 End End Kết thúc 2.4 Giải thuật SVM.