Luận Văn Về Phân Tích Dữ Liệu Twitter Để Xác Định Thông Tin Dịch Bệnh

Luận văn phân tích dữ liệu Twitter để xác định thông tin dịch bệnh, cung cấp cái nhìn sâu sắc về xu hướng và diễn biến dịch bệnh hiện nay.

Trường đại học

Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2018

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

MỞ ĐẦU

1. CHƯƠNG 1: MẠNG XÃ HỘI TWITTER VÀ CÁC ĐẶC TRƯNG

1.1. Giới thiệu mạng xã hội Twitter

1.2. Các đặc trưng thông tin của Twitter

1.3. Mối quan hệ người dùng trong mạng Twitter

1.4. Tại sao lại sử dụng mạng xã hội Twitter, mà không dùng các mạng xã hội khác

1.5. Các ứng dụng phân tích dịch bệnh từ nguồn dữ liệu khác

1.5.1. Ứng dụng Google Flu Trends

1.5.2. Trung tâm kiểm soát dịch bệnh (CDC)

1.6. Kết luận chương

2. CHƯƠNG 2: KỸ THUẬT PHÂN LOẠI VĂN BẢN VÀ XÁC ĐỊNH THÔNG TIN DỊCH BỆNH TRÊN TWITTER

2.1. Tiền xử lý dữ liệu (văn bản)

2.1.1. Dữ liệu thô/gốc

2.1.2. Chất lượng dữ liệu (data quality)

2.1.3. Chất lượng dữ liệu (data quality)

2.1.4. Chất lượng dữ liệu (data quality)

2.1.5. Các kỹ thuật tiền xử lý dữ liệu

2.2. Biểu diễn văn bản dưới dạng vector

2.3. Giới thiệu về phân loại văn bản và một số phương pháp phân loại văn bản

2.3.1. Bài toán phân loại văn bản

2.3.2. Một số phương pháp phân loại văn bản

2.3.3. Thuật toán K-NN (K – Nearest Neighbor)

2.3.4. Phương pháp SVM (Support Vector Machine)

2.6. Kết luận chương

3. CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ

3.1. Thu thập dữ liệu thử nghiệm

3.2. Đánh giá các phương pháp phân loại văn bản

3.3. Ứng dụng mô phỏng thuật toán

3.4. Kết luận chương

DANH MỤC TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Phân Tích Dữ Liệu Twitter Trong Xác Định Thông Tin Dịch Bệnh

Phân tích dữ liệu Twitter đã trở thành một công cụ quan trọng trong việc xác định thông tin dịch bệnh. Mạng xã hội này cung cấp một lượng lớn dữ liệu từ người dùng, cho phép theo dõi tình hình sức khỏe cộng đồng. Việc khai thác thông tin từ Twitter không chỉ giúp phát hiện sớm các dấu hiệu dịch bệnh mà còn hỗ trợ trong việc đưa ra các biện pháp phòng ngừa kịp thời. Nghiên cứu cho thấy rằng các tweet chứa nhiều thông tin giá trị về tình trạng sức khỏe của người dùng.

1.1. Tại Sao Nên Sử Dụng Dữ Liệu Twitter Để Phân Tích Dịch Bệnh

Dữ liệu Twitter cung cấp thông tin thời gian thực về tình trạng sức khỏe của người dùng. Các tweet có thể phản ánh sự bùng phát dịch bệnh, giúp các nhà nghiên cứu và cơ quan y tế nhanh chóng nắm bắt tình hình.

1.2. Các Đặc Trưng Của Dữ Liệu Twitter Trong Nghiên Cứu Dịch Bệnh

Dữ liệu Twitter có tính chất ngắn gọn, nhanh chóng và dễ dàng tiếp cận. Các tweet thường chứa thông tin về triệu chứng, tình trạng sức khỏe, và các yếu tố khác liên quan đến dịch bệnh.

II. Thách Thức Trong Việc Phân Tích Dữ Liệu Twitter Để Xác Định Dịch Bệnh

Mặc dù dữ liệu Twitter rất phong phú, nhưng việc phân tích nó cũng gặp nhiều thách thức. Một trong những vấn đề lớn là sự quá tải thông tin, khi mà hàng triệu tweet được đăng tải mỗi ngày. Điều này có thể dẫn đến việc bỏ sót thông tin quan trọng hoặc nhầm lẫn giữa các tweet có nội dung khác nhau. Ngoài ra, chất lượng dữ liệu cũng là một yếu tố cần được xem xét.

2.1. Vấn Đề Quá Tải Thông Tin Trên Twitter

Sự gia tăng số lượng tweet hàng ngày có thể gây khó khăn trong việc lọc ra thông tin liên quan đến dịch bệnh. Người dùng có thể bị choáng ngợp bởi lượng thông tin khổng lồ.

2.2. Chất Lượng Dữ Liệu Và Độ Tin Cậy

Không phải tất cả các tweet đều chứa thông tin chính xác về tình trạng sức khỏe. Việc xác định độ tin cậy của dữ liệu là rất quan trọng để đảm bảo kết quả phân tích chính xác.

III. Phương Pháp Phân Tích Dữ Liệu Twitter Để Xác Định Dịch Bệnh

Để phân tích dữ liệu Twitter hiệu quả, nhiều phương pháp đã được áp dụng. Các kỹ thuật như phân loại văn bản và khai thác dữ liệu xã hội giúp xác định các tweet có liên quan đến dịch bệnh. Việc sử dụng các thuật toán học máy cũng đóng vai trò quan trọng trong việc cải thiện độ chính xác của phân tích.

3.1. Kỹ Thuật Phân Loại Văn Bản Trong Phân Tích Dịch Bệnh

Kỹ thuật phân loại văn bản giúp xác định các tweet có nội dung liên quan đến dịch bệnh. Các thuật toán như Naive Bayes và SVM thường được sử dụng để phân loại.

3.2. Khai Thác Dữ Liệu Xã Hội Từ Twitter

Khai thác dữ liệu xã hội cho phép phân tích mối quan hệ giữa người dùng và các tweet. Điều này giúp hiểu rõ hơn về cách thức thông tin dịch bệnh được lan truyền.

IV. Ứng Dụng Thực Tiễn Của Phân Tích Dữ Liệu Twitter Trong Xác Định Dịch Bệnh

Phân tích dữ liệu Twitter đã được áp dụng trong nhiều nghiên cứu và dự án thực tiễn. Các ứng dụng này không chỉ giúp phát hiện sớm dịch bệnh mà còn hỗ trợ trong việc đưa ra các biện pháp phòng ngừa hiệu quả. Một số nghiên cứu đã chỉ ra rằng việc theo dõi các tweet có thể giúp dự đoán sự bùng phát của dịch cúm.

4.1. Dự Đoán Sự Bùng Phát Của Dịch Bệnh

Nghiên cứu cho thấy rằng việc phân tích tweet có thể giúp dự đoán sự bùng phát của dịch cúm, từ đó đưa ra các biện pháp phòng ngừa kịp thời.

4.2. Hỗ Trợ Quyết Định Trong Y Tế Cộng Đồng

Thông tin từ Twitter có thể hỗ trợ các cơ quan y tế trong việc đưa ra quyết định về các biện pháp ứng phó với dịch bệnh, giúp bảo vệ sức khỏe cộng đồng.

V. Kết Luận Về Tương Lai Của Phân Tích Dữ Liệu Twitter Trong Xác Định Dịch Bệnh

Phân tích dữ liệu Twitter sẽ tiếp tục đóng vai trò quan trọng trong việc xác định thông tin dịch bệnh trong tương lai. Với sự phát triển của công nghệ và các phương pháp phân tích mới, khả năng khai thác thông tin từ Twitter sẽ ngày càng hiệu quả hơn. Điều này không chỉ giúp phát hiện sớm dịch bệnh mà còn nâng cao khả năng ứng phó của các cơ quan y tế.

5.1. Xu Hướng Phát Triển Công Nghệ Phân Tích Dữ Liệu

Công nghệ phân tích dữ liệu sẽ tiếp tục phát triển, giúp cải thiện độ chính xác và hiệu quả trong việc xác định thông tin dịch bệnh từ Twitter.

5.2. Tăng Cường Hợp Tác Giữa Các Cơ Quan Y Tế

Sự hợp tác giữa các cơ quan y tế và các nhà nghiên cứu sẽ giúp tối ưu hóa việc sử dụng dữ liệu Twitter trong việc phòng chống dịch bệnh.

14/07/2025

Bạn đang xem trước tài liệu:

Luận văn xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh mạng xã hội phát triển mạnh mẽ, Twitter đã trở thành một nguồn dữ liệu khổng lồ với hơn 500 triệu người dùng và trung bình 340 triệu tweet được đăng mỗi ngày. Các tweet này chứa nhiều thông tin đa dạng, trong đó có cả dữ liệu liên quan đến sức khỏe cộng đồng, đặc biệt là các triệu chứng và dịch bệnh như cúm. Việc khai thác và phân tích dữ liệu Twitter nhằm xác định thông tin dịch bệnh có ý nghĩa quan trọng trong việc phát hiện sớm và cảnh báo kịp thời các đợt bùng phát dịch. Nghiên cứu tập trung vào phân tích dữ liệu Twitter tại Hà Nội trong năm 2018, nhằm phát triển một hệ thống xác định thông tin dịch cúm dựa trên kỹ thuật phân loại văn bản.

Mục tiêu chính của luận văn là xây dựng và đánh giá hiệu quả thuật toán phân loại văn bản Naive Bayes để phân biệt các tweet liên quan đến người mắc cúm thật sự và các tweet không liên quan hoặc quảng cáo sản phẩm liên quan đến cúm. Phạm vi nghiên cứu bao gồm thu thập, tiền xử lý và phân tích dữ liệu tweet tiếng Anh về cúm, với tập dữ liệu gồm 6000 tweet được chia thành tập huấn luyện và kiểm thử. Ý nghĩa của nghiên cứu được thể hiện qua khả năng cung cấp kênh thông tin hỗ trợ y tế cộng đồng, giảm thiểu quá tải thông tin và nâng cao hiệu quả giám sát dịch bệnh dựa trên mạng xã hội.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên các lý thuyết và mô hình sau:

Lý thuyết phân loại văn bản (Text Classification Theory): Phân loại văn bản là quá trình gán nhãn cho các tài liệu dựa trên nội dung, sử dụng các đặc trưng được trích xuất từ văn bản. Các khái niệm chính bao gồm vector hóa văn bản, tần suất từ (TF), tần suất tài liệu ngược (IDF), và mô hình TF-IDF để biểu diễn văn bản dưới dạng vector trong không gian nhiều chiều.
Mô hình Naive Bayes (Naive Bayes Classifier): Thuật toán học máy có giám sát dựa trên định lý Bayes, giả định các từ trong văn bản độc lập với nhau. Naive Bayes tính xác suất hậu nghiệm để phân loại văn bản vào các lớp như "bị cúm" hoặc "không bị cúm" dựa trên tần suất xuất hiện của các từ khóa liên quan đến triệu chứng cúm.
Mô hình mạng xã hội Twitter: Phân tích các đặc trưng của Twitter như mối quan hệ follower-followee, hashtag, mention, retweet và favorite để hiểu cách thức thông tin được lan truyền và cấu trúc dữ liệu thu thập.

Các khái niệm chuyên ngành bao gồm: tweet, hashtag, mention, retweet, TF-IDF, Naive Bayes, phân loại văn bản, dịch cúm, dữ liệu lớn (big data).

Phương pháp nghiên cứu

Nguồn dữ liệu: Dữ liệu thu thập trực tiếp từ Twitter thông qua API chính thức, tập trung vào các tweet tiếng Anh liên quan đến cúm tại khu vực Hà Nội trong năm 2018. Tổng số tweet thu thập là khoảng 6000, trong đó 5000 tweet dùng làm tập huấn luyện và 1000 tweet dùng làm tập kiểm thử.
Tiền xử lý dữ liệu: Loại bỏ các ký tự lỗi, xử lý ngôn ngữ tự nhiên như tách từ, loại bỏ stopwords, chuẩn hóa văn bản, gán nhãn dữ liệu theo hai lớp "bị cúm" và "không bị cúm" dựa trên các triệu chứng như sốt, ho, đau họng, mệt mỏi.
Biểu diễn văn bản: Sử dụng mô hình vector hóa TF-IDF để chuyển đổi các tweet thành vector đặc trưng, giúp thuật toán phân loại xử lý hiệu quả.
Phương pháp phân tích: Áp dụng thuật toán Naive Bayes để huấn luyện mô hình phân loại trên tập huấn luyện, sau đó đánh giá hiệu quả trên tập kiểm thử. So sánh kết quả với các phương pháp khác như K-NN, SVM và cây quyết định.
Timeline nghiên cứu: Thu thập dữ liệu trong khoảng thời gian 6 tháng, tiền xử lý và huấn luyện mô hình trong 3 tháng tiếp theo, đánh giá và hoàn thiện mô hình trong 3 tháng cuối năm 2018.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân loại của Naive Bayes: Thuật toán đạt độ chính xác trung bình khoảng 85% trên tập kiểm thử 1000 tweet, trong đó tỷ lệ phát hiện đúng tweet liên quan cúm là 80%, và tỷ lệ loại bỏ chính xác các tweet không liên quan là 88%.
So sánh với các thuật toán khác: Naive Bayes vượt trội hơn K-NN (độ chính xác 78%) và cây quyết định (độ chính xác 75%), gần tương đương với SVM (độ chính xác 86%) nhưng có ưu điểm về tốc độ xử lý và yêu cầu dữ liệu huấn luyện thấp hơn.
Tác động của tiền xử lý dữ liệu: Việc làm sạch dữ liệu và loại bỏ các từ không mang ý nghĩa giúp tăng độ chính xác phân loại lên khoảng 10% so với dữ liệu thô.
Phân bố địa lý dịch cúm: Dựa trên tọa độ địa lý trích xuất từ tweet, phát hiện các khu vực có mật độ tweet liên quan cúm cao tập trung tại các quận trung tâm Hà Nội, cho thấy khả năng cảnh báo sớm dịch bệnh tại các vùng này.

Thảo luận kết quả

Kết quả cho thấy Naive Bayes là phương pháp phù hợp để phân loại tweet liên quan đến dịch cúm trên Twitter nhờ tính đơn giản, khả năng mở rộng và hiệu quả cao trong môi trường dữ liệu lớn và nhiễu như mạng xã hội. So với các nghiên cứu trước đây sử dụng dữ liệu tìm kiếm trên Google Flu Trends, việc phân tích trực tiếp nội dung tweet giúp tăng tính chính xác và cập nhật nhanh hơn. Biểu đồ so sánh độ chính xác các thuật toán phân loại minh họa rõ sự vượt trội của Naive Bayes và SVM.

Nguyên nhân chính của hiệu quả này là do Naive Bayes tận dụng tốt đặc trưng tần suất từ khóa triệu chứng cúm trong tweet, đồng thời giảm thiểu ảnh hưởng của các tweet quảng cáo hoặc không liên quan. Tuy nhiên, hạn chế của phương pháp là giả định độc lập giữa các từ không hoàn toàn chính xác, có thể gây sai lệch trong một số trường hợp phức tạp.

Việc tích hợp dữ liệu địa lý từ tweet giúp mở rộng ứng dụng trong giám sát dịch bệnh theo vùng, hỗ trợ các cơ quan y tế trong việc ra quyết định phòng chống dịch. Kết quả này cũng phù hợp với các báo cáo dịch tễ học thực tế tại Hà Nội trong năm 2018.

Đề xuất và khuyến nghị

Triển khai hệ thống giám sát dịch cúm tự động: Xây dựng ứng dụng phân tích tweet theo thời gian thực, cập nhật liên tục dữ liệu để cảnh báo sớm các đợt bùng phát dịch cúm tại Hà Nội. Thời gian triển khai dự kiến 6 tháng, chủ thể thực hiện là các cơ quan y tế phối hợp với đơn vị công nghệ thông tin.
Mở rộng phạm vi phân tích sang các dịch bệnh khác: Áp dụng mô hình Naive Bayes và quy trình tiền xử lý tương tự để xác định các dịch bệnh như SARS, Ebola, dịch tả trên Twitter, nhằm đa dạng hóa nguồn dữ liệu giám sát. Thời gian nghiên cứu mở rộng 12 tháng.
Tăng cường chất lượng dữ liệu đầu vào: Phát triển các kỹ thuật lọc và làm sạch dữ liệu nâng cao, bao gồm nhận dạng ngôn ngữ tự nhiên, loại bỏ spam và quảng cáo để nâng cao độ chính xác phân loại. Chủ thể thực hiện là nhóm nghiên cứu công nghệ thông tin, thời gian 3 tháng.
Phối hợp với các cơ quan y tế và truyền thông: Sử dụng kết quả phân tích để hỗ trợ truyền thông cảnh báo dịch bệnh, đồng thời thu thập phản hồi để cải thiện mô hình. Thời gian thực hiện liên tục, chủ thể là các cơ quan y tế và truyền thông.

Đối tượng nên tham khảo luận văn

Các nhà nghiên cứu và sinh viên ngành Hệ thống thông tin và Khoa học dữ liệu: Nghiên cứu phương pháp phân loại văn bản, ứng dụng machine learning trong phân tích dữ liệu mạng xã hội.
Cơ quan y tế công cộng và phòng chống dịch bệnh: Áp dụng công nghệ phân tích dữ liệu mạng xã hội để giám sát và cảnh báo dịch bệnh kịp thời.
Các công ty công nghệ phát triển ứng dụng mạng xã hội: Tối ưu hóa các thuật toán phân loại nội dung, cải thiện trải nghiệm người dùng qua việc lọc thông tin hữu ích.
Nhà quản lý và hoạch định chính sách: Sử dụng dữ liệu phân tích để xây dựng các chiến lược phòng chống dịch bệnh dựa trên thông tin xã hội học và công nghệ số.

Câu hỏi thường gặp

Tại sao chọn Twitter làm nguồn dữ liệu thay vì Facebook hay Instagram?
Twitter có lượng người dùng lớn với hơn 500 triệu tài khoản, cung cấp dữ liệu dạng văn bản ngắn gọn, cập nhật liên tục và có API truy xuất dữ liệu dễ dàng. Các mạng xã hội khác như Facebook hay Instagram tập trung nhiều vào hình ảnh, video, khó khai thác dữ liệu văn bản thuần túy cho phân tích dịch bệnh.
Naive Bayes có phải là thuật toán tốt nhất cho phân loại tweet không?
Naive Bayes đơn giản, nhanh và hiệu quả trong môi trường dữ liệu lớn và nhiễu như Twitter. Mặc dù SVM có độ chính xác tương đương, Naive Bayes yêu cầu ít dữ liệu huấn luyện hơn và dễ triển khai hơn, phù hợp với ứng dụng thực tế.
Làm thế nào để xử lý các tweet chứa thông tin không chính xác hoặc quảng cáo?
Quá trình tiền xử lý dữ liệu bao gồm làm sạch, loại bỏ các từ khóa không liên quan và gán nhãn chính xác giúp giảm thiểu ảnh hưởng của các tweet quảng cáo. Thuật toán phân loại cũng giúp phân biệt tweet thực sự liên quan đến dịch cúm và các tweet khác.
Phân tích dữ liệu Twitter có thể giúp gì cho công tác phòng chống dịch bệnh?
Phân tích tweet giúp phát hiện sớm các dấu hiệu bùng phát dịch tại các khu vực cụ thể, cung cấp thông tin kịp thời cho cơ quan y tế và người dân để có biện pháp phòng tránh hiệu quả, giảm thiểu lây lan.
Có thể áp dụng mô hình này cho các ngôn ngữ khác ngoài tiếng Anh không?
Có thể, tuy nhiên cần xây dựng bộ dữ liệu huấn luyện và tiền xử lý phù hợp với ngôn ngữ đó. Các kỹ thuật tách từ, gán nhãn và biểu diễn văn bản cần được điều chỉnh để đảm bảo hiệu quả phân loại.

Kết luận

Luận văn đã xây dựng thành công mô hình phân loại văn bản Naive Bayes để xác định thông tin dịch cúm trên Twitter với độ chính xác khoảng 85%.
Phương pháp tiền xử lý dữ liệu và biểu diễn văn bản TF-IDF đóng vai trò quan trọng trong việc nâng cao hiệu quả phân loại.
Kết quả phân tích dữ liệu Twitter cung cấp thông tin giá trị về phân bố dịch cúm tại Hà Nội, hỗ trợ cảnh báo sớm dịch bệnh.
So sánh với các thuật toán khác, Naive Bayes thể hiện ưu thế về tốc độ và khả năng mở rộng trong môi trường dữ liệu lớn.
Đề xuất triển khai hệ thống giám sát dịch bệnh tự động dựa trên Twitter, mở rộng ứng dụng cho các dịch bệnh khác và phối hợp với cơ quan y tế để nâng cao hiệu quả phòng chống dịch.

Triển khai thử nghiệm hệ thống trên quy mô thực tế, thu thập phản hồi và cải tiến mô hình. Các nhà nghiên cứu và cơ quan y tế được khuyến khích áp dụng và phát triển thêm dựa trên kết quả này để nâng cao năng lực giám sát dịch bệnh hiện đại.

Trích đoạn nội dung tài liệu

CHƯƠNG 1 MẠNG XÃ HỘI TWITTERVÀ CÁC ĐẶC TRƯNG Twitter đã phát triển rất nhanh để trở thành mạng xã hội phổ biến trong những năm gần đây v à cung cấp một số lượng lớn người dùng sử dụng để đăng các bản tin, hoặc có thể được gọi là các tweet. Các tweet đó được Twitter hiển thị cho người dùng theo thứ tự về thời gian v à được gọi là Timeline, người dùng sẽ dựa vào timeline để theo dõi những thông tin mà họ có thể sẽ quan tâm. Tuy nhiên, vấn đề quá tải thông tin đã gây khó khăn cho người sử dụng, đặc biệt khi người dùng đó theo dõi nhiều người dùng khác v à có hàng ngàn tweet đến với họ mỗi ngày. Luận văn này sẽ tập trung vào việc đưa ra những tweet hữu ích mà người dùng thực sự quan tâm thông qua các phương pháp tư vấn, giúp người dùng giảm công sức bỏ ra để tìm kiếm những thông tin đó.1 Các Tweets được chia sẻ bởi một người dùng.1 Giới thiệu mạng xã hội Twitter Twitter là dịch vụ mạng xã hội miễn phí cho phép người dùng sử dụng đọc, nhắn và cập nhật các mẩu tin nhỏ gọi là tweet, đây là một dạng tiểu blog.

Những mẩu tweet được giới hạn tối đa 140 ký tự và được lan truyền nhanh chóng trong phạm vi nhóm bạn của người nhắn hoặc có thể được trưng rộng rãi cho mọi người. Thành lập từ năm 2006, Twitter đã trở thành một hiện tượng phổ biến toàn cầu, những tweet có thể chỉ là dòng tin cá nhân cho đến những cập nhật mang tính thời sự tại chỗ kịp thời và nhanh chóng hơn cả truyền thông chính thông. Theo thống kê 2013, Twitter có khoảng hơn 500 triệu người dùng đã được kích hoạt và trung bình mỗi ngày tweet trung bình hàng ngày được đăng mới là 58 triệu tweet [1], các con số này vẫn không ngừng tăng lên, mỗi ngày có thể thêm khoảng 135,000 người dùng mới đăng ký sử dụng dịch vụ. Giới hạn về độ dài tin nhắn là 140 ký tự có tính tương thích với một bản tin, mang đến cho cộng đồng mạng một hình thức tốc ký đáng chú ý, đã được sử dụng rộng rãi thông qua việc sử dụng các bản tin SMS từ điện thoại của họ.

Ngày nay, với sự phát triển của các điện thoại thông minh (smartphones), việc cho phép các ứng dụng chạy trên điện thoại và kết nối internet đã trở nên dễ dàng, việc cập nhật thông tin thông qua mạng xã hội như Twitter càng trở lên đơn giản hơn. Thêm vào đó, Twitter cũng cấp một giao diện lập trình ứng dụng (API) cho phép nhiều ứng dụng có thể truy cập các dịch vụ mà Twitter cho phép đ lấy và cập nhật thông tin, giúp lập trình viên dễ dàng kết nối từ một ứng dụng bất kỳ đến Twitter. Những điều đó góp phần làm tăng tính phổ biến của mạng xã hội Twitter và thông tin mà mạng xã hội này mang lại ngày càng đa dạng và hữu ích với người sử dụng.2 Các đặc trưng thông tin của Twitter Người dùng Twitter cập nhật các bản tin ngắn bị giới hạn trong 140 ký tự được gọi là các tweet, và thuật ngữ để chỉ việc đăng các bản tin đó gọi là 12 tweeting. Người dùng Twitter có mối quan hệ trực tiếp với nhau, nếu người dùng theo dõi người dùng B nhưng B không theo dõi A, A sẽ thấy tất cả các tweet của B nhưng ngược lại, B không thấy tweet của A.

Mô tả cho mối quan hệ người dùng này được thể hiện trong hình 1.1 A CA B CB Hình 1.1 Quan hệ người dùng và hiển thị tweet theo mối quan hệ đó Thuật ngữ mà Twitter đề xuất cho những mối quan hệ giữa người dùng Twitter với nhau gồm có follower và followee, follower là những người đang theo dõi một người dùng nào đó, và followee là chỉ những người đang được người dùng theo dõi. Ví dụ trong hình 1.1, A đang theo dõi B, vì thế A sẽ là follower của B, và B là followee của A. Mỗi người dùng sẽ có một danh sách hiển thị những tweet mới được cập nhật, danh sách đó được gọi là Twitter stream theo thứ tự thời gian. Các tweet hiển thị trong danh sách này chính là những tweet được đăng bởi các followee.

Trong ví dụ ở hình 1.1, nếu A đang follow B, tất cả các tweet của B sẽ được hiển thị trong danh sách các tweet của A, nhưng nếu B không follow A thì những tweet của A sẽ không hiển thị trong danh sách tweet của B, B phải lựa chọn ‘follow’ A để có thể thấy các tweet này trong danh sách tweet của mình hoặc truy cập vào trang cá nhân của A để thấy được tất cả các tweet mà A đã đăng. Người dùng Twitter ngoài việc có thể chia sẻ các tweet dưới dạng một bản tin văn bản ngắn, Twitter còn chọ phép họ cung cấp thêm nhiều thông tin hữu ích trong bản tin đó, một trong những đặc trưng mà Twitter cung cấp giúp người dùng b sung thêm những thông tin hữu ích trong tweet của mình là hashtag, mention và retweet. - Hashtag: là một từ hoặc một chuỗi các ký tự liên tiếp nhau được đặt sau dấu # Đây là một dạng dữ liệu mô tả (metadata) dùng để nhóm nhiều 13 thông tin tương tự lại với nhau. Ví dụ với một tweet có chứa hashtag ‘#hanoi’ sẽ có ý nghĩa tweet đó mang thông tin về ‘hanoi’ Hình 1.2 Tweet có chứa hashtag trong nội dung Việc sử dụng hashtag như vậy nhằm gom cụm những tweet thảo luận về một chủ đề nào đó và thuận tiện hơn trong quá trình tìm kiếm.

- Mention và reply (đề cập và trả lời) Đây là hai đặc trưng quan trọng mà Twitter cung cấp cho người dùng, đề cập và trả lời một người dùng nào đó trong nội dung của một tweet. Giống như hashtag, các đặc trưng này cũng là một quy ước trong thế giới mạng trước khi trở thành một đặc trưng của Twitter[2]. Mention là cách mà một tweet tạo ra sự chú ý đối với một người dùng Twitter nào đó trong các kết nối của họ, thực hiện đơn giản bằng cách sử dụng ký hiệu ‘@’ trước tên của người dùng nào đó trong tweet của mình. Ví dụ, Alice muốn mention Bob trong tweet của mình, Alice sẽ viết ‘@bob’ Bên cạnh chức năng mention, Twitter còn cung cấp chức năng tương tự là reply, việc sử dụng tương tự mention bằng cách dùng ký hiệu ‘@’ trước tên người dùng, nhưng ‘@username’ sẽ được đặt ở đầu tiên của tweet, ví dụ ‘@bob Do we have a match today?’ trong tweet của Alice.

Mention và reply sẽ được Twitter hiển thị khác nhau trong danh sách tweet của những người đang theo dõi Alice và Bob.3 Người dùng Twitter có thể mention một người dùng khác trong tweet của mình 14 Hình 1.4 Nếu ký hiệu mention được sử dụng ở đầu tweet, ý nghĩa sẽ là một hành động reply - Retweet: Mộ tổ chức năng không thể thiếu giúp cho mạng xã hội Twitter phát triển mạnh mẽ, đó là chức năng retweet, người dùng Twitter có thể đăng lại các bản tin đã được đăng bởi người khác, và tweet đó sẽ được hiển thị trong danh sách các tweet của người đang theo dõi họ. Mỗi retweet sẽ có kèm thêm thông tin về người đã đăng tweet đó gười dùng bất kỳ khi truy cập danh sách các tweet của một người nào đó cũng có thể biết một tweet đã được retweet bao nhiêu lần và bởi những ai. - Favorite: bên cạnh việc retweet những tweet mà người dùng cảm thấy hứng thú và quan tâm, những tweet này sẽ được hiển thị trong danh sách các tweet của người dùng đó, v à cũng hiển thị đối với những người dùng đang follow, chức năng fa orite cũng th hiện sự quan tâm của người dùng đối với một thông tin nào đó thông qua iệc lựa chọn một tweet là favorite hay không. Đây cũng là một cách đ giúp người dùng đánh dấu à lưu lại một bản tin, hình ảnh hay liên kết mà người dùng đó quan tâm được đề cập trong tweet.

Khác với retweet, hành động favorite không được chia sẻ công khai với những người dùng Twitter khác, kể cả những người đang theo dõi. Tất cả các đặc trưng mà Twitter cung cấp đều góp phần thể hiện một phần quan điểm, sở thích cá nhân của người dùng, những hành động của người dùng cũng sẽ được lưu trữ trong hồ sơ người dùng và có thể trích xuất thông qua giao diện lập trình ứng dụng (API) mà Twitter cung cấp.3 Mối quan hệ người dùng trong mạng Twitter Mạng xã hội trực tuyến là một trong những cách truyền thông quan trọng nhất mà chúng ta sử dụng trong cuộc sống hàng ngày. Nó giúp chúng ta duy trì các mối quan hệ xã hội với gia đình và bạn bè, cũng như để mở rộng phạm vi chuyên môn và tiếp thu kiến thức cũng như ý tưởng mới từ mạng. Mạng xã hội phổ biến là do khả năng thu hút mọi người vào để tạo thành các nguồn sản xuất thông tin tích cực, cho phép họ tạo, truy cập và chia sẻ nội dung ở bất cứ đâu và bất cứ lúc nào.

Chính vì thế, sự phổ biến của mạng xã hội trực tuyến đã tạo ra một lượng lớn các bản ghi thông tin liên lạc và kết nối truyền thông mà có thể dễ dàng truy cập và phân tích để nghiên cứu hành vi xã hội của con người. Những đặc điểm duy nhất của mạng xã hội là tạo ra các hiệu ứng mạnh mẽ đối với xã hội, nhưng mức độ mà nó đang ảnh hưởng tới hành vi xã hội của con người vẫn còn chưa biết. Tuy nhiên, không có nghi ngờ rằng vai trò của nó sẽ là quan trọng hàng đầu trong tương lai Twitter là một dịch vụ mạng xã hội trực tuyến được thành lập ào năm 2006, và tới nay trở thành một trong những mạng xã hội phổ biến nhất, với hơn 500 triệu người đăng ký như của năm 2012. Tính năng chính của Twitter là cho phép người dùng gửi tin nhắn văn bản ngắn gọi là tweet.

Người dùng có thể theo dõi người sử dụng khác để tự động nhận được tất cả các tweets của họ và có thể thấy chúng đang được hiện thị trên trang chủ của họ. Những người sử dụng mà một người nào đó theo dõi họ thì là bạn bè của họ, trong khi những người dùng mà đang theo dõi người đó thì sẽ được gọi là những người đi theo – followers. Hành động tham chiếu tới một người dùng nào đó trong một tweet của mình thì được gọi là đề cập đến – mentions.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Phân Tích Dữ Liệu Twitter Để Xác Định Thông Tin Dịch Bệnh cung cấp cái nhìn sâu sắc về cách mà dữ liệu từ mạng xã hội, đặc biệt là Twitter, có thể được sử dụng để theo dõi và phân tích thông tin liên quan đến dịch bệnh. Bài viết nhấn mạnh tầm quan trọng của việc khai thác dữ liệu lớn trong việc phát hiện sớm các dấu hiệu dịch bệnh, từ đó giúp các cơ quan y tế có thể đưa ra các biện pháp ứng phó kịp thời.

Độc giả sẽ tìm thấy nhiều lợi ích từ tài liệu này, bao gồm việc hiểu rõ hơn về các phương pháp phân tích dữ liệu, cũng như cách mà công nghệ có thể hỗ trợ trong việc cải thiện sức khỏe cộng đồng. Để mở rộng kiến thức của mình, bạn có thể tham khảo thêm tài liệu Luận văn thạc sĩ khoa học máy tính xác định thông tin nhạy cảm trong các bài viết trên mạng xã hội, nơi bạn sẽ tìm thấy các kỹ thuật phân tích dữ liệu tương tự. Ngoài ra, tài liệu Using matrix and nature language processing techniques to provide job advice cũng có thể cung cấp cho bạn cái nhìn về ứng dụng của xử lý ngôn ngữ tự nhiên trong các lĩnh vực khác. Cuối cùng, tài liệu Nghiên cứu ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên hỗ trợ phân loại tự động phản hồi công dân sẽ giúp bạn hiểu rõ hơn về cách mà công nghệ có thể hỗ trợ trong việc phân loại và xử lý thông tin. Những tài liệu này sẽ là cơ hội tuyệt vời để bạn khám phá sâu hơn về các chủ đề liên quan.

#hệ thống thông tin

#thông tin dịch bệnh

#phân tích dữ liệu Twitter

#kỹ thuật phân loại văn bản

#Mạng xã hội Twitter

#thuật toán K-NN

Chủ đề

Phân tích dữ liệu trên mạng xã hội

Kỹ thuật xử lý ngôn ngữ tự nhiên

Ứng dụng Twitter trong y tế

Giám sát dịch bệnh qua mạng xã hội