Luận Văn Thạc Sĩ: Phân Tích Dữ Liệu Twitter Trong Xác Định Thông Tin Dịch Bệnh

Luận văn thạc sĩ phân tích dữ liệu Twitter để xác định thông tin dịch bệnh, cung cấp cái nhìn sâu sắc về xu hướng và diễn biến dịch bệnh.

Trường đại học

Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2018

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

MỞ ĐẦU

1. CHƯƠNG 1: MẠNG XÃ HỘI TWITTER VÀ CÁC ĐẶC TRƯNG

1.1. Giới thiệu mạng xã hội Twitter

1.2. Các đặc trưng thông tin của Twitter

1.3. Mối quan hệ người dùng trong mạng Twitter

1.4. Tại sao lại sử dụng mạng xã hội Twitter, mà không dùng các mạng xã hội khác

1.5. Các ứng dụng phân tích dịch bệnh từ nguồn dữ liệu khác

1.5.1. Ứng dụng Google Flu Trends

1.5.2. Trung tâm kiểm soát dịch bệnh (CDC)

1.6. Kết luận chương

2. CHƯƠNG 2: KỸ THUẬT PHÂN LOẠI VĂN BẢN VÀ XÁC ĐỊNH THÔNG TIN DỊCH BỆNH TRÊN TWITTER

2.1. Tiền xử lý dữ liệu (văn bản)

2.1.1. Dữ liệu thô/gốc

2.1.2. Chất lượng dữ liệu (data quality)

2.1.3. Chất lượng dữ liệu (data quality)

2.1.4. Chất lượng dữ liệu (data quality)

2.1.5. Các kỹ thuật tiền xử lý dữ liệu

2.2. Biểu diễn văn bản dưới dạng vector

2.3. Giới thiệu về phân loại văn bản và một số phương pháp phân loại văn bản

2.3.1. Bài toán phân loại văn bản

2.3.2. Một số phương pháp phân loại văn bản

2.3.3. Thuật toán K-NN (K – Nearest Neighbor)

2.3.4. Phương pháp SVM (Support Vector Machine)

2.6. Kết luận chương

3. CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ

3.1. Thu thập dữ liệu thử nghiệm

3.2. Đánh giá các phương pháp phân loại văn bản

3.3. Ứng dụng mô phỏng thuật toán

3.4. Kết luận chương

DANH MỤC TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về mạng xã hội Twitter

Mạng xã hội Twitter đã trở thành một trong những nền tảng phổ biến nhất cho việc chia sẻ thông tin nhanh chóng và hiệu quả. Với khả năng cho phép người dùng đăng tải các thông điệp ngắn gọn, được gọi là tweet, Twitter đã thu hút hàng triệu người dùng trên toàn cầu. Phân tích dữ liệu từ Twitter cho thấy rằng nền tảng này không chỉ là nơi để giao tiếp mà còn là nguồn thông tin quý giá về tình hình sức khỏe cộng đồng. Các tweet có thể chứa thông tin về triệu chứng bệnh tật, từ đó giúp xác định thông tin dịch bệnh một cách nhanh chóng. Việc sử dụng Twitter trong nghiên cứu dịch bệnh mang lại nhiều lợi ích, đặc biệt trong việc phát hiện sớm các dấu hiệu bùng phát dịch bệnh. Theo thống kê, mỗi ngày có hàng triệu tweet được đăng tải, tạo ra một kho dữ liệu khổng lồ cho các nhà nghiên cứu. Điều này cho thấy tầm quan trọng của việc phân tích dữ liệu từ Twitter trong việc theo dõi và xác định tình hình dịch bệnh.

II. Các đặc trưng thông tin của Twitter

Twitter cung cấp nhiều đặc trưng giúp người dùng dễ dàng chia sẻ và tìm kiếm thông tin. Các tweet thường được giới hạn trong 140 ký tự, điều này khuyến khích người dùng truyền tải thông điệp một cách ngắn gọn và súc tích. Phân tích mạng xã hội cho thấy rằng các hashtag, mention và retweet là những công cụ quan trọng giúp người dùng kết nối và chia sẻ thông tin. Hashtag cho phép nhóm các tweet liên quan đến một chủ đề cụ thể, trong khi mention giúp người dùng tương tác trực tiếp với nhau. Việc sử dụng các đặc trưng này không chỉ làm tăng tính tương tác mà còn giúp thu thập dữ liệu về tình hình sức khỏe cộng đồng. Các tweet có chứa thông tin về triệu chứng bệnh tật có thể được phân loại và phân tích để xác định tình hình dịch bệnh trong cộng đồng. Điều này cho thấy rằng Twitter không chỉ là một nền tảng giao tiếp mà còn là một công cụ hữu ích trong việc theo dõi và phân tích dịch bệnh.

III. Kỹ thuật phân loại văn bản và ứng dụng xác định dịch bệnh trên Twitter

Kỹ thuật phân loại văn bản là một trong những phương pháp quan trọng trong việc phân tích dữ liệu từ Twitter. Việc áp dụng các thuật toán như Naive Bayes và SVM giúp xác định các tweet có liên quan đến dịch bệnh một cách hiệu quả. Phân tích dữ liệu lớn từ Twitter cho phép các nhà nghiên cứu phát hiện sớm các dấu hiệu bùng phát dịch bệnh. Các tweet có chứa thông tin về triệu chứng bệnh tật có thể được phân loại để xác định những người có khả năng mắc bệnh. Điều này không chỉ giúp cung cấp thông tin kịp thời cho cộng đồng mà còn hỗ trợ các cơ quan y tế trong việc đưa ra các biện pháp phòng ngừa. Việc sử dụng kỹ thuật phân loại văn bản trong nghiên cứu dịch bệnh trên Twitter cho thấy tiềm năng lớn trong việc cải thiện khả năng giám sát và phản ứng với các tình huống khẩn cấp về sức khỏe.

IV. Thử nghiệm và đánh giá

Thử nghiệm và đánh giá các phương pháp phân loại văn bản là bước quan trọng trong nghiên cứu này. Việc thu thập dữ liệu từ Twitter và áp dụng các thuật toán phân loại giúp xác định độ chính xác của các phương pháp này. Nghiên cứu dịch bệnh thông qua Twitter cho thấy rằng việc sử dụng các kỹ thuật phân loại có thể cải thiện khả năng phát hiện sớm các dấu hiệu bùng phát dịch bệnh. Kết quả thử nghiệm cho thấy rằng các phương pháp phân loại như Naive Bayes và SVM có thể đạt được độ chính xác cao trong việc xác định các tweet liên quan đến dịch bệnh. Điều này chứng tỏ rằng Twitter là một nguồn dữ liệu quý giá cho việc nghiên cứu và giám sát tình hình sức khỏe cộng đồng. Việc đánh giá các phương pháp này không chỉ giúp cải thiện quy trình phân tích mà còn cung cấp thông tin hữu ích cho các cơ quan y tế trong việc ứng phó với dịch bệnh.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh mạng xã hội phát triển mạnh mẽ, Twitter đã trở thành một nguồn dữ liệu khổng lồ với hơn 500 triệu người dùng và trung bình 340 triệu tweet được đăng mỗi ngày. Các tweet này chứa nhiều thông tin đa dạng, trong đó có dữ liệu liên quan đến sức khỏe cộng đồng, đặc biệt là các dấu hiệu dịch bệnh như cúm. Việc khai thác và phân tích dữ liệu Twitter nhằm xác định thông tin dịch bệnh có ý nghĩa quan trọng trong việc phát hiện sớm và cảnh báo kịp thời các đợt bùng phát dịch. Nghiên cứu tập trung vào phân tích dữ liệu Twitter tại Hà Nội trong năm 2018, nhằm phát triển một hệ thống xác định thông tin dịch cúm dựa trên kỹ thuật phân loại văn bản, cụ thể là thuật toán Naive Bayes.

Mục tiêu chính của luận văn là xây dựng và đánh giá hiệu quả phương pháp phân loại văn bản để lọc và xác định các tweet liên quan đến dịch cúm, từ đó hỗ trợ giám sát dịch bệnh cộng đồng. Phạm vi nghiên cứu bao gồm thu thập dữ liệu tweet tiếng Anh liên quan đến cúm, tiền xử lý dữ liệu, xây dựng mô hình phân loại và đánh giá kết quả trên tập dữ liệu thực tế gồm 6.000 tweet (5.000 tweet huấn luyện và 1.000 tweet kiểm thử). Ý nghĩa của nghiên cứu được thể hiện qua khả năng giảm tải thông tin, cung cấp cảnh báo dịch bệnh chính xác và kịp thời, góp phần nâng cao hiệu quả quản lý y tế công cộng.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên các lý thuyết và mô hình sau:

Mạng xã hội Twitter và đặc trưng thông tin: Twitter là nền tảng mạng xã hội cho phép người dùng đăng tải các bản tin ngắn (tweet) giới hạn 140 ký tự, với các đặc trưng như hashtag, mention, retweet và favorite, tạo nên một hệ sinh thái thông tin đa chiều và liên kết chặt chẽ giữa người dùng. Mối quan hệ follower-followee quyết định luồng thông tin hiển thị trên timeline người dùng.
Phân loại văn bản (Text Classification): Là quá trình gán nhãn cho các văn bản dựa trên nội dung, sử dụng các kỹ thuật học máy có giám sát. Các khái niệm chính bao gồm vector hóa văn bản (TF-IDF), tập huấn luyện và tập kiểm thử, cùng các thuật toán phân loại như Naive Bayes, K-NN, SVM và cây quyết định.
Thuật toán Naive Bayes: Dựa trên định lý Bayes với giả định các từ trong văn bản độc lập thống kê, Naive Bayes tính xác suất hậu nghiệm để phân loại văn bản vào các lớp cụ thể. Thuật toán này có ưu điểm đơn giản, hiệu quả, khả năng mở rộng cao và phù hợp với dữ liệu lớn như Twitter.

Phương pháp nghiên cứu

Nguồn dữ liệu: Thu thập dữ liệu thực tế từ Twitter thông qua API chính thức, tập trung vào các tweet tiếng Anh liên quan đến cúm tại Hà Nội trong năm 2018. Tổng số tweet thu thập là khoảng 6.000, trong đó 5.000 tweet dùng để huấn luyện mô hình và 1.000 tweet dùng để kiểm thử.
Tiền xử lý dữ liệu: Loại bỏ các ký tự lỗi, xử lý ngôn ngữ tự nhiên như tách từ, loại bỏ stopwords, chuẩn hóa văn bản và gán nhãn cho từng tweet theo hai lớp: "có cúm" (YES) và "không cúm" (NO). Các đặc trưng triệu chứng cúm như sốt, ho, đau họng, mệt mỏi được sử dụng để tăng độ chính xác phân loại.
Biểu diễn văn bản: Sử dụng mô hình vector hóa TF-IDF để chuyển đổi các tweet thành vector đặc trưng trong không gian nhiều chiều, giúp thuật toán học máy xử lý hiệu quả.
Phương pháp phân tích: Áp dụng thuật toán Naive Bayes để xây dựng mô hình phân loại văn bản. Mô hình được huấn luyện trên tập dữ liệu đã gán nhãn và đánh giá trên tập kiểm thử. Kết quả được so sánh với các phương pháp khác như K-NN, SVM để đánh giá hiệu quả.
Timeline nghiên cứu: Thu thập dữ liệu và tiền xử lý trong 3 tháng, xây dựng và huấn luyện mô hình trong 2 tháng, đánh giá và hoàn thiện báo cáo trong 1 tháng.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân loại của Naive Bayes: Thuật toán Naive Bayes đạt độ chính xác trung bình khoảng 85% trên tập kiểm thử 1.000 tweet, trong đó tỷ lệ phát hiện đúng các tweet liên quan cúm là 80%, vượt trội hơn so với K-NN (75%) và SVM (82%).
Tỷ lệ tweet liên quan cúm trong dữ liệu: Trong tổng số 6.000 tweet, khoảng 40% tweet chứa thông tin liên quan đến cúm hoặc triệu chứng cúm, cho thấy mạng xã hội Twitter là nguồn dữ liệu phong phú để giám sát dịch bệnh.
Phân bố địa lý dịch cúm: Dữ liệu vị trí từ tweet cho thấy các khu vực trung tâm Hà Nội có tỷ lệ tweet liên quan cúm cao hơn khoảng 25% so với các vùng ngoại ô, phản ánh mức độ bùng phát dịch bệnh tại các khu vực đông dân cư.
Tác động của tiền xử lý dữ liệu: Việc làm sạch dữ liệu và loại bỏ các tweet không liên quan giúp tăng độ chính xác phân loại lên khoảng 10% so với dữ liệu thô, nhấn mạnh tầm quan trọng của bước tiền xử lý.

Thảo luận kết quả

Kết quả cho thấy thuật toán Naive Bayes phù hợp với bài toán phân loại văn bản ngắn trên Twitter nhờ giả định độc lập giữa các từ và khả năng xử lý dữ liệu lớn hiệu quả. So với các phương pháp khác, Naive Bayes có ưu thế về tốc độ và độ chính xác ổn định. Việc sử dụng các đặc trưng triệu chứng cúm giúp mô hình phân biệt tốt hơn giữa các tweet thực sự phản ánh tình trạng bệnh và các tweet quảng cáo hoặc không liên quan.

Phân bố địa lý dịch cúm được xác định từ dữ liệu Twitter tương đồng với các báo cáo dịch tễ học truyền thống, chứng tỏ tính khả thi của phương pháp trong giám sát dịch bệnh cộng đồng. Tuy nhiên, do giới hạn 140 ký tự và tính phi cấu trúc của tweet, vẫn tồn tại một tỷ lệ nhiễu và thông tin sai lệch cần được xử lý kỹ hơn trong các nghiên cứu tiếp theo.

Dữ liệu có thể được trình bày qua biểu đồ cột so sánh độ chính xác các thuật toán phân loại, biểu đồ tròn tỷ lệ tweet cúm và không cúm, cùng bản đồ nhiệt (heatmap) thể hiện mật độ tweet cúm theo khu vực địa lý Hà Nội.

Đề xuất và khuyến nghị

Phát triển hệ thống giám sát dịch bệnh tự động: Triển khai mô hình Naive Bayes tích hợp với API Twitter để thu thập và phân tích dữ liệu theo thời gian thực, nhằm cảnh báo sớm các đợt bùng phát dịch cúm. Thời gian thực hiện dự kiến 6 tháng, do các cơ quan y tế và đơn vị công nghệ phối hợp thực hiện.
Mở rộng phạm vi dữ liệu và ngôn ngữ: Thu thập thêm dữ liệu tweet bằng tiếng Việt và các ngôn ngữ khác, đồng thời áp dụng kỹ thuật xử lý ngôn ngữ tự nhiên đa ngôn ngữ để nâng cao độ bao phủ và chính xác của hệ thống trong tương lai 1-2 năm.
Tăng cường tiền xử lý và lọc dữ liệu: Áp dụng các kỹ thuật học sâu (deep learning) để cải thiện khả năng nhận diện ngữ cảnh và loại bỏ thông tin nhiễu, giúp tăng độ chính xác phân loại lên trên 90%. Thời gian nghiên cứu và phát triển khoảng 1 năm.
Phối hợp với các cơ quan y tế: Kết nối hệ thống với các trung tâm kiểm soát dịch bệnh để đối chiếu và xác thực dữ liệu, đồng thời sử dụng kết quả phân tích để hỗ trợ ra quyết định phòng chống dịch hiệu quả hơn. Khuyến nghị thực hiện liên tục và cập nhật hàng năm.

Đối tượng nên tham khảo luận văn

Các nhà nghiên cứu và sinh viên ngành công nghệ thông tin, khoa học dữ liệu: Nghiên cứu về phân loại văn bản, khai thác dữ liệu mạng xã hội và ứng dụng trong y tế công cộng.
Cơ quan y tế và quản lý dịch bệnh: Áp dụng phương pháp giám sát dịch bệnh dựa trên dữ liệu mạng xã hội để phát hiện sớm và cảnh báo kịp thời các đợt dịch.
Các công ty phát triển phần mềm và ứng dụng phân tích dữ liệu lớn: Tận dụng mô hình và thuật toán để xây dựng các sản phẩm giám sát sức khỏe cộng đồng và phân tích xu hướng xã hội.
Nhà hoạch định chính sách và tổ chức phi chính phủ: Sử dụng kết quả nghiên cứu để thiết kế các chương trình phòng chống dịch hiệu quả dựa trên dữ liệu thực tế và phản hồi cộng đồng.

Câu hỏi thường gặp

Tại sao chọn Twitter làm nguồn dữ liệu phân tích dịch bệnh?
Twitter có lượng người dùng lớn với hơn 500 triệu tài khoản và hàng trăm triệu tweet mỗi ngày, cung cấp dữ liệu cập nhật nhanh, đa dạng và có tính cá nhân cao, phù hợp để phát hiện sớm các dấu hiệu dịch bệnh trong cộng đồng.
Ưu điểm của thuật toán Naive Bayes trong phân loại văn bản là gì?
Naive Bayes đơn giản, dễ triển khai, xử lý nhanh với dữ liệu lớn, không yêu cầu nhiều dữ liệu huấn luyện và có khả năng mở rộng tốt, đồng thời cho kết quả chính xác trong nhiều trường hợp phân loại văn bản.
Làm thế nào để xử lý dữ liệu nhiễu và thông tin không liên quan trên Twitter?
Tiền xử lý dữ liệu bao gồm làm sạch văn bản, loại bỏ stopwords, chuẩn hóa ngôn ngữ, và gán nhãn chính xác giúp giảm thiểu nhiễu. Ngoài ra, sử dụng các đặc trưng triệu chứng bệnh cụ thể giúp phân biệt tweet thực sự liên quan đến dịch bệnh.
Phân tích dữ liệu Twitter có thể thay thế hoàn toàn các phương pháp giám sát dịch bệnh truyền thống không?
Không, phân tích Twitter là công cụ bổ trợ giúp phát hiện sớm và cảnh báo nhanh, nhưng cần phối hợp với dữ liệu y tế chính thống để đảm bảo độ chính xác và hiệu quả trong quản lý dịch bệnh.
Có thể áp dụng phương pháp này cho các loại dịch bệnh khác không?
Có, với việc điều chỉnh bộ từ khóa và đặc trưng phù hợp, phương pháp phân loại văn bản trên Twitter có thể mở rộng để giám sát các dịch bệnh khác như SARS, Ebola, dịch tả, v.v.

Kết luận

Nghiên cứu đã xây dựng thành công mô hình phân loại văn bản dựa trên thuật toán Naive Bayes để xác định thông tin dịch cúm từ dữ liệu Twitter tại Hà Nội năm 2018.
Mô hình đạt độ chính xác khoảng 85%, vượt trội so với một số thuật toán phân loại khác như K-NN và SVM.
Phân tích dữ liệu Twitter cung cấp thông tin giá trị về phân bố dịch cúm theo khu vực, hỗ trợ giám sát dịch bệnh cộng đồng hiệu quả.
Đề xuất phát triển hệ thống giám sát dịch bệnh tự động, mở rộng phạm vi dữ liệu và nâng cao kỹ thuật xử lý để tăng cường hiệu quả ứng dụng.
Khuyến nghị phối hợp chặt chẽ với các cơ quan y tế để tích hợp dữ liệu và ứng dụng kết quả nghiên cứu trong thực tiễn phòng chống dịch bệnh.

Hành động tiếp theo là triển khai thử nghiệm hệ thống trên quy mô lớn hơn, mở rộng thu thập dữ liệu đa ngôn ngữ và phát triển các thuật toán nâng cao nhằm hoàn thiện giải pháp giám sát dịch bệnh dựa trên mạng xã hội. Các nhà nghiên cứu và tổ chức y tế được khuyến khích áp dụng và phát triển thêm từ kết quả này để nâng cao hiệu quả quản lý sức khỏe cộng đồng.

Trích đoạn nội dung tài liệu

CHƯƠNG 1 MẠNG XÃ HỘI TWITTERVÀ CÁC ĐẶC TRƯNG Twitter đã phát triển rất nhanh để trở thành mạng xã hội phổ biến trong những năm gần đây v à cung cấp một số lượng lớn người dùng sử dụng để đăng các bản tin, hoặc có thể được gọi là các tweet. Các tweet đó được Twitter hiển thị cho người dùng theo thứ tự về thời gian v à được gọi là Timeline, người dùng sẽ dựa vào timeline để theo dõi những thông tin mà họ có thể sẽ quan tâm. Tuy nhiên, vấn đề quá tải thông tin đã gây khó khăn cho người sử dụng, đặc biệt khi người dùng đó theo dõi nhiều người dùng khác v à có hàng ngàn tweet đến với họ mỗi ngày. Luận văn này sẽ tập trung vào việc đưa ra những tweet hữu ích mà người dùng thực sự quan tâm thông qua các phương pháp tư vấn, giúp người dùng giảm công sức bỏ ra để tìm kiếm những thông tin đó.1 Các Tweets được chia sẻ bởi một người dùng.1 Giới thiệu mạng xã hội Twitter Twitter là dịch vụ mạng xã hội miễn phí cho phép người dùng sử dụng đọc, nhắn và cập nhật các mẩu tin nhỏ gọi là tweet, đây là một dạng tiểu blog.

Những mẩu tweet được giới hạn tối đa 140 ký tự và được lan truyền nhanh chóng trong phạm vi nhóm bạn của người nhắn hoặc có thể được trưng rộng rãi cho mọi người. Thành lập từ năm 2006, Twitter đã trở thành một hiện tượng phổ biến toàn cầu, những tweet có thể chỉ là dòng tin cá nhân cho đến những cập nhật mang tính thời sự tại chỗ kịp thời và nhanh chóng hơn cả truyền thông chính thông. Theo thống kê 2013, Twitter có khoảng hơn 500 triệu người dùng đã được kích hoạt và trung bình mỗi ngày tweet trung bình hàng ngày được đăng mới là 58 triệu tweet [1], các con số này vẫn không ngừng tăng lên, mỗi ngày có thể thêm khoảng 135,000 người dùng mới đăng ký sử dụng dịch vụ. Giới hạn về độ dài tin nhắn là 140 ký tự có tính tương thích với một bản tin, mang đến cho cộng đồng mạng một hình thức tốc ký đáng chú ý, đã được sử dụng rộng rãi thông qua việc sử dụng các bản tin SMS từ điện thoại của họ.

Ngày nay, với sự phát triển của các điện thoại thông minh (smartphones), việc cho phép các ứng dụng chạy trên điện thoại và kết nối internet đã trở nên dễ dàng, việc cập nhật thông tin thông qua mạng xã hội như Twitter càng trở lên đơn giản hơn. Thêm vào đó, Twitter cũng cấp một giao diện lập trình ứng dụng (API) cho phép nhiều ứng dụng có thể truy cập các dịch vụ mà Twitter cho phép đ lấy và cập nhật thông tin, giúp lập trình viên dễ dàng kết nối từ một ứng dụng bất kỳ đến Twitter. Những điều đó góp phần làm tăng tính phổ biến của mạng xã hội Twitter và thông tin mà mạng xã hội này mang lại ngày càng đa dạng và hữu ích với người sử dụng.2 Các đặc trưng thông tin của Twitter Người dùng Twitter cập nhật các bản tin ngắn bị giới hạn trong 140 ký tự được gọi là các tweet, và thuật ngữ để chỉ việc đăng các bản tin đó gọi là Luan van 12 tweeting. Người dùng Twitter có mối quan hệ trực tiếp với nhau, nếu người dùng theo dõi người dùng B nhưng B không theo dõi A, A sẽ thấy tất cả các tweet của B nhưng ngược lại, B không thấy tweet của A.

Mô tả cho mối quan hệ người dùng này được thể hiện trong hình 1.1 A CA B CB Hình 1.1 Quan hệ người dùng và hiển thị tweet theo mối quan hệ đó Thuật ngữ mà Twitter đề xuất cho những mối quan hệ giữa người dùng Twitter với nhau gồm có follower và followee, follower là những người đang theo dõi một người dùng nào đó, và followee là chỉ những người đang được người dùng theo dõi. Ví dụ trong hình 1.1, A đang theo dõi B, vì thế A sẽ là follower của B, và B là followee của A. Mỗi người dùng sẽ có một danh sách hiển thị những tweet mới được cập nhật, danh sách đó được gọi là Twitter stream theo thứ tự thời gian. Các tweet hiển thị trong danh sách này chính là những tweet được đăng bởi các followee.

Trong ví dụ ở hình 1.1, nếu A đang follow B, tất cả các tweet của B sẽ được hiển thị trong danh sách các tweet của A, nhưng nếu B không follow A thì những tweet của A sẽ không hiển thị trong danh sách tweet của B, B phải lựa chọn ‘follow’ A để có thể thấy các tweet này trong danh sách tweet của mình hoặc truy cập vào trang cá nhân của A để thấy được tất cả các tweet mà A đã đăng. Người dùng Twitter ngoài việc có thể chia sẻ các tweet dưới dạng một bản tin văn bản ngắn, Twitter còn chọ phép họ cung cấp thêm nhiều thông tin hữu ích trong bản tin đó, một trong những đặc trưng mà Twitter cung cấp giúp người dùng b sung thêm những thông tin hữu ích trong tweet của mình là hashtag, mention và retweet. - Hashtag: là một từ hoặc một chuỗi các ký tự liên tiếp nhau được đặt sau dấu # Đây là một dạng dữ liệu mô tả (metadata) dùng để nhóm nhiều Luan van 13 thông tin tương tự lại với nhau. Ví dụ với một tweet có chứa hashtag ‘#hanoi’ sẽ có ý nghĩa tweet đó mang thông tin về ‘hanoi’ Hình 1.2 Tweet có chứa hashtag trong nội dung Việc sử dụng hashtag như vậy nhằm gom cụm những tweet thảo luận về một chủ đề nào đó và thuận tiện hơn trong quá trình tìm kiếm.

- Mention và reply (đề cập và trả lời) Đây là hai đặc trưng quan trọng mà Twitter cung cấp cho người dùng, đề cập và trả lời một người dùng nào đó trong nội dung của một tweet. Giống như hashtag, các đặc trưng này cũng là một quy ước trong thế giới mạng trước khi trở thành một đặc trưng của Twitter[2]. Mention là cách mà một tweet tạo ra sự chú ý đối với một người dùng Twitter nào đó trong các kết nối của họ, thực hiện đơn giản bằng cách sử dụng ký hiệu ‘@’ trước tên của người dùng nào đó trong tweet của mình. Ví dụ, Alice muốn mention Bob trong tweet của mình, Alice sẽ viết ‘@bob’ Bên cạnh chức năng mention, Twitter còn cung cấp chức năng tương tự là reply, việc sử dụng tương tự mention bằng cách dùng ký hiệu ‘@’ trước tên người dùng, nhưng ‘@username’ sẽ được đặt ở đầu tiên của tweet, ví dụ ‘@bob Do we have a match today?’ trong tweet của Alice.

Mention và reply sẽ được Twitter hiển thị khác nhau trong danh sách tweet của những người đang theo dõi Alice và Bob.3 Người dùng Twitter có thể mention một người dùng khác trong tweet của mình Luan van 14 Hình 1.4 Nếu ký hiệu mention được sử dụng ở đầu tweet, ý nghĩa sẽ là một hành động reply - Retweet: Mộ tổ chức năng không thể thiếu giúp cho mạng xã hội Twitter phát triển mạnh mẽ, đó là chức năng retweet, người dùng Twitter có thể đăng lại các bản tin đã được đăng bởi người khác, và tweet đó sẽ được hiển thị trong danh sách các tweet của người đang theo dõi họ. Mỗi retweet sẽ có kèm thêm thông tin về người đã đăng tweet đó gười dùng bất kỳ khi truy cập danh sách các tweet của một người nào đó cũng có thể biết một tweet đã được retweet bao nhiêu lần và bởi những ai. - Favorite: bên cạnh việc retweet những tweet mà người dùng cảm thấy hứng thú và quan tâm, những tweet này sẽ được hiển thị trong danh sách các tweet của người dùng đó, v à cũng hiển thị đối với những người dùng đang follow, chức năng fa orite cũng th hiện sự quan tâm của người dùng đối với một thông tin nào đó thông qua iệc lựa chọn một tweet là favorite hay không. Đây cũng là một cách đ giúp người dùng đánh dấu à lưu lại một bản tin, hình ảnh hay liên kết mà người dùng đó quan tâm được đề cập trong tweet.

Khác với retweet, hành động favorite không được chia sẻ công khai với những người dùng Twitter khác, kể cả những người đang theo dõi. Tất cả các đặc trưng mà Twitter cung cấp đều góp phần thể hiện một phần quan điểm, sở thích cá nhân của người dùng, những hành động của người dùng cũng sẽ được lưu trữ trong hồ sơ người dùng và có thể trích xuất thông qua giao diện lập trình ứng dụng (API) mà Twitter cung cấp.3 Mối quan hệ người dùng trong mạng Twitter Mạng xã hội trực tuyến là một trong những cách truyền thông quan trọng nhất mà chúng ta sử dụng trong cuộc sống hàng ngày. Nó giúp chúng ta duy trì các mối quan hệ xã hội với gia đình và bạn bè, cũng như để mở rộng phạm vi chuyên môn và tiếp thu kiến thức cũng như ý tưởng mới từ mạng. Mạng xã hội phổ biến là do khả năng thu hút mọi người vào để tạo thành các nguồn sản xuất thông tin tích cực, cho phép họ tạo, truy cập và chia sẻ nội dung ở bất cứ đâu và bất cứ lúc nào.

Chính vì thế, sự phổ biến của mạng xã hội trực tuyến đã tạo ra một lượng lớn các bản ghi thông tin liên lạc và kết nối truyền thông mà có thể dễ dàng truy cập và phân tích để nghiên cứu hành vi xã hội của con người. Những đặc điểm duy nhất của mạng xã hội là tạo ra các hiệu ứng mạnh mẽ đối với xã hội, nhưng mức độ mà nó đang ảnh hưởng tới hành vi xã hội của con người vẫn còn chưa biết. Tuy nhiên, không có nghi ngờ rằng vai trò của nó sẽ là quan trọng hàng đầu trong tương lai Twitter là một dịch vụ mạng xã hội trực tuyến được thành lập ào năm 2006, và tới nay trở thành một trong những mạng xã hội phổ biến nhất, với hơn 500 triệu người đăng ký như của năm 2012. Tính năng chính của Twitter là cho phép người dùng gửi tin nhắn văn bản ngắn gọi là tweet.

Người dùng có thể theo dõi người sử dụng khác để tự động nhận được tất cả các tweets của họ và có thể thấy chúng đang được hiện thị trên trang chủ của họ. Những người sử dụng mà một người nào đó theo dõi họ thì là bạn bè của họ, trong khi những người dùng mà đang theo dõi người đó thì sẽ được gọi là những người đi theo – followers. Hành động tham chiếu tới một người dùng nào đó trong một tweet của mình thì được gọi là đề cập đến – mentions.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề Luận Văn Thạc Sĩ: Phân Tích Dữ Liệu Twitter Trong Xác Định Thông Tin Dịch Bệnh của tác giả Tạ Quang Long, dưới sự hướng dẫn của PGS. TS Từ Minh Phương, được thực hiện tại Học viện Công nghệ Bưu chính Viễn thông vào năm 2018. Bài viết tập trung vào việc sử dụng dữ liệu từ Twitter để phân tích và xác định thông tin liên quan đến dịch bệnh, từ đó cung cấp cái nhìn sâu sắc về cách mà mạng xã hội có thể hỗ trợ trong việc theo dõi và quản lý dịch bệnh. Những điểm chính của nghiên cứu bao gồm phương pháp thu thập và phân tích dữ liệu, cũng như các ứng dụng thực tiễn trong lĩnh vực y tế công cộng.

Để mở rộng thêm kiến thức về các khía cạnh liên quan đến y tế và dịch bệnh, bạn có thể tham khảo các tài liệu sau: Khảo Sát Nhu Cầu Tư Vấn Sử Dụng Thuốc Của Bệnh Nhân Điều Trị Ngoại Trú Tại Bệnh Viện Đại Học Y Hà Nội Năm 2023, nơi nghiên cứu nhu cầu tư vấn thuốc của bệnh nhân, và Luận án Tiến sĩ Y học: Ô nhiễm môi trường, bệnh tật và giải pháp can thiệp đối với hộ gia đình chăn nuôi lợn tại Phú Bình, Thái Nguyên, nghiên cứu mối liên hệ giữa ô nhiễm môi trường và sức khỏe. Những tài liệu này sẽ giúp bạn có cái nhìn tổng quát hơn về các vấn đề y tế hiện nay.

#Phân tích dữ liệu

#phân tích ngữ nghĩa

#thông tin dịch bệnh

#dữ liệu xã hội

#xác định dịch bệnh

#dự đoán dịch bệnh

Chủ đề

Công nghệ thông tin trong y tế

Phân tích dữ liệu lớn

Mạng xã hội và sức khỏe cộng đồng

Ứng dụng AI trong nghiên cứu dịch bệnh