Đồ án tốt nghiệp kỹ thuật dữ liệu áp dụng telegraf và influxdb vào dự đoán bầu cử mỹ heo thời gian thực

Đồ án kỹ thuật nghiên cứu tốt nghiệp kỹ thuật dữ liệu áp dụng telegraf và influxdb vào dự đoán bầu cử mỹ heo thời gian thực, thiết kế chi tiết, tính toán kỹ thuật theo tiêu chuẩn,

Chuyên ngành

Kỹ thuật dữ liệu

Người đăng

Ẩn danh

Thể loại

đồ án tốt nghiệp

2024

142
3
0

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. KẾ HOẠCH THỰC HIỆN

2. DANH MỤC HÌNH ẢNH

3. DANH MỤC BẢNG BIỂU

4. PHẦN 1: MỞ ĐẦU

4.1. Tính cấp thiết của đề tài

4.2. Đối tượng, phạm vi nghiên cứu

4.3. Phân tích hướng nghiên cứu liên quan

4.4. Kết quả dự kiến

5. PHẦN 2: NỘI DUNG

5.1. CHƯƠNG 1: TỔNG QUAN VỀ BẦU CỬ MỸ NĂM 2020 VÀ HỆ THỐNG THỜI GIAN THỰC

5.1.1. TỔNG QUAN VỀ BẦU CỬ MỸ

5.1.2. TỔNG QUAN VỀ HỆ THỐNG THỜI GIAN THỰC

5.2. CHƯƠNG 2: LÝ THUYẾT LIÊN QUAN

5.2.1. Tầm quan trọng của Sentiment Analysis

5.2.2. Một số ứng dụng và thuật toán để thực hiện phân tích Sentiment Analysis

5.2.3. Kiến trúc của Telegraf

5.2.4. Ưu điểm và hạn chế của Telegraf

5.2.5. Ứng dụng thực tế của Telegraf

5.2.6. Khái niệm InfluxDB

5.2.7. Kiến trúc của InfluxDB

5.2.8. Mô tả hoạt động của InfluxDB

5.2.9. Ưu điểm và hạn chế của InfluxDB

5.2.10. Ứng dụng thực tế của InfluxDB

5.2.11. Thành phần của Apache Spark

5.2.12. Cơ chế hoạt động của Apache Spark

5.2.13. Ưu điểm và hạn chế của Apache Spark

5.2.14. Ứng dụng thực tế của Apache Spark

5.2.15. Thành phần của Apache Kafka

5.2.16. Cơ chế hoạt động

5.2.17. Các tích hợp dùng với Kafka

5.2.18. Ưu điểm và hạn chế của Apache Kafka

5.2.19. Ứng dụng thực tế của Apache Kafka

5.2.20. Cơ chế hoạt động

5.2.21. Ưu điểm và hạn chế của MySQL

5.2.22. Ứng dụng thực tế của MySQL

5.2.23. Kiến trúc mô hình

5.2.24. So sánh Llama 3 với các phiên bản Llama khác

5.2.25. MỘT SỐ THUẬT TOÁN ÁP DỤNG PHÂN TÍCH CẢM XÚC

5.2.26. XÂY DỰNG HỆ THỐNG DỰ ĐOÁN BẦU CỬ MỸ THEO THỜI GIAN THỰC

5.2.27. KIẾN TRÚC TỔNG QUAN

5.2.28. CÀI ĐẶT MÔI TRƯỜNG

5.2.28.1. Cài đặt Apache Spark

5.2.28.2. Cài đặt Apache Kafka

5.2.28.3. Cài đặt MySQL

5.2.28.4. Cài đặt InfluxDB

5.2.28.5. Cài đặt Telegraf

5.2.28.6. Cài đặt AI SUMMARY BOX

5.2.29. MÔ HÌNH PHÂN TÍCH CẢM XÚC

5.2.30. DATA AND DATA COLLECTION

5.2.31. AI SUMMARY BOX

5.2.32. Xử lý dữ liệu bầu cử và tự động cập nhật thông tin

5.2.33. Định nghĩa và thiết lập cơ sở hạ tầng

5.2.34. ĐÁNH GIÁ ĐỘ CHÍNH XÁC CỦA DỰ ĐOÁN SO VỚI KẾT QUẢ BẦU CỬ THỰC TẾ

6. PHẦN 3: KẾT LUẬN

6.1. NHỮNG KẾT QUẢ ĐẠT ĐƯỢC

6.1.1. Về kiến thức

6.1.2. Về kỹ năng

6.2. HẠN CHẾ CỦA ĐỒ ÁN

6.3. HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Đồ án tốt nghiệp

Đồ án tốt nghiệp này tập trung vào việc ứng dụng công nghệ hiện đại để dự đoán kết quả bầu cử Mỹ theo thời gian thực. Đề tài được thực hiện bởi sinh viên Văn Hoàng Lương và Đặng Xuân Bách dưới sự hướng dẫn của ThS. Lê Minh Tân. Đồ án này không chỉ là một nghiên cứu học thuật mà còn có giá trị thực tiễn cao, đặc biệt trong bối cảnh bầu cử Mỹ 2024.

1.1. Mục tiêu và phạm vi nghiên cứu

Mục tiêu chính của đồ án là xây dựng một hệ thống dự đoán kết quả bầu cử Mỹ theo thời gian thực bằng cách sử dụng TelegrafInfluxDB. Phạm vi nghiên cứu bao gồm việc thu thập dữ liệu từ các nguồn như Twitter, phân tích cảm xúc, và trực quan hóa kết quả. Hệ thống giám sát này được thiết kế để cung cấp thông tin chính xác và kịp thời về diễn biến bầu cử.

1.2. Tính cấp thiết của đề tài

Trong bối cảnh bầu cử Mỹ 2024, việc dự đoán kết quả theo thời gian thực trở nên quan trọng hơn bao giờ hết. Công nghệ dữ liệuphân tích dữ liệu đóng vai trò then chốt trong việc cung cấp thông tin chính xác và nhanh chóng. Đồ án này không chỉ đáp ứng nhu cầu học thuật mà còn có tiềm năng ứng dụng trong thực tế, giúp các nhà phân tích và cử tri có cái nhìn tổng quan về tình hình bầu cử.

II. Ứng dụng Telegraf và InfluxDB

TelegrafInfluxDB là hai công cụ chính được sử dụng trong đồ án này để thu thập, xử lý và lưu trữ dữ liệu thời gian thực. Telegraf đóng vai trò là công cụ thu thập dữ liệu, trong khi InfluxDB là hệ thống lưu trữ và phân tích dữ liệu hiệu quả. Sự kết hợp này tạo nên một hệ thống giám sát mạnh mẽ, có khả năng xử lý lượng lớn dữ liệu từ các nguồn khác nhau.

2.1. Telegraf trong thu thập dữ liệu

Telegraf được sử dụng để thu thập dữ liệu từ các nguồn như Twitter thông qua API. Công cụ này có khả năng xử lý dữ liệu lớn và đưa vào hệ thống một cách nhanh chóng. Telegraf cũng hỗ trợ tích hợp với các công nghệ khác như Apache KafkaApache Spark, giúp tối ưu hóa quá trình xử lý dữ liệu.

2.2. InfluxDB trong lưu trữ và phân tích

InfluxDB là cơ sở dữ liệu thời gian thực được sử dụng để lưu trữ và phân tích dữ liệu thu thập được. Với khả năng xử lý dữ liệu lớn và tốc độ truy vấn nhanh, InfluxDB giúp hệ thống đưa ra các dự đoán chính xác và kịp thời. InfluxDB cũng hỗ trợ trực quan hóa dữ liệu, giúp người dùng dễ dàng theo dõi kết quả dự đoán.

III. Dự đoán bầu cử Mỹ theo thời gian thực

Dự đoán bầu cử Mỹ theo thời gian thực là mục tiêu chính của đồ án. Hệ thống được xây dựng để thu thập dữ liệu từ các nguồn như Twitter, phân tích cảm xúc của cử tri, và đưa ra dự đoán kết quả bầu cử. Công nghệ dự đoánxử lý dữ liệu lớn đóng vai trò quan trọng trong việc đảm bảo độ chính xác và kịp thời của các dự đoán.

3.1. Phân tích cảm xúc từ dữ liệu Twitter

Hệ thống sử dụng các thuật toán phân tích cảm xúc để đánh giá thái độ của cử tri đối với các ứng viên. Dữ liệu được thu thập từ Twitter thông qua API và được xử lý bằng các công cụ như Apache SparkLightGBM. Kết quả phân tích được lưu trữ trong InfluxDB và trực quan hóa để người dùng dễ dàng theo dõi.

3.2. Trực quan hóa kết quả dự đoán

Kết quả dự đoán được trực quan hóa thông qua các biểu đồ địa lý và biểu đồ đường, giúp người dùng dễ dàng theo dõi diễn biến bầu cử theo thời gian thực. Hệ thống cũng cung cấp thông tin chi tiết về kết quả dự đoán tại từng bang, giúp người dùng có cái nhìn tổng quan về tình hình bầu cử.

IV. Giá trị và ứng dụng thực tiễn

Đồ án này không chỉ có giá trị học thuật mà còn có tiềm năng ứng dụng thực tiễn cao. Hệ thống dự đoán kết quả bầu cử theo thời gian thực có thể được sử dụng trong các chiến dịch bầu cử, giúp các ứng viên và nhà phân tích có cái nhìn tổng quan về tình hình cử tri. Công nghệ dữ liệuphân tích dữ liệu đóng vai trò quan trọng trong việc đảm bảo độ chính xác và kịp thời của các dự đoán.

4.1. Ứng dụng trong chiến dịch bầu cử

Hệ thống có thể được sử dụng trong các chiến dịch bầu cử để theo dõi phản ứng của cử tri đối với các ứng viên. Dữ liệu thời gian thựcphân tích cảm xúc giúp các ứng viên điều chỉnh chiến lược vận động một cách hiệu quả. Công cụ dữ liệu như TelegrafInfluxDB đảm bảo rằng thông tin được cập nhật liên tục và chính xác.

4.2. Tiềm năng phát triển trong tương lai

Đồ án này mở ra hướng phát triển mới trong việc ứng dụng công nghệ dữ liệuphân tích dữ liệu trong các lĩnh vực khác như thị trường chứng khoán, dự báo thời tiết, và quản lý rủi ro. Hệ thống giám sátdự đoán kết quả có thể được mở rộng và cải tiến để đáp ứng nhu cầu của các lĩnh vực khác nhau.

21/02/2025
Đồ án tốt nghiệp kỹ thuật dữ liệu áp dụng telegraf và influxdb vào dự đoán bầu cử mỹ heo thời gian thực

Trích đoạn nội dung tài liệu

CHƯƠNG 1: TỔNG QUAN VỀ BẦU CỬ MỸ NĂM 2020 VÀ HỆ THỐNG THỜI GIAN THỰC 1. TỔNG QUAN VỀ BẦU CỬ MỸ Hệ thống bầu cử tại Mỹ là một trong những hệ thống phức tạp và đa dạng nhất trên thế giới, đặc biệt trong các cuộc bầu cử tổng thống. Quá trình này bao gồm nhiều giai đoạn và quy trình khác nhau, phản ánh sự phân quyền và tính đa dạng của đất nước. Dưới đây là những điểm chính về hệ thống bầu cử Mỹ: Bầu cử tổng thống Mỹ được tổ chức bốn năm một lần vào ngày thứ Ba sau ngày thứ Hai đầu tiên của tháng 11.

Quá trình này bao gồm hai giai đoạn chính: bầu cử sơ bộ và bầu cử chính thức. - Bầu cử sơ bộ và cuộc họp đại hội đảng: Các đảng phái chính trị tổ chức các cuộc bầu cử sơ bộ và hội nghị để chọn ra ứng cử viên của mình. Cuộc bầu cử sơ bộ có thể là bầu cử mở, nơi mọi cử tri đều có thể tham gia, hoặc bầu cử kín, chỉ dành cho đảng viên đăng ký. - Bầu cử chính thức: Cuộc bầu cử tổng thống diễn ra vào tháng 11.

Cử tri sẽ bỏ phiếu chọn đại cử tri (Electors), những người sẽ đại diện cho bang của mình trong Cử tri đoàn (Electoral College). 16 Hình 1: Hai ứng viên trong cuộc bầu cử Hoa Kỳ năm 2020 Bầu cử tổng thống Mỹ có tác động sâu rộng đến toàn thế giới do vai trò quan trọng của Mỹ trong kinh tế, chính trị và quân sự toàn cầu. Kết quả bầu cử định hình chính sách đối ngoại của Mỹ, ảnh hưởng trực tiếp đến quan hệ ngoại giao, các liên minh quân sự như NATO và các cam kết quốc tế trong các hiệp định thương mại và môi trường. Thay đổi trong chính sách thương mại của Mỹ có thể tác động mạnh mẽ đến quan hệ thương mại quốc tế, gây ra biến động trên thị trường tài chính toàn cầu và ảnh hưởng đến lãi suất, tỷ giá hối đoái và giá cổ phiếu.

Các tác nhân ảnh hưởng đến kết quả bầu cử: - Trước cuộc bầu cử tổng thống Mỹ, các tin đồn thất thiệt thường trở thành vũ khí tác động mạnh đến quan điểm cử tri. Ví dụ, những lời công kích từ phía Trump về sức khỏe và sự minh mẫn của đối thủ chính của ông, Joe Biden, cùng với những tuyên bố rằng Biden sử dụng các loại thuốc không được công khai, đã lan truyền rộng rãi trên các nền tảng truyền thông xã hội và các phương tiện truyền thông chính thống. Những thông tin này có thể tạo nên một cảm giác lo ngại và nghi ngờ trong cử tri, ảnh hưởng đến quyết định bầu cử của họ và làm thay đổi bộ phận bầu cử quan trọng. 17 - Phát ngôn và xu hướng của những người có tầm ảnh hưởng đã đóng vai trò quan trọng trong cuộc bầu cử tổng thống Mỹ năm 2020.

Các ngôi sao nổi tiếng, nhân vật công khai và những nhân vật có ảnh hưởng lớn trên mạng xã hội đã có khả năng lan truyền nhanh chóng các quan điểm và ảnh hưởng đến quan điểm của cử tri. Những phát ngôn sắc bén, những lời kêu gọi hỗ trợ hay chỉ trích đối với các ứng viên, cùng với các xu hướng trên mạng xã hội như hashtag và các chiến dịch truyền thông đặc biệt đã góp phần thay đổi cảnh quan bầu cử. Những nhân vật này không chỉ là nguồn cảm hứng mà còn là yếu tố quan trọng giúp hình thành ý thức cộng đồng và ảnh hưởng đến sự lựa chọn của cử tri trong cuộc bầu cử quan trọng này. - Cuộc tranh luận của các ứng viên trên các đài truyền hình đã có một tác động sâu sắc đến cuộc bầu cử tổng thống Mỹ năm 2020.

Ví dụ, trong các cuộc tranh luận giữa Donald Trump và Joe Biden, các vấn đề như biện pháp ứng phó với đại dịch COVID-19, biến đổi khí hậu, và các chính sách kinh tế đã được thảo luận sôi nổi. Trong một cuộc tranh luận, Trump đã chỉ trích Biden về chính sách an ninh quốc gia của ông và các quan điểm về thỏa thuận thương mại quốc tế, trong khi Biden đã tấn công Trump về sự phản ứng của ông đối với đại dịch và những lời phát ngôn gây tranh cãi. Thêm vào đó, sự lựa chọn từng từ và cách phát biểu của các ứng viên trong các cuộc tranh luận đã góp phần quan trọng trong việc xác định cách mà cử tri đánh giá và đưa ra quyết định về ai sẽ là lãnh đạo tiếp theo của nước Mỹ. Những phản ứng và phát biểu trong thời gian thực trên mạng xã hội và các phương tiện truyền thông sau mỗi cuộc tranh luận cũng đã đóng vai trò quan trọng trong việc gia tăng hoặc giảm sự ủng hộ từ phía cử tri.

Ảnh hưởng của cuộc bầu cử Hoa Kỳ đến cuộc diện thế giới: - Chính sách môi trường của tổng thống Mỹ cũng có tác động lớn đến các nỗ lực toàn cầu nhằm chống lại biến đổi khí hậu. Quyết định tham gia hoặc rút khỏi các hiệp định khí hậu quốc tế, như Hiệp định Paris, có thể thay đổi động lực và cam kết toàn cầu trong việc giảm thiểu phát thải khí nhà kính. Bên cạnh đó, chính sách của Mỹ về năng lượng tái tạo và đầu tư vào công nghệ sạch có thể thúc đẩy hoặc cản trở sự phát triển của các ngành công nghiệp này trên toàn thế giới. - Sự an ninh và ổn định khu vực cũng chịu ảnh hưởng từ chiến lược của Mỹ.

Tại Trung Đông, chính sách của Mỹ đối với Iran, Israel và các quốc gia khác có thể ảnh hưởng đến tình hình chính trị và xung đột trong khu vực. Tại châu Á - Thái 18 Bình Dương, chiến lược của Mỹ đối với Trung Quốc, Triều Tiên và các quốc gia Đông Nam Á có thể tác động đến an ninh khu vực và quan hệ kinh tế. - Cuối cùng, các vấn đề văn hóa và xã hội trên toàn thế giới cũng bị ảnh hưởng bởi các chính sách nội địa của tổng thống Mỹ. Chính sách về nhân quyền và thúc đẩy dân chủ của Mỹ có thể ảnh hưởng đến các phong trào xã hội và chính trị tại nhiều quốc gia.

Chính sách di cư và nhập cư của Mỹ cũng có thể tạo ra những thay đổi trong làn sóng di cư quốc tế và ảnh hưởng đến chính sách di cư của các quốc gia khác. Chính vì vậy, bầu cử tổng thống Mỹ không chỉ là sự thay đổi về lãnh đạo trong nước mà còn mang lại những hệ lụy và ảnh hưởng sâu rộng đến nhiều lĩnh vực trên toàn cầu. Các quốc gia và các nhà lãnh đạo thế giới luôn theo dõi sát sao diễn biến và kết quả của bầu cử Mỹ để có thể điều chỉnh chính sách và chiến lược của mình phù hợp với tình hình mới. TỔNG QUAN VỀ HỆ THỐNG THỜI GIAN THỰC Hệ thống thời gian thực là một hệ thống máy tính hoặc mạng lưới thiết bị được thiết kế để xử lý và phản hồi thông tin ngay lập tức khi dữ liệu được thu thập.

Đặc trưng của hệ thống này là khả năng xử lý dữ liệu với độ trễ rất thấp, đáp ứng yêu cầu thời gian thực của các ứng dụng cụ thể. Dữ liệu được thu thập liên tục từ nhiều nguồn khác nhau như cảm biến, thiết bị IoT, hệ thống giao dịch tài chính, hoặc các trang web và ứng dụng. Quá trình thu thập này yêu cầu khả năng kết nối và truyền dữ liệu nhanh chóng, đồng thời đảm bảo tính toàn vẹn và bảo mật của dữ liệu. Sau khi thu thập, dữ liệu cần được xử lý ngay lập tức để trở thành thông tin có giá trị.

Quá trình này có thể bao gồm làm sạch dữ liệu, tích hợp dữ liệu từ nhiều nguồn, và áp dụng các thuật toán phân tích. Hình 2: Giao diện ứng dụng giao thức ăn áp dụng hệ thống thời gian thực 19 Các hệ thống thời gian thực thường sử dụng các công nghệ như phân tích luồng dữ liệu (stream processing) và cơ sở dữ liệu in-memory để xử lý dữ liệu nhanh chóng. Trực quan hóa dữ liệu là một phần quan trọng của hệ thống thời gian thực, giúp biến các kết quả phân tích thành các hình ảnh dễ hiểu, hỗ trợ người dùng nắm bắt thông tin nhanh chóng. Các công cụ trực quan hóa thường sử dụng biểu đồ, đồ thị, bản đồ và bảng điều khiển tương tác (dashboard) để hiển thị dữ liệu theo thời gian thực, giúp người dùng theo dõi và phân tích xu hướng tức thì.

Hệ thống thời gian thực có nhiều ứng dụng trong các lĩnh vực khác nhau như tài chính, y tế, giao thông, và truyền thông xã hội. Trong lĩnh vực tài chính, chúng giúp theo dõi và phân tích các giao dịch tài chính, biến động thị trường; trong y tế, chúng giám sát tình trạng bệnh nhân và các thiết bị y tế; trong giao thông, chúng quản lý lưu lượng giao thông và điều khiển đèn giao thông; và trong truyền thông xã hội, chúng phân tích và phản hồi các tương tác của người dùng. Mặc dù hệ thống thời gian thực mang lại nhiều lợi ích, nhưng cũng phải đối mặt với nhiều thách thức như đảm bảo độ trễ thấp, khả năng mở rộng để xử lý lượng dữ liệu lớn và biến động, và bảo mật dữ liệu khỏi các mối đe dọa an ninh mạng. Nhờ khả năng cung cấp thông tin nhanh chóng và chính xác, hệ thống thời gian thực ngày càng được ứng dụng rộng rãi, hỗ trợ nhiều lĩnh vực trong việc ra quyết định và tối ưu hóa quy trình hoạt động.

20 CHƯƠNG 2: LÝ THUYẾT LIÊN QUAN 1. Khái niệm Phân tích Tình cảm là giải pháp của MeaningCloud để thực hiện phân tích tình cảm đa ngôn ngữ chi tiết của văn bản từ các nguồn khác nhau. Văn bản được cung cấp được phân tích để xác định xem nó có diễn đạt tình cảm tích cực/ tiêu cực/ trung lập không; để làm điều này, cảm nhận cục bộ của các câu khác nhau trong văn bản được xác định và mối quan hệ giữa chúng được đánh giá, kết quả là một giá trị tình cảm toàn cầu cho toàn bộ văn bản. Ngoài cảm nhận ở cấp độ câu và toàn cầu, Phân tích Tình cảm sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến để cũng phát hiện cảm nhận được kết nối với cả thực thể và khái niệm trong văn bản.

Nó cung cấp một tham chiếu trong câu có liên quan và một danh sách các yếu tố phát hiện được với cảm nhận tổng hợp tạo ra từ tất cả các lần xuất hiện của chúng, cũng tính đến các cấu trúc ngữ pháp mà chúng được chứa.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Đồ án tốt nghiệp: Ứng dụng Telegraf và InfluxDB trong dự đoán bầu cử Mỹ theo thời gian thực là một nghiên cứu chuyên sâu về việc sử dụng công nghệ hiện đại để phân tích và dự đoán kết quả bầu cử Mỹ trong thời gian thực. Tài liệu này tập trung vào cách thức tích hợp Telegraf và InfluxDB để thu thập, xử lý và hiển thị dữ liệu một cách nhanh chóng và chính xác. Điều này không chỉ giúp các nhà phân tích chính trị có cái nhìn tổng quan về xu hướng bầu cử mà còn mở ra hướng ứng dụng mới cho các công cụ quản lý dữ liệu thời gian thực. Độc giả sẽ nhận được những hiểu biết sâu sắc về cách áp dụng công nghệ vào các bài toán thực tế, đồng thời khám phá tiềm năng của việc sử dụng dữ liệu lớn trong lĩnh vực chính trị.

Nếu bạn quan tâm đến các phương pháp khai phá dữ liệu và ứng dụng của chúng, hãy tham khảo thêm Luận án tiến sĩ khai phá luật quyết định trên mô hình dữ liệu dạng khối. Tài liệu này sẽ cung cấp cho bạn cái nhìn chi tiết về cách thức khai thác thông tin từ các mô hình dữ liệu phức tạp, mở rộng kiến thức của bạn trong lĩnh vực phân tích dữ liệu.