Thống Kê Khảo Sát Kết Quả Covid-19 Môn Cấu Trúc Rời Rạc

Tài liệu nghiên cứu Cấu trúc rời rạc cho khmt co1007, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên sâu về ., phục vụ nghiên cứu và ứng dụng thực tiễn

Trường đại học

Đại Học Quốc Gia Thành Phố Hồ Chí Minh

Chuyên ngành

Cấu Trúc Rời Rạc

Người đăng

Ẩn danh

Thể loại

bài tập lớn

2021-2022

Phí lưu trữ

30 Point

Mục lục chi tiết

1. Động cơ nghiên cứu

2. Mục tiêu

3. Cơ sở lý thuyết

3.1. Trung bình cộng (giá trị kì vọng)

3.1.1. Ý nghĩa

3.2. Tứ phân vị

3.2.1. Ý nghĩa

3.2.2. Phân loại

3.2.3. Cách thức xác định

3.3. Phương sai - Độ lệch chuẩn

3.3.1. Định nghĩa

3.3.2. Ý nghĩa

3.4. Khoảng tứ phân vị

3.4.1. Ý nghĩa

3.6. Biểu đồ hộp (Box Plot)

3.6.1. Định nghĩa

3.6.2. Ý nghĩa

3.7. Tần số tích lũy - Biểu đồ tích lũy

3.7.1. Định nghĩa

3.7.2. Thiết lập bảng tần số tích lũy

3.7.3. Ý nghĩa

3.8. Đường trung bình động

3.8.1. Định nghĩa

3.8.2. Tính toán giá trị trung bình động đơn giản

3.8.3. Ý nghĩa

3.9. Hệ số tương quan

3.9.1. Hệ số tương quan Pearson

3.9.2. Hỗ quy tuyến tính, phương pháp bình phương cực tiểu

4. Phân tích dữ liệu

4.1. Tập dữ liệu mẫu

4.2. Tiền xử lí

4.2.1. Cài đặt các packages (gói) và source file chứa các hàm tính toán cần thiết

4.2.2. Đọc dữ liệu từ file vào dataframe (khung dữ liệu)

4.2.3. Kiểm tra cấu trúc của tập dữ liệu

5. Kết luận

Tài liệu

Tóm tắt

I. Vai trò của phân tích dữ liệu Covid 19 trong đại dịch

Đại dịch Covid-19 đã tạo ra những thách thức chưa từng có đối với sức khỏe cộng đồng và kinh tế toàn cầu. Trong bối cảnh đó, việc phân tích dữ liệu Covid-19 không chỉ là một công cụ thống kê mà còn là la bàn định hướng cho các quyết sách quan trọng. Thông qua việc thu thập và phân tích số liệu covid-19 hàng ngày, các cơ quan y tế có thể nhận diện các đợt bùng phát, đánh giá mức độ nghiêm trọng của dịch bệnh, và so sánh hiệu quả của các biện pháp can thiệp. Các nghiên cứu khoa học về covid dựa trên dữ liệu thực tế cung cấp những bằng chứng vững chắc về đặc tính của virus, hiệu quả của vaccine, và tác động của các biến thể mới. Phân tích dữ liệu giúp chuyển hóa những con số thô thành thông tin hữu ích, hỗ trợ việc xây dựng các mô hình dự báo dịch và hoạch định chiến lược y tế công cộng một cách khoa học và hiệu quả, góp phần bảo vệ sức khỏe cộng đồng.

1.1. Tầm quan trọng của thống kê số liệu Covid 19

Việc thống kê dữ liệu Covid một cách hệ thống là nền tảng cho mọi nỗ lực chống dịch. Các con số về số ca nhiễm mới, tỷ lệ tử vong covid, và số ca hồi phục không chỉ phản ánh quy mô của đại dịch mà còn giúp xác định các nhóm dân số có nguy cơ cao. Như trong nghiên cứu của Đại học Bách Khoa, việc phân tích các chỉ số này giúp so sánh tình hình khách quan giữa các quốc gia và châu lục. Dữ liệu được cập nhật liên tục cho phép các nhà dịch tễ học theo dõi diễn biến của virus theo thời gian thực, phát hiện sớm các cụm dịch và đưa ra cảnh báo kịp thời. Hơn nữa, những báo cáo Covid-19 chi tiết trở thành nguồn tài liệu quý giá cho các nhà khoa học, giúp đẩy nhanh quá trình nghiên cứu và phát triển các phương pháp điều trị mới.

1.2. Các nguồn dữ liệu Covid 19 uy tín và đáng tin cậy

Để đảm bảo tính chính xác của các phân tích, việc sử dụng nguồn dữ liệu uy tín là yêu cầu bắt buộc. Các tổ chức quốc tế như Tổ chức Y tế Thế giới (WHO), Trung tâm Kiểm soát và Phòng ngừa Dịch bệnh Hoa Kỳ (CDC), và các trường đại học hàng đầu như Johns Hopkins University (JHU) là những nguồn cung cấp dữ liệu toàn cầu đáng tin cậy. Tại Việt Nam, nguồn dữ liệu chính thức đến từ Bộ Y tế. Tài liệu tham khảo cũng chỉ ra nguồn dữ liệu từ 'Our World in Data' (owid/covid-19-data), một kho dữ liệu mở được sử dụng rộng rãi trong cộng đồng nghiên cứu. Việc tổng hợp và đối chiếu số liệu Covid-19 từ nhiều nguồn uy tín giúp giảm thiểu sai sót và mang lại cái nhìn toàn diện hơn về bức tranh đại dịch trên toàn cầu.

1.3. Mục tiêu chính của các nghiên cứu khoa học về Covid

Các nghiên cứu khoa học về Covid hướng đến nhiều mục tiêu cốt lõi. Trước hết là hiểu rõ cơ chế lây truyền và bệnh sinh của virus để phát triển phương pháp phòng ngừa và điều trị. Thứ hai, nghiên cứu tập trung vào việc đánh giá hiệu quả và an toàn của vaccine thông qua dữ liệu tiêm chủng vaccine trên quy mô lớn. Thứ ba là phân tích tác động của các biến thể mới như biến thể Delta và biến thể Omicron đối với khả năng lây nhiễm và mức độ nghiêm trọng của bệnh. Cuối cùng, các nghiên cứu còn khảo sát những ảnh hưởng lâu dài của virus, điển hình là hội chứng hậu covid, nhằm xây dựng các phác đồ chăm sóc và phục hồi chức năng cho bệnh nhân.

II. Thách thức trong phân tích dữ liệu Covid 19 và cách xử lý

Quá trình phân tích dữ liệu Covid-19 đối mặt với không ít thách thức, từ khâu thu thập đến giai đoạn xử lý và diễn giải. Dữ liệu thường không đồng nhất, chứa các giá trị nhiễu, giá trị thiếu (NA), hoặc thậm chí là các giá trị phi logic (ví dụ: số ca nhiễm âm). Báo cáo từ các quốc gia có thể không được cập nhật thường xuyên, dẫn đến sự sai lệch khi tính toán các chỉ số theo thời gian. Nghiên cứu của Đại học Bách Khoa đã chỉ ra tầm quan trọng của giai đoạn tiền xử lý (preprocessing) để đảm bảo chất lượng dữ liệu đầu vào. Việc chuẩn hóa định dạng ngày tháng, xử lý các giá trị bất thường, và lọc bỏ các bản ghi không liên quan là những bước cơ bản nhưng thiết yếu. Vượt qua những thách thức này đòi hỏi một quy trình xử lý dữ liệu chặt chẽ và các phương pháp thống kê phù hợp để kết quả phân tích phản ánh đúng thực tế.

2.1. Vấn đề tiền xử lý Xử lý giá trị thiếu và nhiễu

Dữ liệu thực tế thường không hoàn hảo. Trong tập dữ liệu thống kê Covid, các giá trị âm ở cột new_cases và new_deaths là một ví dụ điển hình về lỗi nhập liệu, cần được chuẩn hóa bằng cách lấy giá trị tuyệt đối. Các giá trị NA (Not Available) xuất hiện do việc báo cáo không thường xuyên, ảnh hưởng trực tiếp đến các phép tính thống kê. Tài liệu gốc đã áp dụng phương pháp loại bỏ các quan sát có giá trị NA ở các thuộc tính quan trọng trước khi tính toán các chỉ số mô tả như trung bình hay phương sai. Việc xử lý cẩn thận các điểm dữ liệu nhiễu và thiếu này là bước đầu tiên để đảm bảo độ tin cậy của các kết quả nghiên cứu.

2.2. Sự khác biệt trong phương pháp thu thập dữ liệu

Mỗi quốc gia và khu vực có thể có những quy định và năng lực báo cáo khác nhau, dẫn đến sự không nhất quán trong số liệu Covid-19 toàn cầu. Tần suất báo cáo, định nghĩa về ca nhiễm hay ca tử vong, và khả năng xét nghiệm trên diện rộng đều ảnh hưởng đến chất lượng dữ liệu. Ví dụ, một số khu vực chỉ báo cáo số liệu hàng tuần thay vì hàng ngày. Điều này tạo ra các đỉnh và đáy giả trong biểu đồ Covid-19 theo ngày. Để khắc phục, các nhà phân tích thường sử dụng các kỹ thuật làm mịn dữ liệu như tính trung bình động 7 ngày để có cái nhìn chính xác hơn về xu hướng thực sự của dịch bệnh, giảm thiểu tác động của sự bất thường trong báo cáo.

2.3. Lọc và chuẩn hóa dữ liệu từ các nguồn không đồng nhất

Tập dữ liệu gốc từ OWID chứa cả dữ liệu của từng quốc gia lẫn dữ liệu tổng hợp theo châu lục hoặc nhóm thu nhập (ví dụ: 'Africa', 'Low income'). Nếu không được lọc cẩn thận, các bản ghi tổng hợp này có thể gây ra lỗi tính toán kép, làm sai lệch kết quả phân tích dịch tễ học. Nghiên cứu đã thực hiện một bước quan trọng là xác định và loại bỏ các thực thể không phải quốc gia dựa trên các thuộc tính như iso_code và continent. Quá trình này đảm bảo rằng tập dữ liệu cuối cùng chỉ chứa các quan sát ở cấp độ quốc gia, giúp cho việc so sánh và tổng hợp trở nên chính xác và có ý nghĩa hơn.

III. Phương pháp thống kê mô tả Nền tảng phân tích Covid 19

Thống kê mô tả là bước khởi đầu không thể thiếu trong mọi quy trình phân tích dữ liệu Covid-19. Các phương pháp này giúp tóm tắt và khái quát hóa những đặc điểm chính của một tập dữ liệu lớn và phức tạp. Thay vì chỉ nhìn vào một biển số liệu, các nhà phân tích sử dụng các tham số như giá trị trung bình, trung vị, phương sai và độ lệch chuẩn để hiểu rõ hơn về xu hướng trung tâm và mức độ phân tán của số liệu Covid-19. Tài liệu nghiên cứu đã nhấn mạnh rằng, các giá trị này cung cấp cái nhìn tổng quan về mức độ nghiêm trọng của dịch bệnh tại một quốc gia. Việc trực quan hóa dữ liệu thông qua các công cụ như biểu đồ hộp (box plot) cũng là một phần quan trọng của thống kê mô tả, giúp nhanh chóng phát hiện các giá trị ngoại lệ (outliers) và so sánh sự phân bổ dữ liệu giữa các nhóm khác nhau.

3.1. Phân tích xu hướng trung tâm Trung bình và trung vị

Giá trị trung bình cộng (mean) là một chỉ số quen thuộc, đại diện cho số ca nhiễm hoặc tử vong trung bình trong một khoảng thời gian. Tuy nhiên, khi dữ liệu có sự phân tán lớn hoặc chứa các giá trị ngoại lệ (ví dụ: một ngày có số ca nhiễm tăng đột biến), giá trị trung bình có thể không phản ánh chính xác điểm trung tâm. Trong trường hợp này, trung vị (median hay tứ phân vị thứ hai Q2) trở thành một thước đo hiệu quả hơn. Trung vị là giá trị nằm chính giữa của tập dữ liệu đã được sắp xếp, ít bị ảnh hưởng bởi các giá trị bất thường. Nghiên cứu chỉ ra rằng, việc so sánh trung bình và trung vị giúp đánh giá mức độ đối xứng của phân phối số ca nhiễm mới.

3.2. Đo lường độ phân tán Phương sai và độ lệch chuẩn

Phương sai (variance) và độ lệch chuẩn (standard deviation) là hai tham số đo lường mức độ phân tán của các điểm dữ liệu xung quanh giá trị trung bình. Một giá trị phương sai lớn cho thấy số liệu Covid-19 biến động mạnh, các giá trị hàng ngày có thể rất khác nhau. Ngược lại, phương sai nhỏ cho thấy tình hình dịch bệnh ổn định hơn. Trong phân tích, khi độ lệch chuẩn lớn, giá trị trung bình trở nên kém tin cậy hơn và trung vị thường được ưu tiên sử dụng để đại diện cho xu hướng trung tâm. Việc hiểu rõ độ phân tán là rất quan trọng để tránh đưa ra những kết luận vội vàng dựa trên một vài con số trung bình đơn lẻ.

3.3. Trực quan hóa dữ liệu qua biểu đồ hộp Box Plot

Biểu đồ hộp (box plot) là một công cụ trực quan hóa dữ liệu mạnh mẽ, thể hiện súc tích năm giá trị quan trọng: giá trị nhỏ nhất, tứ phân vị thứ nhất (Q1), trung vị (Q2), tứ phân vị thứ ba (Q3), và giá trị lớn nhất. Nó cho phép các nhà phân tích nhanh chóng nắm bắt được độ phân tán, độ lệch và phát hiện các giá trị ngoại lệ (outliers) trong dữ liệu thống kê Covid. Như được minh họa trong tài liệu gốc, việc sử dụng biểu đồ hộp để so sánh số ca nhiễm giữa Australia, New Caledonia và New Zealand đã trực quan hóa sự khác biệt rõ rệt về quy mô và sự biến động của dịch bệnh ở mỗi quốc gia.

IV. Kỹ thuật phân tích Covid 19 Làm mịn và dự báo xu hướng

Để vượt qua những biến động ngắn hạn và nhiễu trong báo cáo hàng ngày, các kỹ thuật phân tích nâng cao đóng vai trò quan trọng trong việc làm rõ xu hướng thực sự của đại dịch. Phương pháp đường trung bình động (moving average) là một công cụ hiệu quả để làm "mịn" biểu đồ Covid-19, giúp lọc bỏ các đỉnh nhọn bất thường và làm nổi bật xu hướng dài hạn. Bên cạnh đó, việc phân tích tương quan giúp khám phá mối liên hệ tiềm ẩn giữa các biến số, chẳng hạn như giữa số ca nhiễm mới và tỷ lệ tử vong covid. Các kỹ thuật này không chỉ giúp diễn giải dữ liệu quá khứ một cách chính xác hơn mà còn là cơ sở để xây dựng các mô hình dự báo dịch đơn giản, cung cấp những ước tính ban đầu về diễn biến dịch bệnh trong tương lai gần. Đây là những bước phân tích sâu hơn, mang lại giá trị thực tiễn cho công tác y tế công cộng.

4.1. Ứng dụng đường trung bình động để lọc nhiễu số liệu

Đường trung bình động, đặc biệt là trung bình động 7 ngày, là một kỹ thuật được sử dụng rộng rãi trong phân tích dịch tễ học. Bằng cách lấy trung bình số ca bệnh trong 7 ngày gần nhất, phương pháp này giúp làm phẳng các biến động do việc báo cáo không đều (ví dụ: số liệu cuối tuần thường thấp hơn). Tài liệu nghiên cứu đã ứng dụng kỹ thuật này để tạo ra các biểu đồ xu hướng mượt mà hơn, phản ánh chính xác hơn tốc độ lây lan của dịch. Việc làm mịn dữ liệu này cực kỳ hữu ích để xác định các đỉnh dịch thực sự và đánh giá liệu các biện pháp can thiệp có đang làm chậm lại sự lây lan hay không, cung cấp một cái nhìn ổn định hơn về tác động kinh tế của Covid và xã hội.

4.2. Khám phá mối quan hệ qua hệ số tương quan Pearson

Hệ số tương quan Pearson là một chỉ số thống kê đo lường mức độ tương quan tuyến tính giữa hai biến số, có giá trị từ -1 đến +1. Trong bối cảnh Covid-19, nó có thể được dùng để kiểm tra mối quan hệ giữa số ca nhiễm mới và số ca tử vong sau một khoảng thời gian trễ nhất định. Một hệ số tương quan dương và gần bằng 1 cho thấy khi số ca nhiễm tăng, số ca tử vong cũng có xu hướng tăng theo. Nghiên cứu đã thực hiện tính toán này để xem xét mối liên hệ giữa hai chỉ số tại các quốc gia được phân tích. Tuy nhiên, cần lưu ý rằng tương quan không đồng nghĩa với quan hệ nhân quả; nhiều yếu tố khác như năng lực y tế hay sự xuất hiện của các biến thể Omicron cũng ảnh hưởng đến tỷ lệ tử vong Covid.

4.3. Xây dựng mô hình dự báo dịch bằng hồi quy tuyến tính

Hồi quy tuyến tính là một phương pháp cơ bản để mô hình hóa mối quan hệ giữa một biến phụ thuộc (ví dụ: số ca tử vong) và một hoặc nhiều biến độc lập (ví dụ: số ca nhiễm). Bằng cách tìm ra đường thẳng phù hợp nhất với tập dữ liệu, mô hình này có thể được sử dụng để đưa ra dự đoán. Tài liệu gốc đã giới thiệu phương pháp bình phương cực tiểu để tìm ra các hệ số tối ưu cho đường thẳng hồi quy. Mặc dù diễn biến dịch bệnh trong thực tế phức tạp hơn nhiều so với một đường thẳng, mô hình dự báo dịch dựa trên hồi quy tuyến tính vẫn cung cấp một công cụ hữu ích để ước tính xu hướng ngắn hạn và hiểu rõ hơn về mối quan hệ định lượng giữa các yếu tố trong đại dịch.

V. Kết quả nghiên cứu Covid 19 Phân tích ca nhiễm tử vong

Ứng dụng các phương pháp thống kê vào tập dữ liệu thực tế đã mang lại những phát hiện quan trọng về tình hình dịch bệnh. Nghiên cứu điển hình trên số liệu Covid-19 của Australia, New Caledonia và New Zealand cho thấy sự khác biệt đáng kể về quy mô và diễn biến dịch. Australia ghi nhận số ca nhiễm và tử vong cao hơn nhiều so với hai quốc gia còn lại, với độ phân tán dữ liệu rất lớn. Phân tích theo thời gian cho thấy các đợt bùng phát dịch thường trùng với các sự kiện toàn cầu, như sự xuất hiện của các biến thể mới. Các kết quả nghiên cứu chỉ ra rằng, mặc dù số ca nhiễm tăng vọt trong làn sóng biến thể Omicron, tỷ lệ tử vong Covid lại không tăng tương ứng, có thể do độc lực của biến thể thấp hơn và hiệu quả của dữ liệu tiêm chủng vaccine. Những phân tích này cung cấp bằng chứng cụ thể về đặc điểm dịch tễ học tại từng khu vực.

5.1. So sánh số liệu Covid 19 giữa các quốc gia điển hình

Phân tích so sánh giữa Australia, New Caledonia và New Zealand cho thấy tình hình dịch bệnh rất khác nhau. Dựa trên các chỉ số thống kê mô tả, Australia có giá trị trung vị về số ca nhiễm mới và tử vong cao hơn đáng kể. Biểu đồ hộp cũng cho thấy sự phân tán dữ liệu của Australia lớn hơn nhiều, phản ánh các đợt bùng phát dịch nghiêm trọng hơn. Ngược lại, New Zealand có dữ liệu ít phân tán hơn, cho thấy tình hình dịch được kiểm soát tương đối ổn định hơn trong giai đoạn đầu. Những so sánh này không chỉ cho thấy mức độ ảnh hưởng của dịch bệnh mà còn có thể gợi ý về sự khác biệt trong hiệu quả của các chính sách y tế công cộng được áp dụng tại mỗi quốc gia.

5.2. Tác động của các biến thể Delta và Omicron qua dữ liệu

Dữ liệu theo thời gian phản ánh rõ rệt tác động của các biến thể mới. Làn sóng dịch do biến thể Delta gây ra thường đi kèm với sự gia tăng cả về số ca nhập viện và tỷ lệ tử vong Covid. Tuy nhiên, các báo cáo Covid-19 trong giai đoạn bùng phát của biến thể Omicron cho thấy một kịch bản khác: số ca nhiễm tăng vọt lên mức kỷ lục nhưng số ca tử vong lại tăng chậm hơn đáng kể. Sự thay đổi này được cho là kết quả của sự kết hợp giữa độc lực thấp hơn của biến thể, khả năng miễn dịch từ việc tiêm chủng và từng mắc bệnh. Phân tích sự khác biệt này là chìa khóa để điều chỉnh các chiến lược ứng phó phù hợp với từng giai đoạn của đại dịch.

5.3. Báo cáo Covid 19 Tỷ lệ tử vong và số ca hồi phục

Phân tích tỷ lệ tử vong covid (Case Fatality Rate - CFR) và tỷ lệ hồi phục là những chỉ số quan trọng để đánh giá mức độ nghiêm trọng của dịch bệnh và hiệu quả của hệ thống y tế. Các báo cáo Covid-19 chi tiết cho phép tính toán các chỉ số này theo từng nhóm tuổi, giới tính, hoặc tình trạng tiêm chủng. Kết quả cho thấy tỷ lệ tử vong thấp hơn đáng kể ở những người đã tiêm đủ liều vaccine. Theo dõi số ca hồi phục cũng rất quan trọng, đặc biệt trong bối cảnh ngày càng có nhiều nghiên cứu về hội chứng hậu covid. Những dữ liệu này cung cấp thông tin cần thiết để phân bổ nguồn lực y tế và lập kế hoạch chăm sóc dài hạn cho bệnh nhân.

VI. Phân tích dữ liệu Covid 19 Bài học và định hướng tương lai

Đại dịch Covid-19 đã khẳng định vai trò trung tâm của dữ liệu trong việc quản lý khủng hoảng y tế công cộng. Những bài học rút ra từ việc phân tích dữ liệu Covid-19 sẽ là di sản quý báu cho tương lai. Việc xây dựng một hệ thống thu thập và chia sẻ dữ liệu y tế toàn cầu, minh bạch và theo thời gian thực là yêu cầu cấp thiết. Các kỹ thuật trực quan hóa dữ liệu và mô hình hóa không chỉ giúp các nhà khoa học mà còn giúp công chúng hiểu rõ hơn về các rủi ro và biện pháp phòng ngừa. Trong tương lai, phân tích dịch tễ học dựa trên dữ liệu lớn (Big Data) và trí tuệ nhân tạo (AI) sẽ ngày càng trở nên quan trọng, giúp phát hiện sớm các mầm bệnh mới, dự báo các đại dịch tiềm tàng và xây dựng một hệ thống sức khỏe cộng đồng vững mạnh và linh hoạt hơn, sẵn sàng đối phó với những thách thức trong tương lai.

6.1. Bài học kinh nghiệm từ việc trực quan hóa dữ liệu

Một trong những bài học lớn nhất là sức mạnh của việc trực quan hóa dữ liệu. Các biểu đồ Covid-19, bản đồ nhiệt và đồ thị xu hướng đã biến những con số phức tạp thành những thông điệp trực quan, dễ hiểu. Chúng giúp truyền đạt thông tin về nguy cơ lây nhiễm một cách hiệu quả, thúc đẩy sự tuân thủ các biện pháp phòng dịch của người dân. Nghiên cứu gốc đã sử dụng rất nhiều biểu đồ đường và biểu đồ cột để minh họa sự biến động của số ca nhiễm mới và tử vong theo thời gian, cho thấy rõ các làn sóng dịch. Kinh nghiệm này nhấn mạnh sự cần thiết của việc đầu tư vào các công cụ và kỹ năng trực quan hóa trong lĩnh vực y tế công cộng.

6.2. Nâng cao hệ thống y tế công cộng dựa trên kết quả phân tích

Các kết quả nghiên cứu và phân tích dữ liệu phải được chuyển hóa thành hành động cụ thể để cải thiện hệ thống sức khỏe cộng đồng. Dữ liệu về sự quá tải của bệnh viện có thể định hướng cho việc xây dựng thêm các bệnh viện dã chiến. Dữ liệu tiêm chủng vaccine có thể giúp xác định các khu vực có tỷ lệ bao phủ thấp cần được ưu tiên. Phân tích về tác động kinh tế của Covid giúp chính phủ đưa ra các gói hỗ trợ phù hợp. Việc ra quyết định dựa trên bằng chứng (evidence-based decision making) là chìa khóa để sử dụng nguồn lực một cách hiệu quả nhất và giảm thiểu thiệt hại do đại dịch gây ra.

6.3. Tương lai của phân tích dịch tễ học trong sức khỏe cộng đồng

Tương lai của phân tích dịch tễ học sẽ gắn liền với công nghệ. Việc tích hợp dữ liệu từ nhiều nguồn khác nhau, bao gồm dữ liệu gen của virus, dữ liệu di chuyển của người dân và dữ liệu từ các thiết bị đeo thông minh, sẽ mở ra những khả năng mới. Các mô hình dự báo dịch sẽ trở nên phức tạp và chính xác hơn nhờ vào học máy và AI. Những công nghệ này có thể giúp dự báo sự xuất hiện của các biến thể mới, mô phỏng hiệu quả của các biện pháp can thiệp khác nhau, và cá nhân hóa các khuyến nghị y tế. Đầu tư vào năng lực phân tích dữ liệu chính là đầu tư cho khả năng chống chịu của xã hội trước các mối đe dọa sức khỏe trong tương lai.

09/07/2025

Bạn đang xem trước tài liệu:

Cấu trúc rời rạc cho khmt co1007

Tải đầy đủ

Trích đoạn nội dung tài liệu

DAI HOC QUOC GIA THANH PHO HO CHI MINH TRUONG DAI HOC BACH KHOA KHOA KHOA HOC & KY THUAT MAY TINH BK TP.HCM CAU TRUC ROT RAC CHO KHMT (CO1007) Thống kê khảo sát kết quả Covid-19 môn Cấu trúc rởi rạc GVHD : Huỳnh Tương Nguyên Nguyễn Ngọc LỄ SV thực hiện : Nguyễn Hoài Khang - 2111453 Hà Văn Châu - 2110054 Vũ Ngọc Thuận - 2112394 Đỗ Nguyễn An Huy - 2110193 Dương Trọng Khôi - 2113786 Tp. H 6Chi Minh, Thang 04/2022 Muc luc 1 Động cơ nghiên cứu 2 Mục tiêu 3 Cơ sở lý thuyết 3.1 Trung bình cộng (giá trị kì vọng) .Ặ Q Q HQ HH gà kg kg ky ky ky 3. Cách thức xác định.3 Phương sai - Độ lệch chuẩn.4 Khoảng tứ phân vị.41 Định nghĩa 342 Ý nghĩa. v gà xxx xxx xxx xxx xà 3.1 Định nghĩa 352 Ý nghĩa.

QQ Q Q Q Q TQ ng. v gà xxx xxx xxx xxx xà 3.6 Biểu đôhộp (Box Plo0 3.7 Tần số tích lũy - Biểu đ ồ tích lũy.2 Thiết lập bảng tần số tích lũy. Truong Dai Hoc Bach Khoa Tp.H% Chi Minh Khoa Khoa Học & Kỹ Thuật Máy Tính EcNhg. Đường trung bình động 3.

Tính toán giá trị trung bình động đơn giản.Q QQ Q Q Q Q Quà xxx xxx xxx xxx xà 8 3. Hệ số tương quan .1 Hệ số tương quan Pearson .2 H@ quy tuyến tính, phương pháp bình phương cực tiểu 9 4 Phân tích dữ liệu 11 4.1 Tập dữ liệu mẫu 42 Tifsxuli .1 Cài đặt các packages (gói) va sourc file chứa các hàm tính toán cần thiết .2 Đọc dữ liệu từ file vào dataframe (khung dữ liệu).23 Kiém tra cấu trúc của tập dữ liệu mẫu. Chuẩn hóa dữ liệu 4.1 Chuẩn hóa kiểu dữ liệu của thuộc tính date (ngày-giở) .2 Xử lí các giá tri 4m trong new_cases va new_deaths .3 Lọc ra những dữ liệu không phải là quốc gia 13 44 Dữ liệu được phân công riêng .5 Kết quả phân tích 5_ Kết luận 82 Tài liệu 82 Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (COI007) - Niên khóa 2021-2022 Trang 2/83 Truong Dai Hoc Bach Khoa Tp.H% Chi Minh Khoa Khoa Học & Kỹ Thuật Máy Tính 1 Động cơ nghiên cứu Bénh Corona do virus gây ra còn gọi là COVID-19 đã tạo ra những tác động tiêu cực đến nềầi đời sống của cư dân trên thề giới. Các đợt bùng phát của COVIDI9 hay những biến thể virus đã mang đến những thách thức chưa từng có và được dự báo sẽ có tác động đáng kể đến sự phát triển kinh tế.

Nhiềi thông tin, tin tức về tình hình dịch bệnh cũng như dữ liệu về COVID-19 được phổ biến rộng rải trong đời sống hay trên internet để giúp cho mọi người quan sát, phân tích, nghiên cứu đươc cập nhật hàng ngày. Phân tích & thống kê dữ liệu về COVID19 giúp cho ta thấy được số ca nhiễm bệnh, tử vong của một quốc gia, so sánh tình trạng của các quốc gia trong khu vực hay diễn biến dịch trên thế giới. Từ số liệu được báo cáo mơi chúng ta muốn biết các ca nhiễm bệnh có xu hướng tăng lên hay giảm xuống quy mô các đợt bùng phát ở mỗi quốc gia. Dữ liệu dùng cho bài tập lớn có tham khào từ: https://github.com/owid/covid- 19-data/blob/master/public/data/README.

2_ Mục tiêu Trong bài tập lớn này, chúng ta sẽ bắt đầi với các bài toán thống kê đơn giản từ những dữ liệu được cung cấp. Qua đó, tìm ra những con số thú vị, có ý nghĩa đối với các dữ liệu thực tế từ tình hình dịch corona. Những kết quả tìm ra sẽ là bước khởi đầi cho việc khai phá nguồn dữ liệu của hệ thống sau này, nhằm đạt tới mục tiêu nâng cao kỹ năng lập trình, kỹ năng giải quyết vấn đề cho người học, kỹ năng làm việc nhóm cũng như hướng tới mục tiêu cao hơn là đam mê trong làm việc, học tập và nghiên cứu. 3 Cơ sở lý thuyết Trong thống kê, dữ liệu mà ta làm việc cùng là vô cùng lớn và nếu chổ nhìn vào dữ liệu nói chung thì rất khó để có thể rút ra được ý nghĩa tử những con số đó.

Vì vậy, người ta thường tính toán một số giá trị để có thể khái quát được dữ liệu. Ta sẽ cùng tìm hiểu một vài giá trị có ý nghĩa đối với thống kê.1 Trung bình cộng (giá trị kì vọng) 3.12 Ý nghĩa Trung bình cộng (hay giá trị trung bình, giá trị * Trong phân tích dữ liệu: giúp ta hình dùng được kì vọng) là một khái niệm vô cùng gần gũi đối với khoa điểm trung tâm của tập giá trị. học và đời sống hàng ngày. Giả sử ta có một tập D gần ¬ `.

¬ k oid trị _ ở, s Trong phân tích tình hình dịch Covid: giá trị giá trị XỊ, X¿,. Khí đó, ` anes Sat a x ` A » `. kì vọng có thể được xem là đại diện cho số lượng trung bình cộng của D là:. Ạ ca nhiễm hoặc tử vong của một quốc gia trong một khoảng thời gian cụ thể Từ đó đánh giá mức độ * nghiêm trọng, tình hình của dịch Covid, cũng như oO 5 (1) so sánh khách quan tình hình dịch giữa các quốc Mean(D)= a gia, các châu lục.

Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (COI007) - Niên khóa 2021-2022 Trang 3/83 Truong Dai Hoc Bách Khoa Tp.H% Chi Minh Khoa Khoa Hoc & Kỹ Thuật Máy Tính 3.2 Tứ phân vị 3.23 Ý nghĩa Trong thống kê mô tả, tứ phân vị là một loại tập * Trong tính toán thống kê: ba tứ phân vị trên lượng tử chia số lượng điểm dữ liệu thành bốn phần có chia một tập hợp dữ liệu (đã sấp xếp theo trật tự kích thước bằng nhau hoặc nhỏ hơn. Dữ liệu phải được từ bé đến lớn) thành bốn phần có số lượng quan sấp xếp theo thứ tự tử nhỏ nhất đến lớn nhất để tính sit d@& bang nhau. Nó cung cấp thông tin về cả toán tứ phân vị. trung tâm và sự phân tán của dữ liệu.

Tứ phân vị thứ nhất và thứ ba cung cấp thông tỉn về mức độ chênh lệch lớn như thế nào và liệu tập dữ liệu có 3.2 Phân loại bị lệch v`ê một phía hay không. » Trong phân tích tình hình dịch Covid: tứ Có 3 tứ phân vị chính, đó là: phân vị thứ hai (Q; hay trung vị) có thể được sử dụng để thay cho giá trị kì vọng thành trung tâm *° Tứ phân vị thứ nhất (Q¡): là số chính giữa giữa của tập dữ liệu, trong trưởng hợp số liệu được báo số nhỏ nhất (minimun) và số trung vi (median) cáo có sự phân tán cao (độ lệch chuẩn lớn) để đánh của tập dữ liệu Nó còn được gọi là phần tư thực giá trình hình dịch bệnh. nghiệm thấp hơn hoặc thứ 25, vì 25% dữ liệu nằm dưới điểm này. *° Tứ phân vị thứ hai (Q;): là giá trị trung vị của một tập dữ liệu; do đó 50% dữ liệu nằm dưới điểm này.

*° Tứ phân vi tht ba (Q;): là giá trị giữa giữa giá trị trung vị (median) và số lớn nhất (maximun) của tập dữ liệu. Nó được gọi là phần tư thực nghiệm QI Y Q3 trên hoặc thứ 75, vì 75% dữ liệu nằm dưới điển Me này. Tứ phân vi 3.4 Cách thức xác định Có nhi quy chuẩn, phương thức để tính các tứ phân vị, mỗi phương thức có thể cho ra kết quả rất khác nhau, nhưng chúng đồi được công nhận là đúng. Một trong những cách thức tính toán tứ phân vị như sau: giả sử có một tap D gm k gid tri di duo sắp xếp: D = {x), x2, very Xk } ¢ Tinh tứ phân vi thứ hai: 3 Néu klé thì: Q;(D) = Median(D) = xe: 3 Nếu k chẵn thì: Q.(D) = Median(D) = 5% +X) s Tính tứ phân vị thứ nhất và thứ ba: 1.

Tìm trung vị (tứ phân vị thứ hai Qo) 3 Nếu k lẻ thì loại bỏ trung vị ra khoải tập dữ liệu. Chia tập dữ liệu còn lại ra hai phần bằng nhau. 3 Nếu k chẵn thì chia tập dữ liệu gốc ra hai phầi bằng nhau 2. Tứ phân vị thứ nhất Q; là trung vị của phần dữ liệu có giá trị thấp hơn.

Tứ phân vị thu ba Q; la trung vị của phần dữ liệu có giá trị cao hơn. Sử dụng kí hiệu toán học, ta có thể viết: Q;(D)=Mcdian({xIlx < Median(D)}) (2) Q3(D)=M edian({xlx > Median(D)}) (3) Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (COI007) - Niên khóa 2021-2022 Trang 4/83 Truong Dai Hoc Bach Khoa Tp.H% Chi Minh Khoa Khoa Học & Kỹ Thuật Máy Tính Ví dụ 1: Cho một tập đã được sap xếp 6, 7, 15, 36, Ví dụ 2: Cho một tập đã được sấp xếp 7, 15, 36, 39, 39, 40, 41, 42, 43, 47, 49; có k = II. * Tính tứ phân vị thứ 2: Q; =xe= 40. « Tính tứ phân vị thứ 2: Q;y=-#‡*+ = 37.

* Chia tap dữ liệu ra hai phần bằng nhau sau khi đã loại trung vị » Chia tập dữ liệu ra hai phần bằng nhau: +Dị ={6,7,15,36. +Dị ={7,15,36} và Qị = 15.3 Phuong sai - Độ lệch chuẩn 3.1 Định nghĩa Salary Distribution Giá trị trung bình cộng cho ta biết được các giá trị Mean. trong tập dữ liệu phân bố quanh một điểm trung tâm nào, nhưng phương sai và độ lệch chuẩn cho ta biết được các giá trị đó phân bố như thế nào quanh điểm trung tâm. 7” Ễ Phương sai được định nghĩa là trung bình của bình — A8 phương khoảng cách của mỗi điểm dữ liệu tới điểm trung bình (giá trị kỳ vọng- trung bình cộng).

sọ i=k H_(¡~ Mean(Ð))? P PP PSS V(D) = o— salary Hình 3. Tập dữ liệu có phương sai nhỏ, các các điển Độ lệh chuẩn được định nghĩa là căn bậc hai cla ty lê, phan bố gần giá trị kì vọng (mean) nên dùng giá phương sai — trị kì vọng để mô tả (đại diện) cho trung tâm tập dữ liệu. Std(D) = O, (D) Salary Distribution Median Mean ' ' 300 ' 1 343.2 Ý nghĩa * Trong tính toán thống kê : phương sai càng lớn thì các giá trị có xu hướng phân bố càng xa quanh điểm kì vọng, giá trị kì vọng càng mô tả kém chính xác về điểm trung tâm. Ngược lai, phương sai càng h — nhỏ thì các điểm dữ liệu càng phân bố gần điểm ng kì vọng, giá trị kì vọng càng mô tả chính xác điển : : " Salary na.

trung tâm của tập dữ liệu. Tập dữ liệu có phương sai lớn, các các điển Trong phân tích tinh hinh dich bệnh: khi dữ liệu phân bố xa giá trị kì vọng nên dùng trung vị phương sai lớn, nên dùng trung vị (Q;) để làn(median) để mô tả (đại diện) cho trung tâm tập dữ liệu.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chắc chắn rồi, với vai trò là một chuyên gia SEO, tôi sẽ tóm tắt tài liệu và kết nối các chủ đề một cách tự nhiên để thu hút và giữ chân người đọc.

Tài liệu "Phân Tích Dữ Liệu Covid-19: Thống Kê và Kết Quả Nghiên Cứu" cung cấp một góc nhìn toàn diện và dựa trên bằng chứng về đại dịch Covid-19. Bằng cách tổng hợp các số liệu thống kê quan trọng và kết quả từ nhiều nghiên cứu, tài liệu này giúp người đọc hiểu sâu sắc về quy mô, tốc độ lây lan và các tác động của virus. Đây là nguồn thông tin vô giá cho bất kỳ ai muốn nắm bắt bức tranh toàn cảnh của cuộc khủng hoảng y tế toàn cầu này thông qua lăng kính của khoa học dữ liệu.

Để mở rộng kiến thức và có cái nhìn đa chiều hơn về cách các phương pháp nghiên cứu được áp dụng trong y học, bạn có thể khám phá thêm các tài liệu chuyên sâu khác. Ví dụ, việc tìm hiểu về các đặc điểm dịch tễ và hiệu quả của các biện pháp can thiệp cộng đồng đối với một bệnh truyền nhiễm khác sẽ mang lại một góc nhìn so sánh hữu ích, được trình bày chi tiết trong Luận văn một số đặc điểm dịch tễ và hiệu quả can thiệp cộng đồng phòng chống bệnh sốt xuất huyết dengue tại hai huyện tỉnh bến tre. Nếu bạn quan tâm đến khía cạnh công nghệ và các kỹ thuật phân tích dữ liệu hiện đại, tài liệu Luận văn nghiên cứu một số thuật toán học máy và ứng dụng trong phân loại bệnh sẽ là một lựa chọn tuyệt vời để đi sâu vào các thuật toán tiên tiến đang được ứng dụng. Ngoài ra, để hiểu cách các cơ sở y tế phân tích mô hình bệnh tật tổng quan nhằm cải thiện chất lượng khám chữa bệnh, bạn không nên bỏ qua nghiên cứu thực tiễn trong Luận văn khảo sát thực trạng cải tiến đánh giá và phân tích mô hình bệnh tật theo phương pháp phân tích liều xác định trong ngày ddd tại bệnh viện quận 11 trong năm 2017. Mỗi tài liệu này đều là một cánh cửa mở ra những kiến thức chuyên ngành giá trị, giúp bạn làm giàu thêm sự hiểu biết của mình.

#Đại học Bách Khoa

#hồi quy tuyến tính

#dữ liệu y tế

#phương pháp thống kê

#tiền xử lý dữ liệu

#cấu trúc rời rạc

Chủ đề

Phân tích dữ liệu y tế

Cơ sở lý thuyết thống kê

Ứng dụng thống kê dịch tễ học

Thống kê tình hình dịch Covid-19