CHƯƠNG 1 NHỮNG VẤN ĐỀ CƠ BẢN CỦA THỐNG KÊ SINH HỌC MH18- 01 Giới thiệu: Giới thiệu một vài vấn đề, khái niệm cơ bản để hiểu rỏ hơn về thống kê, thí nghiêm. Thực hiện được các phép thử trong thí nghiệm trong chăn nuôi,thú y. Mục tiêu: - Kiến thức: Hiểu được một số vấn đề cơ bản nhất của thống kê sinh học làm cơ sở cho môn học phương pháp thí nghiệm. - Kỹ năng: Thực hiện đúng một các phương pháp cơ bản nhất của thống kê sinh học trong phương pháp thí nghiệm.
- Năng lực tự chủ và trách nhiệm: Học tập nhiêm túc, sáng tạo; áp dụng kiến thức, kỷ năng đã học để ứng dụng cơ bản thống kê sinh học trong phương pháp thí nghiệm một cách hiệu quả cao, tránh sai sót. Một số khái niệm cơ bản 1. Tổng thể (n ≥ 30) Tổng thể là tập hợp tất cả các đối tượng như người, vật, sự vật.có chung một số tính chất nhất định nào đó mà nhà nghiên cứu cần khảo sát. Tổng thể là có thực và có thể liệt kê ra.
Ví dụ số heo nái trong các trại chăn nuôi công nghiệp ở phía Nam. Nhưng có cũng những số liệu chỉ giả thiết và không thể liệt kê được như số heo nái hiện có ở Việt Nam. Đặc trưng của tổng thể là rất lớn, thậm chí là vô cùng lớn. Tổng thể được miêu tả bằng các tham số của tổng thể.
- Trung bình tổng thể = µ - Phương sai tổng thể = σ2 Tổng thể thường vô hạn nên ta phải chọn một số phần tử của tổng thể để nghiên cứu rồi từ các giá trị đặc trưng của quần thể này ta suy đoán về các thông số của tổng thể. Công việc này là nghiên cứu trên một số mẫu đại diện cho tổng thể. Một tổng thể có N phần tử: N = {𝑥1 , 𝑥2 , 𝑥3 , … 𝑥𝑛 } Với N: số lượng phần tử của tổng thể hay kích thước của tổng thể. x: là giá trị của những phần tử mà ta khảo sát.
Mẫu (n<30) Chúng ta có thể chọn một mẫu (có dung lượng mẫu là n) từ tổng thể một cách ngẫu nhiên. Mẫu có n = 20 từ tổng thể có N=1000. Mẫu n được chọn làm đại diện cho một tổng thể, nhưng cách chọn mẫu này không có gì đảm bảo là đã chọn được một mẫu đại diện. Vì vậy muốn có độ tin cậy cao cần phải có sự lặp lại nhiều lần trọng việc chọn mẫu đại diện.
Nghiên cứu mẫu đại diện sẽ dễ dàng hơn, nhanh chóng hơn và ít tốn kém hơn nghiên cứu cả một tổng thể. (n<<N), các tham số của mẫu: - Trung bình mẫu = → Trung bình tổng thể = µ - Phương sai mẫu = s2 → Phương sai tổng thể = σ2 Từ các số đo của mẫu ta có thể sử dụng các giá trị đó để ước tính cho quần thể - Trung bình mẫu = - Phương sai mẫu = s2 n = {𝑥1 , 𝑥2 , 𝑥3 , … 𝑥𝑛 } với n: số lượng phần tử của mẫu khảo sát. x: là giá trị của những phần tử mà ta khảo sát. Mục đích của những nghiên cứu là muốn biết các thông tin của tổng thể.
Tuy nhiên do tổng thể quá lớn, chúng ta không thể quan sát hết các phần tử của tổng thể được nên các nhà nghiên cứu mới tiến hành khảo sát một số phần tử đại diện cho tổng thể. Công việc này gọi là ‘lấy mẫu’. Điều kiện để mẫu có thể đại diện cho tổng thể: Các phần tử của mẫu phải được chọn ngẫu nhiên và việc chọn mẫu phải đảm bảo tính độc lập. Tính trạng Tính trạng kiểu hình, hay tính trạng (Trait, character) là một biến thể đặc trưng về kiểu hình của một sinh vật có thể do di truyền, do môi trường hoặc là sự kết hợp của cả hai yếu tố trên.
Ví dụ: màu mắt là một đặc trưng, màu mắt xanh, nâu hay hạt dẻ là các tính trạng. Số liệu Việc thu thập đủ và đúng dữ liệu rất quan trọng. Bạn không thể có một nghiên cứu tốt nếu không có các dữ liệu tốt. Số liệu thu thập được phân ra làm nhiều loại như số liệu định tính, số liệu định lượng, số liệu tần số.
Số liệu định tính (số liệu thuộc tính): số liệu đối với thông tin không phải bằng số như giống, màu mắt, màu hoa, loại máu. 2 Số liệu đo lường (số liệu định lượng): là số liệu có được thông qua việc đo lường hay tính toán như chiều cao, trọng lượng, năng suất. Số liệu tần số: là số liệu dựa trên số lượng cá thể quan sát trong các nhóm khác nhau,. Biến số, biến thiên và tham số Trong thống kê, các đối tượng nghiên cứu được gọi là các đơn vị quan sát.
Trên đơn vị này, các đặc tính được quan sát hoặc đo đạc được gọi là các biến số. Trong mỗi đối tượng nghiên cứu, các giá trị số gán cho biến số được gọi là các quan sát hay các biến. Thí dụ: để nghiên cứu huyết áp của các sinh viên trong một trường đại học, các nhà nghiên cứu đo huyết áp tối đa và tối thiểu cho từng sinh viên. Huyết áp tối đa và tối thiểu là các biến số, số đo huyết áp là các quan sát, các sinh viên là các đơn vị quan sát.
Các dạng biểu đồ thường gặp Khi dữ liệu thu được dưới dạng thứ hạng hoặc thuộc tính, mỗi một quan sát sẽ trở thành các nhóm hoặc thứ hạng. Chúng ta dùng biểu đồ dạng cột hoặc dạng bánh để biểu diễn số hoặc phần trăm của từng nhóm. Phương pháp đồ thị thống kê là phương pháp trình bày và phân tích các thông tin thống kê bằng các biểu đồ, đồ thị và bản đồ thống kê. Phương pháp đồ thị thống kê sử dụng con số kết hợp với hình vẽ, đường nét và màu sắc để trình bày các đặc điểm số lượng của hiện tượng.
Chính vì vậy, ngoài tác dụng phân tích giúp ta nhận thức được những đặc điểm cơ bản của hiện tượng bằng trực quan một cách dễ dàng và nhanh chóng, đồ thị thống kê còn là một phương pháp trình bày các thông tin thống kê một cách khái quát và sinh động, chứa đựng tính mỹ thuật , thu hút sự chú ý của người đọc, giúp người xem dễ hiểu, dễ nhớ nên có tác dụng tuyên truyền cổ động rất tốt. Biểu đồ hình quạt Biểu đồ hình quạt dùng để biểu diễn dữ liệu thuộc các lớp hoặc các nhóm khác nhau bằng các miếng tỷ lệ với tần suất hoặc số lượng tương ứng. Biểu đồ dạng bánh cũng thường được sử dụng để so sánh, vì tỷ lệ dưới dạng miếng dễ quan sát hơn bằng mắt thường hơn chiều cao của từng cột. Tổng diện tích của cả phần là 100%, diện tích từng phần tương ứng với mỗi bộ phận.
Biểu đồ hình cột Trong biểu đồ hình cột từng nhóm trong một biến được thể hiện dưới dạng cột. Diện tích của các cột và các khoảng trống ở trục hoành đều không có ý nghĩa. Điều quan trọng của biểu đồ dạng này là chiều cao (nếu là cột thẳng đứng) hoặc chiều dài (nếu là cột nằm ngang) của các cột. Chiều cao hoặc chiều rộng sẽ tỷ lệ với phần trăm của từng nhóm.
4 Biểu đồ tần số là đồ thị trình bày các nhóm trên trục hoành và tần số của các nhóm trên trục tung. Tần số của mỗi nhóm được tượng trưng bởi một thanh đứng mà chiều cao của thanh bằng với tần số của nhóm. Biểu đồ tần số là đồ thị trình bày các nhóm trên trục hoành và tần suất của các nhóm trên trục tung. Tần suất của mỗi nhóm được tiêu biểu bằng một thanh đứng mà chiều cao của thanh bằng với tần suất của nhóm.
Dùng so sánh các chuỗi dữ liệu Thí dụ: số người tham gia tổ chức bảo vệ sức khỏe (HMOs = Health Maintenace Organization) là 9,1 triệu trong năm 1980, 33,0 triệu năm 1990 và 80,9 triệu trong năm 2000. Vẽ biểu đồ bar chart. Biểu đồ hình gấp khúc Đồ thị đường gấp khúc là loại đồ thị thống kê biểu hiện các tài liệu bằng một đường gấp khúc nối liền các điểm trên một hệ tọa độ, thường là hệ tọa độ vuông góc. Đồ thị đường gấp khúc được dùng để biểu hiện quá trình phát triển của hiện tượng, biểu hiện tình hình phân phối, tình hình thực hiện kế hoạch theo từng tiêu chí nào đó ví dụ theo thời gian nghiên cứu.
6 Trong đồ thị đường gấp khúc, trục hoành thường được biểu thị thời gian, trục tung biểu thị mức độ chỉ tiêu nghiên cứu. Thường dùng để biểu diễn sự thay đổi của các dữ liệu theo thời gian. Thí dụ: Theo dõi nồng độ của Hg trong 20 năm ở hai vị trí khác nhau của Địa Trung hải. Ở 45 mẫu được thu thập ở độ sâu 10m và mang về phòng thí nghiệm để xác định nồng độ Hg.
Nồng độ Hg trung bình được ghi nhận theo từng năm như trong bảng sau: Nồng độ thuỷ ngân Year Site 1 Site 2 Year Site 1 Site 2 1992 14.0 0 Dùng dữ liệu trong bảng trên để vẽ biểu đồ line bằng chương trình Minitab: 7 Mặc nhiên khi đưa cả hai ‘site’ vào cùng một biểu đồ, Minitab sẽ chỉ dùng một giá trị để làm thang đo của trục Y. Trong trường hợp hai ‘site’ có giá trị khác biệt nhiều (chẳng hạn trong trường hợp trên là từ 8.2 - 462 ở ‘site 2’) thì sẽ rất khó để thấy được biến đổi nồng độ ở ‘site 1’. Trong trường hợp này việc thiết lập thêm một thang đo thứ hai cho trục Y là rất cần thiết. Kết quả sau khi thiết lập thêm thang đo thứ hai cho trục Y.
Click chuột phải lên trục Y, chọn Edit Y scale. (Ctrl + T) > Secondary Variable Scale 1 Site 1 Secondary T 2 Site 2 Primary T OK Hình: Time Series Plot của Site 1 và Site 2 với 1 trục Y - Biểu đồ line plots: 8 Hình biểu đồ line plots 3. Các tham số đặc trưng của mẫu 3. Số trung bình cộng Số trung bình cộng, số trung bình (trung bình số học): là tổng các giá trị quan sát chia cho tổng số quan sát.
Phương sai Còn gọi là trung bình bình phương (mean quare = MS), là tham số đặc trưng tiêu biểu nhất cho tính chất phân tán của tổng thể. Giá trị trung bình của tổng thể là µ thì phương sai tổng thể là 𝜎 2 Giá trị trung bình của mẫu là 𝑥̅ thì phương sai mẫu là 𝑠 2 Hoặc Còn gọi là trung bình bình phương (mean quare = MS), là tham số đặc trưng tiêu biểu nhất cho tính chất phân tán của tổng thể.