Giáo trình Thống kê Máy tính: Tài liệu hữu ích cho Sinh viên Khoa Công nghệ Thông tin

Giáo trình thống kê máy tính cung cấp kiến thức cơ bản và nâng cao về thống kê, ứng dụng trong phân tích dữ liệu và ra quyết định.

Trường đại học

Trường Đại học Nha Trang

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

giáo trình

2016

167
0
0

Phí lưu trữ

45 Point

Mục lục chi tiết

LỜI MỞ ĐẦU

1. CHƯƠNG 1: GIỚI THIỆU NGÔN NGỮ R

1.1. NGÔN NGỮ R

1.2. DỮ LIỆU TRONG R

1.3. XUẤT/NHẬP DỮ LIỆU (DATA IMPORT/EXPORT)

1.4. CHUYỂN ĐỔI ĐỐI TƯỢNG (CONVERTING OBJECT)

1.5. CÂU LỆNH IF.ELSE

1.6. CÂU LỆNH SWITCH

1.7. CÂU LỆNH LẶP REPEAT, WHILE, FOR

1.8. HÀM TỰ XÂY DỰNG

2. CHƯƠNG 2: THỐNG KÊ HỌC

2.1. THỐNG KÊ

2.2. NGUỒN GỐC VÀ SỰ PHÁT TRIỂN CỦA THỐNG KÊ HỌC

2.3. CHỨC NĂNG CỦA THỐNG KÊ

2.4. MỘT SỐ KHÁI NIỆM CƠ BẢN TRONG THỐNG KÊ

2.5. QUÁ TRÌNH NGHIÊN CỨU THỐNG KÊ

2.6. CÁC KỸ THUẬT LẤY MẪU

2.6.1. Kỹ thuật lấy mẫu xác suất đơn giản (Simple random sampling)

2.6.2. Lấy mẫu ngẫu nhiên hệ thống (Systematic sampling)

2.6.3. Lấy mẫu cả khối (Clustering sampling)

2.6.4. Lấy mẫu phân tầng (Stratified sampling)

TÀI LIỆU THAM KHẢO

Trích đoạn nội dung tài liệu

TRƯỜNG ĐẠI HỌC NHA TRANG KHOA CÔNG NGHỆ THÔNG TIN  TS. NGUYỄN ĐỨC THUẦN GIÁO TRÌNH THOÁNG KEÂ MAÙY TÍNH Computational Statistics NHA TRANG 2016 Lôøi noùi ñaàu Thống kê toán học là một khoa học biến dữ liệu thành thông tin hay tri thức. Đây là môn học không thể thiếu trong chương trình đào tạo chuyên ngành Công nghệ thông tin bậc đại học, cao học hiện nay. Không những thế, đối với các ngành học kỹ thuật khác người học cũng cần được trang bị về thống kê toán học để bố trí thí nghiệm, thu hoạch các kết quả nghiên cứu. Ngày nay, thống kê kết hợp với máy tính góp phần làm phát triển khoa học thực nghiệm. Máy tính đã giúp khoa học thống kê thâm nhập vào thực tế, giải quyết các bài toán định lượng để xác định tính chất của các đối tượng nghiên cứu, xử lý. Với yêu cầu là phải có một giáo trình tương đối đầy đủ, sát với chương trình Xác suất thống kê toán mà sinh viên được trang bị, chúng tôi đã biên soạn tài liệu này. Hiện nay, các tài liệu thống kê máy tính viết bằng tiếng Việt không nhiều, hơn nữa thường viết cho một lĩnh vực cụ thể nên người học sẽ gặp không ít khó khăn, nhất là sinh viên ngành công nghệ thông tin. Với thời gian biên soạn giáo trình này tương đối hạn chế nên khó tránh khỏi khiếm khuyết. Rất mong nhận được những ý kiến đóng góp của bạn đọc để lần xuất bản sau được hoàn thiện hơn. Mọi ý kiến đóng góp ý xin gửi về địa chỉ ngducthuan@ntu.vn Xin chân thành cám ơn Trường Đại học Nha Trang, Khoa Công nghệ Thông tin, cùng quý đồng nghiệp đã động viên, giúp đỡ để giáo trình kịp thời ra mắt bạn đọc. Xin trân trọng cám ơn! Tháng 07 năm 2016 Nguyễn Đức Thuần C H Ư Ơ N G 1 GIỚI THIỆU NGÔN NGỮ R 1.1 NGÔN NGỮ R R là một gói phần mềm dùng cho phân tích thống kê và đồ thị. R được tạo lập bởi Ross Ihaka và Robert Gentleman tại đại học Auckland, NewZealand vào những thập niên 90. Tiền thân của R là ngôn ngữ S được phát triển bởi John Chambers và cộng sự tại phòng thí nghiệm AT&T Bell. Tuy nhiên, giữa R và ngôn ngữ S có nhiều điểm khác biệt quan trọng (xem http://cran.org/doc/FAQ/R-FAQ. Có thể tóm tắt về R như sau - R là 1 gói phần mềm thống kê R có nhiều công cụ hữu dụng cho mô hình hóa thống kê và đồ thị - R là 1 ngôn ngữ thông dịch R thực hiện các câu lệnh được gõ trực tiếp từ dấu nhắc - R là hướng đối tượng  Mọi thứ có thể thao tác thông qua các đối tượng đơn giản  Các đối tượng có thể tạo lập bằng cách sử dụng lệnh gán   Các đối tượng có thể là đại lượng vô hướng, vector, ma trận, danh sách, yếu tố, khung dữ liệu  Các đối tượng có các lớp đặc trưng - R là gói phần mềm miễn phí, có nhiều phiên bản cho các hệ điều hành khác nhau  Ưu điểm  Miễn phí  Nhiều gói (packages) chuyên dụng  Mã nguồn mở  Nhược điểm  Thuật ngữ khó hiểu  Dùng câu lệnh  Ký hiệu nhiều  R có thể download từ http://cran.org/ Hiện nay có nhiều phiên bản hỗ trợ môi trường giao diện đồ họa cho R như RStudio, RCommander.Trong giáo trình này không trình bày chi tiết đầy đủ về ngôn ngữ R, mà chỉ giới thiệu những khái niệm, đối tượng cơ bản của R để tiếp cận như một công cụ phục vụ cho các chủ đề thống kê. Có thể tham khảo chi tiết và đầy đủ vể R trong http://cran.org/ 2 Thống kê máy tính 1.2 DỮ LIỆU TRONG R Dữ liệu trong R được lưu trữ trong các đối tượng (object). Mỗi đối tượng có một tên (gồm chữ thường, chữ hoa, số và ký hiệu “. Ví dụ: khoi_age, nhatrang Mỗi đối tượng có 2 thuộc tính nội tại (intrinsic) là mode và length. mode là kiểu cơ sở của các phần tử/thành phần của đối tượng. Có 4 mode chính: số, ký tự, phức hợp và logic (numeric, character, complex, logical). length là số phần tử/thành phần của đối tượng. Để xem mode, length của đối tượng dùng hàm mode(), length().1 Các đối tượng cơ bản a. Các đại lượng vô hướng (Scalar) là các đối tượng đơn, được tạo lập bởi lệnh gán Trong R, các đại lượng chưa xác định hoặc chưa biết được biểu diễn bởi NA (not available). Một giá trị lớn có thể được biểu diễn qua lũy thừa cơ số e. R biểu diễn các giá trị số vô hạn  với Inf và – Inf, và các giá trị không phải là số bởi NaN (not a number) Dữ liệu kiểu chuỗi được viết giữa 2 dấu nháy kép “”.Để hiển thị dấu nháy kép “ trong dữ liệu phải dùng dấu \ và hàm cat(). Có thể dùng dấu nháy đơn ‘ để thể hiện kiểu dữ liệu ký tự. Vector là một mảng các phần tử đơn có cùng kiểu. Tạo lập vector sử dụng hàm c() (concatenation), có thể đặt tên cho các phần tử Chương 1 - Giới thiệu ngôn ngữ R 3 Nếu các phần tử được tạo lập khác kiểu, R tự động chuyển về kiểu “ràng buộc” bé nhất (least restrictive type).  Hàm hỗ trợ seq() tạo dãy các số: Cú pháp: seq(<gtri1>,<gtri2>[,<số gia>]) Nếu số gia là 1 thì có thể viết: <gtri1>:<gtri2>  Hàm hỗ trợ rep() tạo dãy lặp các phần tử: Cú pháp: rep(<đối tượng>,<số lần lặp>) 4 Thống kê máy tính c. Ma trận (Matrix) Một ma trận là một mảng 2 chiều. Một ma trận chính là một vector có thêm thuộc tính xác định số hàng và số cột. Ma trận được tạo lập bởi hàm matrix: Cú pháp: matrix(<dữ liệu>, nrow=<số hàng>, ncol=<số cột>, byrow=<FALSE|TRUE>, dimnames= <NULL|tên hàng và cột>)  Các giá trị dữ liệu sẽ điền theo thứ tự ưu tiên theo cột (mặc định) hay theo hàng (nếu byrow=TRUE), dimnames= cho tên hàng hay cột. Ma trận có thể được tạo lập bằng cách tiếp cận các giá trị thuộc tính dim Ma trận cũng có thể được tạo bằng cách gộp các vector bằng các hàm rbind(), cbind() Tính toán với ma trận:  Tạo ma trận đơn vị Chương 1 - Giới thiệu ngôn ngữ R 5  Truy xuất phần tử của ma trận  Truy xuất theo hàng/cột : <tên ma trận>[<hàng>|,<cột>]  Truy xuất phần tử <tên ma trận>[hàng,cột]  Nhân 2 ma trận: phép toán nhân %*%  Cộng/trừ 2 ma trận  Ma trận chuyển vị: hàm t(<ma trận>) 6 Thống kê máy tính  Ma trận nghịch đảo: hàm solve(<ma trận>)  Định thức: hàm det(<ma trận>) d. Yếu tố (Factor) Yếu tố là đối tượng dữ liệu được sử dụng để phân loại dữ liệu và lưu lại như là các mức độ. Một yếu tố không chỉ bao gồm các giá trị của các biến phân loại (categorical variable) tương ứng, mà còn là mức độ có thể khác nhau của biến đó (ngay cả khi chúng không có mặt trong dữ liệu). Hàm tạo yếu tố: Cú pháp: factor(x, levels=sort(unique(x),na.last=TRUE, labels=levels,exclude=NA, order=is. Danh sách (List) Danh sách là dãy các đối tượng. Tạo danh sách bằng hàm list(): Cú pháp: list([tên 1=]<đối tượng 1>, [tên 2=]<đối tượng 2>[,.(,[tên n=]<đối tượng n>)]) Chương 1 - Giới thiệu ngôn ngữ R 7 f. Khung dữ liệu (Data frame) Khung dữ liệu là một bảng dữ liệu, có vai trò như một quan hệ trong CSDL quan hệ. Mỗi khung dữ liệu có thể xem là một danh sách các vector hay các yếu tố cùng kích thước có quan hệ với nhau. Mỗi dòng ứng với các quan sát (observation), một cột ứng với một biến (variable). Mỗi cột có thể có kiểu dữ liệu khác nhau. Để tạo khung dữ liệu sử dụng hàm data.frame() Cú pháp: data.frame (<vector 1>, <vector 2>,.,<vector n>)  Tạo lập dataframe Hàm edit(data.frame())  Tách dữ liệu (tương tự phép chọn trong CSDL QH) Hàm subset(<dữ liệu>, <điều kiện>)  Kết nối dữ liệu (tương tự phép kết nối tự nhiên trong CSDLQH) Hàm merge(<dữ liệu1>,<dữ liệu2>,by=”thuộc tính kết nối”, all=TRUE)) 8 Thống kê máy tính 1.2 Các phép toán cơ bản Các phép toán cơ bản Phép toán Số học So sánh Logic + cộng < nhỏ hơn !x NOT(x) - trừ > lớn hơn x&y x AND y * nhân <= nhỏ hơn hoặc bằng x&&y x AND y / chia >= lớn hơn hoặc bằng x|y x OR y ^ lũy thừa == bằng x||y x OR y %% modulo != khác xor(x,y) x XOR y %/% chia lấy phần nguyên Các hàm số học thông thường Căn bậc hai: sqrt(x) Hàm cos(x), sin(x), cos(x), sin(x), tan(x), x tg(x), arcsin(x), asin(x), acos(x), arcos(x), arctg(x) atan(x) Hàm tổng Logarit nepe: ln(x) log(x) Xc(x1,x2,x3) 3 sum(X) ∑ 𝑥𝑖 𝑖=1 Logarit cơ số 10: log10(x) log10(x) Hàm ex exp(x) Logarit cơ số 2: log2(x) log2(x) Hàm |x| abs(x) Chú ý:  So sánh các giá trị số học: So sánh bằng nhau nên dùng hàm all.3 Biểu thức (Expression) Một biểu thức là một dãy các ký tự tạo ra một cảm biến trong R. Tất cả các lệnh có hiệu lực là một biểu thức. Khi một lệnh được gõ trực tiếp từ bàn phím, nó được lượng giá bởi R và thi hành nếu hợp lý. Trong nhiều trường hợp, rất hữu dụng khi xây dựng một biểu thức chưa được lượng giá: Tạo các biểu thức bằng hàm experession(). Lượng giá các biểu thức sử dụng hàm eval() Chương 1 - Giới thiệu ngôn ngữ R 9 1.4 Chuyển đổi đối tượng (Converting object) Có thể chuyển đổi các kiểu dữ liệu của các đối tượng bằng cách dùng hàm có dạng: as.<tên kiểu>(<đối tượng>) Chuyển đổi Hàm Qui tắc numeric as.numeric FALSE 0 TRUE 1 “1”,”2”,.  NA logical as.logical 0  FALSE Các số khác  TRUE “FALSE”,”F”  FALSE “TRUE”, “T”  TRUE Các ký tự khác  NA character as. FALSE  “FALSE” TRUE  “TRUE” 1.5 Câu lệnh IF.ELSE Cú pháp: if <biểu thức logic> <câu lệnh 1> [else <câu lệnh 2>] 1.6 Câu lệnh SWITCH Cú pháp: switch(<biểu thức>, <tr.) - Nếu giá trị của biểu thức không phải là 1 chuỗi ký tự thì nó được chuyển qua giá trị số nguyên (n), khi đó tr.hợp n sẽ được thực hiện. 10 Thống kê máy tính - Nếu giá trị biểu thức là chuỗi ký tự, trường hợp ứng với chuỗi ký tự được thực hiện 1.7 Câu lệnh lặp repeat, while, for a. Vòng lặp repeat Cú pháp: repeat { <câu lệnh> if <biểu thức logic> { break } } b. Vòng lặp while Cú pháp: while (<biểu thức logic>) { <câu lệnh> } c. Vòng lặp for Cú pháp: for (<biến đếm> in <gtrị đầu:gtrị cuối>) { ds câu lệnh } Chương 1 - Giới thiệu ngôn ngữ R 11 1.8 Hàm tự xây dựng: Cú pháp: <tên hàm> <- function (<ds tham số>){ds câu lệnh} 1.3 XUẤT/NHẬP DỮ LIỆU (DATA IMPORT/EXPORT) a. Xác định thư mục làm việc  Lấy thư mục hiện hành: Hàm getwd()  Thiết lập thư mục hiện hành: Hàm setwd(<thư mục>) b.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ