Bài giảng Toán thống kê

Trong thực tế và trong khoa học chúng ta thường phải khảo sát một tập hợp có rất nhiều phần tử. Chẳng hạn khảo sát chiều cao của thanh niên Việt nam thì mọi thanh niên Việt nam đều là đối tượng cần khảo sát hay khảo sát nang suất của giống lúa A thì đối tượng khảo sát là mọi thửa ruộng trồng giống lúa A. Trong lý thuyết toán thống kê, người ta gọi các tập hợp đó là tổng thể (còn gọi là tập hợp chính hoặc đám đông). Số lượng các cá thể của tổng thể gọi là kích thước của tổng thể, thường ký hiệu bằng chữ in hoa N.

pdf61 trang | Chia sẻ: lylyngoc | Lượt xem: 1700 | Lượt tải: 2download
Bạn đang xem trước 20 trang tài liệu Bài giảng Toán thống kê, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
TRƢỜNG ĐẠI HỌC NÔNG NGHIỆP HÀ NỘI Bài giảng TOÁN THỐNG KÊ Mục lục Chương 4. NHỮNG KHÁI NIỆM CƠ BẢN MỞ ĐẦU VỀ THỐNG KÊ .................................... 3 I. TỔNG THỂ VÀ MẪU ................................................................................................................ 3 1.1. Tổng thể ............................................................................................................................... 3 1.2. Mẫu....................................................................................................................................... 3 1.3. Các phƣơng pháp lấy mẫu .................................................................................................... 3 II. BỐ TRÍ MẪU VÀ PHÂN PHỐI MẪU ..................................................................................... 3 2.1. Sắp xếp số liệu...................................................................................................................... 3 2.2. Biểu diễn hình học của mẫu ................................................................................................. 5 III. CÁC SỐ ĐẶC TRƢNG CỦA MẪU ....................................................................................... 5 3.1. Trung bình mẫu .................................................................................................................... 5 2.2. Phƣơng sai mẫu .................................................................................................................... 5 2.3. Phƣơng sai hiệu chỉnh của mẫu ............................................................................................ 6 IV. MẪU NGẪU NHIÊN .............................................................................................................. 8 4.1. Mẫu ngẫu nhiên .................................................................................................................... 8 4.2. Các đặc trƣng của mẫu ngẫu nhiên ...................................................................................... 8 4.3. Thống kê ............................................................................................................................... 8 V. MỘT SỐ PHÂN PHỐI XÁC SUẤT DÙNG TRONG TOÁN THỐNG KÊ ............................ 8 5.1. Các định lý về phân phối chuẩn ........................................................................................... 8 5.2. Phân phối khi-bình phƣơng (2) ........................................................................................... 9 5.3. Phân phối Student................................................................................................................. 9 5.4. Phân phối Fisher-Snedecor................................................................................................. 10 5.5. Phân vị mức 1 –  .............................................................................................................. 10 BÀI TẬP CHƢƠNG 4 .................................................................................................................. 11 Chương 5. ƢỚC LƢỢNG THAM SỐ .......................................................................................... 12 Khái niệm về bài toán ƣớc lƣợng tham số.................................................................................. 12 I. ƢỚC LƢỢNG ĐIỂM ............................................................................................................... 12 1.1. Định nghĩa. ......................................................................................................................... 12 1.2. Các loại ƣớc lƣợng ............................................................................................................. 12 1.3. Các ƣớc lƣợng điểm thƣờng gặp. ....................................................................................... 13 a-/ Trung bình mẫu ngẫu nhiên: ............................................................................................ 13 b-/ Phƣơng sai mẫu ngẫu nhiên hiệu chỉnh: .......................................................................... 13 c-/ Tần suất ............................................................................................................................ 14 II. ƢỚC LƢỢNG KHOẢNG ....................................................................................................... 14 2.1. Khoảng tin cậy. Độ tin cậy ................................................................................................. 14 2.2. Ƣớc lƣợng kỳ vọng (giá trị trung bình) của phân phối chuẩn ............................................ 15 a) Trƣờng hợp biết phƣơng sai D(X) = 2. ........................................................................... 15 b) Trƣờng hợp không biết phƣơng sai 2 .............................................................................. 16 2.3. Ƣớc lƣợng phƣơng sai của phân phối chuẩn ...................................................................... 17 2.4. Ƣớc lƣợng xác suất (tỷ lệ) .................................................................................................. 17 2.5. Kích thƣớc mẫu cần thiết ................................................................................................... 19 BÀI TẬP CHƢƠNG 5 .................................................................................................................. 20 ĐẠI HỌC NÔNG NGHIỆP HÀ NỘI 2 Chương 6. KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ ................................................................ 22 I. GIẢ THUYẾT, ĐỐI THUYẾT ................................................................................................. 22 1.1. Giả thuyết, đối thuyết ........................................................................................................ 22 1.2. Quy tắc kiểm định giả thuyết ............................................................................................. 22 1.3. Các loại sai lầm .................................................................................................................. 23 II. CÁC BÀI TOÁN KIỂM ĐỊNH THAM SỐ ............................................................................ 23 2.1. Kiểm định kỳ vọng của biến chuẩn ................................................................................... 23 a) Trƣờng hợp biết phƣơng sai 2. ........................................................................................ 23 b) Trƣờng hợp chƣa biết phƣơng sai 2 ................................................................................ 24 c) Chú thích: ......................................................................................................................... 25 2.2. Kiểm định một xác suất (tỷ lệ) .......................................................................................... 27 2.3. Kiểm định sự bằng nhau của kỳ vọng hai biến chuẩn, mẫu độc lập.................................. 28 a) Trƣờng hợp biết 2 2x yσ và σ . ............................................................................................... 28 b) Trƣờng hợp không biết 2 2x yσ và σ ..................................................................................... 29 c) Chú ý ................................................................................................................................. 30 2.4. Kiểm định sự bằng nhau của kỳ vọng hai biến chuẩn, mẫu theo cặp ................................ 31 2.5. Kiểm định sự bằng nhau của phƣơng sai hai biến chuẩn. ................................................. 32 2.6. Kiểm định sự bằng nhau của hai xác suất (so sánh hai tỷ lệ) ............................................ 33 III. MỘT VÀI KIỂM ĐỊNH PHI THAM SỐ ............................................................................... 34 3.1. Kiểm định luật phân phối xác suất .................................................................................... 34 a) Trƣờng hợp các pi đã biết ................................................................................................. 35 b) Trƣờng hợp các pi phụ thuộc các tham số chƣa biết ........................................................ 36 3.2. Kiểm định sự độc lập của hai đặc tính định tính ............................................................... 37 BÀI TẬP CHƢƠNG 6 ................................................................................................................... 40 Chương 7. TƢƠNG QUAN VÀ HỒI QUY TUYẾN TÍNH ........................................................ 45 I. MẪU THỐNG KÊ HAI CHIỀU ............................................................................................... 45 1.1. Biến ngẫu nhiên hai chiều ................................................................................................. 45 1.2. Mẫu thống kê hai chiều...................................................................................................... 45 a) Nếu mẫu nhỏ (n nhỏ) ........................................................................................................ 45 b) Nếu mẫu lớn và có nhiều số liệu trùng nhau .................................................................... 45 c) Nếu mẫu lớn và các số liệu ít trùng nhau ......................................................................... 45 II. HỆ SỐ TƢƠNG QUAN .......................................................................................................... 46 2.1. Sự liên hệ tƣơng quan ........................................................................................................ 46 2.2. Hệ số tƣơng quan lý thuyết ................................................................................................ 46 2.2. Hệ số tƣơng quan mẫu ....................................................................................................... 47 2.3. Kiểm định sự tƣơng quan .................................................................................................. 48 III. HỒI QUY TUYẾN TÍNH ....................................................................................................... 49 3.1. Hàm hồi quy lý thuyết ....................................................................................................... 49 3.2. Hàm hồi quy tuyến tính mẫu ............................................................................................. 50 3.3. Dự báo theo phƣơng trình hồi quy ..................................................................................... 52 BÀI TẬP CHƢƠNG 7 ................................................................................................................... 54 CÁC BẢNG SỐ ................................................................................................................................ 57 Bảng1: Giá trị hàm phân phối chuẩn tắc: ................................................................................. 57 Bảng 2: Phân vị Student: .......................................................................................................... 58 Bảng 3: Phân vị khi bình phƣơng ............................................................................................. 59 Bảng 4: Phân vị Fisher – Snedecor mức 0,05 ........................................................................... 60 Bài giảng Toán Thống kê 3 Chương 4. NHỮNG KHÁI NIỆM CƠ BẢN MỞ ĐẦU VỀ THỐNG KÊ I. TỔNG THỂ VÀ MẪU 1.1. Tổng thể . Trong thực tế và trong khoa học chúng ta thƣờng phải khảo sát một tập hợp có rất nhiều phần tử. Chẳng hạn khảo sát chiều cao của thanh niên Việt nam thì mọi thanh niên Việt nam đều là đối tƣợng cần khảo sát hay khảo sát nang suất của giống lúa A thì đối tƣợng khảo sát là mọi thửa ruộng trồng giống lúa A. Trong lý thuyết toán thống kê, ngƣời ta gọi các tập hợp đó là tổng thể (còn gọi là tập hợp chính hoặc đám đông). Số lƣợng các cá thể của tổng thể gọi là kích thƣớc của tổng thể, thƣờng ký hiệu bằng chữ in hoa N. 1.2. Mẫu Do tổng thể quá lớn, và hơn nữa có nhiều nghiên cứu phải phá huỷ đối tƣợng nghiên cứu, chẳng hạn khi định lƣợng hàm lƣợng của một loại thuốc chữa bệnh nào đó bằng phƣơng pháp hoá học. Bởi vậy cần chọn ra n phần tử của tổng thể để nghiên cứu, n phần tử đƣợc chọn đó gọi là một mẫu có kích thƣớc n (hay mẫu có dung lƣợng n). Kích thƣớc mẫu thƣờng rất nhỏ so với kích thƣớc của tổng thể (n << N). Tập hợp tất cả các mẫu có kích thƣớc n có thể lấy đƣợc từ tổng thể gọi là không gian mẫu có kích thƣớc n. Nếu đặc tính cần nghiên cứu là đặc tính định lƣợng X, ký hiệu xi là giá trị của X đo đƣợc ở cá thể thứ i của mẫu thì đƣợc bộ số liệu (x1, x2,..., xn). Bộ số liệu (x1, x2,..., xn) gọi là một mẫu thống kê kích thƣớc n của X. Dễ thấy khi đó đặc tính cần nghiên cứu X là một biến ngẫu nhiên. 1.3. Các phƣơng pháp lấy mẫu Mục đích chọn mẫu là từ kết quả khảo sát các phần tử của mẫu để đƣa ra kết luận cho cả tổng thể. Vì thế mẫu phải đại diện cho cả tổng thể. Muốn vậy mọi phần tử của tổng thể đều có cùng khả năng đƣợc chọn vào mẫu, nói cách khác việc chọn mẫu phải dựa trên nguyên tắc ngẫu nhiên. Các phƣơng pháp cụ thể xem trong SGK (trang 97, 97) II. BỐ TRÍ MẪU VÀ PHÂN PHỐI MẪU 2.1. Sắp xếp số liệu Xét mẫu (x1, x2, ..., xn) kích thƣớc n của X. Bƣớc đầu tiên là phải sắp xếp lại các giá trị xi của mẫu để dễ dàng cho việc xử lý tiếp theo. a) Mẫu đơn: Nếu dung lƣợng n nhỏ thì không cần thiết phải sắp xếp lại các số liệu thu thập đƣợc và gọi là mẫu đơn. Với mẫu có dung lƣợng n lớn. Khi đó có hai trƣờng hợp: b) Mẫu có tần số: Nếu các số liệu thu thập đƣợc có nhiều giá trị giống nhau thì đếm số các giá trị giống nhau và xếp các số liệu thành bảng hai dòng. Chẳng hạn trong n giá trị thu đƣợc chỉ có k giá trị khác nhau là x1, x2, …, xk (trong đó xi < xi + 1) và có ni giá trị xi thì xếp thành bảng: ĐẠI HỌC NÔNG NGHIỆP HÀ NỘI 4 X x1 x2 … xk ni n1 n2 … nk Trong đó n1 + n2 + … + nk = n. Các số ni gọi là tần số gặp giá trị xi trong mẫu và tỷ số n n f ii  gọi là tần suất gặp giá trị xi trong mẫu. Bảng trên gọi là mẫu có tần số. Thí dụ: Đo chiều cao của 20 thanh niên thấy có: 5 ngƣời cao 165 cm, 2 ngƣời cao 167, 3 ngƣời cao 164, 4 ngƣời cao 166, 2 ngƣời cao 163 và 1 ngƣời cao 168. Khi đó ta có bảng: X (cm) 163 164 165 166 167 168 ni 2 3 5 5 4 1 c) Mẫu phân lớp Nếu các số liệu thu thập đƣợc không có, hoặc ít có các giá trị trùng nhau thì tiến hành phân khoảng các số liệu. Gọi xmin, xmax tƣơng ứng là giá trị nhỏ nhất và lớn nhất của các số liệu thu thập đƣợc và giả sử ta chia các số liệu thành k khoảng. Khi đó đại lƣợng: k xx h minmax   gọi là độ rộng của lớp. Đặt x0  xmin; xi = x0 + ih, i = 1, 2, …, k sao cho xk  xmax. Mỗi khoảng (xi – 1, xi] đƣợc gọi là một lớp (chú ý rằng cũng có thể chọn lớp là [xi – 1, xi)). Đếm các giá trị thuộc các lớp và xếp thành bảng: X x0 – x1 x1 – x2 … xk – 1 – xk ni n1 n2 … nk Trong đó n1 + n2 + … + nk = n. Cũng nhƣ mẫu có tần số, các số ni gọi là tần số của lớp thứ i trong mẫu và tỷ số n n f ii  gọi là tần suất của lớp i. Giá trị giữa lớp gọi là giá trị đại diện của lớp. Bảng trên gọi là mẫu phân lớp. Thí dụ: Cân thử 40 con gà 3 tháng tuổi đƣợc kết quả (đơn vị tính kg/con): 1,20 1,26 1,21 1,17 1,19 1,25 1,22 1,22 1,19 1,18 1,25 1,19 1,22 1,20 1,21 1,21 1,20 1,20 1,25 1,18 1,24 1,15 1,23 1,21 1,22 1,24 1,18 1,23 1,21 1,18 1,16 1,17 1,20 1,15 1,18 1,22 1,21 1,23 1,26 1,24 Ta có: xmax = 1,26; xmin = 1,15 Chia các số liệu thành 6 lớp (k = 6), chọn độ rộng của lớp là 0,02, lớp đầu tiên là (1,14; 1,16] đƣợc bảng phân lớp: X (kg) 1,14 – 1,16 1,16 – 1,18 1,18 – 1,20 1,20 – 1,22 1,22 – 1,24 1,24 – 1,26 ni (số con) 3 7 8 11 6 5 Chú thích: Nếu không phân lớp thì có bảng tần số: X(kg) 1,15 1,16 1,17 1,18 1,19 1,20 1,21 1,22 1,23 1,24 1,25 1,26 ni 2 1 2 5 3 5 6 5 3 3 3 2 Bài giảng Toán Thống kê 5 2.2. Biểu diễn hình học của mẫu Có thể lập bảng tần suất cho mẫu có tần số: X x1 x2 … xk fi f1 f2 … fk và cho mẫu phân lớp: X x0 – x1 x1 – x2 … xk – 1 – xk fi f1 f2 … fk Trong các bảng trên thì fi = in n Từ đó có dạng biểu diễn hình học cho mẫu có tần số hoặc mẫu phân lớp nhƣ sau: Chọn trục hoành biểu diễn các giá trị thu thập đƣợc và trục tung biểu diễn tần suất hoặc tần số khi đó ta có một hình vẽ gọi là biểu đồ tần suất hoặc biểu đồ tần số. Chẳng hạn biểu diễn hình học của hai thí dụ trong mục 2.1 là: III. CÁC SỐ ĐẶC TRƢNG CỦA MẪU Sau khi sắp xếp lại các số liệu, ta thƣờng phải tính các số đặc trƣng của mẫu. Sau đây là một số số đặc trƣng chính của một mẫu thống kê. 3.1. Trung bình mẫu Số trung bình của mẫu thống kê (x1, x2, …, xn) là số:      n 1i i n21 x n 1 n x...xx x (4.1) Nếu mẫu cho có tần số: X x1 x2 … xk ni n1 n2 … nk thì:       k 1i ii k21 kk2211 xn n 1 n...nn xn...xnxn x (4.1a) Nếu mẫu là phân lớp thì tính nhƣ mẫu có tần số, nhƣng tính theo giá trị đại diện của lớp (giá trị giữa lớp). Trung bình mẫu đặc trƣng cho độ lớn của các số liệu quan sát đƣợc. 2.2. Phƣơng sai mẫu Số phƣơng sai của mẫu thống kê (x1, x2, …, xn) là số: s* 2 =    n 1i 2 i )xx( n 1 (4.2) Biến đổi (4.2) đƣợc: ni (fi) 5 (0,25) 4 (0,2) 3 (0.15) 2 (0,1) 1 (0,05) 0 163 164 165 166 167 168 X ni (fi) 11 (11/40) 7 (7/40) 5 (5/40) 3 (3/40) 0 1,14 1,16 1,18 1,20 1,22 1,24 1,26 X ĐẠI HỌC NÔNG NGHIỆP HÀ NỘI 6 s*2 =  2 n 1i 2 i2 2 n 1i i n 1i 2 i2n 1i i n 1i 2 i xx n 1 n xxn x n 1 x n 1                      (4.2a) Nếu là mẫu có tần số thì: s*2 =    k 1i 2 ii )xx(n n 1 (4.3) Biến đổi (4.3) đƣợc: s*2 =  2 k 1i 2 ii2 2 n 1i n 1i ii 2 ii2k 1i ii k 1i 2 ii xxn n 1 n xnxnn xn n 1 xn n 1                        (4.3a) trong đó n = n1 + n2 + … + nk. Với mẫu phân lớp thì dùng công thức mẫu có tần số để tính và tính theo giá trị giữa của lớp (giá trị đại diện của lớp). Căn bậc hai của phƣơng sai gọi là độ lệch chuẩn của mẫu và ký hiệu là s*: 2*s*s  2.3. Phƣơng sai hiệu chỉnh của mẫu Số phƣơng sai hiệu chỉnh của mẫu thống kê (x1, x2, …, xn) là số: s 2 = 2*s 1n n  , nghĩa là: s2 =     n 1i 2 i )xx( 1n 1 (4.4) Biến đổi (4.4) đƣợc: s2 =   1n xnx )1n(n xxn 2 n 1i 2 i 2 n 1i i n 1i 2 i                (4.4a) Nếu là mẫu có tần số thì: s2 =     k 1i 2 ii )xx(n 1n 1 (4.5) Biến đổi (4.5) đƣợc: s2 =   1n xnxn )1n(n xnxnn 2 k 1i 2 ii 2 k 1i ii k 1i 2 ii                (4.5a) trong đó n = n1 + n2 + … + nk. Với mẫu phân lớp thì dùng công thức mẫu có tần số để tính và tính theo giá trị giữa của lớp (giá trị đại diện của lớp). Căn bậc hai của phƣơng sai hiệu chỉnh gọi là độ lệch chuẩn hiệu chỉnh của mẫu và ký hiệu là s: 2ss  Nếu coi trung bình mẫu x là tâm của dãy số liệu thu thập đƣợc thì đại lƣợng ei = xxi  là độ lệch giữa xi và x , nó cho biết xi gần hay xa tâm x . Bởi vậy phƣơng sai mẫu cũng nhƣ phƣơng sai mẫu hiệu chỉnh và các độ lệch chuẩn là đặc trƣng cho độ phân tán các số liệu quan sát đƣợc quanh giá trị trung bình mẫu x . Chú ý rằng sau này chúng ta chỉ dùng phƣơng sai hiệu chỉnh của mẫu s2 mà không dùng phƣơng sai mẫu s*2. Điều này sẽ đƣợc lý giải ở chƣơng sau. Bài giảng Toán Thống kê 7 Phƣơng sai, độ lệch chuẩn cũng nhƣ phƣơng sai hiệu chỉnh, độ lệch chuẩn hiệu chỉnh đặc trƣng cho độ phân tán của các số liệu quanh giá trị trung bình mẫu. Thí dụ 1. Tính các số đặc trƣng của mẫu (số liệu của thí dụ 1 trong 2.1) X (cm) 163 164 165 166 167 168 ni 2 3 5 5 4 1 Giải: Thƣờng dùng các công thức (4.1a), (4.2a) hoặc (4.3a), (4.