Chương 4 Lý thuyết mẫu

 Tập hợp có phần tử là tất cả các đối tượng mà ta nghiên cứu được gọi là tổng thể.  Tổng thể còn được gọi là đám đông hay dân số.  Số phần tử của tổng thể được gọi là kích thước của tổng thể.

pdf15 trang | Chia sẻ: lylyngoc | Lượt xem: 1732 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Chương 4 Lý thuyết mẫu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Chương 4 Lý thuyết mẫu  Tổng thể và mẫu Mẫu ngẫu nhiên, mẫu thực nghiệm Các đặc trưng của mẫu Đại lượng thống kê Tổng thể và mẫu  Tập hợp có phần tử là tất cả các đối tượng mà ta nghiên cứu được gọi là tổng thể.  Tổng thể còn được gọi là đám đông hay dân số.  Số phần tử của tổng thể được gọi là kích thước của tổng thể.  Khi nghiên cứu tính chất nào đó của tổng thể người ta chỉ lấy ra một số phần tử của tổng thể để nghiên cứu (?), và từ đó phỏng đoán cho tổng thể. Các phần tử lấy ra được gọi là mẫu. Kích thước mẫu là số phần tử của mẫu. Mẫu đại diện tốt cho tổng thể thì mẫu thỏa hai điều kiện chính:  Mẫu phải được chọn ngẫu nhiên từ tổng thể;  Các phần tử của mẫu phải được chọn độc lập với nhau. Cách chọn mẫu:  Mẫu không hoàn lại;  Mẫu hoàn lại; Quy ước: Ta dùng mẫu có hoàn lại. Tổng thể và mẫu Giả sử ta nghiên cứu dấu hiệu 𝑋, là BNN trên một tổng thể nào đó. Chọn mẫu có kích thước 𝑛  Gọi 𝑋𝑖 là giá trị quan sát của 𝑋 trên phần tử thứ 𝑖 của mẫu;  Do mẫu có hoàn lại nên các 𝑋𝑖 có phân phối giống như 𝑋 và chúng độc lập với nhau; Mẫu ngẫu nhiên, mẫu thực nghiệm  Bộ gồm 𝑛 biến ngẫu nhiên độc lập (𝑋1, 𝑋2, … , 𝑋𝑛) được gọi là một mẫu ngẫu nhiên.  Khi các 𝑋𝑖 có giá trị cụ thể là 𝑥𝑖 , ta gọi bộ (𝑥1, 𝑥2, … , 𝑥𝑛) là một mẫu cụ thể Ví dụ: Một kệ chứa đĩa nhạc với giá như sau: Giá (ngàn đồng) 20 25 30 34 40 Số đĩa 35 10 25 17 13 Lấy ngẫu nhiên 1 đĩa nhạc trong kệ. Gọi 𝑋 là giá của đĩa này, 𝑋 có bảng phân phối xác suất 𝑋 20 25 30 34 40 𝑃 0.35 0.10 0.25 0.17 0.13 Mẫu ngẫu nhiên, mẫu thực nghiệm Lấy ngẫu nhiên (có hoàn lại) 4 đĩa nhạc trong kệ. Gọi 𝑋𝑖 là giá của đĩa thứ 𝑖, 𝑖 = 1, 2, 3, 4. Ta có  Các 𝑋𝑖 độc lập và có bảng PPXS giống như 𝑋.  (𝑋1, 𝑋2, 𝑋3, 𝑋4) là mẫu ngẫu nhiên  Xem giá từng đĩa đã lấy ra, thấy: đĩa 1 giá 20 ngàn đồng, đĩa 2 giá 30 ngàn đồng, đĩa 3 giá 20 ngàn đồng, đĩa 4 giá 40 ngàn đồng. Ta có mẫu thực nghiệm 𝑥1, 𝑥2, 𝑥3, 𝑥4 = 20,30,20,40 . Mẫu ngẫu nhiên, mẫu thực nghiệm Định lượng: Xét dấu hiệu 𝑋 trên một tổng thể, 𝑋 là BNN.  Trung bình tổng thể, 𝐸 𝑋 = 𝜇.  Phương sai tổng thể, 𝑉𝑎𝑟 𝑋 = 𝜎2. Định tính: Tổng thể có kích thước 𝑁, trong đó có 𝑀 phần tử có tính chất 𝐴 được quan tâm. Tỷ lệ tổng thể là 𝑝 = 𝑀 𝑁 Các đặc trưng của tổng thể Trung bình mẫu: Cho mẫu ngẫu nhiên (𝑋1, 𝑋2, 𝑋3, 𝑋4). 𝑋 = 1 𝑛 𝑋𝑖 𝑛 𝑖=1 Định lý: 𝐸 𝑋 = 𝜇 và 𝑉𝑎𝑟 𝑋 = 𝜎2 𝑛 . (Thay chữ in hoa thành in thường ta được mẫu thực nghiệm) Phương sai mẫu: Chưa hiệu chỉnh: Định lý: Các đặc trưng của mẫu 𝑆 2 = 1 𝑛 (𝑋𝑖 − 𝑋 ) 2 𝑛 𝑖=1 Đã hiệu chỉnh: 𝑆2 = 1 𝑛 − 1 (𝑋𝑖 − 𝑋 ) 2 𝑛 𝑖=1 𝐸 𝑆 2 = 𝑛 − 1 𝑛 𝜎2, 𝐸 𝑆2 = 𝜎2 Độ lệch chuẩn mẫu Tỷ lệ mẫu:  Chưa hiệu chỉnh, 𝑆  Đã hiệu chỉnh, 𝑆. Tỷ lệ mẫu (tỷ lệ tổng thể là p) Gọi 𝑋𝑖 là số phần tử có tính chất A trong lần lấy thứ 𝑖. Ta có 𝑋𝑖~𝐵(1, 𝑝), và số phần tử có tính chất A trong mẫu với kích thước 𝑛 là 𝑋𝑖 𝑛 𝑖=1 . Các đặc trưng của mẫu (Thay chữ in hoa thành in thường ta được mẫu thực nghiệm) 𝐹 = 1 𝑛 𝑋𝑖 𝑛 𝑖=1 Định lý: 𝐸 𝐹 = 𝑝, 𝑉𝑎𝑟 𝐹 = 𝑝(1−𝑝) 𝑛 Ví dụ: Điều tra năng suất lúa trên diện tích 100 ha đất trồng lúa, người ta thu được bảng số liệu 1. Tính trung bình mẫu, phương sai mẫu, phương sai mẫu hiệu chỉnh; 2. Những thửa ruộng có năng suất từ 48 tạ/ha trở lên là những thửa ruộng có năng suất cao. Tính tỉ lệ diện tích có năng suất cao; 3. Tính trung bình mẫu, phương sai mẫu, phương sai mẫu hiệu chỉnh của những thửa ruộng có năng suất cao. Năng suất (tạ/ha) 41 44 45 46 48 52 54 Diện tích (ha) 10 20 30 15 10 10 5 Các đặc trưng của mẫu Phân phối xác suất các đặc trưng của mẫu Định lý: Cho 𝑋~𝑁(𝜇, 𝜎2) và mẫu (𝑋1, 𝑋2, … , 𝑋𝑛). Ta có 1) 𝑋 ~𝑁 𝜇, 𝜎2 𝑛 , hay 𝑋 −𝜇 𝜎 𝑛~𝑁 0,1 ; 2) 𝑋 −𝜇 𝑆 𝑛~𝑇 𝑛 − 1 . 3) 𝑛−1 𝜎2 𝑆2~𝜒 2(𝑛 − 1) Phân phối xác suất các đặc trưng của mẫu Định lý giới hạn trung tâm: Cho 𝑋1, 𝑋2, … , 𝑋𝑛 là một dãy các BNN độc lập, có cùng phân phối với kỳ vọng 𝜇 và phương sai 𝜎2. Thế thì khi 𝑛 ≥ 30, 𝑋1 + 𝑋2 +⋯+ 𝑋𝑛 có phân phối xấp xỉ chuẩn với kỳ vọng 𝑛𝜇 và phương sai 𝑛𝜎2. Định lý: Cho 𝑋 có 𝐸 𝑋 = 𝜇, 𝑉𝑎𝑟 𝑋 = 𝜎2 và mẫu (𝑋1, 𝑋2, … , 𝑋𝑛) có 𝑛 ≥ 30. Ta có 1) 𝑋 ~ 𝑁 𝜇, 𝜎2 𝑛 , hay 𝑋 −𝜇 𝜎 𝑛 ~ 𝑁 0,1 ; 2) 𝑋 −𝜇 𝑠 𝑛 ~ 𝑁 0,1 , với 𝑠 là độ lệch chuẩn mẫu hiệu chỉnh của một mẫu thực nghiệm nào đó. Ký hiệu: ~ có nghĩa là phân phối xấp xỉ. Phân phối xác suất các đặc trưng của mẫu Phân phối của tỷ lệ mẫu Nhắc lại, tỷ lệ mẫu 𝐹 = 1 𝑛 𝑋𝑖 𝑛 𝑖=1 trong đó, 𝑋𝑖 là số phần tử có tính chất A trong lần lấy thứ 𝑖, 𝑋𝑖~𝐵 1, 𝑝 . Theo định lý giới hạn trung tâm thì 𝑋𝑖 𝑛 𝑖=1 ~ 𝑁 𝑛𝑝, 𝑛𝑝(1 − 𝑝) Suy ra 𝐹~ 𝑁 𝑝, 𝑝(1 − 𝑝) 𝑛 Ví dụ: Chiều cao của sinh viên trong trường ĐHCN là biến ngẫu nhiên có phân phối chuẩn với kỳ vọng là 165cm, độ lệch chuẩn là 10cm. Người ta đo chiều cao của 100 sinh viên, được chọn ngẫu nhiên. 1. Xác suất để chiều cao trung bình của 100 sinh viên đó sai lệch so với chiều cao trung bình của sinh viên trong trường không quá 2cm là bao nhiêu? 2. Khả năng chiều cao trung bình của số sinh viên trên vượt quá 168cm là bao nhiêu? 3. Nếu muốn chiều cao trung bình đo được sai lệch so với chiều cao trung bình của tổng thể không vượt quá 1cm với XS là 0.99 thì ta phải chọn bao nhiêu sinh viên để đo chiều cao? Phân phối xác suất các đặc trưng của mẫu Cho 𝑋 là một dấu hiệu mà ta nghiên cứu trên một tổng thể và một mẫu ngẫu nhiên (𝑋1, 𝑋2, … , 𝑋𝑛). Hàm 𝑇(𝑋1, 𝑋2, … , 𝑋𝑛) được gọi là một đại lượng thống kê. Đại lượng thống kê Ví dụ: Trung bình mẫu 𝑋 = 1 𝑛 𝑋𝑖 𝑛 𝑖=1 là một đại lượng thống kê. Ví dụ: Tỷ lệ mẫu 𝐹 = 1 𝑛 𝑋𝑖 𝑛 𝑖=1 là một đại lượng thống kê.