Tập hợp có phần tử là tất cả các đối tượng mà ta
nghiên cứu được gọi là tổng thể.
Tổng thể còn được gọi là đám đông hay dân số.
Số phần tử của tổng thể được gọi là kích thước của
tổng thể.
15 trang |
Chia sẻ: lylyngoc | Lượt xem: 1757 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Chương 4 Lý thuyết mẫu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Chương 4
Lý thuyết mẫu
Tổng thể và mẫu
Mẫu ngẫu nhiên, mẫu thực nghiệm
Các đặc trưng của mẫu
Đại lượng thống kê
Tổng thể và mẫu
Tập hợp có phần tử là tất cả các đối tượng mà ta
nghiên cứu được gọi là tổng thể.
Tổng thể còn được gọi là đám đông hay dân số.
Số phần tử của tổng thể được gọi là kích thước của
tổng thể.
Khi nghiên cứu tính chất nào đó của tổng thể người
ta chỉ lấy ra một số phần tử của tổng thể để nghiên
cứu (?), và từ đó phỏng đoán cho tổng thể. Các phần
tử lấy ra được gọi là mẫu. Kích thước mẫu là số phần
tử của mẫu.
Mẫu đại diện tốt cho tổng thể thì mẫu thỏa hai điều
kiện chính:
Mẫu phải được chọn ngẫu nhiên từ tổng thể;
Các phần tử của mẫu phải được chọn độc lập với
nhau.
Cách chọn mẫu:
Mẫu không hoàn lại;
Mẫu hoàn lại;
Quy ước: Ta dùng mẫu có hoàn lại.
Tổng thể và mẫu
Giả sử ta nghiên cứu dấu hiệu 𝑋, là BNN trên một
tổng thể nào đó. Chọn mẫu có kích thước 𝑛
Gọi 𝑋𝑖 là giá trị quan sát của 𝑋 trên phần tử thứ 𝑖
của mẫu;
Do mẫu có hoàn lại nên các 𝑋𝑖 có phân phối giống
như 𝑋 và chúng độc lập với nhau;
Mẫu ngẫu nhiên, mẫu thực nghiệm
Bộ gồm 𝑛 biến ngẫu nhiên độc lập
(𝑋1, 𝑋2, … , 𝑋𝑛)
được gọi là một mẫu ngẫu nhiên.
Khi các 𝑋𝑖 có giá trị cụ thể là 𝑥𝑖 , ta gọi bộ
(𝑥1, 𝑥2, … , 𝑥𝑛)
là một mẫu cụ thể
Ví dụ: Một kệ chứa đĩa nhạc với giá như sau:
Giá (ngàn đồng) 20 25 30 34 40
Số đĩa 35 10 25 17 13
Lấy ngẫu nhiên 1 đĩa nhạc trong kệ. Gọi 𝑋 là giá của đĩa
này, 𝑋 có bảng phân phối xác suất
𝑋 20 25 30 34 40
𝑃 0.35 0.10 0.25 0.17 0.13
Mẫu ngẫu nhiên, mẫu thực nghiệm
Lấy ngẫu nhiên (có hoàn lại) 4 đĩa nhạc trong kệ. Gọi
𝑋𝑖 là giá của đĩa thứ 𝑖, 𝑖 = 1, 2, 3, 4. Ta có
Các 𝑋𝑖 độc lập và có bảng PPXS giống như 𝑋.
(𝑋1, 𝑋2, 𝑋3, 𝑋4) là mẫu ngẫu nhiên
Xem giá từng đĩa đã lấy ra, thấy: đĩa 1 giá 20 ngàn
đồng, đĩa 2 giá 30 ngàn đồng, đĩa 3 giá 20 ngàn
đồng, đĩa 4 giá 40 ngàn đồng. Ta có mẫu thực
nghiệm
𝑥1, 𝑥2, 𝑥3, 𝑥4 = 20,30,20,40 .
Mẫu ngẫu nhiên, mẫu thực nghiệm
Định lượng: Xét dấu hiệu 𝑋 trên một tổng thể, 𝑋 là
BNN.
Trung bình tổng thể, 𝐸 𝑋 = 𝜇.
Phương sai tổng thể, 𝑉𝑎𝑟 𝑋 = 𝜎2.
Định tính: Tổng thể có kích thước 𝑁, trong đó có 𝑀
phần tử có tính chất 𝐴 được quan tâm. Tỷ lệ tổng thể
là
𝑝 =
𝑀
𝑁
Các đặc trưng của tổng thể
Trung bình mẫu: Cho mẫu ngẫu nhiên (𝑋1, 𝑋2, 𝑋3, 𝑋4).
𝑋 =
1
𝑛
𝑋𝑖
𝑛
𝑖=1
Định lý: 𝐸 𝑋 = 𝜇 và 𝑉𝑎𝑟 𝑋 =
𝜎2
𝑛
.
(Thay chữ in hoa thành in thường ta được mẫu thực nghiệm)
Phương sai mẫu:
Chưa hiệu chỉnh:
Định lý:
Các đặc trưng của mẫu
𝑆 2 =
1
𝑛
(𝑋𝑖 − 𝑋 )
2
𝑛
𝑖=1
Đã hiệu chỉnh: 𝑆2 =
1
𝑛 − 1
(𝑋𝑖 − 𝑋 )
2
𝑛
𝑖=1
𝐸 𝑆 2 =
𝑛 − 1
𝑛
𝜎2, 𝐸 𝑆2 = 𝜎2
Độ lệch chuẩn mẫu
Tỷ lệ mẫu:
Chưa hiệu chỉnh, 𝑆
Đã hiệu chỉnh, 𝑆.
Tỷ lệ mẫu (tỷ lệ tổng thể là p)
Gọi 𝑋𝑖 là số phần tử có tính chất A trong lần lấy thứ 𝑖.
Ta có 𝑋𝑖~𝐵(1, 𝑝), và số phần tử có tính chất A trong
mẫu với kích thước 𝑛 là 𝑋𝑖
𝑛
𝑖=1 .
Các đặc trưng của mẫu
(Thay chữ in hoa thành in thường ta được mẫu thực nghiệm)
𝐹 =
1
𝑛
𝑋𝑖
𝑛
𝑖=1
Định lý: 𝐸 𝐹 = 𝑝, 𝑉𝑎𝑟 𝐹 =
𝑝(1−𝑝)
𝑛
Ví dụ: Điều tra năng suất lúa trên diện tích 100 ha đất
trồng lúa, người ta thu được bảng số liệu
1. Tính trung bình mẫu, phương sai mẫu, phương sai
mẫu hiệu chỉnh;
2. Những thửa ruộng có năng suất từ 48 tạ/ha trở lên
là những thửa ruộng có năng suất cao. Tính tỉ lệ diện
tích có năng suất cao;
3. Tính trung bình mẫu, phương sai mẫu, phương sai
mẫu hiệu chỉnh của những thửa ruộng có năng suất
cao.
Năng suất
(tạ/ha)
41 44 45 46 48 52 54
Diện tích
(ha)
10 20 30 15 10 10 5
Các đặc trưng của mẫu
Phân phối xác suất các đặc trưng của mẫu
Định lý: Cho 𝑋~𝑁(𝜇, 𝜎2) và mẫu (𝑋1, 𝑋2, … , 𝑋𝑛). Ta có
1) 𝑋 ~𝑁 𝜇,
𝜎2
𝑛
, hay
𝑋 −𝜇
𝜎
𝑛~𝑁 0,1 ;
2)
𝑋 −𝜇
𝑆
𝑛~𝑇 𝑛 − 1 .
3)
𝑛−1
𝜎2
𝑆2~𝜒 2(𝑛 − 1)
Phân phối xác suất các đặc trưng của mẫu
Định lý giới hạn trung tâm: Cho 𝑋1, 𝑋2, … , 𝑋𝑛 là một
dãy các BNN độc lập, có cùng phân phối với kỳ vọng 𝜇
và phương sai 𝜎2. Thế thì khi 𝑛 ≥ 30,
𝑋1 + 𝑋2 +⋯+ 𝑋𝑛
có phân phối xấp xỉ chuẩn với kỳ vọng 𝑛𝜇 và phương sai
𝑛𝜎2.
Định lý: Cho 𝑋 có 𝐸 𝑋 = 𝜇, 𝑉𝑎𝑟 𝑋 = 𝜎2 và mẫu
(𝑋1, 𝑋2, … , 𝑋𝑛) có 𝑛 ≥ 30. Ta có
1) 𝑋 ~ 𝑁 𝜇,
𝜎2
𝑛
, hay
𝑋 −𝜇
𝜎
𝑛 ~ 𝑁 0,1 ;
2)
𝑋 −𝜇
𝑠
𝑛 ~ 𝑁 0,1 , với 𝑠 là độ lệch chuẩn mẫu
hiệu chỉnh của một mẫu thực nghiệm nào đó.
Ký hiệu: ~ có nghĩa là phân phối xấp xỉ.
Phân phối xác suất các đặc trưng của mẫu
Phân phối của tỷ lệ mẫu
Nhắc lại, tỷ lệ mẫu
𝐹 =
1
𝑛
𝑋𝑖
𝑛
𝑖=1
trong đó, 𝑋𝑖 là số phần tử có tính chất A trong lần lấy
thứ 𝑖, 𝑋𝑖~𝐵 1, 𝑝 . Theo định lý giới hạn trung tâm thì
𝑋𝑖
𝑛
𝑖=1
~ 𝑁 𝑛𝑝, 𝑛𝑝(1 − 𝑝)
Suy ra
𝐹~ 𝑁 𝑝,
𝑝(1 − 𝑝)
𝑛
Ví dụ: Chiều cao của sinh viên trong trường ĐHCN là biến
ngẫu nhiên có phân phối chuẩn với kỳ vọng là 165cm, độ
lệch chuẩn là 10cm. Người ta đo chiều cao của 100 sinh
viên, được chọn ngẫu nhiên.
1. Xác suất để chiều cao trung bình của 100 sinh viên đó
sai lệch so với chiều cao trung bình của sinh viên trong
trường không quá 2cm là bao nhiêu?
2. Khả năng chiều cao trung bình của số sinh viên trên
vượt quá 168cm là bao nhiêu?
3. Nếu muốn chiều cao trung bình đo được sai lệch so với
chiều cao trung bình của tổng thể không vượt quá 1cm
với XS là 0.99 thì ta phải chọn bao nhiêu sinh viên để đo
chiều cao?
Phân phối xác suất các đặc trưng của mẫu
Cho 𝑋 là một dấu hiệu mà ta nghiên cứu trên một tổng thể
và một mẫu ngẫu nhiên (𝑋1, 𝑋2, … , 𝑋𝑛).
Hàm 𝑇(𝑋1, 𝑋2, … , 𝑋𝑛) được gọi là một đại lượng thống kê.
Đại lượng thống kê
Ví dụ: Trung bình mẫu
𝑋 =
1
𝑛
𝑋𝑖
𝑛
𝑖=1
là một đại lượng thống kê.
Ví dụ: Tỷ lệ mẫu
𝐹 =
1
𝑛
𝑋𝑖
𝑛
𝑖=1
là một đại lượng thống kê.