Chương 3 Cơ sở lý thuyết mẫu
Quá trình nghiên cứu thống kê gốm các giai đoạn: thu thập số liệu, xử lý tổng hợp và thân tích, dự báo, Trung thu thập số liệu thường áp dụng hai hình thức chủ yếu: bảo cho thống kê định kỳ và điều tra thống kê, Chương này nhằm giới thiệu một số vấn đề cần quan tâm khi bắt đầu làm một bài toán thống kê, đó là giai đoạn thu thập và xử lý số liệu,
3.1 Tổng thể và mẫu 3.1.1 Tổng thể và kích thước của tổng thể
Định nghĩa 3, 1.1. Txn bộ tập hợp các phần tử đồng nhất theo một dấu hiệu nghiên cứu định tỉnh lộc định lượng nào đó được gọi là tổng thể nghiên cứu (poỊNH ca ion) (hay tổng thể loẬT tập chỉnh), Số lượng các cá thể hay các phần tử) của tổng thể được gọi là k ck thước của tổng thể ( size of Pew w io), thường được kí hiệu là N.
Với Tổi tống thể ta không nghiên cứu trực tiếp tổng thể đó là thông qua một hay nhiều dấu hiệu đặc trưng cho tổng thể đó, được gọi là dấu hiệu nghiên cứu. Các dấu hiệu này có thể là định tính hoặc định lượng (ta cũng có thể gọi là biến định tính hoặc biến định lượng). Chẳng hạn, để nghiên cứu chiều dài bông lúa của một giống lúa nào đó thì dấu hiệu nghiên cứu ở đây Ting tỉnh định lượng chính là chiều dài bông; khi nghiên cứu một loại bệnh mới xuất hiện trên gia cầm tại đồng bằng Bắc Bộ thì đặc tính mà ta quan tâm đến ở đây là đặc tính mang tính định tính, xét mỗi cá thể gia cầm trong tổng thể thì có hoặc không có loại bệnh mà tai quan tâm.
77 trang |
Chia sẻ: thanhle95 | Lượt xem: 274 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Giáo trình Nội bộ xác suất thống kê - Phần 2: Thống kê toán, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
70
Phần 2. Thống kê toán
Thống kê toán họ
ra đời gắn liền với nhu
ầu thự
tiễn
ủa tự nhiên - xã hội và
ó lị
h sử
phát triển lâu đời nhất. Nội dung
hính
ủa thống kê toán là xây dựng
á
phương pháp thu
thập, sắp xếp và xử lý số liệu thống kê (số liệu thống kê ở đây
ó thể là những đặ
tính định
tính hoặ
những đặ
tính định lượng). Thông qua việ
phát hiện, phản ánh những quy luật về
mặt lượng
ủa
á
hiện tượng,
á
on số thống kê giúp
ho việ
kiểm tra, đánh giá
á
hiện
tượng tự nhiên,
á
vấn đề kinh tế
ũng như
á
vấn đề xã hội. Từ đó đưa ra những quyết định,
dự báo và hoạ
h định
hiến lượ
phát triển
ủa
á
sự vật, hiện tượng đượ
nghiên
ứu. Phần
thống kê toán sẽ giới thiệu những kiến thứ
ơ bản nhất về một số bài toán quan trọng trong
thống kê bài toán ướ
lượng tham số, bài toán kiểm định giả thuyết thống kê và bài toán tương
quan hồi quy.
Chương 3
Cơ sở lý thuyết mẫu
Quá trình nghiên
ứu thống kê gồm
á
giai đoạn: thu thập số liệu, xử lý tổng hợp và phân
tí
h, dự báo. Trong thu thập số liệu thường áp dng hai hình thứ
hủ yếu: báo
áo thống kê
định kỳ và điều tra thống kê. Chương này nhằm giới thiệu một số vấn đề
ần quan tâm khi bắt
đầu làm một bài toán thống kê, đó là giai đoạn thu thập và xử lý số liệu.
3.1 Tổng thể và mẫu
3.1.1 Tổng thể và kí
h thướ
ủa tổng thể
Định nghĩa 3.1.1. Toàn bộ tập hợp
á
phần tử đồng nhất theo một dấu hiệu nghiên
ứu định
tính hoặ
định lượng nào đó đượ
gọi là tổng thể nghiên
ứu (population) (hay tổng thể hoặ
tập
hính). Số lượng
á
á thể (hay
á
phần tử)
ủa tổng thể đượ
gọi là kí
h thướ
ủa tổng
thể (size of population), thường đượ
kí hiệu là N .
Với mỗi tổng thể ta không nghiên
ứu trự
tiếp tổng thể đó mà thông qua một hay nhiều
dấu hiệu đặ
trưng
ho tổng thể đó, đượ
gọi là dấu hiệu nghiên
ứu. Cá
dấu hiệu này
ó
thể là định tính hoặ
định lượng (ta
ũng
ó thể gọi là biến định tính hoặ
biến định lượng).
Chẳng hạn, để nghiên
ứu
hiều dài bông lúa
ủa một giống lúa nào đó thì dấu hiệu nghiên
ứu ở đây mang tính định lượng
hính là
hiều dài bông; khi nghiên
ứu một loại bệnh mới
xuất hiện trên gia
ầm tại đồng bằng Bắ
Bộ thì đặ
tính mà ta quan tâm đến ở đây là đặ
tính
mang tính định tính, xt mỗi
á thể gia
ầm trong tổng thể thì
ó hoặ
không
ó loại bệnh mà
ta quan tâm.
3.1.2 Mẫu và phương pháp
họn mẫu
Định nghĩa 3.1.2. Một tập hợp
á
á thể đượ
lấy ra từ tổng thể đượ
gọi là mẫu (sample).
Số lượng
á thể trong một mẫu gọi là kí
h thướ
mẫu (size of sample), thường kí hiệu là n.
Chú ý rằng kí
h thướ
ủa mẫu thường nhỏ hơn rất nhiều so với kí
h thướ
tổng thể. Từ
tổng thể đã
ho ta
ó thể lấy ra nhiều mẫu khá
nhau với
ùng một kí
h thướ
n. Tập hợp tất
71
72
ả
á
mẫu
ó thể lấy ra đượ
từ tổng thể đượ
gọi là không gian mẫu (sample spa
e). Thay
vì nghiên
ứu tất
ả
á
á thể
ó mặt trong tổng thể ta
huyển sang nghiên
ứu một bộ phận
ủa tổng thể là mẫu vì vậy mẫu phải đại diện một
á
h khá
h quan nhất
ho tổng thể. Ta quan
tâm đến
á
phương pháp lấy mẫu sau đây:
a) Lấy mẫu ngẫu nhiên không hoàn lại: Đó là phương pháp lấy mẫu bằng
á
h đánh số
á
á thể trong tổng thể từ 1 đến N . Rút ngẫu nhiên lần lượt n
á thể đưa vào mẫu theo một trong
hai
á
h sau.
- Mẫu ngẫu nhiên đơn giản: Từ tổng thể kí
h thướ
N người ta dùng
á
h rút thăm đơn
giản ra n phần tử
ủa mẫu theo một bảng số ngẫu nhiên nào đó. u điểm
ủa phương pháp
này là
ho php thu đượ
một mẫu
ó tính đại diện
ao,
ho php suy rộng
á
kết quả
ủa
mẫu
ho tổng thể với một sai số xá
định. Nhượ
điểm
ủa phương pháp này là phải
ó đượ
toàn bộ danh sá
h
ủa tổng thể nghiên
ứu, mặt khá
hi phí
họn mẫu khá lớn.
-Mẫu ngẫu nhiên hệ thống: Là loại mẫu ngẫu nhiên đã đượ
đơn giản hoá trong
á
h
họn,
trong đó
hỉ
ó phần tử đầu tiên đượ
họn một
á
h ngẫu nhiên, sau đó dựa trên danh sá
h đã
đượ
đánh số
ủa tổng thể để
họn ra
á
phần tử tiếp theo vào mẫu theo một thủ t
nào đó.
Nhượ
điểm
ủa phương pháp này là dễ mắ
sai số hệ thống khi danh sá
h
ủa tổng thể không
đượ
sắp xếp một
á
h ngẫu nhiên mà lại theo một trật tự
hủ quan nào đó.
b) Lấy mẫu ngẫu nhiên
ó hoàn lại: Đánh số
á
á thể trong tổng thể từ 1 đến N . Rút ngẫu
nhiên từ tổng thể ra 1
á thể, ghi đặ
tính
ủa
á thể này rồi trả
á thể đó về tổng thể, đặ
tính
vừa ghi lại đượ
oi là phần tử đầu tiên
ủa mẫu. Việ
xá
định
á
phần tử tiếp theo
ủa mẫu
ũng đượ
làm tương tự như trên.
Từ phương pháp lấy mẫu ngẫu nhiên
ó hoàn lại ta thấy xá
suất để mỗi
á thể
ó mặt trong
mẫu đều là 1/N . Mỗi
á thể
ó thể
ó mặt nhiều lần trong mẫu. Dễ thấy, với kí
h thướ
n, số
lượng
á
mẫu trong trường hợp lấy mẫu không hoàn lại là AnN , số lượng
á
mẫu trong trường
hợp lấy
ó hoàn lại là A
n
N = N
n
. Khi N lớn hơn rất nhiều so với n thì AnN ≈ Nn, khi đó việ
lấy mẫu hoàn lại và không hoàn lại
ho ta
á
kết quả sai lệ
h không đáng kể.
) Lấy mẫu theo
á
lớp: Chia tổng thể ra làm k lớp. Rồi từ mỗi lớp lấy ngẫu nhiên ra một
số
á thể đưa vào mẫu. Nếu số lượng
á
á thể ở lớp thứ i là Ni thì số
á thể đượ
họn vào
mẫu
ủa lớp này là ni nên thỏa mãn điều kiện
ni
n
≈ Ni
N
.
d) Lấy mẫu theo
hu kì: Trong việ
kiểm tra
hất lượng sản phẩm
ông nghiệp đượ
sản xuất
theo dây
huyền, việ
lấy mẫu ngẫu nhiên sẽ gặp khó khăn và tốn km. Phương pháp lấy mẫu
theo
hu kỳ tỏ ra
ó hiệu quả trong nền sản xuất
ông nghiệp hiện đại. Cứ sau một
hu kỳ
gồm T sản phẩm lấy ra một sản phẩm để đưa vào mẫu. Để tránh sự trùng lặp
ủa
hu kỳ sản
xuất ra
á
sản phẩm tốt, xấu
ủa dây
huyền với
hu kỳ lấy mẫu, ta
ó thể thay đổi
hu kỳ
T trong
á
đợt lấy mẫu khá
nhau với m
đí
h mẫu phải đại diện một
á
h khá
h quan nhất
ho tổng thể.
73
Cá
phương pháp lấy mẫu trên là
á
phương pháp phổ biến trong việ
thu thập
á
dữ liệu.
Việ
lấy mẫu tốt, xấu theo nghĩa
ó khá
h quan hay không ảnh hưởng rất lớn đến việ
đưa ra
kết luận
ó
hính xá
hay không về
á
đặ
tính
ó mặt trong tổng thể.
Chú ý 3.1.3. Từ kết quả tập mẫu
ó đượ
ta
ó thể suy ra
á
kết quả
ho tổng thể bởi vậy
bao giờ
ũng
ó thể mắ
phải sai lầm nhất định. Độ sai lệ
h lớn hay b ph thuộ
vào phương
pháp xây dựng mẫu và kí
h thướ
mẫu. Độ
hính xá
trong thống kê thường đượ
gọi là độ
tin
ậy (degree of
onfiden
e)
ủa kết luận, kí hiệu là γ. Nếu gọi α là tỉ lệ sai sót (hay mứ
ý
nghĩa)
ủa kết luận thì α = 1− γ.
3.1.3 Mẫu ngẫu nhiên
Sau đây, mẫu đượ
hiểu là mẫu
ó lặp lại và đượ
lấy theo phương pháp ngẫu nhiên đơn
giản. Giả sử đặ
trưng biến X ở mỗi
á thể ở tổng thể là một biến ngẫu nhiên,
òn đượ
gọi là
biến ngẫu nhiên gố
,
ó hàm phân phối xá
suất F (x). Ta tiến hành một php lấy mẫu ngẫu
nhiên
ó kí
h thướ
n. Gọi Xi là biến ngẫu nhiên
hỉ giá trị X
ủa
á thể thứ i trong mẫu, ta
thấy
á
Xi là
á
biến ngẫu nhiên
ó
ùng phân phối xá
suất với X . Với mỗi mẫu
thể Xi
sẽ
ó giá trị xá
định là xi. Do việ
lấy mẫu độ
lập nên dãy X1, X2, . . . , Xn là
á
biến ngẫu
nhiên độ
lập.
Định nghĩa 3.1.4. Mẫu ngẫu nhiên (random sample) kí
h thướ
n là tập hợp
ủa n biến ngẫu
nhiên độ
lập X1, X2, . . . , Xn đượ
thành lập từ biến ngẫu nhiên X và
ó
ùng quy luật phân
phối xá
suất với X , ký hiệu là W = (X1, X2, . . . , Xn).
Giả sử X1 nhận giá trị x1, X2 nhận giá trị x2, . . . , Xn nhận giá trị xn. Tập hợp n giá trị
x1, x2, . . . , xn tạo thành một giá trị
ủa mẫu ngẫu nhiên, hay
òn gọi là mẫu
thể, ký hiệu
w = (x1, x2, . . . , xn).
Ví d 3.1.5. Xt tổng thể là tập sinh viên Việt Nam, biến ngẫu nhiên gố
X là
hiều
ao
ủa
mỗi sinh viên. Xt một mẫu
ó kí
h thướ
n = 10, gọi Xi là
hiều
ao
ủa sinh viên thứ i
trong mẫu, khi đóW = (X1, X2, . . . , X10) là một mẫu ngẫu nhiên. Thự
hiện một php thử đối
với mẫu ngẫu nhiên trên, tứ
là tiến hành đo
hiều
ao
ủa 10 sinh viên
họn vào mẫu ta thu
đượ
mẫu
thể x1 = 1, 50; x2 = 1, 52; x3 = 1, 60; x4 = 1, 65; x5 = 1, 70; x6 = 1, 81; x7 =
1, 63; x8 = 1, 77; x9 = 1, 55, x10 = 1, 58 (đơn vị là mt), bộ số
(1, 50; 1, 52; 1, 60; 1, 65; 1, 70; 1, 81; 1, 63; 1, 77; 1, 55; 1, 58)
là một mẫu
thể (hay một thể hiện)
ủa mẫu ngẫu nhiên (X1, X2, . . . , X10).
Chú ý 3.1.6. Với
á
h xây dựngmẫu ngẫu nhiên như trên thì
á
biến ngẫu nhiênX1, X2, . . . , Xn
ủa mẫu không những
ó
ùng dạng phân phối xá
suất với biến ngẫu nhiên gố
X , tứ
là
ó
74
ùng hàm phân phối xá
suất F (x) mà
á
tham số đặ
trưng
ủa
húng
ũng bằng
á
tham
số đặ
trưng
ủa X , tứ
là:
E(X1) = E(X2) = ã ã ã = E(Xn) = E(X) (3.1)
V (X1) = V (X2) = ã ã ã = V (Xn) = V (X) (3.2)
3.2 Cá
phương pháp mô tả mẫu ngẫu nhiên
3.2.1 Sắp xếp số liệu thự
nghiệm
Để khai thá
và xử lý
á
thông tin
hứa đựng trong dãy số liệu này ta
ần sắp xếp số liệu
nhằm nhận ra
á
đặ
trưng
ủa dãy số liệu đó. Thông thường ta sắp xếp số liệu theo thứ tự
tăng dần. Dãy số liệu này ưu điểm hơn dãy số liệu ban đầu, ta
ó thể dễ dàng nhận biết giá trị
nhỏ nhất và giá trị lớn nhất
ủa
á
số liệu mẫu, biết đượ
biên độ dao động
ủa
á
số liệu
mẫu. Với
á
h sắp xếp này ta dễ dàng nhận biết
á
số liệu
ó mặt trong mẫu một lần vì
á
số liệu bằng nhau đượ
xếp liền nhau. Một số phương pháp thường đượ
dùng để sắp xếp số
liệu như sau.
a) Phương pháp liệt kê. Liệt kê tất
ả
á
phần tử
ủa mẫu. Chẳng hạn, với một mẫu
ỡ n, ta
ó thể viết x1 = 2, 5; x2 = 2, 6; . . . , xn = 3, 0.
Nhượ
điểm
ủa
á
h sắp xếp này là không mô tả đượ
mẫu
ỡ lớn, tính toán phứ
tạp,
không khoa họ
.
b) Phương pháp dùng bảng tần số và bảng tần suất. Giả sử từ tổng thể
ủa biến ngẫu nhiên
gố
X rút ra một mẫu ngẫu nhiên kí
h thướ
n, trong đó giá trị x1 xuất hiện với tần số n1, giá
trị x2 xuất hiện với tần số n2, . . . , giá trị xk xuất hiện với tần số nk, lú
đó sau khi
á
xi đã
đượ
sắp xếp theo trình tự tăng dần giá trị
thể
ủa mẫu, ta
ó thể mô tả mẫu
thể bằng
bảng phân phối tần số thự
nghiệm sau.
xi x1 x2 . . . xi . . . xk
ni n1 n2 . . . ni . . . nk
với n1 + n2 + . . .+ nk = n. Dòng trên ghi
á
giá trị
ó thể
ó
ủa mẫu theo thứ tự tăng dần,
dòng dưới ghi tần số tương ứng. Tần số mẫu là số
á thể
ó đặ
tính X = xi trong mẫu. Bảng
tần số
ho ta nhiều thông tin hơn dãy số liệu đượ
sắp xếp theo thứ tự tăng dần. Ngoài những
thông tin
ó đượ
như dãy số liệu sắp xếp theo thứ tự tăng dần, qua bảng tần số ta
ó thể biết
đượ
số liệu nào
ó mặt nhiều nhất, số liệu nào
ó mặt ít nhất trong mẫu.
Gọi fi =
ni
n
, (i = 1, . . . , k) là tần suất
ủa
á thể
ó đặ
tính xi trong mẫu, ta
ó bảng phân
phối tần suất thự
nghiệm như sau
xi x1 x2 . . . xi . . . xk
fi f1 f2 . . . fi . . . fk
75
với f1 + f2 + . . . + fk = 1. Ngoài những thông tin
ó đượ
như bảng tần số mẫu, ta
òn biết
đượ
tỷ lệ phần trăm đóng góp
ủa số liệu mẫu.
Ví d 3.2.1. Gặt ngẫu nhiên 100 điểm trồng lúa
ủa một vùng, ta thu đượ
á
số liệu đượ
sắp xếp thành bảng sau:
Năng suất(tạ/ha) 21 24 25 26 28 32 34
Số điểm gặt tương ứng 10 20 30 15 10 10 5
Bảng phân phối tần suất thự
nghiệm:
xi 21 24 25 26 28 32 34
fi 0, 1 0, 2 0, 3 0, 15 0, 1 0, 1 0, 05
Những phương pháp trên
ó ưu điểm là mô tả đượ
mẫu
ỡ lớn, nhưng nhượ
điểm là khó
mô tả đượ
mẫu liên t
. Khi kí
h thướ
mẫu lớn và đặ
tính định lượng
ủa tổng thể là một
biến ngẫu nhiên liên t
thì người ta thường dùng phương pháp sau.
) Phương pháp phân khoảng. Phân
hia số liệu theo lớp với
ùng một độ rộng để thuận tiện
ho việ
phân tí
h và xử lý số liệu. Giả sử xmin là giá trị nhỏ nhất, xmax là giá trị lớn nhất
ủa
số liệu. Chia khoảng (xmin, xmax) thành k khoảng
á
h đều nhau với độ rộng
ủa mỗi khoảng
là
h =
xmax − xmin
k
,
Người ta
hứng minh đượ
rằng số khoảng đượ
họn tối ưu theo
ông thứ
: k = 1+3, 322 lgn.
Ta
ó bảng sau (gọi là bảng ghp lớp)
Khoảng x0 − x1 x1 − x2 . . . xk−1 − xk
Tần số dữ liệu trong khoảng n1 n2 . . . nk
trong đó ni là số
á thể
ó đặ
tính X thỏa mãn xi−1 6 X 6 xi, i = 1, 2, . . . , n
ó trong mẫu.
Phương pháp này
ó ưu điểm là mô tả đượ
mọi dữ liệu, khoảng
àng dầy thì
àng
hính
xá
, tính toán trên máy tính thuận lợi.
Ví d 3.2.2. Tiến hành đo ngẫu nhiên 100
ây bạ
h đàn trồng trong một khu rừng tái sinh sau
10 năm, ta thu đượ
á
số liệu đượ
sắp xếp thành bảng sau:
Chiều
ao (m) 3, 5− 4, 5 4, 5− 5, 0 5, 0− 5, 5 5, 5− 6, 0 6, 0− 6, 5
Số
ây 10 20 30 25 15
3.2.2 Hàm phân phối thự
nghiệm
ủa mẫu
Cho mẫu ngẫu nhiên (X1, X2, . . . , Xn) lấy từ biến ngẫu nhiên X
ó hàm phân phối
F (x); ở đây F (x)
hưa biết nên ta
ăn
ứ vào mẫu để tìm một hàm số nào đó gần với F (x).
76
Định nghĩa 3.2.3. Hàm phân phối thự
nghiệm
ủa mẫu (hay hàm phân phối mẫu)
ủa biến
ngẫu nhiên X , kí hiệu là Fn(x), là một hàm số theo biến số thự
x và đượ
xá
định như sau:
Fn(x) =
m
n
, x ∈ R (3.3)
trong đóm là số phần tử
ủa mẫu
ó trị số nhỏ hơn x (Xi < x). Với
á
h xây dựng hàm Fn(x)
như trên thì rõ ràng là sau khi lấy mẫu rồi thì phân phối này đượ
xá
định hoàn toàn. Theo
(3.3), Fn(x) là tần suất
ủa biến ngẫu nhiên X nhận giá trị nhỏ hơn x ứng với n php thử độ
lập nên việ
định nghĩa Fn(x) trong (3.3) tương đương với việ
định nghĩa luật phân phối Pn
xá
định bởi:
Pn(X = Xi) =
1
n
(i = 1, 2, . . . , n). (3.4)
Như vậy rõ ràng là hàm phân phối mẫu
ũng là hàm phân phối xá
suất và khi
ỡ mẫu tăng
vô hạn thì hàm phân phối thự
nghiệm Fn(x) tiến dần đến hàm phân phối xá
suất F (x)
ủa
tổng thể. Do đó
ó thể dùng hàm phân phối thự
nghiệm
ủa mẫu để biểu diễn một
á
h gần
đúng quy luật phân phối xá
suất F (x)
ủa tổng thể.
Ví d 3.2.4. Điều tra mứ
độ sâu bệnh trên một
ánh đồng ngô, người ta kiểm tra ngẫu nhiên
500 hố
, mỗi hố
ó 2
ây. Kết quả kiểm tra như sau
Số
ây bị bệnh 0 1 2
Số hố
242 185 73
Hãy lập hàm phân phối thự
nghiệm.
Giải: Theo định nghĩa ta
ó hàm phân phối mẫu đượ
xá
định là
+ Với x < 0 thì Fn(x) = 0;
+ Với 0 < x ≤ 1 thì Fn(x) = 242
500
= 0, 484;
+ Với 1 ≤ x < 2 thì Fn(x) = 242 + 185
500
=
427
500
= 0, 854;
+ Với x ≥ 2 thì Fn(x) = 1.
Vậy Fn(x) =
0 x < 0;
0, 484 0 < x ≤ 1;
0, 854 1 ≤ x < 2;
1 x ≥ 2.
3.2.3 Biểu diễn số liệu bằng biểu đồ
Phương pháp này thường đượ
dùng trong thống kê mô tả. Sau khi thu thập đượ
số liệu
vào một mẫu và sắp xếp số liệu thành bảng tần số, bảng tần suất hay bảng ghp lớp, người ta
biểu diễn
á
số liệu đó bằng biểu đồ để minh họa mật độ phân bố
ủa
á
hiện tượng ngẫu
nhiên dựa trên
ơ sở mẫu ngẫu nhiên đã
ho. Có nhiều loại biểu đồ để biểu diễn
á
số liệu
77
thống kê như biểu đồ hình tròn, hình
ột, biểu đồ đường, biểu đồ hình bậ
thang, . . . . Việ
sử
dng loại biểu đồ nào để biểu diễn số liệu
ho thí
h hợp ph thuộ
vào đặ
tính đặ
trưng mà
ta nghiên
ứu (biến định tính hay biến định lượng), ph thuộ
vào phương pháp sắp xếp số liệu
và m
đí
h nghiên
ứu
ủa
hủ thể.
a) Biểu đồ tần số. Nếu số liệu đượ
sắp xếp phân loại theo tần số thì người ta thường dùng
á
loại biểu đồ sau để biểu diễn:
- Biểu đồ tần số hình
ột gồm nhiều hình
hữ nhật, mỗi đặ
tính ứng với một
ột hình
hữ
nhật, đáy
ủa
á
ột trùng với tr
hoành biểu thị
á
đặ
tính tương ứng, tr
tung biểu thị
tần số và độ
ao
ủa mỗi
ột hình
hữ nhật thể hiện tần số
ủa
á
đặ
tính.
- Biểu đồ đường tần số hay đa giá
tần số là đường nối
á
điểm (x1, n1), (x2, n2), . . . , (xk, nk).
Ví d 3.2.5. Để nghiên
ứu
hất lượng họ
tập
ủa sinh viên năm thứ nhất ở một trường đại
họ
, người ta thống kê điểm tổng kết theo xếp loại A,B,C,D
ủa 400 sinh viên năm thứ nhất
đượ
họn ngẫu nhiên từ danh sá
h và thu đượ
bảng số liệu sau.
Đánh giá A B C D
Tần số 35 260 93 12
Hãy vẽ biểu đồ hình tròn và hình
ột biểu diễn kết quả họ
tập
ủa 400 sinh viên trên.
Giải. Ta
ó thể tổng hợp
á
số liệu trong bảng trên dưới dạng bảng thống kê sau để thuận tiện
ho việ
biểu diễn
á
số liệu bằng biểu đồ hình tròn.
Đánh giá Tần số Tần suất Phần trăm Gó
tròn
A 35 35/400 = 0, 09 9% 0, 09ì 360 = 32, 4o
B 260 260/400 = 0, 65 65% 234o
C 93 93/400 = 0, 23 23% 82, 8o
D 12 12/400 = 0, 03 3% 10, 8o
Tổng số 400 1, 00 100% 360o
50
100
150
200
250
300
0 A B C D
35
260
93
12
fi
xi
Hình 3.1: Biểu đồ tần số hình
ột
65%
A
C
32%
9%
D3%
B
Hình 3.2: Biểu đồ hình tròn
b) Biểu đồ tần suất. Nếu dữ liệu sắp xếp phân loại theo tần suất hay tỷ lệ phần trăm thì người
ta thường dùng
á
loại biểu đồ sau để biểu diễn:
78
- Biểu đồ hình tròn là biểu đồ gồm nhiều hình quạt, mỗi hình quạt biểu diễn tỷ lệ phần
trăm
ủa mỗi đặ
tính so với toàn bộ
á
đặ
tính thu đượ
ở mẫu.
- Biểu đồ đường tần suất hay đa giá
tần suất là đường nối
á
điểm (x1,
n1
n
), (x2,
n2
n
), . . .,
(xk,
nk
n
). Gọi pi = P (X = xi), theo định nghĩa thống kê về xá
suất thì
ni
n
→ pi khi n→∞,
điều này nghĩa là khi n lớn thì tung độ
ủa biểu đồ đường tần suất xấp xỉ tung độ
ủa biểu đồ
đường xá
suất
ần tìm. Do đó biểu đồ đường tần suất giúp ta hình dung dạng hàm mật độ
ủa
biến ngẫu nhiên X .
Ví d 3.2.6. Hãy vẽ đa giá
tần suất
ủa bảng số liệu kiểm tra kết quả thi môn toán
ủa 20
họ
sinh:
xi 1 3 5 6 8
ni 2 4 8 5 1
Giải. Ta
ó bảng tần suất
xi 1 3 5 6 8
fi 0, 1 0, 2 0, 4 0, 25 0, 05
Biểu đồ đường tần suất
ó dạng như hình 3.3.
1 3 5 6 8 xi
0, 1
0, 2
0, 4
0, 6
fi
Hình 3.3: Biểu đồ đường tần suất
Tá
động trự
quan
ủa hai loại biểu đồ trên
ó sự khá
nhau. Biểu đồ hình tròn đượ
dùng
để biểu thị mối quan hệ
ủa mỗi loại đặ
tính với toàn bộ; biểu đồ hình
ột đượ
dùng để nhấn
mạnh số lượng thự
sự là tần số
ủa mỗi đặ
tính
ó trong mẫu thông qua độ
ao
ủa
á
ột.
Hai loại biểu đồ này
ũng đượ
dùng để mô tả
á
số liệu
ủa biến định lượng. Nhiều khi
người ta phải tập hợp số liệu
ủa biến định lượng trên những nhóm đã đượ
phân loại
ủa tổng
thể. Chẳng hạn, người ta
ó thể nghiên
ứu thu nhập trung bình
ủa người dân theo
á
nhóm
giới tính, nghề nghiệp hoặ
theo
á
vùng địa lý khá
nhau trong một quố
gia. Trong những
trường hợp đó,
húng ta
ó thể dùng đồ thị hình tròn hoặ
hình
ột để mô tả số liệu thu thập
đượ
.
79
3.3 Cá
đặ
trưng
ủa mẫu ngẫu nhiên
3.3.1 Hàm thống kê
Để nghiên
ứu biến ngẫu nhiên gố
X trong tổng thể, nếu
hỉ rút một mẫu ngẫu nhiên
(X1, X2, . . . , Xn) thì mới
hỉ
ó một vài kết luận sơ bộ và rời rạ
về X , vì
á
giá trị Xi
ủa
mẫu
ó
hung quy luật phân phối xá
suất với X , song quy luật này lại
hưa đượ
xá
định
hoàn toàn. Nhưng nếu tổng hợp
á
biến ngẫu nhiênX1, X2, . . . , Xn này lại thì theo luật số lớn
húng sẽ bộ
lộ những quy luật mới làm
ơ sở để nhận định về biến ngẫu nhiên gố
X trong
tổng thể. Việ
tổng hợp mẫu (X1, X2, . . . , Xn) đượ
thự
hiện dưới dạng một hàm nào đó
ủa
á
giá trịX1, X2, . . . , Xn
ủa mẫu đượ
gọi là hàm thống kê (statisti
al fun
tion) hay thống kê,
ký hiệu là G = f(X1, X2, . . . , Xn). Với mẫu
thể (x1, x2, . . . , xn) thì g = f(x1, x2, . . . , xn)
là giá trị
thể mà thống kê G = f(X1, X2, . . . , Xn) nhận tương ứng với mẫu đã
ho.
Như vậy, về thự
hất thống kê là một hàm
ủa
á
biến ngẫu nhiên, do đó nó
ũng là một
biến ngẫu nhiên tuân theo một quy luật phân phối xá
suất nhất định và
ũng
ó
á
tham số
đặ
trưng như kỳ vọng, phương sai, . . . Cá
thống kê
ùng với quy luật phân phối xá
suất
ủa
húng là
ơ sở để suy rộng
á
thông tin
ủa mẫu
ho dấu hiệu nghiên
ứu tổng thể.
3.3.2 Trung bình mẫu
Giả sử từ tổng thể
ủa biến ngẫu nhiên gố
X , ta lập một ngẫu nhiên (X1, X2, . . . , Xn)
ó
kí
h thướ
n.
Định nghĩa 3.3.1. Một thống kê đượ
gọi là một trung bình mẫu (sample mean) nếu nó là
trung bình số họ
ủa
á
giá trị mẫu, kí hiệu là X, tứ
là X đượ
xá
định bởi X = 1
n
n∑
i=1
Xi.
Chú ý 3.3.2. (i) Khi thự
hiện một php thử đối với mẫu ngẫu nhiên, nó sẽ nhận một mẫu
thể (x1, x2, . . . , xn), do đó trung bình mẫu
ũng nhận một giá trị
thể, kí hiệu là x.
(ii) Trung bình mẫu là một thống kê nên nó
ũng là một biến ngẫu nhiên, do đó nó
ó
á
tham số đặ
trưng tương ứng như kì vọng toán, phương sai... Nếu biến ngẫu nhiên gố
X
ó
kì vọng toán E(X) và phương sai V (X) thì
E(X) = E(X); V (X) =
V (X)
n
; σ(X) =
σ(X)√
n
. (3.5)
Vậy bất kì biến ngẫu nhiên gố
phân phối theo quy l