Trong các thí nghiệm sinh học, không phải lúc nào ta cũng thu thập được các
dữ liệu có phân bố chuẩn. Nếu các dữ liệu thu được không có phân bố chuẩn thì
trước khi xử lý và phân tích, các dữ liệu này cần phải được chuyển dạng. Bộ dữ liệu
sau khi chuyển dạng sẽ có phân bố chuẩn, phương sai bền vững hơn nhưng bản chất
không đổi. Sau khi xử lý thống kê và thu được kết quả từ bộ dữ liệu mới, các kết
quả cần phải được chuyển dạng ngược trở lại theo thang đo ban đầu.
Có nhiều phương pháp khác nhau để chuyển dạng dữ liệu. Trong giáo trình
này ta chỉ tập trung vào hai phương pháp chuyển dạng căn bậc hai (square root) và
chuyển dạng theo hàm logarit.
104 trang |
Chia sẻ: lylyngoc | Lượt xem: 1652 | Lượt tải: 3
Bạn đang xem trước 20 trang tài liệu Thống kê sinh học Phần 2, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
THỐNG KÊ SINH HỌC
55
Chương 4. KIỂM ĐỊNH GIẢ THUYẾT
I. CHUYỂN DẠNG DỮ LIỆU (TRANSFORMATIONS OF DATA)
Trong các thí nghiệm sinh học, không phải lúc nào ta cũng thu thập được các
dữ liệu có phân bố chuẩn. Nếu các dữ liệu thu được không có phân bố chuẩn thì
trước khi xử lý và phân tích, các dữ liệu này cần phải được chuyển dạng. Bộ dữ liệu
sau khi chuyển dạng sẽ có phân bố chuẩn, phương sai bền vững hơn nhưng bản chất
không đổi. Sau khi xử lý thống kê và thu được kết quả từ bộ dữ liệu mới, các kết
quả cần phải được chuyển dạng ngược trở lại theo thang đo ban đầu.
Có nhiều phương pháp khác nhau để chuyển dạng dữ liệu. Trong giáo trình
này ta chỉ tập trung vào hai phương pháp chuyển dạng căn bậc hai (square root) và
chuyển dạng theo hàm logarit.
Các thí dụ dưới đây sẽ cho ta thấy làm cách nào để chọn được cách chuyển
dạng tối ưu nhất.
Thí dụ 1. Số lượng tế bào máu quan sát được trong 400 ô của buồng đếm hồng cầu
(hematocytometer) (Fisher, 1990).
Dữ liệu
Số tế bào máu: 0 1 2 3 4 5 6 7 8 9 10 11 12
Tần số: 0 20 43 53 86 70 54 37 18 10 5 2 2
(1) Nhập dữ liệu vào Minitab
Cách 1. Dùng các lệnh từ thanh Menu
Calc > Make Patterned Data > Arbitrary Set of Numbers ...
Store patterned data in: C1
Arbitrary set of numbers: 1 (số tế bào máu)
Numbers of times to list each value: 20 (tần số)
Number of times to list the sequence: 1
Lặp lại
Calc > Make Patterned Data > Arbitrary Set of Numbers ...
Store patterned data in: C2
Arbitrary set of numbers: 2 (số tế bào máu)
Numbers of times to list each value: 43 (tần số)
Number of times to list the sequence: 1
Tiến hành tương tự với các giá trị còn lại từ 3 đến 12.
Kết quả ta có được 400 giá trị quan sát được lưu trong 12 cột từ C1 đến C12.
Nhập toàn bộ các dữ liệu trong 12 cột vào 1 cột (C13).
Đặt tên cột này là Count
Data > Stack >/Column...
Stack the following columns: C1 – C12
Store stacked data in:
Column of current worksheet: C13 OK
Data > Display data...
Simpo PDF Merge and Split Unregistered Version -
BÙI TẤN ANH
56
Cách 2. Gõ lệnh vào Session Window
Editor > Enable commands
MTB > SET C1
DATA> (1)20 (2)43 (3)53 (4)86 (5)70 (6)54 (7)37 (8)18 (9)10
DATA> (10)5 (11)2 (12)2
DATA> END
MTB> NAME C1 ‘Count’
MTB > PRINT C1
Kết quả dữ liệu xuất ra trên cửa sổ session như sau
Data Display
Count
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 3 3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 3 4 4 4 4
4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 4 5 5 5 5 5 5 5 5
5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
5 5 6 6 6 6 6 6 6 6 6 6 6 6 6
6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
6 6 6 6 6 6 6 6 6 6 6 7 7 7 7
7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
7 7 7 8 8 8 8 8 8 8 8 8 8 8 8
8 8 8 8 8 8 9 9 9 9 9 9 9 9 9
9 10 10 10 10 10 11 11 12 12
(2) Mô tả dữ liệu
Stat > Basic Statistics > Display Descriptive Statistics...
Descriptive Statistics: Count
Variable N Mean SE Mean StDev Minimum Q1 Median
Count 400 4.680 0.106 2.114 1.000 3.000 4.000
Variable Q3 Maximum
Count 6.000 12.000
Simpo PDF Merge and Split Unregistered Version -
THỐNG KÊ SINH HỌC
57
12.09.67.24.82.4
Median
Mean
5.04.84.64.44.24.0
A nderson-D arling N ormality T est
V ariance 4.4688
S kew ness 0.531363
Kurtosis 0.311605
N 400
M inimum 1.0000
A -S quared
1st Q uartile 3.0000
M edian 4.0000
3rd Q uartile 6.0000
M aximum 12.0000
95% C onfidence Interv al for M ean
4.4722
4.94
4.8878
95% C onfidence Interv al for M edian
4.0000 5.0000
95% C onfidence Interv al for S tDev
1.9769 2.2716
P -V alue < 0.005
M ean 4.6800
S tD ev 2.1139
9 5 % Confidence Interv als
Summary for Count
Counts
P
r
o
b
a
b
ili
t
y
129630
0.999
0.99
0.95
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.05
0.01
0.001
Mean
<0.005
4.68
StDev 2.114
N 400
A D 4.938
P-Value
Probability Plot of Counts
Dữ liệu có phân bố lệch dương
Simpo PDF Merge and Split Unregistered Version -
BÙI TẤN ANH
58
Chuyển dạng căn bậc 2
Minitab output
Chuyển toàn bộ dữ liệu gốc trong cột C1 (‘Counts’) thành dạng căn bậc 2 nhờ công
cụ Calculator. Lưu kết quả chuyển dạng trong cột C2 và đặt tên cho cột này là
SqrtCnt.
Calc > Calculator...
Mô tả dữ liệu trong cột SqrtCnt
Stat > Basic Statistics > Display Descriptive Statistics
Descriptive Statistics: SqrtCnt
Variable N Mean SE Mean StDev Minimum Q1
SqrtCnt 400 2.1040 0.0252 0.5040 1.0000 1.7321
Variable Median Q3 Maximum
SqrtCnt 2.0000 2.4495 3.4641
Simpo PDF Merge and Split Unregistered Version -
THỐNG KÊ SINH HỌC
59
3.22.82.42.01.61.2
Median
Mean
2.252.202.152.102.052.00
A nderson-D arling N ormality T est
V ariance 0.2540
S kew ness -0.137839
Kurtosis -0.132102
N 400
M inimum 1.0000
A -S quared
1st Q uartile 1.7321
M edian 2.0000
3rd Q uartile 2.4495
M aximum 3.4641
95% C onfidence Interv al for M ean
2.0544
4.50
2.1535
95% C onfidence Interv al for M edian
2.0000 2.2361
95% C onfidence Interv al for S tDev
0.4713 0.5415
P -V alue < 0.005
M ean 2.1040
S tD ev 0.5040
9 5 % Confidence Interv als
Summary for SqrtCnt
SqrtCnt
P
r
o
b
a
b
ili
t
y
4.03.53.02.52.01.51.00.5
0.999
0.99
0.95
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.05
0.01
0.001
Mean
<0.005
2.104
StDev 0.5040
N 400
A D 4.497
P-Value
Probability Plot for Square Root Count
Mặc dù kiểm tra Anderson-Darling cho thấy phân bố này khác biệt có ý nghĩa
đối với phân bố chuẩn (P < 0.05) nhưng biểu đồ xác suất có dạng tuyến tính và
histogram có đối xứng. Chuyển dạng thành công.
Simpo PDF Merge and Split Unregistered Version -
BÙI TẤN ANH
60
Chuyển dạng Log
Dùng công cụ Calculator để chuyển toàn bộ dữ liệu gốc trong cột C1 (‘Counts’)
sang dạng Log và lưu kết quả trong cột C3 với tên là LogCount. Có thể chọn hàm
Natural log trong Functions hoặc gỏ nhập trực tiếp LOGE(‘Counts’) vào ô
Expression.
Minitab output
Calc > Calculator...
Mô tả dữ liệu trong cột LogCnt
Stat > Basic Statistics > Display Descriptive Statistics
Descriptive Statistics: LogCount
Variable N Mean SE Mean StDev Minimum Q1
LogCount 400 1.4234 0.0263 0.5269 0.000000000 1.0986
Variable Median Q3 Maximum
LogCount 1.3863 1.7918 2.4849
Simpo PDF Merge and Split Unregistered Version -
THỐNG KÊ SINH HỌC
61
2.42.01.61.20.80.40.0
Median
Mean
1.601.551.501.451.40
A nderson-D arling N ormality T est
V ariance 0.2776
S kew ness -0.868773
Kurtosis 0.707780
N 400
M inimum 0.0000
A -S quared
1st Q uartile 1.0986
M edian 1.3863
3rd Q uartile 1.7918
M aximum 2.4849
95% C onfidence Interv al for M ean
1.3716
9.39
1.4752
95% C onfidence Interv al for M edian
1.3863 1.6094
95% C onfidence Interv al for S tDev
0.4927 0.5662
P -V alue < 0.005
M ean 1.4234
S tD ev 0.5269
9 5 % Confidence Interv als
Summary for LogCount
LogCount
P
ro
b
a
b
il
it
y
3.02.52.01.51.00.50.0
0.999
0.99
0.95
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.05
0.01
0.001
Mean
<0.005
1.423
StDev 0.5269
N 400
A D 9.388
P-Value
Probability Plot of LogCount
Chuyển dạng không phù hợp (quá mạnh). Biên trái (Left hand tail) có số lạ
(outlier)
Thí dụ 2. Số nang trứng trong các mẫu phân của 100 con dê
Dữ liệu có phân bố lệch dương (trang 30)
Simpo PDF Merge and Split Unregistered Version -
BÙI TẤN ANH
62
Chuyển dạng căn bậc hai
Calc > Calculator...
Stat > Basic Statistics > Display Descriptive Statistics...
Descriptive Statistics: SqrtOocy
Variable N Mean SE Mean StDev Minimum Q1 Median Q3 Maximum
SqrtOocy 100 71.17 2.21 22.14 34.64 53.85 67.08 81.70 146.29
140120100806040
Median
Mean
75.072.570.067.565.0
A nderson-D arling N ormality T est
V ariance 490.039
S kew ness 0.806398
Kurtosis 0.471601
N 100
M inimum 34.641
A -S quared
1st Q uartile 53.852
M edian 67.082
3rd Q uartile 81.700
M aximum 146.287
95% C onfidence Interv al for M ean
66.782
1.30
75.567
95% C onfidence Interv al for M edian
63.624 73.659
95% C onfidence Interv al for S tDev
19.436 25.716
P -V alue < 0.005
M ean 71.175
S tD ev 22.137
9 5 % Confidence Interv als
Summary for SqrtOocy
SqrtOocy
P
r
o
b
a
b
ili
t
y
160140120100806040200
0.999
0.99
0.95
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.05
0.01
0.001
Mean
<0.005
71.17
StDev 22.14
N 100
A D 1.299
P-Value
Probability Plot of SqrtOocy
Chuyển dạng chưa đủ mạnh - dữ liệu vẫn còn phân bố lệch dương
Simpo PDF Merge and Split Unregistered Version -
THỐNG KÊ SINH HỌC
63
Chuyển dạng Log
Calc > Calculator....
Stat > Basic Statistics > Display Descriptive Statistics...
Descriptive Statistics: LogOocy
Variable N Mean SE Mean StDev Minimum Q1 Median Q3
LogOocy 100 8.4385 0.0607 0.6073 7.0901 7.9725 8.4118 8.8061
Variable Maximum
LogOocy 9.9711
9.69.08.47.87.2
Median
Mean
8.608.558.508.458.408.358.30
A nderson-D arling N ormality T est
V ariance 0.3688
S kew ness 0.099690
Kurtosis -0.459615
N 100
M inimum 7.0901
A -S quared
1st Q uartile 7.9725
M edian 8.4118
3rd Q uartile 8.8061
M aximum 9.9711
95% C onfidence Interv al for M ean
8.3180
0.24
8.5590
95% C onfidence Interv al for M edian
8.3059 8.5989
95% C onfidence Interv al for S tDev
0.5332 0.7055
P -V alue 0.757
M ean 8.4385
S tD ev 0.6073
9 5 % Confidence Interv als
Summary for LogOocy
LogOocy
P
ro
b
a
b
il
it
y
109876
0.999
0.99
0.95
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.05
0.01
0.001
Mean
0.757
8.438
StDev 0.6073
N 100
A D 0.244
P-Value
Probability Plot of LogOocy
Normal
Chuyển dạng thành công – Phân bố đối xứng
Simpo PDF Merge and Split Unregistered Version -
BÙI TẤN ANH
64
II. TỔNG QUAN VỀ KIỂM ĐỊNH GIẢ THUYẾT
Các đặc trưng của mẫu ngoài việc dùng để ước lượng các đặc trưng của tổng
thể còn được dùng để đánh giá xem một giả thuyết nào đó của tổng thể là đúng hay
sai. Việc tìm ra kết luận để bác bỏ hay chấp nhận một giả thuyết được gọi là kiểm
định giả thuyết (hypothesis testing).
Giả thuyết đưa ra kiểm định được ký hiệu là H0 và được gọi là giả thuyết
không (null hypothesis). Đây là giả thuyết mà ta nghi ngờ và muốn bác bỏ. Ngoài
ra ta còn phải định rõ một giả thuyết nữa gọi là giả thuyết đối (alternate
hypothesis), ký hiệu là H1. H1 sẽ được chấp nhận khi H0 bị bác bỏ.
Câu hỏi đặt ra là: Chúng ta bác bỏ hay chấp nhận một giả thuyết bằng cách
nào?. Các nhà thống kê đều nhất trí nguyên lý sau:
“Nếu một biến cố có xác suất rất nhỏ thì trong một phép thử biến cố đó sẽ
không xảy ra”
Như vậy chúng ta sẽ quyết định bác bỏ giả thuyết H0 nếu xác suất xuất hiện
của một sự kiện quan sát được là “nhỏ”
Thí dụ 1: Thời gian mang thai của bò có phân bố chuẩn, x ~ N(285, 102). Ở một
giống bò mới người ta xác định được thời gian mang thai là 295 ngày. Liệu giá trị
quan sát này có phù hợp với trung bình tổng thể (nghĩa là thời gian mang thai của
giống bò mới trung bình cũng là 285 ngày) hay hoàn toàn khác?
Cách giải:
Giả sử rằng trung bình tổng thể của giống bò mới là 285 ngày.
Chúng ta cần tính xác suất của giá trị trung bình >295 ngày hoặc <275 ngày
(nghĩa là m 10 ngày).
Xác suất của biến cố này là:
P(X 295)
=
275 285 295 285
or
10 10
P Z Z
= P (Z 1)
= 2 * P(Z < - 1)
= 2 * 0.1587 = 0.3174
275
0.159 0.159
295
Đây là một xác suất lớn (1/3) vì vậy không có lý do gì để bác bỏ giả thuyết
trung bình tổng thể là 285 ngày.
Simpo PDF Merge and Split Unregistered Version -
THỐNG KÊ SINH HỌC
65
Thí dụ 2: Giả sử rằng thời gian mang thai quan sát được ở giống bò mới là 305
ngày. Ta có thể kết luận gì?
Cách giải:
Bây giờ ta cần tính xác suất của m> 305 ngày hoặc m < 265 ngày
Xác suất của biến cố này là:
P(X 305)
=
265 285 305 285
or
10 10
P Z Z
= P (Z 2)
= 2 * P(Z < - 2)
= 2 * 0.0228 = 0.0456
265 305
0.02280.0228
Đây là một xác suất nhỏ (1/20) vì vậy chúng ta bác bỏ giả thuyết trung bình
tổng thể là m = 285 ngày và ta có thể kết luận rằng trung bình tổng thể lớn hơn có ý
nghĩa so với 285 ngày.
Khi phải lựa chọn giữa hai giả thuyết H0 và H1, ta có thể phạm một trong hai
loại sai lầm:
(1) Bác bỏ H0 khi thực ra H0 là đúng sai lầm loại I
(2) Chấp nhận H0 khi thực ra H0 là sai sai lầm loại II
Có 4 khả năng có thể xảy ra thể hiện trong bảng dưới đây:
Kết luận
Thực tế
Chấp nhận H0 Bác bỏ H0
H0 đúng Kết luận đúng Sai lầm loại I
H0 sai Sai lầm loại II Kết luận đúng
III. KIỂM ĐỊNH 1 MẪU (KIỂM ĐỊNH GIÁ TRỊ TRUNG BÌNH)
1. Kiểm định Z
Thí dụ 1: Tiếp tục với thí dụ về thời gian mang thai của bò (có phân bố chuẩn,
trung bình là 285 ngày, độ lệch chuẩn là 10 ngày), nghĩa là x ~ N(285, 102).
Ở một giống bò mới người ta ghi nhận được thời gian mang thai của 6 con bò:
307 293 293 283 294 297
Simpo PDF Merge and Split Unregistered Version -
BÙI TẤN ANH
66
Giả sử rằng độ lệch chuẩn trong trường hợp này cũng là 10 ngày. Như vậy có
bằng chứng nào cho thấy trung bình thời gian mang thai của giống bò mới là khác
với 285 ngày?
Cách giải:
Giả định = 10 ngày dùng z-test
Giả thuyết không: H0 : m = 285 ngày
Giả thuyết đối: H1 : m 285 ngày
với m = trung bình thời gian mang thai của giống bò mới
x = (307+293+293+283+294+297)/6 = 294.5 ngày
Kiểm định:
2
( ) ( )
( )/
x x
z
se xn
m m
Trong thí dụ trên
2
294.5 285
2.33
10 / 6
z
Nếu giả thuyết H0 là đúng thì z = 2.33 là một quan sát từ một phân bố chuẩn tắc
(standard normal distribution).
Chúng ta tính xác suất để:
( 275.5 294.5)
( 2.33 2.33)
2* ( 2.33)
2*0.010 0.020
or
= or
=
=
P P x x
P Z Z
P Z
- 2.33
0.01
2.33
0.01
Nếu H0 là đúng, chỉ có 2% cơ hội để nhận được giá trị này của x . Do đó chúng ta
bác bỏ giả thuyết H0.
Kết luận: Thời gian mang thai của giống bò mới có giá trị trung bình lớn hơn có ý
nghĩa so với 285 ngày.
Tổng quát:
P < 0.05 (ít hơn 1/20) bác bỏ H0
P > 0.05 (lớn hơn 1/20) chấp nhận H0
Simpo PDF Merge and Split Unregistered Version -
THỐNG KÊ SINH HỌC
67
Khi H0 được chấp nhận cũng chưa có nghĩa là H0 hoàn toàn đúng; cỡ mẫu có thể
quá nhỏ nên không thể phát hiện sự sai khác. Ngay cả khi H0 bị bác bỏ, vẫn có khả
năng xảy ra sai lầm. Nếu ta chọn giá trị 5% như trên thì ta vẫn có 5% sai lầm khi
H0 đúng.
Thí dụ 2: Thử nghiệm thuốc gây mê trên chó. Người ta muốn kiểm tra xem mức độ
epinephrine huyết thanh trong máu sau khi dùng phương pháp gây mê mới có thay
đổi hay không so với khi dùng phương pháp gây mê trước đây. Phương pháp gây
mê trước đây đã cho kết quả là mức trung bình = 0.4 ng.ml-1 và độ lệch chuẩn là 0.2
ng.ml-1.
Các bước tiến hành
Bước 1. Nhập liệu
Đặt tên cột C1 là ‘Hormone’. Nhập dữ liệu vào cột này:
0.64 0.74 0.48 0.66 0.34 0.70
Bước 2. Mô tả dữ liệu
Stat > Basic Statistics > Descriptive Statistics …/Variable ‘Hormone’
Descriptive Statistics: Hormone
Variable N Mean SE Mean StDev Minimum Median Maximum
Hormone 6 0.5933 0.0623 0.1527 0.3400 0.6500 0.7400
Bước 3. Kiểm tra tính phân bố chuẩn
Graph > Boxplot …/Simple
0.80.70.60.50.40.3
Hormone
Do mẫu quá nhỏ nên khó kiểm tra. Chỉ xác định được là không có số liệu lạ
(outlier).
Bước 4. Kiểm định
Stat > Basic Statistics > 1-sample Z…/
Samples in Columns: Hormone
Standard deviation: 0.2
Test mean: 0.4
Simpo PDF Merge and Split Unregistered Version -
BÙI TẤN ANH
68
One-Sample Z: Hormone
Test of mu = 0.4 vs not = 0.4
The assumed standard deviation = 0.2
Variable N Mean StDev SE Mean
Hormone 6 0.593333 0.152665 0.081650
Variable 95% CI Z P
Hormone (0.433303, 0.753364) 2.37 0.018
Giả thuyết không và giả thuyết đối được viết bởi Minitab là:
Test of mu = 0.4 vs not = 0.4
Chúng ta sẽ viết lại như sau:
Giả thuyết không: H0 : m = 0.4 ng.ml
-1
Giả thuyết đối : H1 : m ≠ 0.4 ng.ml
-1
Trong đó m = trung bình mức epinephrine huyết thanh trong máu sau khi dùng
phương pháp gây mê mới.
Bước 5. Kết luận
Mức epinephrine huyết thanh trong máu tăng có ý nghĩa sau khi dùng phương pháp
gây mê mới
2. Kiểm định t
Thí dụ 1. Cũng dùng thí dụ 1 trong phần kiểm định Z nhưng bây giờ ta giả định
rằng sự biến thiên của thời gian mang thai của giống bò mới rất khác so với giống
cũ. Kết quả phân tích sẽ thay đổi như thế nào?
Cách giải
Không thể giả định = 10 ngày dùng t-test
Giả thuyết không: H0 : m = 285 ngày
Giả thuyết đối: H1 : m 285 ngày
x = 294.5 ngày và s = 7.74 ngày
Kiểm định
2
( ) ( )
/
x x
t
ses n
m m
độ tự do: df = n – 1
Trong thí dụ trên:
2
294.5 285 9.5
3.01
3.16(7.74) / 6
t
df = 6 – 1 = 5
nếu giả thuyết H0 là đúng thì t = 3.01 thuộc phân bố t với độ tự do = 5.
Simpo PDF Merge and Split Unregistered Version -
THỐNG KÊ SINH HỌC
69
7.55.02.50.0-2.5-5.0
0.4
0.3
0.2
0.1
0.0
z
t
Phân bố t có đuôi rộng hơn phân bố chuẩn. Phân bố này được dùng khi độ lệch
chuẩn được ước lượng từ mẫu. Cỡ mẫu càng lớn thì ước lượng càng chính xác vì độ
tự do tăng lên, t phân bố chuẩn.
Giá trị P của t-test là:
P = ( 275.5 or 294.5)P x x
= 5 5( 3.01 or T 3.01)P T
= 52* ( 3.01)P T
= 2*0.0015 = 0.03
Kết luận: Vì P < 0.05 nên ta bác bỏ giả thuyết H0 và kết luận rằng giống bò mới có
thời gian mang thai dài hơn.
Thí dụ 2: giống thí dụ trong kiểm định z
Bước 4. Kiểm định
Stat > Basic Statistics > 1-sample t…/
Samples in Columns: Hormone
Test mean: 0.4
One-Sample T: Hormone
Test of mu = 0.4 vs not = 0.4
Variable N Mean StDev SE Mean
Hormone 6 0.593333 0.152665 0.062325
Variable 95% CI T P
Hormone (0.433121, 0.753546) 3.10 0.027
3. Khoảng tin cậy của trung bình tổng thể (m)
Kiểm định giả thuyết cho ta biết dữ liệu phù hợp hay không phù hợp với một
giá trị trung bình xác định mCâu hỏi tiếp theo là khoảng giá trị nào của m phù hợp
với trung bình mẫu x ?
Simpo PDF Merge and Split Unregistered Version -
BÙI TẤN ANH
70
Công thức tính khoảng tin cậy 95% (95% CI = 95% confidence interval)
Thời gian mang thai của bò được dùng làm thí dụ minh hoạ. Nhắc lại chúng có phân
bố chuẩn N(285, 102). Sáu giá trị quan sát (n = 6) thu được trên một giống bò mới,
giá trị trung bình mẫu là x = 294.5 ngày.
Trường hợp 1. Nếu ta gỉả sử phương sai mẫu không khác so với phương sai
tổng thể, ta sẽ có = 10 ngày và xác định khoảng tin cậy cho kiểm định z.
( /2) 2 (0.025) * / * x z n x z se
Trong đó z(/2) = z(0.025) = 1.96 là 2.5% đuôi bên phải của phân bố chuẩn tắc.
Trong thí dụ trên
295% CI 294.5 1.96* 10 / 6 294.5 8.00 (286.5, 302.5)
Như vậy ta có thể tin đến 95% rằng trung bình thời gian mang thai của giống bò
mới nằm đâu đó trong khoảng 286.5 đến 302.5 ngày, mặc dù ước lượng là 294.5
ngày.
Trường hợp 2. Nếu ta không thể giả sử rằngphương sai mẫu không đổi so với
phương sai tổng thể, ta sẽ phải ước lượng bằng độ lệch chuẩn mẫu s và dùng
khoảng tin cậy cho kiểm định t.
( /2) 2 (0.025)
1* / *df nx t s n x t se
Trong đó /2 (0.025)1df nt t
là đuôi bên phải của phân bố t với độ tự do df = n – 1.
Trong thí dụ trên:
độ lệch chuẩn mẫu là s = 7.74 ngày
với df = n – 1 = 5 thì (0.025)5t = 2.57
295% CI 294.5 2.57* 7.74 / 6 294.5 8.1 (286.4, 302.6)
Như vậy mộ