CÁC NỘI DUNG CHÍNH
● 10.1 KĐ dấu và hạng Wilcoxon về trung bình của một tổng thể
● 10.2 KĐ dấu và hạng Wilcoxon trên 2 tổng thể, trường hợp lấy mẫu cặp
● 10.3 KĐ tổng hạng Wilcoxon trên 2 tổng thể, trường hợp lấy mẫu độc lập
● 10.4 KĐ Chi bình phương về mối liên hệ giữa hai biến định tính
● 10.5 KĐ Chi bình phương trên một mẫu
23 trang |
Chia sẻ: thanhtuan.68 | Lượt xem: 1421 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Bài giảng Thống kê ứng dụng - Chương 10 Kiểm định phi tham số, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Chương 10
KIỂM ĐỊNH PHI THAM SỐ
Ths. Nguyễn Tiến Dũng
Viện Kinh tế và Quản lý, Trường ĐH Bách khoa Hà Nội
Email: dung.nguyentien3@hust.edu.vn
Giới thiệu về KĐ phi tham số
● KĐ Phi tham số (non-parametric tests) là gì?
● Không dựa trên TB, tỷ lệ, PS, độ lệch chuẩn
● Tại sao KĐ phi tham số?
● Tổng thể không có PP bình thường
● Tổng thể có những giá trị bất thường (outliers)
● Cỡ mẫu nhỏ
● DL định tính
© 2013 Nguyễn Tiến Dũng 2
Các bài toán và phương pháp KĐ phi tham số
thường dùng
Mục đích PP KĐ phi tham số PP KĐ tham số tương
đương
So sánh TB của 1 tổng thể
với một giá trị cố định
KĐ dấu và hạng Wilcoxon
(Wilcoxon signed rank test)
One-sample T- Test
So sánh 2 TB của 2 tổng thể
với nhau, trường hợp 2 mẫu
cặp
KĐ dấu và hạng Wilcoxon
trên hai mẫu
2 Independent Samples T-
Test
So sánh 2 TB của 2 tổng thể
với nhau, trường hợp 2 mẫu
độc lập
KĐ tổng hạng Wilcoxon
(Wilcoxon rank-sum test)
hoặc KĐ Mann-Whitney U
2 Paired Samples T-Test
So sánh k TB của k tổng thể
với nhau (k > 2)
KĐ Kruskal - Wallis ANOVA một yếu tố (one-way
ANOVA)
KĐ mối liên hệ giữa hai biến
định tính
Phân tích tương quan hạng
Spearman
KĐ Chi bình phương (Chi-
square Test)
Phân tích tương quan và hồi
quy
KĐ về sự phù hợp của một
phân phối với một phân phối
lý thuyết
KĐ Chi bình phương trên
một mẫu / KĐ sự phù hợp
(Goodness-of-fit Test)
© 2013 Nguyễn Tiến Dũng 3
CÁC NỘI DUNG CHÍNH
● 10.1 KĐ dấu và hạng Wilcoxon về trung bình của
một tổng thể
● 10.2 KĐ dấu và hạng Wilcoxon trên 2 tổng thể,
trường hợp lấy mẫu cặp
● 10.3 KĐ tổng hạng Wilcoxon trên 2 tổng thể,
trường hợp lấy mẫu độc lập
● 10.4 KĐ Chi bình phương về mối liên hệ giữa hai
biến định tính
● 10.5 KĐ Chi bình phương trên một mẫu
© 2013 Nguyễn Tiến Dũng 4
10.1 KĐ dấu và hạng Wilcoxon về trung vị của
tổng thể
Gọi trung vị tổng thể là M, giá trị cần so sánh là M0.
● B1: Thu thập thông tin mẫu
● B2: Tính các chênh lệch di: 𝑑𝑖 = 𝑥𝑖 −𝑀0
● B3: Tính giá trị tuyệt đối của các chênh lệch |di|
● B4: Loại bỏ các chênh lệch bằng 0, xếp hạng các
|di| còn lại từ nhỏ đến lớn, |di| nhỏ nhất có hạng là
1.
● Nếu có hạng ngang nhau thì tính hạng TB.
● Cỡ mẫu rút gọn n’ = n – số trường hợp có di bằng 0
● B5: Tách các hạng vừa xếp thành 2 cột Nếu di > 0
thì đặt vào cột R+. Nếu di < 0 thì đặt vào cột R-
© 2013 Nguyễn Tiến Dũng 5
0 0
1 0
:
:
H M M
H M M
● Theo SGK của Hoàng Trọng & Chu Nguyễn Mộng
Ngọc thì:
● B6: Tính giá trị của chỉ tiêu KĐ W
● Nếu KĐ bên phải: W = ΣR+
● Nếu KĐ bên trái: W = ΣR-
● Nếu KĐ hai bên: W = min(ΣR+; ΣR-)
● B7: Tra bảng Wilcoxon tìm Wα (giá trị của CẬN
DƯỚI, tương ứng với trường hợp KĐ 1 bên hay 2
bên) và áp dụng quy tắc bác bỏ H0
● Nếu W < Wα
© 2013 Nguyễn Tiến Dũng 6
● Theo quan điểm khác:
● B6: Tính chỉ tiêu KĐ W = ΣR+
● B7: Tra bảng tìm WL (cận dưới) và WU (cận trên) và áp dụng quy tắc
bác bỏ H0.
● Nếu KĐ 2 bên: W < WL hoặc W < WU
● Nếu KĐ bên trái: W < WL
● Nếu KĐ bên phải: W > WU
● Quy tắc bác bỏ H0: Như KĐ về TB của một tổng thể, trường hợp biết
© 2013 Nguyễn Tiến Dũng 7
Wilcoxon Table
© 2013 Nguyễn Tiến Dũng 8
TD KĐ về thu nhập TB của SV sau khi tốt nghiệp –
Tr. 284 - Bảng 10.1 Tr. 286
© 2013 Nguyễn Tiến Dũng 9
10.2 KĐ tổng hạng Wilcoxon về TB của 2 mẫu độc
lập
● B1: Chọn mẫu làm Mẫu 1 (n1 <n2) và lập cặp giả thuyết TK. Nếu 2 mẫu có cỡ mẫu bằng nhau,
thì coi mẫu nào là Mẫu 1 cũng được. Gọi M1, M2 là trung vị của tổng thể thứ nhất và thứ hai
© 2013 Nguyễn Tiến Dũng 10
0 1 2
1 1 2
:
:
H M M
H M M
0 1 2
1 1 2
:
:
H M M
H M M
0 1 2
1 1 2
:
:
H M M
H M M
● B2: Gộp chung 2 mẫu thành 1 danh sách
chung và sắp xếp từ nhỏ tới lớn. Xác định
hạng của các quan sát theo nguyên tắc
là QS có giá trị nhỏ nhất sẽ có hạng là 1,
giá trị càng lớn thì hạng càng lớn. Nếu có
2 quan sát có giá trị bằng nhau, thì lấy
hạng TB.
● B3: Xác định chỉ tiêu KĐ
● Nếu cỡ mẫu nhỏ (n1 <10 và n2 < 10) thì chỉ
tiêu KĐ là T1. T1 là tổng hạng của Mẫu 1. N
= n1+ n2.
● Nếu cỡ mẫu lớn (n1 hoặc n2 ≥ 10) thì chỉ
tiêu KĐ là z
● B4: Bác bỏ H0
● Nếu cỡ mẫu nhỏ:
● KĐ 2 bên: T1 > WU hoặc T1 < WL
● KĐ bên trái: T1 < WL
● KĐ bên phải: T1 > WU
● Nếu cỡ mẫu lớn: tương tự như KĐ TB của 1
tổng thể, trường hợp biết
© 2013 Nguyễn Tiến Dũng 11
1
1
1 2
1
1
1
(N 1)
2
(N 1)
12
1
T
T
T
T
n
n n
T
z
● TD: Tác động của kiểu trưng bày hàng hoá tới
doanh số
● Mẫu 1: 10 gian hàng trưng bày theo kiểu bình thường
● Mẫu 2: 10 gian hàng khác, trưng bày theo kiểu đặc
biệt
● Ghi nhận doanh số và so sánh
© 2013 Nguyễn Tiến Dũng 12
10.3 KĐ dấu và hạng Wilcoxon với 2 mẫu cặp
● B1: Xác định các chênh lệch di = x1i – x2i và lập cặp
giả thuyết KĐ
© 2013 Nguyễn Tiến Dũng 13
0 1 2
1 1 2
:
:
H M M
H M M
0 1 2
1 1 2
:
:
H M M
H M M
0 1 2
1 1 2
:
:
H M M
H M M
0
1
: 0
: 0
D
D
H M
H M
0
1
: 0
: 0
D
D
H M
H M
0
1
: 0
: 0
D
D
H M
H M
● B2: Xác định các giá trị tuyệt đối |di|
● B3: Loại bỏ các |di| bằng 0, sắp hạng các |di| từ nhỏ tới
lớn. Giá trị |di| nhỏ nhất có hạng là 1. Nếu có nhiều |di|
bằng nhau, thì tính hạng trung bình.
● n’ = n – số trường hợp có di = 0
● B4: Tách riêng các hạng của |di| thành 2 loại, hạng R+
và hạng R- theo dấu của di gốc
● B5: Tính giá trị KĐ W = R+
● B6: Áp dụng quy tắc bác bỏ H0
● Nếu n’ ≤ 20
● KĐ bên trái: W ≤ WL
● KĐ hai bên: W ≤ WL hoặc W ≥ WU
● KĐ bên phải: W ≥ WU
© 2013 Nguyễn Tiến Dũng 14
● Nếu n’ > 20 thì W xấp xỉ PP bình thường. Khi đó sẽ
biến đổi chuẩn hoá W và kiểm định theo chỉ tiêu z.
● Quy tắc bác bỏ H0 tương tự như bài toán KĐ TB của
một tổng thể, trường hợp biết
© 2013 Nguyễn Tiến Dũng 15
'( ' 1)
4
'( ' 1)(2 ' 1)
24
W
W
W
W
n n
n n n
W
z
TD Trang 292: So sánh tốc độ xử lý của hai phần
mềm
● Cài đặt 2 PM trên cùng các máy
● Chạy từng PM một, đo thời gian xử lý các tác vụ
● Chạy thử 2 PM này với 10 tác vụ khác nhau và
đã ghi được thời gian xử lý của từng PM.
● DL ở Bảng 10.4 Trang 292.
● Mẫu 1: X1 – thời gian xử lý tác vụ của PM đang
dùng
● Mẫu 2: X2 – thời gian xử lý tác vụ của PM mới
● Biến chênh lệch di = x1i – x2i
● Cặp giả thuyết KĐ
● W = 7 + 2 + 6 + 8 + 4,5 + 9 + 4,5 + 3 = 44
● n’ = n -1 = 9; α =0,05 Tra bảng có WU = 37
● Vì W > WU Bác bỏ H0.
© 2013 Nguyễn Tiến Dũng 16
0
:
: 0
1
0
D
D
H M
H M
10.4 KĐ Kruskal – Wallis trên nhiều mẫu độc lập
● Mục đích: so sánh TB của k
mẫu độc lập (k >2)
● Gọi n = n1 + n2 + + nk
● H0: M1 = M2 = = Mk
● Chỉ tiêu KĐ W
● Quy tắc bác bỏ H0
● TD: Bảng 10.5 Trang 294 –
KĐ về tác động của mức độ
đi làm thêm tới KQ học tập
của SV (k =3)
© 2013 Nguyễn Tiến Dũng 17
2
1
2
1;
12
3( 1)
( 1)
0
W
Baùc boû H neáu
W>
k
i
i i
k
R
n
n n n
● Nếu muốn so sánh tuổi thọ của cả 3 loại bóng đèn
cùng một lúc?
● Sử dụng Kruskal – Wallis Test
© 2013 Nguyễn Tiến Dũng 18
10.5 KĐ Chi bình phương về mối liên hệ giữa 2
biến định tính
● Biến 1: Biến hàng
● Biến 2: Biến cột
● Lập bảng tần số liên hợp giữa 2 biến
● Xem TD Trang 297 sách TKƯD
● Muốn tìm hiểu xem liệu giữa thời gian tìm hiểu trước
hôn nhân và tình trạng gđ sau hôn nhân có mối liên
hệ gì hay không.
● Biến số 1: Thời gian tìm hiểu trước hôn nhân (Bảng
10.6 Trang 298), chia làm 3 mức (ngắn, TB và dài)
● Biến số 2: Tình trạng gia đình sau hôn nhân, chia
làm 3 loại (ly dị/ly thân; không hạnh phúc; hạnh phúc)
© 2013 Nguyễn Tiến Dũng 19
● Bảng 10.6 mô tả tần số thực tế - Oij – có được từ
điều tra, nghiên cứu thực tế
● Bảng 10.7 tính toán ra tần số lý thuyết hay tần số
kỳ vọng Eij, căn cứ vào các giá trị của tổng hàng và
tổng cột.
● Nếu phân phối của tần số thực tế khác nhiều so với
phân phối của tần số kỳ vọng trong bảng, thì có thể
sẽ có một mối liên hệ nào đó giữa biến hàng và
biến cột
● Nếu muốn khẳng định chắc chắn, phải KĐ.
● P.pháp KĐ là Chi b.phương
© 2013 Nguyễn Tiến Dũng 20
Ngắn TB Dài Tổng hàng
H.phúc E11 = 45
O11=38
E12 = 60
O12 = 58
E13 = 45
O13 = 54
R1 = 150
Không HP E21 = 9
O21 = 12
E22 = 12
O22 = 14
E23 = 9
O23 = 4
R2 = 30
Ly dị / Ly thân E31 = 6
O31 = 10
E32 = 8
O23 = 8
E33 = 6
O33 = 2
R3 = 20
C1 = 60 C2 = 80 C3 = 60 n = 200
© 2013 Nguyễn Tiến Dũng 21
i j
ij
R C
E
n
2
2
1 1
2 2
;
( )
( 1).( 1)
0
Baùc boû H neáu
r c
ij ij
i j ij
df
O E
E
df r c
10.6 KĐ Chi bình phương về sự phù hợp
● Goodness-of-fit Test
● Mục đích: Kiểm tra sự phân
phối tần số có phù hợp với
một tần số lý thuyết hay
không
● TD: Xem Ví dụ 1 Trang
299, sách TKƯD về số tai
nạn lao động theo các
ngày trong tuần
● Chỉ tiêu KĐ
● Quy tắc bác bỏ H0
© 2013 Nguyễn Tiến Dũng 22
2
2
1
2 2
;
( )
1
0
Baùc boû H neáu
k
i i
i i
df
O E
E
df k
Câu hỏi ng.cứu là gì?
Thứ Số vụ tai nạn
thực tế Oi
Số vụ tai nạn
theo giả thuyết Ei
Hai 7 5,33
Ba 3 5,33
Tư 3 5,33
Năm 2 5,33
Sáu 5 5,33
Bảy 12 5,33
Tổng 32 32
© 2013 Nguyễn Tiến Dũng 23