Nếu số sinh phân phối đều theo tuổi, ta kỳ
vọng khoảng 1/12 số sinh xuất hiện cho mỗi con giáp (21.3).
◦ Dữ liệu quan sát phù hợp với mô hình “rỗng” đơn giản này ra sao?
Kiểm nghiệm giả thiết để trả lời câu hỏi này
được gọi là kiểm nghiệm của “sự phù hợp” (“goodness-of-fit”)
13 trang |
Chia sẻ: nguyenlinh90 | Lượt xem: 833 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Phần 10: Suy luận khi các biến có liên hệ, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
9/8/2010
1
Phần 10
Nguyễn Duy Long, Tiến Sỹ
Bộ môn Thi Công và QLXD
©2010, Nguyễn Duy Long, Tiến Sỹ 1
So sánh các số đếm
Giới thiệu về phân tích phương sai
©2010, Nguyễn Duy Long, Tiến Sỹ 2
9/8/2010
2
Comparing Counts
©2010, Nguyễn Duy Long, Tiến Sỹ 3
Khảo sát của 256 giám đốc của 400 công ty
lớn nhất. Số sinh Con giáp
23 Tý
20 Sửu
18 Dần
23 Mão
20 Thìn
19 Tỵ
18 Ngọ
©2010, Nguyễn Duy Long, Tiến Sỹ 4
21 Mùi
19 Thân
22 Dậu
24 Tuất
29 Hợi
Nguồn: Phỏng theo De Veaux, 2006, tr.604
9/8/2010
3
Nếu số sinh phân phối đều theo tuổi, ta kỳ
vọng khoảng 1/12 số sinh xuất hiện cho mỗi
con giáp (21.3).
◦ Dữ liệu quan sát phù hợp với mô hình “rỗng” đơn
giản này ra sao?
Kiểm nghiệm giả thiết để trả lời câu hỏi này
được gọi là kiểm nghiệm của “sự phù hợp”
(“goodness-of-fit”)
©2010, Nguyễn Duy Long, Tiến Sỹ 5
Điều kiện dữ liệu đếm (counted data
condition)
Giả định tính độc lập (independence
assumption)
◦ Điều kiện ngẫu nhiên hóa
Giả định kích thước mẫu (sample size
condition)
ề k ầ ấ kỳ ủ ô ( d ll◦ Đi u iện t n su t vọng c a expecte ce
frequency condition): Ta nên kỳ vọng ít nhất 5 cá
thể cho mỗi ô.
©2010, Nguyễn Duy Long, Tiến Sỹ 6
9/8/2010
4
Ta xem các sự khác nhau giữa số đếm được
quan sát (observed) và được kỳ vọng
(expected), ký hiệu là (Obs – Exp)
◦ đối xử như các phần dư (residuals).
Trị số thống kê kiểm nghiệm, gọi là trị số
thống kê chi-square, ký hiệu χ2:
χ2 = ∑ (Obs - Exp)2
©2010, Nguyễn Duy Long, Tiến Sỹ 7
các ô Exp
Ta chỉ tập các mô hình phân phối mẫu mới
này là các mô hình χ bình phương (chi-
square models).
Tập các mô hình này chỉ khác nhau ở bậc tự
do.
Số bậc tự do cho các mô hình này là n -1, với
n không phải là kích thước mẫu mà số lượng
ủ l ic a oạ .
©2010, Nguyễn Duy Long, Tiến Sỹ 8
9/8/2010
5
K = số bậc tự do
©2010, Nguyễn Duy Long, Tiến Sỹ 9
Nguồn:
Kiểm nghiệm chi-square luôn là kiểm nghiệm
một phương.
◦ nếu trị số thống kê tính được là đủ lớn, ta sẽ bác
bỏ giả thiết rỗng.
Sự diễn dịch của kiểm nghiệm chi-square là
“nhiều phương”.
◦ Không có hướng trong việc bác bỏ mô hình rỗng,
chỉ biết nó không phù hợp.
©2010, Nguyễn Duy Long, Tiến Sỹ 10
9/8/2010
6
Thực hiện kiểm nghiệm chi-square cho ví dụ
giám đốc và con giáp ở trên.
©2010, Nguyễn Duy Long, Tiến Sỹ 11
Khảo sát chọn lựa vào đời của ba nhóm học sinh
PTTH theo năm tốt nghiệp.
1980 1990 2000 Tổng
Đại học/cao đẳng 320 245 288 853
Đi làm 98 24 17 139
Vào quân đội 18 19 5 42
Du lịch 17 2 5 24
Tổng 453 290 315 1058
Sự chọn lựa là giống nhau của tất cả ba nhóm học
sinh này?
©2010, Nguyễn Duy Long, Tiến Sỹ 12Nguồn: Phỏng theo De Veaux, 2006, tr.611
9/8/2010
7
Kiểm nghiệm chi-square của sự đồng nhất
(chi-square test of homogeneity) dùng để trả
lời câu hỏi trên.
Tính toán của kiểm nghiệm này giống với
kiểm nghiệm sự phù hợp.
◦ đếm bậc tự do hơi khác nhau.
Kiểm nghiệm sự đồng nhất đi kèm với giả
thiết ỗ “d ẵ ”r ng ựng s n.
◦ giả thiết rằng sự phân phối không thay đổi từ
nhóm này đến nhóm khác.
©2010, Nguyễn Duy Long, Tiến Sỹ 13
Các giả định và điều kiện giống với kiểm
nghiệm sự phù hợp.
◦ Điều kiện dữ liệu số đếm
◦ Nếu ta không tổng quát hóa, không cần kiểm tra
điều kiện ngẫu nhiên hóa.
◦ Điều kiện tần suất kỳ vọng của ô (ít nhất 5).
©2010, Nguyễn Duy Long, Tiến Sỹ 14
9/8/2010
8
Các giá trị kỳ vọng cho học sinh tốt nghiệp
PTTH
1980 1990 2000 Tổng
Đại học/cao đẳng 365.2 233.8 254.0 853
Đi làm 59.5 38.1 41.4 139
Vào quân đội 18.0 11.5 12.5 42
Du lịch 10.3 6.6 7.1 24
Tổng 453 290 315 1058
Số bậc tự do: (R-1)(C-1); R là số hàng (row) và
C là số cột (column)
©2010, Nguyễn Duy Long, Tiến Sỹ 15
Thực hiện kiểm nghiệm chi-square cho ví dụ
lựa chọn vào đời của học sinh tốt nghiệp
PTTH ở trên
Trị thống kê χ2:
Giá trị p (p-value) << 0.0001.
χ2 = ∑ (Obs - Exp)2 = 72.77
các ô Exp
◦ Ta bác giả thiết rỗng.
◦ các sự chọn lựa của học sinh tốt nghiệp PTTH
thay đổi qua 2 thập kỷ khảo sát, đánh giá.
©2010, Nguyễn Duy Long, Tiến Sỹ 16
9/8/2010
9
Rủi ro viêm gan C có liên quan với người có
hình xăm và nơi xăm không?
Nguy cơ mắc viêm gan C có độc lập với việc
Viêm gan C Không viêm gian C Tổng
Xăm, cửa hiệu 17 35 52
Xăm, nơi khác 8 53 61
Không xăm 22 491 513
Tổng 47 579 626
xăm?
◦ Kiểm nghiệm cho tính độc lập (chi-square test
for independence).
©2010, Nguyễn Duy Long, Tiến Sỹ 17
Kiểm nghiệm tính độc lập trả lời câu hỏi: “Các
biến có độc lập?
Kiểm nghiệm sự đồng nhất: “Các nhóm có
đồng nhất?”
Sự tính toán giống nhau.
©2010, Nguyễn Duy Long, Tiến Sỹ 18
9/8/2010
10
Thực hiện kiểm nghiệm chi-square cho ví dụ
viêm gan C và xăm ở trên
Trị thống kê χ2:
Giá trị p (p-value) << 0.0001.
◦ Ta bác giả thiết rỗng.
χ2 = ∑ (Obs - Exp)2 = 57.91
các ô Exp
◦ kiểm tra các số dư (residual) trước khi kết luận.
Vì sao?
©2010, Nguyễn Duy Long, Tiến Sỹ 19
Số dư được chuẩn hóa (c) cho ô nào đó:
ExpObs )(
Số dư được chuẩn hóa cho dữ liệu viêm gan
C và xăm
Exp
c
Viêm gan C Không viêm gian C
Xă ử hiệ 6 628 1 888
©2010, Nguyễn Duy Long, Tiến Sỹ 20
m, c a u . - .
Xăm, nơi khác 1.598 -0.455
Không xăm -2.661 0.758
9/8/2010
11
Introduction to Analysis of
Variance
©2010, Nguyễn Duy Long, Tiến Sỹ 21
Phương pháp rửa tay diệt khuẩn:
Vi
k
hu
ẩn
(s
ốv
i k
hu
ẩn
)
Các phương pháp
Tất cả các phương pháp rửa tay diệt khuẩn là
giống nhau? giả thiết rỗng?
©2010, Nguyễn Duy Long, Tiến Sỹ 22
9/8/2010
12
Giả thiết rỗng: “các trị trung bình của tất cả
các nhóm là bằng nhau.”
◦ Giả thiết thay thế sẽ như thế nào?
Khi so sánh nhiều trị trung bình, ta dùng mô
hình phân phối mẫu được gọi là mô hình F
(F-model).
So sánh sự khác nhau giữa các trị trung bình
ủ á hó ới biế đổi bê t ác a c c n m v sự n n rong c c
nhóm.
◦ ý tưởng chủ đạo của mô hình F.
©2010, Nguyễn Duy Long, Tiến Sỹ 23
Xem hai tập hợp của các biểu đồ hộp sau:
©2010, Nguyễn Duy Long, Tiến Sỹ 24
Sự biến đổi trong mỗi nhóm
quá nhỏ làm sự khác biệt giữa
các trị trung bình bộc lộ rõ.
Khó nhận ra sự khác nhau giữa các trị
trung bình vì các sải lớn nếu so với
sự khác nhau của các trị trung bình.
9/8/2010
13
Ta đối xử các trị trung bình được ước lượng
như thể chúng là các giá trị quan sát được và
chỉ tính phương sai của chúng.
Phương sai này là thước đo để xem các trị
trung bình của các nhóm khác nhau ra sao.
Dữ liệu từ phương pháp rửa tay...
©2010, Nguyễn Duy Long, Tiến Sỹ 25
©2010, Nguyễn Duy Long, Tiến Sỹ 26