Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Phần 10: Suy luận khi các biến có liên hệ

 Nếu số sinh phân phối đều theo tuổi, ta kỳ vọng khoảng 1/12 số sinh xuất hiện cho mỗi con giáp (21.3). ◦ Dữ liệu quan sát phù hợp với mô hình “rỗng” đơn giản này ra sao?  Kiểm nghiệm giả thiết để trả lời câu hỏi này được gọi là kiểm nghiệm của “sự phù hợp” (“goodness-of-fit”)

pdf13 trang | Chia sẻ: nguyenlinh90 | Lượt xem: 822 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Phần 10: Suy luận khi các biến có liên hệ, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
9/8/2010 1 Phần 10 Nguyễn Duy Long, Tiến Sỹ Bộ môn Thi Công và QLXD ©2010, Nguyễn Duy Long, Tiến Sỹ 1  So sánh các số đếm  Giới thiệu về phân tích phương sai ©2010, Nguyễn Duy Long, Tiến Sỹ 2 9/8/2010 2 Comparing Counts ©2010, Nguyễn Duy Long, Tiến Sỹ 3  Khảo sát của 256 giám đốc của 400 công ty lớn nhất. Số sinh Con giáp 23 Tý 20 Sửu 18 Dần 23 Mão 20 Thìn 19 Tỵ 18 Ngọ ©2010, Nguyễn Duy Long, Tiến Sỹ 4 21 Mùi 19 Thân 22 Dậu 24 Tuất 29 Hợi Nguồn: Phỏng theo De Veaux, 2006, tr.604 9/8/2010 3  Nếu số sinh phân phối đều theo tuổi, ta kỳ vọng khoảng 1/12 số sinh xuất hiện cho mỗi con giáp (21.3). ◦ Dữ liệu quan sát phù hợp với mô hình “rỗng” đơn giản này ra sao?  Kiểm nghiệm giả thiết để trả lời câu hỏi này được gọi là kiểm nghiệm của “sự phù hợp” (“goodness-of-fit”) ©2010, Nguyễn Duy Long, Tiến Sỹ 5  Điều kiện dữ liệu đếm (counted data condition)  Giả định tính độc lập (independence assumption) ◦ Điều kiện ngẫu nhiên hóa  Giả định kích thước mẫu (sample size condition) ề k ầ ấ kỳ ủ ô ( d ll◦ Đi u iện t n su t vọng c a expecte ce frequency condition): Ta nên kỳ vọng ít nhất 5 cá thể cho mỗi ô. ©2010, Nguyễn Duy Long, Tiến Sỹ 6 9/8/2010 4  Ta xem các sự khác nhau giữa số đếm được quan sát (observed) và được kỳ vọng (expected), ký hiệu là (Obs – Exp) ◦  đối xử như các phần dư (residuals).  Trị số thống kê kiểm nghiệm, gọi là trị số thống kê chi-square, ký hiệu χ2: χ2 = ∑ (Obs - Exp)2 ©2010, Nguyễn Duy Long, Tiến Sỹ 7 các ô Exp  Ta chỉ tập các mô hình phân phối mẫu mới này là các mô hình χ bình phương (chi- square models).  Tập các mô hình này chỉ khác nhau ở bậc tự do.  Số bậc tự do cho các mô hình này là n -1, với n không phải là kích thước mẫu mà số lượng ủ l ic a oạ . ©2010, Nguyễn Duy Long, Tiến Sỹ 8 9/8/2010 5  K = số bậc tự do ©2010, Nguyễn Duy Long, Tiến Sỹ 9 Nguồn:  Kiểm nghiệm chi-square luôn là kiểm nghiệm một phương. ◦  nếu trị số thống kê tính được là đủ lớn, ta sẽ bác bỏ giả thiết rỗng.  Sự diễn dịch của kiểm nghiệm chi-square là “nhiều phương”. ◦ Không có hướng trong việc bác bỏ mô hình rỗng, chỉ biết nó không phù hợp. ©2010, Nguyễn Duy Long, Tiến Sỹ 10 9/8/2010 6  Thực hiện kiểm nghiệm chi-square cho ví dụ giám đốc và con giáp ở trên. ©2010, Nguyễn Duy Long, Tiến Sỹ 11  Khảo sát chọn lựa vào đời của ba nhóm học sinh PTTH theo năm tốt nghiệp. 1980 1990 2000 Tổng Đại học/cao đẳng 320 245 288 853 Đi làm 98 24 17 139 Vào quân đội 18 19 5 42 Du lịch 17 2 5 24 Tổng 453 290 315 1058  Sự chọn lựa là giống nhau của tất cả ba nhóm học sinh này? ©2010, Nguyễn Duy Long, Tiến Sỹ 12Nguồn: Phỏng theo De Veaux, 2006, tr.611 9/8/2010 7  Kiểm nghiệm chi-square của sự đồng nhất (chi-square test of homogeneity) dùng để trả lời câu hỏi trên.  Tính toán của kiểm nghiệm này giống với kiểm nghiệm sự phù hợp. ◦  đếm bậc tự do hơi khác nhau.  Kiểm nghiệm sự đồng nhất đi kèm với giả thiết ỗ “d ẵ ”r ng ựng s n. ◦  giả thiết rằng sự phân phối không thay đổi từ nhóm này đến nhóm khác. ©2010, Nguyễn Duy Long, Tiến Sỹ 13  Các giả định và điều kiện giống với kiểm nghiệm sự phù hợp. ◦ Điều kiện dữ liệu số đếm ◦ Nếu ta không tổng quát hóa, không cần kiểm tra điều kiện ngẫu nhiên hóa. ◦ Điều kiện tần suất kỳ vọng của ô (ít nhất 5). ©2010, Nguyễn Duy Long, Tiến Sỹ 14 9/8/2010 8  Các giá trị kỳ vọng cho học sinh tốt nghiệp PTTH 1980 1990 2000 Tổng Đại học/cao đẳng 365.2 233.8 254.0 853 Đi làm 59.5 38.1 41.4 139 Vào quân đội 18.0 11.5 12.5 42 Du lịch 10.3 6.6 7.1 24 Tổng 453 290 315 1058  Số bậc tự do: (R-1)(C-1); R là số hàng (row) và C là số cột (column) ©2010, Nguyễn Duy Long, Tiến Sỹ 15  Thực hiện kiểm nghiệm chi-square cho ví dụ lựa chọn vào đời của học sinh tốt nghiệp PTTH ở trên  Trị thống kê χ2:  Giá trị p (p-value) << 0.0001. χ2 = ∑ (Obs - Exp)2 = 72.77 các ô Exp ◦  Ta bác giả thiết rỗng. ◦  các sự chọn lựa của học sinh tốt nghiệp PTTH thay đổi qua 2 thập kỷ khảo sát, đánh giá. ©2010, Nguyễn Duy Long, Tiến Sỹ 16 9/8/2010 9  Rủi ro viêm gan C có liên quan với người có hình xăm và nơi xăm không?  Nguy cơ mắc viêm gan C có độc lập với việc Viêm gan C Không viêm gian C Tổng Xăm, cửa hiệu 17 35 52 Xăm, nơi khác 8 53 61 Không xăm 22 491 513 Tổng 47 579 626 xăm? ◦  Kiểm nghiệm cho tính độc lập (chi-square test for independence). ©2010, Nguyễn Duy Long, Tiến Sỹ 17  Kiểm nghiệm tính độc lập trả lời câu hỏi: “Các biến có độc lập?  Kiểm nghiệm sự đồng nhất: “Các nhóm có đồng nhất?”  Sự tính toán giống nhau. ©2010, Nguyễn Duy Long, Tiến Sỹ 18 9/8/2010 10  Thực hiện kiểm nghiệm chi-square cho ví dụ viêm gan C và xăm ở trên  Trị thống kê χ2:  Giá trị p (p-value) << 0.0001. ◦  Ta bác giả thiết rỗng. χ2 = ∑ (Obs - Exp)2 = 57.91 các ô Exp ◦  kiểm tra các số dư (residual) trước khi kết luận. Vì sao? ©2010, Nguyễn Duy Long, Tiến Sỹ 19  Số dư được chuẩn hóa (c) cho ô nào đó: ExpObs )(   Số dư được chuẩn hóa cho dữ liệu viêm gan C và xăm Exp c  Viêm gan C Không viêm gian C Xă ử hiệ 6 628 1 888 ©2010, Nguyễn Duy Long, Tiến Sỹ 20 m, c a u . - . Xăm, nơi khác 1.598 -0.455 Không xăm -2.661 0.758 9/8/2010 11 Introduction to Analysis of Variance ©2010, Nguyễn Duy Long, Tiến Sỹ 21  Phương pháp rửa tay diệt khuẩn: Vi k hu ẩn (s ốv i k hu ẩn ) Các phương pháp  Tất cả các phương pháp rửa tay diệt khuẩn là giống nhau?  giả thiết rỗng? ©2010, Nguyễn Duy Long, Tiến Sỹ 22 9/8/2010 12  Giả thiết rỗng: “các trị trung bình của tất cả các nhóm là bằng nhau.” ◦ Giả thiết thay thế sẽ như thế nào?  Khi so sánh nhiều trị trung bình, ta dùng mô hình phân phối mẫu được gọi là mô hình F (F-model).  So sánh sự khác nhau giữa các trị trung bình ủ á hó ới biế đổi bê t ác a c c n m v sự n n rong c c nhóm. ◦  ý tưởng chủ đạo của mô hình F. ©2010, Nguyễn Duy Long, Tiến Sỹ 23  Xem hai tập hợp của các biểu đồ hộp sau: ©2010, Nguyễn Duy Long, Tiến Sỹ 24 Sự biến đổi trong mỗi nhóm quá nhỏ làm sự khác biệt giữa các trị trung bình bộc lộ rõ. Khó nhận ra sự khác nhau giữa các trị trung bình vì các sải lớn nếu so với sự khác nhau của các trị trung bình. 9/8/2010 13  Ta đối xử các trị trung bình được ước lượng như thể chúng là các giá trị quan sát được và chỉ tính phương sai của chúng.  Phương sai này là thước đo để xem các trị trung bình của các nhóm khác nhau ra sao.  Dữ liệu từ phương pháp rửa tay... ©2010, Nguyễn Duy Long, Tiến Sỹ 25 ©2010, Nguyễn Duy Long, Tiến Sỹ 26