Bài giảng Xác suất thống kê y học - Tuần 6: Kiểm định chi bình phương - Lê Huỳnh Thị Cẩm Hồng

Ví dụ: Cuộc điều tra dinh dưỡng tiến hành trên 1503 trẻ em dưới 5 tuổi tại TPHCM năm 1994. Trong số trẻ được điều tra có 494 trẻ bị suy dinh dưỡng nhẹ cân. Tỷ lệ trẻ bị suy dinh dưỡng nhẹ cân = 494/1503 = 0,329 = 32,9%Đại cương về mẫu và phương pháp lấy mẫu Trong nghiên cứu, chúng ta chỉ có thể thu thập số liệu trên một tập hợp nhất định các đối tượng Nhưng chúng ta lại muốn khái quát hóa kết quả của các số liệu và áp dụng chúng cho một dân số rộng lớn hơn

46 trang | Chia sẻ: thanhle95 | Lượt xem: 741 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Bài giảng Xác suất thống kê y học - Tuần 6: Kiểm định chi bình phương - Lê Huỳnh Thị Cẩm Hồng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

KIỂM ĐỊNH CHI BÌNH PHƯƠNG TH.S. BÙI THỊ KIỀU ANH TH.S. LÊ HUỲNH THỊ CẨM HỒNG Nội dung Sự biến thiên mẫu của tỷ lệ Đại cương mẫu và phươn pháp lấy mẫu Khoảng tin cậy 95% Nguyên tắc kiểm định ý nghĩa Các bước trong quy trình kiểm định thống kê Lựa chọn kiểm định phù hợp Kiểm định chi bình phương SỰ BIẾN THIÊN MẪU CỦA TỈ LỆ Biến số nhị giá Là biến số định tính có 2 giá trị Trình bày phân phối của biến nhị giá chỉ cần mô tả bằng một con số tỷ lệ (%) Ví dụ: Cuộc điều tra dinh dưỡng tiến hành trên 1503 trẻ em dưới 5 tuổi tại TPHCM năm 1994. Trong số trẻ được điều tra có 494 trẻ bị suy dinh dưỡng nhẹ cân. Tỷ lệ trẻ bị suy dinh dưỡng nhẹ cân = 494/1503 = 0,329 = 32,9% Đại cương về mẫu và phương pháp lấy mẫu Trong nghiên cứu, chúng ta chỉ có thể thu thập số liệu trên một tập hợp nhất định các đối tượng Nhưng chúng ta lại muốn khái quát hóa kết quả của các số liệu và áp dụng chúng cho một dân số rộng lớn hơn Làm sao áp dụng kết quả nghiên cứu (mẫu) lên dân số mục tiêu? - Cỡ mẫu phải đủ lớn - Phương pháp lấy mẫu phải có tính đại diện Các khái niệm  Mẫu (sample): Tập hợp các đối tượng được thu thập số liệu  Dân số nghiên cứu (study population): tập hợp các đối tượng có các đặc tính hay đại lượng được thu thập trong quá trình nghiên cứu.  Dân số mục tiêu (Target population): Tập hợp các đối tượng mà chúng ta muốn các thành quả nghiên cứu được áp dụng vào 8 MẪU DÂN SỐ NGHIÊN CỨU DÂN SỐ MỤC TIÊU Dân số Tỷ lệ Toàn bộ dân số đích N Mẫu n p í Mẫu n p : Tỷ lệ trong dân số đích, là một tham số hằng định và chúng ta muốn biết p: Tỷ lệ trong mẫu, là một số luôn dao động, là số liệu chúng ta rút ra các kết luận về tỷ lệ trong dân số đích Ví dụ:  Cuộc điều tra tỷ lệ suy dinh dưỡng trên trẻ em dưới 5 tuổi ở TPHCM Tỷ lệ suy dinh dưỡng của dân số p1 p2 p3 p4 p5 p1, 2, 3, 4, 5: là những tỷ lệ suy dinh dưỡng tương ứng với các mẫu khác nhau Nếu chúng ta rất may mắn, p = Tuy nhiên, thường tỷ lệ mẫu sẽ dao động (phân tán) xung quanh giá trị của dân số đích Phương sai _ Sai số chuẩn Phương sai của tỷ lệ: Sai số chuẩn của tỷ lệ: căn bậc hai của phương sai. Đo lường mức độ sai số trung bình của p. Nó cho chúng ta biết chúng ta hy vọng tỷ lệ p của chúng ta khác với tỷ lệ của dân số là bao nhiêu Công thức:  Ví dụ:  Cuộc điều tra tỷ lệ suy dinh dưỡng trên trẻ em dưới 5 tuổi ở TPHCM. Cỡ mẫu n = 1000, tỷ lệ suy dinh dưỡng trong dân số đích Như vậy, sai số chuẩn của tỷ lệ quan sát là: S.E = = 0.0145 = 1.45%  Trong thực tế, ta ít khi biết tỷ lệ của dân số , do đó ta sử dụng tỷ lệ của mẫu p đề ước lượng sai số chuẩn  Khoảng tin cậy Khi chúng ta quan sát một tỷ lệ trong một mẫu ngẫu nhiên, ta mong muốn có được một khoảng các giá trị mà giá trị tỷ lệ (thực) của dân số nằm trong đó. Khoảng này được gọi là khoảng tin cậy. Khoảng tin cậy được xác định bằng cách giới hạn tin cậy mức trên và dưới Giả sử:  Có hai biến định tính  Tổng thể tuân theo phân phối nhị thức  Có thể sử dụng xấp xỉ chuẩn  Điều kiện áp dụng (nxp) > 5 & nx(1 - p) > 5 => Ước lượng khoảng tin cậy 95%: (p – 1,96 x S.E.) < p < (p - 1,96 x S.E. ) Khoảng tin cậy cho ước lượng tỉ lệ Khoảng tin cậy 95%: 95% các trường hợp nghiên cứu giá trị nằm trong khoảng Khoảng tin cậy 95%: Nên nhớ rằng có xác suất 5% tỷ lệ của dân số đích nằm ngoài khoảng tin cậy 95%, do đó có thể có khoảng tin cậy sẽ không chứa tỷ lệ thực. Khoảng tin cậy sẽ hẹp nhất khi cỡ mẫu là lớn nhất và khoảng tin cậy sẽ rộng nhất khi cỡ mẫu nhỏ Trình bày khoảng tin cậy Nguyên tắc của kiểm định ý nghĩa  Phương pháp phản chứng/phản nghiệm A làm B không xảy ra => B xảy ra suy ra A không xảy ra Chúng ta thường sử dụng trong y khoa. Ví dụ: Bn nhập viện vì bị đau bụng dữ dội. Chúng ta nghi ngờ BN bị tắt ruột và khai thác bệnh sử. BN nói rằng BN trung tiện bình thường, ta loại bỏ căn nguyên tắc ruột.  Nếu BN bị tắc ruột thì BN sẽ không trung tiện  Do BN trung tiện bình thường nên BN không bị tắt ruột. Nguyên tắc của kiểm định ý nghĩa  Nếu giả thuyết Ho xảy ra => T hiếm xảy ra T xảy ra => giả thuyết Ho hiếm xảy ra  Ký hiệu theo công thức tính xác suất của biến cố T là P(T) Nếu {Ho => P(T) nhỏ} thì {T xảy ra => P(Ho) nhỏ} Nguyên tắc của kiểm định ý nghĩa Giả thuyết Ho (null hypothesis) 22Giả thuyết Ho  Giả thuyết Ho là một mệnh đề âm tính cho rằng không có sự liên hệ thống kê nào  Giả thuyết Ho khẳng định về  sự bằng nhau, không khác biệt, không có liên quan 23Giả thuyết Ho  Chỉ có thể bác bỏ chứ không chứng minh được giả thuyết Ho  Giả thuyết Ho là phủ định của giả thuyết nghiên cứu  Là bước đầu tiên của bất cứ kiểm định thống kê nào  Nguy cơ tương đối =1 Giả thuyết phụ (alternative hypothesis) Ha: Là một giả thuyết mà nhà nghiên cứu nghĩ là sự thật Điều cần được “chứng minh” bằng dữ kiện. Một thử nghiệm lâm sàng điều trị ung thư vú đã di căn, BN được phân nhóm ngẫu nhiên để điều trị với L-Pam hay CMF (phối hợp 3 thuốc).  Giả thuyết Ho: Hai phương pháp điều trị có hiệu quả tương đương  Giả thuyết phụ Ha: Hai phương pháp điều trị có hiệu quả khác nhau PP điều trị CMF hiệu quả hơn PP điều trị L-Pam PP điều trị L-Pam hiệu quả hơn PP điều trị CMF Hay  Giả thuyết Ho: Tỷ lệ đáp ứng với CMF = tỷ lệ đáp ứng với L-Pam  Giả thuyết phụ Ha: Tỷ lệ đáp ứng với CMF > Tỷ lệ đáp ứng với L-Pam Tỷ lệ đáp ứng với CMF < Tỷ lệ đáp ứng với L-Pam Tỷ lệ đáp ứng với CMF khác Tỷ lệ đáp ứng với L-Pam 27Bài tập Đặt giả thuyết Ho và Ha  Một nghiên cứu tiến hành nhằm so sánh chiều cao trung bình nam sinh và chiều cao trung bình ở nữ sinh trường THCS A. 28  Một nghiên cứu tiến hành nhằm khảo sát nguy cơ nhồi máu cơ tim ở 2 nhóm: nhóm có cholesterol cao và nhóm có cholesterol thấp. Bài tập Đặt giả thuyết Ho và Ha Các bước của một kiểm định ý nghĩa Xây dựng giả thuyết Ho Chọn kiểm định phù hợp Tính giá trị thống kê của số liệu thu thập được Tính giá trị p-value Kết luận. Nếu p đủ nhỏ chúng ta bác bỏ giả thuyết Ho Giá trị p  Trị số P là một con số xác suất, viết tắt chữ “probability value” Giá trị p  Trị số P là một con số xác suất, viết tắt chữ “probability value”  Giá trị p lớn hơn 0.05 được xem là không đủ bằng chứng để bác bỏ giả thuyết Ho => chấp nhận giả thuyết Ho  Giá trị p < 0.05 là có đủ bằng chứng để bác bỏ giả thuyết Ho, cho rằng giả thuyết Ho là không đúng. => kết luận: sự khác biệt có ý nghĩa thống kê ở mức 5% Các bước của một kiểm định ý nghĩa Xây dựng giả thuyết Ho Chọn kiểm định phù hợp Tính giá trị thống kê của số liệu thu thập được Tính giá trị p-value Kết luận. Nếu p đủ nhỏ chúng ta bác bỏ giả thuyết Ho 33Chọn lựa kiểm định phù hợp Biến phụ thuộc (hậu quả) Biến độc lập (nguyên nhân) Nhị giá Danh định – Thứ tự Định lượng - Đa biến (mô hình hóa) Định lượng (phân phối bình thường) T-test ANOVA Hồi quy tuyến tính Thứ tự (biến định lượng pp không bình thường) Wilcoxon Rank sum t. Mann- Whitney Kruskal-Wallis TQ Spearman Nhị giá Chi bình phương (cc, cs, ir) Chi bình phương (mhodds, tab2) Hồi quy logistic Hồi quy Poisson Sống còn Wilcoxon tổng quát Logrank Wilcoxon tổng quát Logrank Hồi quy Cox 34 2 biến Trình bày số liệu Phân tích Cả hai đều là định tính Bảng dự trù; bảng hàng cột Chi-square test Biến độc lập: định tính Biến phụ thuộc: biến liên tục Box plot T-test Cả hai đều là biến liên tục Scatter plot Hồi quy tuyến tính 35 Kiểm định chi bình phương Chi-square test Kiểm định chi bình phương (2) 36 Còn gọi là kiểm định chi square test. Phép kiểm 2 dùng để đánh giá sự quan hệ giữa 2 biến số định tính So sánh số quan sát trong một trong bốn phạm trù trong bảng dự trù với số kì vọng. Giá trị 2 càng lớn thì ít có sự khác biệt giữa quan sát và kì vọng là do tình cờ. Các bước tiến hành 1.Xây dựng giả thuyết Ho 2. Tính toán tỷ lệ hay phần trăm thích hợp trong bảng 2x2; 3. Tính số kỳ vọng (E) 4. Tính 2 = (quan sát - kì vọng)2 /kì vọng cho mỗi ô trong bảng dự trù và cộng chúng lại. 37 5. Đối chiếu bảng: điểm phần trăm của phân phối χ2 được trình bày trong bảng A5. Giá trị này phụ thuộc vào độ tự do và trong bảng 2 × 2 độ tự do bằng 1. 6. Kết luận: bác bỏ hay không bác bỏ Ho 1)-t oc o(s 1)- hàng os(..,)( 2 2    fd E EO Kết quả thử nghiệm vac xin cúm Cúm Vacxin Giả dược Tổng Có 20 80 100 Không 220 140 360 Tổng số 240 220 460 38 Vac xin có hiệu quả hay không hay là do tình cờKiểm định chi bình phương Số quan sát Bước 1: Hình thành giả thuyết Ho Ho: P(Cúm | tiêm vaccine) = P(cúm | giả dược) = P(cúm | chung) 39 Bước 2: Tính tỉ lệ, phần trăm 40 Cúm Vacxin Giả dược Tổng Có 20 (8,3%) 80 (36,4%) 100 (21,7%) Không 220 140 360 Tổng số 240 220 460 Tính tỷ lệ cúm trong nhóm vacxin, trong nhóm giả dược và trong toàn bộ Bước 3: Tính số kì vọng Cúm Vacxin Giả dược Tổng Có 52,2 47,8 100 Không 187,8 172,2 360 Tổng số 240 220 460 41 Cúm Vacxin Giả dược Tổng Có 20 (8,3%) 80 (36,4%) 100 (21,7%) Không 220 140 360 Tổng số 240 220 460 Bước 4: Tính giá trị chi bình phương Cúm Vacxi n Giả dược Tổng Có 52,2 47,8 100 Không 187,8 172,2 360 Tổng 240 220 460 42 Cúm Vacxin Giả dược Tổng Có 20 80 100 Không 220 140 360 Tổng 240 220 460 Bước 5: Đối chiếu với bảng chi bình phương 43 Bước 6: Kết luận  53,09 lớn hơn 10,83, điểm 0,001 của phân phối χ2 một độ tự do. Do đó xác suất của sự khác biệt quan sát được về bệnh cúm do tình cờ nhỏ hơn 0,001, nếu không có sự khác biệt thực sự giữa vaccine và placebo.  Tức là p< 0,001  Bác bỏ Ho: Tỷ lệ cúm/vac xin không tương đương tỷ lệ cúm/giả dược  tỷ lệ cúm/vac xin khác biệt tỷ lệ cúm/giả dược  Do đó có thể kết luận rằng vaccin có hiệu quả. 44 45 Good study!!!