Ví dụ:
Cuộc điều tra dinh dưỡng tiến hành trên
1503 trẻ em dưới 5 tuổi tại TPHCM năm
1994. Trong số trẻ được điều tra có 494
trẻ bị suy dinh dưỡng nhẹ cân.
Tỷ lệ trẻ bị suy dinh dưỡng nhẹ cân =
494/1503 = 0,329 = 32,9%Đại cương
về mẫu và phương pháp lấy mẫu
Trong nghiên cứu, chúng ta chỉ
có thể thu thập số liệu trên một
tập hợp nhất định các đối tượng
Nhưng chúng ta lại muốn khái
quát hóa kết quả của các số liệu
và áp dụng chúng cho một dân
số rộng lớn hơn
46 trang |
Chia sẻ: thanhle95 | Lượt xem: 365 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Bài giảng Xác suất thống kê y học - Tuần 6: Kiểm định chi bình phương - Lê Huỳnh Thị Cẩm Hồng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
KIỂM ĐỊNH
CHI BÌNH PHƯƠNG
TH.S. BÙI THỊ KIỀU ANH
TH.S. LÊ HUỲNH THỊ CẨM HỒNG
Nội dung
Sự biến thiên mẫu của tỷ lệ
Đại cương mẫu và phươn pháp lấy mẫu
Khoảng tin cậy 95%
Nguyên tắc kiểm định ý nghĩa
Các bước trong quy trình kiểm định thống kê
Lựa chọn kiểm định phù hợp
Kiểm định chi bình phương
SỰ BIẾN THIÊN MẪU
CỦA TỈ LỆ
Biến số nhị giá
Là biến số định tính có 2 giá trị
Trình bày phân phối của biến nhị giá
chỉ cần mô tả bằng một con số tỷ lệ
(%)
Ví dụ:
Cuộc điều tra dinh dưỡng tiến hành trên
1503 trẻ em dưới 5 tuổi tại TPHCM năm
1994. Trong số trẻ được điều tra có 494
trẻ bị suy dinh dưỡng nhẹ cân.
Tỷ lệ trẻ bị suy dinh dưỡng nhẹ cân =
494/1503 = 0,329 = 32,9%
Đại cương
về mẫu và phương pháp lấy mẫu
Trong nghiên cứu, chúng ta chỉ
có thể thu thập số liệu trên một
tập hợp nhất định các đối tượng
Nhưng chúng ta lại muốn khái
quát hóa kết quả của các số liệu
và áp dụng chúng cho một dân
số rộng lớn hơn
Làm sao áp dụng kết quả nghiên cứu
(mẫu) lên dân số mục tiêu?
- Cỡ mẫu phải đủ lớn
- Phương pháp lấy
mẫu phải có tính đại
diện
Các khái niệm
Mẫu (sample): Tập hợp các đối tượng
được thu thập số liệu
Dân số nghiên cứu (study population): tập
hợp các đối tượng có các đặc tính hay
đại lượng được thu thập trong quá trình
nghiên cứu.
Dân số mục tiêu (Target population): Tập
hợp các đối tượng mà chúng ta muốn các
thành quả nghiên cứu được áp dụng vào
8
MẪU
DÂN SỐ
NGHIÊN
CỨU
DÂN
SỐ
MỤC
TIÊU
Dân số Tỷ lệ
Toàn bộ dân số đích N
Mẫu n p
í
Mẫu n p
: Tỷ lệ trong dân số đích, là một tham số hằng định và
chúng ta muốn biết
p: Tỷ lệ trong mẫu, là một số luôn dao động, là số liệu
chúng ta rút ra các kết luận về tỷ lệ trong dân số đích
Ví dụ:
Cuộc điều tra tỷ lệ suy dinh dưỡng trên trẻ em dưới 5 tuổi ở
TPHCM
Tỷ lệ suy dinh
dưỡng của
dân số
p1
p2
p3
p4
p5
p1, 2, 3, 4, 5: là
những tỷ lệ suy
dinh dưỡng
tương ứng với
các mẫu khác
nhau
Nếu chúng ta rất may mắn, p =
Tuy nhiên, thường tỷ lệ mẫu sẽ dao động (phân tán) xung quanh giá trị
của dân số đích
Phương sai _ Sai số chuẩn
Phương sai của tỷ lệ:
Sai số chuẩn của tỷ lệ: căn bậc hai của phương
sai. Đo lường mức độ sai số trung bình của p.
Nó cho chúng ta biết chúng ta hy vọng tỷ lệ p
của chúng ta khác với tỷ lệ của dân số là bao
nhiêu
Công thức:
Ví dụ:
Cuộc điều tra tỷ lệ suy dinh dưỡng trên trẻ em dưới 5
tuổi ở TPHCM. Cỡ mẫu n = 1000, tỷ lệ suy dinh
dưỡng trong dân số đích
Như vậy, sai số chuẩn của tỷ lệ quan sát là:
S.E = = 0.0145 = 1.45%
Trong thực tế, ta ít khi biết tỷ lệ của dân số , do đó ta
sử dụng tỷ lệ của mẫu p đề ước lượng sai số chuẩn
Khoảng tin cậy
Khi chúng ta quan sát một tỷ lệ trong một mẫu
ngẫu nhiên, ta mong muốn có được một
khoảng các giá trị mà giá trị tỷ lệ (thực) của
dân số nằm trong đó. Khoảng này được gọi là
khoảng tin cậy.
Khoảng tin cậy được xác định bằng cách giới
hạn tin cậy mức trên và dưới
Giả sử:
Có hai biến định tính
Tổng thể tuân theo phân phối nhị thức
Có thể sử dụng xấp xỉ chuẩn
Điều kiện áp dụng (nxp) > 5 & nx(1 - p) > 5
=> Ước lượng khoảng tin cậy 95%:
(p – 1,96 x S.E.) < p < (p - 1,96 x S.E. )
Khoảng tin cậy cho ước lượng tỉ lệ
Khoảng tin cậy 95%:
95% các trường hợp nghiên cứu giá trị
nằm trong khoảng
Khoảng tin cậy 95%:
Nên nhớ rằng có xác suất 5% tỷ lệ của dân số
đích nằm ngoài khoảng tin cậy 95%, do đó có
thể có khoảng tin cậy sẽ không chứa tỷ lệ thực.
Khoảng tin cậy sẽ hẹp nhất khi cỡ mẫu là lớn
nhất và khoảng tin cậy sẽ rộng nhất khi cỡ mẫu
nhỏ
Trình bày khoảng tin cậy
Nguyên tắc của kiểm định ý nghĩa
Phương pháp phản chứng/phản nghiệm
A làm B không xảy ra => B xảy ra suy ra A không xảy ra
Chúng ta thường sử dụng trong y khoa.
Ví dụ: Bn nhập viện vì bị đau bụng dữ dội. Chúng ta nghi ngờ
BN bị tắt ruột và khai thác bệnh sử. BN nói rằng BN trung tiện
bình thường, ta loại bỏ căn nguyên tắc ruột.
Nếu BN bị tắc ruột thì BN sẽ không trung tiện
Do BN trung tiện bình thường nên BN không bị tắt ruột.
Nguyên tắc của kiểm định ý nghĩa
Nếu giả thuyết Ho xảy ra => T hiếm xảy ra
T xảy ra => giả thuyết Ho hiếm xảy ra
Ký hiệu theo công thức tính xác suất của biến cố T
là P(T)
Nếu {Ho => P(T) nhỏ}
thì {T xảy ra => P(Ho) nhỏ}
Nguyên tắc của kiểm định ý nghĩa
Giả thuyết Ho (null hypothesis)
22Giả thuyết Ho
Giả thuyết Ho là một mệnh đề âm tính cho rằng không có sự
liên hệ thống kê nào
Giả thuyết Ho khẳng định về
sự bằng nhau,
không khác biệt,
không có liên quan
23Giả thuyết Ho
Chỉ có thể bác bỏ chứ không chứng minh được giả
thuyết Ho
Giả thuyết Ho là phủ định của giả thuyết nghiên cứu
Là bước đầu tiên của bất cứ kiểm định thống kê nào
Nguy cơ tương đối =1
Giả thuyết phụ (alternative hypothesis)
Ha: Là một giả thuyết mà nhà nghiên cứu
nghĩ là sự thật
Điều cần được “chứng minh” bằng dữ
kiện.
Một thử nghiệm lâm sàng điều trị ung thư vú đã di căn, BN được
phân nhóm ngẫu nhiên để điều trị với L-Pam hay CMF (phối hợp 3
thuốc).
Giả thuyết Ho:
Hai phương pháp điều trị có hiệu quả tương đương
Giả thuyết phụ Ha:
Hai phương pháp điều trị có hiệu quả khác nhau
PP điều trị CMF hiệu quả hơn PP điều trị L-Pam
PP điều trị L-Pam hiệu quả hơn PP điều trị CMF
Hay
Giả thuyết Ho:
Tỷ lệ đáp ứng với CMF = tỷ lệ đáp ứng với L-Pam
Giả thuyết phụ Ha:
Tỷ lệ đáp ứng với CMF > Tỷ lệ đáp ứng với L-Pam
Tỷ lệ đáp ứng với CMF < Tỷ lệ đáp ứng với L-Pam
Tỷ lệ đáp ứng với CMF khác Tỷ lệ đáp ứng với L-Pam
27Bài tập Đặt giả thuyết Ho và Ha
Một nghiên cứu tiến hành nhằm so sánh
chiều cao trung bình nam sinh và chiều
cao trung bình ở nữ sinh trường THCS A.
28
Một nghiên cứu tiến hành nhằm khảo sát
nguy cơ nhồi máu cơ tim ở 2 nhóm: nhóm
có cholesterol cao và nhóm có cholesterol
thấp.
Bài tập Đặt giả thuyết Ho và Ha
Các bước của một kiểm định ý nghĩa
Xây dựng giả thuyết Ho
Chọn kiểm định phù hợp
Tính giá trị thống kê của số liệu thu thập được
Tính giá trị p-value
Kết luận. Nếu p đủ nhỏ chúng ta bác bỏ giả
thuyết Ho
Giá trị p
Trị số P là một con số xác suất, viết tắt chữ “probability value”
Giá trị p
Trị số P là một con số xác suất, viết tắt chữ “probability
value”
Giá trị p lớn hơn 0.05 được xem là không đủ bằng chứng
để bác bỏ giả thuyết Ho => chấp nhận giả thuyết Ho
Giá trị p < 0.05 là có đủ bằng chứng để bác bỏ giả thuyết
Ho, cho rằng giả thuyết Ho là không đúng.
=> kết luận: sự khác biệt có ý nghĩa thống kê ở mức 5%
Các bước của một kiểm định ý nghĩa
Xây dựng giả thuyết Ho
Chọn kiểm định phù hợp
Tính giá trị thống kê của số liệu thu thập được
Tính giá trị p-value
Kết luận. Nếu p đủ nhỏ chúng ta bác bỏ giả
thuyết Ho
33Chọn lựa kiểm định phù hợp
Biến phụ thuộc
(hậu quả)
Biến độc lập (nguyên nhân)
Nhị giá Danh định –
Thứ tự
Định lượng - Đa biến
(mô hình hóa)
Định lượng (phân
phối bình thường)
T-test ANOVA Hồi quy tuyến tính
Thứ tự (biến định
lượng pp không
bình thường)
Wilcoxon
Rank sum t.
Mann-
Whitney
Kruskal-Wallis TQ Spearman
Nhị giá Chi bình
phương (cc,
cs, ir)
Chi bình
phương
(mhodds, tab2)
Hồi quy logistic
Hồi quy Poisson
Sống còn Wilcoxon
tổng quát
Logrank
Wilcoxon tổng
quát
Logrank
Hồi quy Cox
34
2 biến Trình bày số liệu Phân tích
Cả hai đều là định
tính
Bảng dự trù;
bảng hàng cột
Chi-square test
Biến độc lập: định
tính
Biến phụ thuộc:
biến liên tục
Box plot T-test
Cả hai đều là biến
liên tục
Scatter plot Hồi quy tuyến
tính
35
Kiểm định chi bình phương
Chi-square test
Kiểm định chi bình phương (2) 36
Còn gọi là kiểm định chi square test.
Phép kiểm 2 dùng để đánh giá sự quan hệ giữa 2
biến số định tính
So sánh số quan sát trong một trong bốn phạm trù
trong bảng dự trù với số kì vọng.
Giá trị 2 càng lớn thì ít có sự khác biệt giữa quan sát
và kì vọng là do tình cờ.
Các bước tiến hành
1.Xây dựng giả thuyết Ho
2. Tính toán tỷ lệ hay phần trăm thích hợp trong bảng 2x2;
3. Tính số kỳ vọng (E)
4. Tính 2 = (quan sát - kì vọng)2 /kì vọng cho mỗi ô trong bảng dự trù
và cộng chúng lại.
37
5. Đối chiếu bảng: điểm phần trăm của phân phối χ2
được trình bày trong bảng A5. Giá trị này phụ thuộc
vào độ tự do và trong bảng 2 × 2 độ tự do bằng 1.
6. Kết luận: bác bỏ hay không bác bỏ Ho
1)-t oc o(s 1)- hàng os(..,)(
2
2
fd
E
EO
Kết quả thử nghiệm vac xin cúm
Cúm Vacxin Giả dược Tổng
Có 20 80 100
Không 220 140 360
Tổng số 240 220 460
38
Vac xin có hiệu quả hay không
hay là do tình cờKiểm định chi bình phương
Số quan
sát
Bước 1: Hình thành giả thuyết Ho
Ho: P(Cúm | tiêm vaccine) = P(cúm | giả dược) =
P(cúm | chung)
39
Bước 2: Tính tỉ lệ, phần trăm 40
Cúm Vacxin Giả dược Tổng
Có 20 (8,3%) 80 (36,4%) 100
(21,7%)
Không 220 140 360
Tổng số 240 220 460
Tính tỷ lệ cúm trong nhóm
vacxin, trong nhóm giả dược và
trong toàn bộ
Bước 3: Tính số kì vọng
Cúm Vacxin Giả dược Tổng
Có 52,2 47,8 100
Không 187,8 172,2 360
Tổng số 240 220 460
41
Cúm Vacxin Giả dược Tổng
Có 20 (8,3%) 80 (36,4%) 100
(21,7%)
Không 220 140 360
Tổng số 240 220 460
Bước 4: Tính giá trị chi bình phương
Cúm Vacxi
n
Giả
dược
Tổng
Có 52,2 47,8 100
Không 187,8 172,2 360
Tổng 240 220 460
42
Cúm Vacxin Giả
dược
Tổng
Có 20 80 100
Không 220 140 360
Tổng 240 220 460
Bước 5: Đối chiếu với bảng chi bình phương
43
Bước 6: Kết luận
53,09 lớn hơn 10,83, điểm 0,001 của phân phối χ2 một độ tự do.
Do đó xác suất của sự khác biệt quan sát được về bệnh cúm do
tình cờ nhỏ hơn 0,001, nếu không có sự khác biệt thực sự giữa
vaccine và placebo.
Tức là p< 0,001
Bác bỏ Ho: Tỷ lệ cúm/vac xin không tương đương tỷ lệ cúm/giả
dược tỷ lệ cúm/vac xin khác biệt tỷ lệ cúm/giả dược
Do đó có thể kết luận rằng vaccin có hiệu quả.
44
45
Good study!!!