Chương 6
KIỂM ĐỊNH
Chúng ta lập các bảng phân tích tìm bằng chứng để chứng minh các giả thuyết ở những phần trên đều
dựa trên mẫu ( các phiếu điều tra ) chứ không phải trên tổng thể.
Để xem kết quả của mẫu có đúng với tổng thể hay không chúng ta phải thực hiện các phép kiểm định.
Kiểm định là bước thứ hai sau thống kê mô tả và cũng là bước quyết định ý nghĩa và giá trị của công
trình nghiên cứu. Trong chương này, xin giới thiệu một số phép kiểm định đơn giản :
36 trang |
Chia sẻ: thanhtuan.68 | Lượt xem: 3125 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Bài giảng SPSS - Chương 6: Kiểm định, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Chương 6
KIỂM ĐỊNH
Chúng ta lập các bảng phân tích tìm bằng chứng để
chứng minh các giả thuyết ở những phần trên đều
dựa trên mẫu ( các phiếu điều tra ) chứ không phải
trên tổng thể.
Để xem kết quả của mẫu có đúng với tổng thể hay
không chúng ta phải thực hiện các phép kiểm định.
Kiểm định là bước thứ hai sau thống kê mô tả và
cũng là bước quyết định ý nghĩa và giá trị của công
trình nghiên cứu. Trong chương này, xin giới thiệu
một số phép kiểm định đơn giản :
I-Kiểm định mối quan hệ giữa hai biến
định tính
• 1- Kiểm định Chi-Square: được sử dụng phổ biến
khi kiểm định mối liên hệ 2 biến định tính không
thứ bậc, hoặc 1 thứ bậc với 1 biến không thứ bậc:
• Cách thực hiện như mô tả bảng chéo trên, tại hộp
Crosstabs ta chọn Chi-square.
• Được sử dụng để kiểm định xem có tồn tại mối
quan hệ giữa 2 yếu tố đang nghiên cứu trong tổng
thể.
• Muốn thực hiện kiểm định ta thực phải phát biểu
giả thuyết: H0 là không tồn tại mối quan hệ giữa
hai biến.
Cách thực hiện kiểm định Chi - Square
trên SPSS
• Chọn Analyze -> Descriptive Statistics -> Crosstabs
Biến phụ thuộc
Biến độc lập
1
2
3
4
• Chọn mục Chi - -square:
• Đưa biến giới tính vào cột, và biến mức sống vào
dòng ta có 3 bảng kết quả, 2 bảng trên như của
Bassi Table, bảng thứ 3 như sau:
Chi-Square Tests
1.497a 3 .683
1.500 3 .682
.112 1 .738
288
Pearson Chi-Square
Continuity Correction
Likelihood Ratio
Linear-by-Linear Association
N of Valid Cases
Value df
Asymp. Sig.
(2-sided)
2 cells (25.0%) have expected count less than 5. The
minimum expected count is 1.96.
a.
• Tại cột Asymb Sig (2- sided ), ở dòng đầu tiên
Pearson Chi – Square nếu:
• Dấu Sig < 0.1 thì giả thuyết H0 bị bác bỏ với độ tin
cậy trên 90%.
• Dấu Sig < 0.05 thì giả thuyết H0 bị bác bỏ với độ tin
cậy trên 95%. Khi đó kết luận là có tồn tại mối quan
hệ giữa giới tính của chủ hộ và mức sống gia đình.
• Trong ví dụ này Sig = 0.683 có nghĩa là giả thuyết H0
được chấp nhận, vì nếu ta bác bỏ giả thuyết thì sẽ
phạm sai lầm rất lớn.
• Khi kiểm định Chi – Square chú ý nếu có quá 20%
số ô có tần suất kỳ vọng dưới 5 thì kiểm định Chi –
Square không còn tin cậy. Trong ví dụ này có tới
25% số ô có tần suất kỳ vọng nhỏ hơn 5.
• Chuù yù: thoáng keâ hiC -square khoâng
phaûi laø soá ño möùc ñoä chaët cheõ
cuûa moái quan heä. Ví duï khoâng theå
keát luaän raèng moái quan heä giöõa
giôùi tính vaø möùc soáng laø quan
troïng, vì noù chæ coù yù nghóa thoáng
keâ (töùc laø caùc thoáng keâ naøy
khoâng theå hieän möùc ñoä chaët cheõ
cuûa moái quan heä). Khi thaûo luaän
caùc keát quaû caàn xem xeùt möùc ñoä
quan heä trong maãu cuõng nhö yù
nghóa cuûa noù (vaø phaàn traêm theo
doøng vaø coät).
Một số đại lượng khác về mối liên hệ 2
biến định danh
• Do kiểm định Chi-square không cho biết mức độ chặt
chẽ giữa 2 biến, ta có thể sử dụng Tables để mô tả
mối liên hệ đó hoặc sử dụng các đại lượng thống kê
do Pearson đề xuất như:
• * Cramer V: Ký hiệu V có giá trị 0 <= V < 1
• Giá trị của V thể hiện mức độ quan hệ 2 biến
• * Hệ số liên quan (Coefficient contigency): ký hiệu
C: 0<=C<=1
• * Lambda: ký hiệu L cho biết các trị số của biến khảo
sát có tập trung quanh biến kia không, hay nói các
khác nếu biết giá trị biến độc lập cho biết khả năng
dự đoán giá trị biến phụ thuộc là bao nhiêu %
2- Kiểm định mối quan hệ 2 biến
định tính thức bậc
• Đối với 2 biến đều sắp theo thứ bậc chúng ta
không dùng kiểm định Chi – Square mà dùng
kiểm định tau-b, tautau-c, gamma cũng trong
bảng Cosstabs.
• Nếu cột Approx Sig có kết quả <0.05 của dòng
Gamma thì giả thuyết H0 bị bác bỏ tức là có
mối quan hệ giữa 2 biến.
II- Kiểm định mức độ mối quan hệ 2
biến định tính
Kiểm định Chi – Square chỉ khẳng định có mối quan hệ
giữa 2 biến hay không, chứ không cho biết mức độ mối quan
hệ đó như thế nào.
Muốn thực hiện kiểm định mức độ mối quan hệ ta dùng kiểm
định Crammér’s V, hoặx Kiểm định Lambda nằm trong cùng
hộp kiểm định Chi – Square.
Giá trị kiểm định biến thiên từ 0 -> 1 thể hiện mức độ của
quan hệ.
III- Kiểm định giả thuyết về trị trung
bình của 1 tổng thể
Phần này sẽ nói đến việc kiểm định trung bình của
tổng thể trong trường hợp mẫu lớn và mẫu nhỏ, với
điều kiện đã biết hoặc chưa biết phương sai tổng
thể .
Để tiến hành kiểm định thống kê cho một giả
thuyết nào đó, cần thiết phải đưa ra những giả định
nào đó về dữ liệu quan sát
• Ví dụ: Một trường A, muốn đánh giá xem hệ số
thông minh của học sinh trường có hơn hệ số
thông minh trung bình của các trường toàn quận
(105). Trường A đã chọn ngẫu nhiên 30 học sinh
để đánh giá. Hệ số thông minh trung bình của học
sinh trường A có khác biệt so với toàn quận ?
• Giả thuyết là:
• “H0 là hệ số thông minh của học sinh trường A
không có sự khác biệt với hệ số thông minh trung
bình các trường trong quận ( hệ số IQ trung bình
học sinh toàn quận = 105 ).
Thöïc hieän kieåm ñònh T moät maãu treân SPSS:
Hộp thoại kiểm định T một mẫu:
Biến kiểm định
Giá trị kiểm định
Bảng kết quả kiểm định
One-Sample Statistics
30 110.73 8.05 1.47Heä soá thoâng minh
N Mean Std. Deviation Std. Error Mean
One-Sample Test
3.900 29 .001 5.73 2.73 8.74Heä soá thoâng minh
t df
Sig.
(2-tailed)
Mean
Difference Lower Upper
95% Confidence
Interval of the
Difference
Test Value = 105
• Bảng kết quả của kiểm định trung bình một mẫu,
cho ta thấy:
• Sự khác biệt trung bình = Trung bình mẫu quan
sát - Trung bình giả thuyết.
110.73 – 105 = 5.73 ( bảng trên )
• Khoảng tin cậy đã chọn là 95% cho sự khác biệt
giữa các trung bình từ 2.73 -> 8.74
• Giá trị kiểm định T = 3.900, với bậc tự do là 29.
Giá trị p = 0.001 nhỏ hơn mức ý nghĩa ∽ (0.05
nên giả thuyết Ho hệ số thông minh học sinh
trường A = 105 bị bác bỏ. Nghĩa là có sự khác biệt
về hệ số thống minh của Trường A với các trường
trong quận.
II -Kieåm Trung bình hai tổng thể
• II.1 Kiểm định T với các mẫu độc lập
Hoäp thoaïi kieåm ñònh T hai maãu ñoäc
laäp :
Xác định nhóm
• Chọn biến định lượng kiểm định dưa vào
hộp test Variable(s)
• Chọn biến định tính chia số quan sát thành 2
nhóm để so sánh 2 nhóm đưa vào
Groupping Variable, chọn Define Groups
đánh tên nhóm.
• Mặc định là 2 nhóm
• Options vào thay đổi mức giới hạn khoảng
tin cậy ( mặc nhiên 95%, tức mức ý nghĩa
5%).
III- Kiểm định trung bình 02 mẫu phụ
thuộc ( hay mẫu cặp )
• Kiểm định được dùng cho 2 mẫu có liên
hệ với nhau. Quá trình kiểm định bắt đầu
từ việc tính toán chênh lệch trên từng cặp
quan sát theo phép tính trừ.
• Thường ta kiểm định cho việc tiến hành
các thí nghiệm xem sự khác biệt trung
bình của lô thí nghiệm và lô không thí
nghiệm.
• Giả thuyết Ho là: Không có sự khác biệt
giữa sản phẩm trước và sau thí nghiệm.
Thao tác trên SPSS
• Từ Analyze -> Compare Means -> Paired –
Samples T Test.
Chọn cặp biến
Ví dụ:
Lấy máu của 12 người cho máu, mỗi mẫu máu lại được
chia làm hai, một bảo quản tại nơi không có ánh sáng
và một để ở nơi có ánh sáng bình thường. Bốn tuần
sau, tiến hành định lượng methemoglobin và so sánh
nồng độ MetHb ở hai mẫu (bảo quản tốt: ít MetHb).
Kết quả như sau:
Tối: 5.4 2.7 7.4 6.2 8.8 7.9 9.9 5.3 6.8 10.1 5.2 6.5
Sáng: 8.9 6.3 14.2 7.4 6.4 11.3 6.8 9.4 10.5 8.9 7.1 9.4
Kết quả kiểm định
Paired Samples Statistics
6.850 12 2.133 .616
8.883 12 2.332 .673
Nôi toái
Nôi saùng
Pair 1
Mean N
Std.
Deviation
Std. Error
Mean
Paired Samples Correlations
12 .144 .656Nôi toái & Nôi saùngPair 1
N Correlation Sig.
Paired Samples Test
-2.033 2.926 .845 -3.892 -.174 -2.407 11 .035Nôi toái -
Nôi saùng
Pair 1
Mean
Std.
Deviation
Std. Error
Mean Lower Upper
95% Confidence
Interval of the
Difference
Paired Differences
t df
Sig.
(2-tailed)
• Ta có có thể khẳng định rằng máu bảo quản
nơi sáng kém chất lượng vì tăng nhiều MetHb
(độ tin cậy trên 95%).
• Hệ số tương quan (Correlation) giữa nồng độ
MetHb đặt trong tối và nơi sáng bằng 0.144.
Hệ số này có giá trị dương có nghĩa là quan sát
theo cặp sẽ làm giảm sự biến thiên của các trị
trung bình. Hệ số tương quan càng lớn, quan
sát cặp càng có ý nghĩa khi nghiên cứu.
Kiểm định trung bình nhiều tổng thể
(hay gọi phần tích phương sai)
• - Khi kiểm định T với 2 mẫu độc lập, nhưng nhiều
khi biến phân loại có trên 2 nhóm, nếu chúng ta thực
hiện bằng kiểm định Independent – Sample T-Text,
chúng ta sẽ phải phân thành nhiều cặp kiểm định lần
lượt như vậy vừa mất thời gian, nhưng cơ bản là mỗi
lần kiểm định ta chịu sai số 5%, tổ hợp các cặp ta
chịu sai lầm rất lớn.
• - Để Tránh sai lầm đó trong thống kê người ta sử
dụng phương pháp kiểm định trung bình nhiều tổng
thể ( phân tích phương sai ) là ta kiểm định cùng một
lúc các nhóm và cũng chỉ chịu sai lầm 1 lần là 5%.
Thao tác trên máy
Dưa biến định lượng vào
Chọn phân nhóm
(một biến độc lập)
Giải thích từ:
• * Contrasts:Kiểm định trước
• * Post Hoc : Kiểm định sau
• * Descriptive: Tính các đại lượng thống kê
• * Homogeneity-of-variance: Kiểm định sự
bằng nhau các phương sai nhóm
• Chúng ta thực hiện kiểm định sau nghĩa là
kiểm định khác nhau trung bình các nhóm sau
khi thực hiện phân tích Anova, bằng cách
Click vào Post Hoc ta có hộp thoại:
Ý nghĩa các mục kiểm định
• * LSD: Chính là kiểm định t lần lược các cặp như
kiểm định trung bình 2 tổng thể nên sai số cao.
• * Bonferroni: loại kiểm định này là loại kiểm định
LSD cải tiến. Dùng kiểm định để thực hiện tất cả các
so sánh cặp giữa các trung bình nhóm, nhưng có sự
kiểm tra tất cả các tỷ lệ sai số bằng cách cho trước sai
số tỷ lệ cho mỗi kiểm định( đây là kiểm định đơn
gian thường dùng).
• Tukey: dùng thống kê Studentized range statistic để
tiến hành các so sánh cặp giữa các nhóm dùng để
kiểm định khi có nhiều cặp trung bình cần so sánh.
• * Scheffé: thực hiện so sánh cặp cùng một lúc cho tất cả các
kết hợp theo cặp có thể có của các trị trung bình. Kiểm định
này thì kém nhạy trong việc so sánh trung bình của các cặp
biến,nhưng chính vì thế mà kết quả nó đưa ra lại thận trọng
hơn so.
• * R-E-G-F: Thực hiện 2 bước kiểm định, bước 1 là kiểm toàn
bộ các trị trung bình xem có bằng nhau không, sau đó kiểm
định sự khác biệt ở nhóm nào.
• * Dunnett: Là so sánh các trị trung của các nhóm với trị trung
bình của 1 nhóm cụ thể. SPSS mặc định chọn nhóm cuối để
làm nhóm điều khiển.
• * Trong trường hợp phương sai các nhóm khác nhau ta chọn
kiểm định Tamhane’s T2.
• * ta chọn kiểm định 2-sided (kiểm định 2 phía).
• * Dấu * chỉ sự khác biệt được phát hiện 2 nhóm tương ứng
dòng và cột ô chứa dấu *, nếu không có dấu * thì kiểm định
không phát hiện khác biệt các nhóm.
• * Sig cho độ tin cậy khi bác bỏ giả thuyết trị trung bình bằng
nhau của các nhóm.
Ví dụ
ANOVA
Toång dieän tích ôû chính (m2)
147829.275 5 29565.855 29.316 .000
621257.064 616 1008.534
769086.339 621
Between Groups
Within Groups
Total
Sum of
Squares df Mean Square F Sig.
Post Hoc Tests
Multiple Comparisons
Dependent Variable: Toång dieän tích ôû chính (m2)
Dunnett t (2-sided)a
-60.515* 8.6747 .000 -81.106 -39.923
-54.282* 8.7900 .000 -75.147 -33.416
-40.262* 9.8006 .000 -63.526 -16.998
-1.505 10.2260 1.000 -25.779 22.769
-44.929* 10.3951 .000 -69.604 -20.253
(J) Daân toäc cuûa gia ñình
Khaùc
Khaùc
Khaùc
Khaùc
Khaùc
(I) Daân toäc cuûa gia ñình
Raglay
Kôho
Chaêm
Nuøng
Kinh
Mean
Difference
(I-J) Std. Error Sig. Lower BoundUpper Bound
95% Confidence Interval
The mean difference is significant at the .05 level.*.
Dunnett t-tests treat one group as a control, and compare all other groups against it.a.
Đọc kết quả
• Tại cột Mean Difference (I-J): Sự khác biệt
trung bình từng cặp nhóm nếu có dấu * là có
sự khác biệt trung bình của các cặp tương
đương khi đó Sig tương ứng sẽ < mức ý nghĩa
kiểm định trong ví dụ này là <0.05, dòng nào
không có dấu * thì dấu sig >0.05.
• Kết quả âm tại Mean Difference (I-J): là J>I, ví
dụ diện tích Trung bình dân tộc khác > diện
tích trung bình dân tộc Raglay.
Kiểm định Chi- Bình phương 1 mẫu
• Mục đích: Kiểm định xem sự phân phối
của mẫu có phù với giả thuyết phân phối
của tổng thể:
• Giả thuyết là không có sự khác biệt trong
phân phối của tổng thể.
Thực hiện kiểm định
Trình ñoä chuyeân moân
44 38.3 5.7
54 38.3 15.7
17 38.3 -21.3
115
Cöû nhaân
Thaïc syõ
Tieán syõ
Total
Observed NExpected NResidual
Test Statistics
19.113
2
.000
Chi-Squarea
df
Asymp. Sig.
Trình ñoä
chuyeân moân
0 cells (.0%) have expected frequencies less than
5. The minimum expected cell frequency is 38.3.
a.