Số liệu điều tra thực sự trở nên có ích
khi được tập hợp lại và phân tích hoàn
chỉnh.
Việc xử lý và phân tích số liệu nhất
thiết phải được tiến hành chuẩn bị một
cách cẩn thận
45 trang |
Chia sẻ: lylyngoc | Lượt xem: 1674 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Bài giảng Phân tích số liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
5/12/2011 1
PHÂN TÍCH SỐ LIỆU
5/12/2011 2
Mục tiêu
1. Trình bày được tầm quan trọng của
việc kiểm soát chất lượng và xử lý số
liệu
2. Mô tả được các cách phân tích và
phiên giải số liệu dựa trên các mục
tiêu và các biến số của nghiên cứu..
5/12/2011 3
Giới thiệu
Số liệu điều tra thực sự trở nên có ích
khi được tập hợp lại và phân tích hoàn
chỉnh.
Việc xử lý và phân tích số liệu nhất
thiết phải được tiến hành chuẩn bị một
cách cẩn thận
5/12/2011 4
Giới thiệu
Khi phân tích số liệu:
Loại thiết kết nghiên cứu
Các phương pháp thu thập số liệu.
Số liệu định lượng: mô tả các số liệu của
từng biến trong toàn bộ các đơn vị nghiên
cứu
Số liệu định tính: thường là các mô tả, tổng
hợp, và phiên giải các số liệu thu thập
5/12/2011 5
Kiểm tra chất lượng số liệu
Bộ số liệu cần được kiểm tra tính đầy đủ và
thống nhất của số liệu.
Một số biến không có thông tin
Sự không thống nhất về số liệu trong bộ câu
hỏi.
• Do người phỏng vấn
• Do người trả lời
Nếu không thể nào hiệu chỉnh, cần phải cân
nhắc đến việc loại bỏ một phần số liệu.
5/12/2011 6
Quyết định loại bỏ một phần số liệu:
Ảnh hưởng đến chất lượng của nghiên
cứu.
Chứng tỏ tính trung thực về mặt khoa
học của người nghiên cứu.
Nên đưa vào bàn luận về điều này
trong báo cáo cuối cùng
5/12/2011 7
Phân loại số liệu
Đối với các biến phân loại: định nghĩa ngay
từ khi thiết kế bộ câu hỏi.
Câu hỏi có dạng trả lời khác như “loại khác,
xin chỉ rõ.” phân loại sau khi đã điều tra, cần
được liệt kê vào một bảng các dạng trả lời
khác nhau hoặc “khác”, (<= 5% )
Đối với các biến dạng số: Không cần phân
loại trước
5/12/2011 8
Mã hoá số liệu
Mang lại hiệu quả trong việc xử lý,
nhập và phân tích.
Có (hoặc dương tính) mã là1
Không (âm tính) mã là2
Không biết mã là8 hoặc (88)
Không trả lời mã là 9 (hoặc 99)
5/12/2011 9
Ví dụ: Bộ câu hỏi 30 người
1. Số thứ tự:………
2. Giới tính:
• 1/ Nam 2/ Nữ
3. Tuổi (ghi cụ thể):………
4. Cân nặng (với 1 số lẽ): ................kg
5. Chiều cao (với 2 số lẻ): ................kg
6. Tình trạng hôn nhân của ông/ bà:
• 1/ Độc thân
• 2/ Có vợ/chồng
• 3/ Ly thân
• 4/ Ly dị
• 5/ Góa
5/12/2011 10
“Bảng mã hóa” dùng cho xử lý dữ kiện bằng máy vi tính.
TT
Biến số Loại Tên giá trị Giá trị mất Tên biến
01 Số thứ tự Số 01 - 30 Thutu
02 Giới tính Số 1- nam
2 - nữ
9 Gioi
03 Tuổi Số 20 - 59 99 Tuoi
04 Cân nặng Số 999 Cannang
05 Chiều cao Số 999 Chieucao
06 Tình trạng
hôn nhân
Số 1-Độc thân
2-Có vợ/chồng
3-Ly thân
4-Ly dị
5- Goá
Honnhan
5/12/2011 11
Bảng số liệu trống (bảng câm)
Có thể được thiết kế cùng với đề
cương
Định hướng cho việc phân tích số liệu
5/12/2011 12
Tỷ lệ người ít vận động thể lực phân chia theo địa dư và giới
Nam Nữ Tổng số
Tần số (%) Tần số (%) Tần số (%)
Thành thị
Nông thôn
Tổng số
Địa dư
5/12/2011 13
Phân tích số liệu bằng máy tính
Chọn chương trình máy tính: EXCEL,
SPSS, STATA, EPI_INFO…
Nhập số liệu: Lập một khuôn dạng
(form) cho việc nhập số liệu trên máy
tính.
Kiểm tra chất lượng số liệu sau khi
nhập
Phân tích và đưa ra các kết quả
5/12/2011 14
Định nghĩa phân tích số liệu
Là sự tính toán những chỉ số được qui
định trong những mục tiêu.
Kết quả phân tích dữ kiện trả lời mục
tiêu nghiên cứu.
5/12/2011 15
Có 2 loại phân tích số liệu:
Thống kê mô tả: Mô tả bản chất và đặc
tính của hiện tượng nghiên cứu.
Thống kê suy luận: Tính toán và so
sánh các chỉ số, kiểm định ý nghĩa, xác
định mức độ liên quan, tương quan,
xây dựng mô hình hồi qui
5/12/2011 16
Nguyên tắc
Mục tiêu và thiết kế nghiên cứu
Thang đo lường/loại dữ kiện
Sự tham khảo ý kiến của chuyên gia thống
kê.
Những phương pháp phân tích dữ kiện phải
được xác định trong giai đoạn thiết kế đề
cương
Nguyên tắc phân tích số liệu
5/12/2011 17
Xem lại mục tiêu tổng quát để có khái
niệm chung về những kết quả cuối cùng
của nghiên cứu.
Xem những mục tiêu cụ thể: chú ý biến số
được khảo sát và tuỳ theo bản chất của
biến số.
Khi cần khảo sát mối liên quan: cần xác
định biến số nào là độc lập, và biến số
nào là phụ thuộc, biến số gây nhiễu phải.
Các bước phân tích số liệu
5/12/2011 18
Phân tích biến định lượng
Thống kê mô tả: Các chỉ số cần tính là số đo
lường khuynh hướng tập trung và phân tán.
Trung bình, trung vị
Độ lệch chuẩn, khoảng
Thống kê suy luận:
Test thống kê cho kiểm định trung bình
Test phương sai
tương quan,
hồi qui tuyến tính
5/12/2011 19
Ví dụ
Bộ số liệu: 4,2,12,6
Tính trung bình, trung vị, độ lệch
chuẩn, khoảng
5/12/2011 20
Phân tích biến định tính
Mô tả:
Phân bố tấn số
Tỷ lệ
Để so sánh,
Test Chi bình phương,
McNemar ...
Nếu biến số là nhị phân: số đo kết hợp.
RR
OR
5/12/2011 21
CHỌN TEST THỐNG KÊ TRONG
PHÂN TÍCH SỐ LIỆU
5/12/2011 22
Mục tiêu
1. Trình bày được những khái niệm cơ bản
về ý nghĩa thống kê trong nghiên cứu
khoa học
2. Trình bày được các test thống kê thích
hợp khi so sánh các biến định tính, các
biến định lượng.
3. Trình bày được các test thống kê thích
hợp mô tả mối tương quan giữa các biến
số
4. Sử dụng được các test thống kê phù hợp
trong các loại nghiên cứu khoa học
5/12/2011 23
Cơ sở của các test thống kê
Nghiên cứu phải dùng phép so sánh sự khác biệt
của các nhóm (giả thuyết: H0 ,H1)
Test thống kê xem xét là sự khác biệt có phải do:
Yếu tố nghiên cứu
Yếu tố mai rủi
Sai số
Cơ sở: Nếu lập lại 100 lần nc (cùng điều kiện) sẽ
cho khác biệt độ lớn như vậy bao nhiêu lần?
Nếu tính toán: khác biệt chỉ 1 lần; 5 lần – Không
là yếu tố mai rủi
5/12/2011 24
Giả thuyết H0
Giả thuyết H0: Không có sự khác biệt
Giả thuyết H1: Có sự khác biệt (2 chiều); lớn
hơn hoặc nhỏ hơn (một chiều)
Ví dụ: Nghiên cứu Đoàn hệ về hút thuốc lá
và ung thư phổi:
H0: Tỷ lệ ung thư phổi của nhóm có hút
thuốc và không hút thuốc là như nhau
H1: Tỷ lệ ung thư phổi của nhóm không hút
thuốc lá thấp hơn nhóm có hút thuốc lá
5/12/2011 25
Ngưỡng ý nghĩa
Khi bác bỏ giả thuyết H0 đều mắc sai
lầm nhất định
Đề xuất một “xác xuất sai lầm” chấp
nhận được: mức ý nghĩa
Tuỳ theo tính chất của nghiên cứu,
mức ý nghĩa: 5%, 1%...
5/12/2011 26
Nguyên tắc chọn test thống kê
Mục tiêu của nghiên cứu: Đo lường sự khác
biệt hay đo lường tương quan giữa các biến
Số nhóm nghiên cứu: 1 nhóm, 2 nhóm, hoặc
trên hai nhóm
Bản chất số liệu, loại biến số: Biến định tính,
biến định lượng
Phân bố mẫu: Chuẩn hay không chuẩn
Loại quan sát: Mẫu độc lập hay ghép cặp
5/12/2011 27
Phân tích sự khác biệt
Biến định tính:
Sự khác biệt 2 tỷ lệ
Nhiều hơn hai tỷ lệ
Biến định lượng
Sự khác biệt 2 trung bình
Sự khác biệt nhiều hơn 2 trung bình
5/12/2011 28
Biến định lượng
ANOVA
Maãu Caëp
Kiểm t cặp
Kruskal-Wallis
Wilcoxon
Kiểm t
Maãu Lôã ùùn
Maãu Nhoã ûû
So Sánh CÁC Số Trung Bình
So Sánh HAI Số Trung Bình
5/12/2011 29
Biến định tính
χ2
Maãu Caëp
Chính xác Fisher
Maãu Lôã ùùn
Maãu Nhoã ûû
So Sánh Các Tỉ Lệ (Bảng n hàng x n cột)
So Sánh HAI Tỉ Lệ
χ2χ2 McNemar
5/12/2011 30
Bảng số liệu
Bệnh
Phơi nhiễm
Có Không
Tổng
Có a b e
Không c d f
Tổng g h n
5/12/2011 31
Công thức chung của χ2
df: (hang - 1) x (cột -1)
O: Giá trị qua sát
E: Giá trị kỳ vọng
E = (tổng hàng x tổng
cột)/tổng chung
Điều kiện: <20% số ô có kỳ
vọng < 5
∑ −= EEO
2
2 )(χ
efgh
bcadn 22 )( −=χ
Bảng 2 x 2
5/12/2011 32
Ví dụ
Nhồi máu CTHút thuốc lá
Có Không
Tổng
Có 30 (33%) 60 90
Không 20 (18%) 90 110
Tổng 50 (25%) 150 200
Tính các giá trị kỳ vọng
Tính χ2 và đưa ra kết luận về sự khác biệt
5/12/2011 33
Ví dụ
Nhồi máu CTHút thuốc lá
Có Không
Tổng
Có 30 60 90
Không 20 90 110
Tổng 50 150 200
Tính χ2 = 6,06 ; df = 1; p = 0,0138
22,5 67,5
27,5 82,5
5/12/2011 34
Chú ý
Trong trường hợp nhiều hàng, nhiều
cột mà có số ô có giá trị nhỏ hơn 5, có
thể gộp các hàng (cột) để tính toán cho
phù hợp
5/12/2011 35
Nghiện ma túyHọc
vấn Có Không
Mù chữ 10 4 13
Cấp 1 8 3 11
Cấp 2 3 5 8
Cấp 3+ 2 5 7
Tổng 23 17 40
Tổng
7,5
6,3
4,6
3,5
5,5
4,7
3,4
2,6
5/12/2011 36
Nghiện ma túyHọc vấn
Có Không
Mù chữ 10 4 13
Cấp 1 8 3 11
Cấp 2 3 5 8
Cấp 3+ 2 5 7
Tổng 23 17 40
Tổng
7,5
6,3
4,6
3,5
5,5
4,7
3,4
2,6
1510 65 8,1Cấp 2 – Cấp 3+
401723Tổng
257 10,318 14,3Mù chữ - Cấp 1
KhôngCó
TổngNghiện ma túyHọc vấn
5/12/2011 37
Độ lớn của
mối tương
quan
Test ý nghĩa
thống kê
PHÂN TÍCH SỰ
TƯƠNG QUAN
Biến nhị
phân
Thuần tập
Thử nghiệm
NC ngang/
NC bệnh
chứng
Tỷ suất
chênh (OR)
Nguy cơ tương
đối (RR)
χ2 hoặc
McNemar test
Phân tích tương
quan và hồi qui
Biến định
lượng
Tất cả các
loại nghiên
cứu
Phương
trình hồi qui
Hệ số tương
quan (r)
5/12/2011 38
Biến nhị phân
OR = ad / bc
Trong nghiên cứu bệnh-chứng
Hậu quả Tổng
Có Không
Có a b a + b
Không c d c + d
Tổng a + c b + d a + b + c + d
Nguyên
nhân
5/12/2011 39
Biến nhị phân
RR = [a / (a + b)] : [c / (c + d)]
Trong nghiên thuần tập
Hậu quả Tổng
Có Không
Có a b a + b
Không c d c + d
Tổng a + c b + d a + b + c + d
Nguyên
nhân
5/12/2011 40
NC bệnh chứng về hút thuốc lá
– K phổi
OR = 2,5
chỉ số đo lường
K phổi Tổng
Có Không
Có 40 80 120
Không 20 100 120
Tổng 60 180 240
HTL
5/12/2011 41
NC đoàn hệ về uống thuốc ngừa
thai và nhiễm trùng tiểu
RR = 0,1/0,05 =2
Chỉ số đo lường
NTT Tổng
Có Không
Có 200 1800 2000
Không 300 5700 6000
Tổng 500 750000 8000
UTNT
5/12/2011 42
Mục tiêu
• Xác định tỷ lệ hiện mắc bệnh ĐTĐ của người dân
trong độ tuổi từ 25 – 64 tại thành phố Cần Thơ.
• Xác định một số yếu tố nguy cơ gây bệnh ĐTĐ ở
người dân trong độ tuổi từ 25 – 64 và đánh giá mức
độ liên quan qua lại của các yếu tố nguy cơ này đối
với bệnh ĐTĐ.
THỰC TRẠNG BỆNH ĐÁI THÁO ĐƯỜNG VÀ
CÁC YẾU TỐ NGUY CƠ Ở LỨA TUỔI 25 – 64
TẠI THÀNH PHỐ CẦN THƠ NĂM 2005
5/12/2011 43
Biến số
1. Xác định tỷ lệ hiện mắc bệnh ĐTĐ của người dân
trong độ tuổi từ 25 – 64 tại thành phố Cần Thơ.
Các biến số:
Đường huyết lúc đói: Bình thường, cao
Tuổi: Tuổi dương lịch
Giới: Nam, nữ
Nơi cư trú: Thành thị, nông thôn
….
5/12/2011 44
Biến số
2. Xác định một số yếu tố nguy cơ gây bệnh ĐTĐ ở người dân
trong độ tuổi từ 25 – 64 và đánh giá mức độ liên quan qua lại của
các yếu tố nguy cơ này đối với bệnh ĐTĐ.
Các biến số:
TSGĐ liên quan đến bệnh ĐTĐ
Tuổi
Hoạt động thể lực
Hút thuốc lá
BMI
Huyết áp
5/12/2011 45
Mối liên qua giữa Đường huyết (Biến phụ
thuộc) và một số yếu tố (Biến độc lập)
Biến độc lập Giá trị Tương
quan
Test sự
khác biệt
TSGĐ liên quan đến
bệnh ĐTĐ
Tuổi
BMI
Huyết áp
Hoạt động thể lực OR
t
χ2
χ2
χ2OR
OR
OR
Có, không
=23
Có tăng, không tăng
150p
Tuổi làm tròn r
χ2
=45t OR χ2