Bài giảng Phân tích số liệu

Số liệu điều tra thực sự trở nên có ích khi được tập hợp lại và phân tích hoàn chỉnh. Việc xử lý và phân tích số liệu nhất thiết phải được tiến hành chuẩn bị một cách cẩn thận

pdf45 trang | Chia sẻ: lylyngoc | Lượt xem: 1584 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Bài giảng Phân tích số liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
5/12/2011 1 PHÂN TÍCH SỐ LIỆU 5/12/2011 2 Mục tiêu 1. Trình bày được tầm quan trọng của việc kiểm soát chất lượng và xử lý số liệu 2. Mô tả được các cách phân tích và phiên giải số liệu dựa trên các mục tiêu và các biến số của nghiên cứu.. 5/12/2011 3 Giới thiệu Số liệu điều tra thực sự trở nên có ích khi được tập hợp lại và phân tích hoàn chỉnh. Việc xử lý và phân tích số liệu nhất thiết phải được tiến hành chuẩn bị một cách cẩn thận 5/12/2011 4 Giới thiệu Khi phân tích số liệu: ƒ Loại thiết kết nghiên cứu ƒ Các phương pháp thu thập số liệu. Số liệu định lượng: mô tả các số liệu của từng biến trong toàn bộ các đơn vị nghiên cứu Số liệu định tính: thường là các mô tả, tổng hợp, và phiên giải các số liệu thu thập 5/12/2011 5 Kiểm tra chất lượng số liệu Bộ số liệu cần được kiểm tra tính đầy đủ và thống nhất của số liệu. ƒ Một số biến không có thông tin ƒ Sự không thống nhất về số liệu trong bộ câu hỏi. • Do người phỏng vấn • Do người trả lời Nếu không thể nào hiệu chỉnh, cần phải cân nhắc đến việc loại bỏ một phần số liệu. 5/12/2011 6 Quyết định loại bỏ một phần số liệu: ƒ Ảnh hưởng đến chất lượng của nghiên cứu. ƒ Chứng tỏ tính trung thực về mặt khoa học của người nghiên cứu. ƒ Nên đưa vào bàn luận về điều này trong báo cáo cuối cùng 5/12/2011 7 Phân loại số liệu Đối với các biến phân loại: định nghĩa ngay từ khi thiết kế bộ câu hỏi. Câu hỏi có dạng trả lời khác như “loại khác, xin chỉ rõ.” phân loại sau khi đã điều tra, cần được liệt kê vào một bảng các dạng trả lời khác nhau hoặc “khác”, (<= 5% ) Đối với các biến dạng số: Không cần phân loại trước 5/12/2011 8 Mã hoá số liệu Mang lại hiệu quả trong việc xử lý, nhập và phân tích. ƒ Có (hoặc dương tính) mã là1 ƒ Không (âm tính) mã là2 ƒ Không biết mã là8 hoặc (88) ƒ Không trả lời mã là 9 (hoặc 99) 5/12/2011 9 Ví dụ: Bộ câu hỏi 30 người ƒ 1. Số thứ tự:……… ƒ 2. Giới tính: • 1/ Nam 2/ Nữ ƒ 3. Tuổi (ghi cụ thể):……… ƒ 4. Cân nặng (với 1 số lẽ): ................kg ƒ 5. Chiều cao (với 2 số lẻ): ................kg ƒ 6. Tình trạng hôn nhân của ông/ bà: • 1/ Độc thân • 2/ Có vợ/chồng • 3/ Ly thân • 4/ Ly dị • 5/ Góa 5/12/2011 10 “Bảng mã hóa” dùng cho xử lý dữ kiện bằng máy vi tính. TT Biến số Loại Tên giá trị Giá trị mất Tên biến 01 Số thứ tự Số 01 - 30 Thutu 02 Giới tính Số 1- nam 2 - nữ 9 Gioi 03 Tuổi Số 20 - 59 99 Tuoi 04 Cân nặng Số 999 Cannang 05 Chiều cao Số 999 Chieucao 06 Tình trạng hôn nhân Số 1-Độc thân 2-Có vợ/chồng 3-Ly thân 4-Ly dị 5- Goá Honnhan 5/12/2011 11 Bảng số liệu trống (bảng câm) Có thể được thiết kế cùng với đề cương Định hướng cho việc phân tích số liệu 5/12/2011 12 Tỷ lệ người ít vận động thể lực phân chia theo địa dư và giới Nam Nữ Tổng số Tần số (%) Tần số (%) Tần số (%) Thành thị Nông thôn Tổng số Địa dư 5/12/2011 13 Phân tích số liệu bằng máy tính Chọn chương trình máy tính: EXCEL, SPSS, STATA, EPI_INFO… Nhập số liệu: Lập một khuôn dạng (form) cho việc nhập số liệu trên máy tính. Kiểm tra chất lượng số liệu sau khi nhập Phân tích và đưa ra các kết quả 5/12/2011 14 Định nghĩa phân tích số liệu Là sự tính toán những chỉ số được qui định trong những mục tiêu. Kết quả phân tích dữ kiện trả lời mục tiêu nghiên cứu. 5/12/2011 15 Có 2 loại phân tích số liệu: ƒ Thống kê mô tả: Mô tả bản chất và đặc tính của hiện tượng nghiên cứu. ƒ Thống kê suy luận: Tính toán và so sánh các chỉ số, kiểm định ý nghĩa, xác định mức độ liên quan, tương quan, xây dựng mô hình hồi qui 5/12/2011 16 Nguyên tắc ƒ Mục tiêu và thiết kế nghiên cứu ƒ Thang đo lường/loại dữ kiện ƒ Sự tham khảo ý kiến của chuyên gia thống kê. Những phương pháp phân tích dữ kiện phải được xác định trong giai đoạn thiết kế đề cương Nguyên tắc phân tích số liệu 5/12/2011 17 Xem lại mục tiêu tổng quát để có khái niệm chung về những kết quả cuối cùng của nghiên cứu. Xem những mục tiêu cụ thể: chú ý biến số được khảo sát và tuỳ theo bản chất của biến số. Khi cần khảo sát mối liên quan: cần xác định biến số nào là độc lập, và biến số nào là phụ thuộc, biến số gây nhiễu phải. Các bước phân tích số liệu 5/12/2011 18 Phân tích biến định lượng Thống kê mô tả: Các chỉ số cần tính là số đo lường khuynh hướng tập trung và phân tán. ƒ Trung bình, trung vị ƒ Độ lệch chuẩn, khoảng Thống kê suy luận: ƒ Test thống kê cho kiểm định trung bình ƒ Test phương sai ƒ tương quan, ƒ hồi qui tuyến tính 5/12/2011 19 Ví dụ Bộ số liệu: 4,2,12,6 Tính trung bình, trung vị, độ lệch chuẩn, khoảng 5/12/2011 20 Phân tích biến định tính Mô tả: ƒ Phân bố tấn số ƒ Tỷ lệ Để so sánh, ƒ Test Chi bình phương, ƒ McNemar ... Nếu biến số là nhị phân: số đo kết hợp. ƒ RR ƒ OR 5/12/2011 21 CHỌN TEST THỐNG KÊ TRONG PHÂN TÍCH SỐ LIỆU 5/12/2011 22 Mục tiêu 1. Trình bày được những khái niệm cơ bản về ý nghĩa thống kê trong nghiên cứu khoa học 2. Trình bày được các test thống kê thích hợp khi so sánh các biến định tính, các biến định lượng. 3. Trình bày được các test thống kê thích hợp mô tả mối tương quan giữa các biến số 4. Sử dụng được các test thống kê phù hợp trong các loại nghiên cứu khoa học 5/12/2011 23 Cơ sở của các test thống kê Nghiên cứu phải dùng phép so sánh sự khác biệt của các nhóm (giả thuyết: H0 ,H1) Test thống kê xem xét là sự khác biệt có phải do: ƒ Yếu tố nghiên cứu ƒ Yếu tố mai rủi ƒ Sai số Cơ sở: Nếu lập lại 100 lần nc (cùng điều kiện) sẽ cho khác biệt độ lớn như vậy bao nhiêu lần? Nếu tính toán: khác biệt chỉ 1 lần; 5 lần – Không là yếu tố mai rủi 5/12/2011 24 Giả thuyết H0 Giả thuyết H0: Không có sự khác biệt Giả thuyết H1: Có sự khác biệt (2 chiều); lớn hơn hoặc nhỏ hơn (một chiều) Ví dụ: Nghiên cứu Đoàn hệ về hút thuốc lá và ung thư phổi: ƒ H0: Tỷ lệ ung thư phổi của nhóm có hút thuốc và không hút thuốc là như nhau ƒ H1: Tỷ lệ ung thư phổi của nhóm không hút thuốc lá thấp hơn nhóm có hút thuốc lá 5/12/2011 25 Ngưỡng ý nghĩa Khi bác bỏ giả thuyết H0 đều mắc sai lầm nhất định Đề xuất một “xác xuất sai lầm” chấp nhận được: mức ý nghĩa Tuỳ theo tính chất của nghiên cứu, mức ý nghĩa: 5%, 1%... 5/12/2011 26 Nguyên tắc chọn test thống kê Mục tiêu của nghiên cứu: Đo lường sự khác biệt hay đo lường tương quan giữa các biến Số nhóm nghiên cứu: 1 nhóm, 2 nhóm, hoặc trên hai nhóm Bản chất số liệu, loại biến số: Biến định tính, biến định lượng Phân bố mẫu: Chuẩn hay không chuẩn Loại quan sát: Mẫu độc lập hay ghép cặp 5/12/2011 27 Phân tích sự khác biệt Biến định tính: ƒ Sự khác biệt 2 tỷ lệ ƒ Nhiều hơn hai tỷ lệ Biến định lượng ƒ Sự khác biệt 2 trung bình ƒ Sự khác biệt nhiều hơn 2 trung bình 5/12/2011 28 Biến định lượng ANOVA Maãu Caëp Kiểm t cặp Kruskal-Wallis Wilcoxon Kiểm t Maãu Lôã ùùn Maãu Nhoã ûû So Sánh CÁC Số Trung Bình So Sánh HAI Số Trung Bình 5/12/2011 29 Biến định tính χ2 Maãu Caëp Chính xác Fisher Maãu Lôã ùùn Maãu Nhoã ûû So Sánh Các Tỉ Lệ (Bảng n hàng x n cột) So Sánh HAI Tỉ Lệ χ2χ2 McNemar 5/12/2011 30 Bảng số liệu Bệnh Phơi nhiễm Có Không Tổng Có a b e Không c d f Tổng g h n 5/12/2011 31 Công thức chung của χ2 df: (hang - 1) x (cột -1) O: Giá trị qua sát E: Giá trị kỳ vọng E = (tổng hàng x tổng cột)/tổng chung Điều kiện: <20% số ô có kỳ vọng < 5 ∑ −= EEO 2 2 )(χ efgh bcadn 22 )( −=χ Bảng 2 x 2 5/12/2011 32 Ví dụ Nhồi máu CTHút thuốc lá Có Không Tổng Có 30 (33%) 60 90 Không 20 (18%) 90 110 Tổng 50 (25%) 150 200 Tính các giá trị kỳ vọng Tính χ2 và đưa ra kết luận về sự khác biệt 5/12/2011 33 Ví dụ Nhồi máu CTHút thuốc lá Có Không Tổng Có 30 60 90 Không 20 90 110 Tổng 50 150 200 Tính χ2 = 6,06 ; df = 1; p = 0,0138 22,5 67,5 27,5 82,5 5/12/2011 34 Chú ý Trong trường hợp nhiều hàng, nhiều cột mà có số ô có giá trị nhỏ hơn 5, có thể gộp các hàng (cột) để tính toán cho phù hợp 5/12/2011 35 Nghiện ma túyHọc vấn Có Không Mù chữ 10 4 13 Cấp 1 8 3 11 Cấp 2 3 5 8 Cấp 3+ 2 5 7 Tổng 23 17 40 Tổng 7,5 6,3 4,6 3,5 5,5 4,7 3,4 2,6 5/12/2011 36 Nghiện ma túyHọc vấn Có Không Mù chữ 10 4 13 Cấp 1 8 3 11 Cấp 2 3 5 8 Cấp 3+ 2 5 7 Tổng 23 17 40 Tổng 7,5 6,3 4,6 3,5 5,5 4,7 3,4 2,6 1510 65 8,1Cấp 2 – Cấp 3+ 401723Tổng 257 10,318 14,3Mù chữ - Cấp 1 KhôngCó TổngNghiện ma túyHọc vấn 5/12/2011 37 Độ lớn của mối tương quan Test ý nghĩa thống kê PHÂN TÍCH SỰ TƯƠNG QUAN Biến nhị phân Thuần tập Thử nghiệm NC ngang/ NC bệnh chứng Tỷ suất chênh (OR) Nguy cơ tương đối (RR) χ2 hoặc McNemar test Phân tích tương quan và hồi qui Biến định lượng Tất cả các loại nghiên cứu Phương trình hồi qui Hệ số tương quan (r) 5/12/2011 38 Biến nhị phân OR = ad / bc Trong nghiên cứu bệnh-chứng Hậu quả Tổng Có Không Có a b a + b Không c d c + d Tổng a + c b + d a + b + c + d Nguyên nhân 5/12/2011 39 Biến nhị phân RR = [a / (a + b)] : [c / (c + d)] Trong nghiên thuần tập Hậu quả Tổng Có Không Có a b a + b Không c d c + d Tổng a + c b + d a + b + c + d Nguyên nhân 5/12/2011 40 NC bệnh chứng về hút thuốc lá – K phổi OR = 2,5 chỉ số đo lường K phổi Tổng Có Không Có 40 80 120 Không 20 100 120 Tổng 60 180 240 HTL 5/12/2011 41 NC đoàn hệ về uống thuốc ngừa thai và nhiễm trùng tiểu RR = 0,1/0,05 =2 Chỉ số đo lường NTT Tổng Có Không Có 200 1800 2000 Không 300 5700 6000 Tổng 500 750000 8000 UTNT 5/12/2011 42 Mục tiêu • Xác định tỷ lệ hiện mắc bệnh ĐTĐ của người dân trong độ tuổi từ 25 – 64 tại thành phố Cần Thơ. • Xác định một số yếu tố nguy cơ gây bệnh ĐTĐ ở người dân trong độ tuổi từ 25 – 64 và đánh giá mức độ liên quan qua lại của các yếu tố nguy cơ này đối với bệnh ĐTĐ. THỰC TRẠNG BỆNH ĐÁI THÁO ĐƯỜNG VÀ CÁC YẾU TỐ NGUY CƠ Ở LỨA TUỔI 25 – 64 TẠI THÀNH PHỐ CẦN THƠ NĂM 2005 5/12/2011 43 Biến số 1. Xác định tỷ lệ hiện mắc bệnh ĐTĐ của người dân trong độ tuổi từ 25 – 64 tại thành phố Cần Thơ. Các biến số: Đường huyết lúc đói: Bình thường, cao Tuổi: Tuổi dương lịch Giới: Nam, nữ Nơi cư trú: Thành thị, nông thôn …. 5/12/2011 44 Biến số 2. Xác định một số yếu tố nguy cơ gây bệnh ĐTĐ ở người dân trong độ tuổi từ 25 – 64 và đánh giá mức độ liên quan qua lại của các yếu tố nguy cơ này đối với bệnh ĐTĐ. Các biến số: TSGĐ liên quan đến bệnh ĐTĐ Tuổi Hoạt động thể lực Hút thuốc lá BMI Huyết áp 5/12/2011 45 Mối liên qua giữa Đường huyết (Biến phụ thuộc) và một số yếu tố (Biến độc lập) Biến độc lập Giá trị Tương quan Test sự khác biệt TSGĐ liên quan đến bệnh ĐTĐ Tuổi BMI Huyết áp Hoạt động thể lực OR t χ2 χ2 χ2OR OR OR Có, không =23 Có tăng, không tăng 150p Tuổi làm tròn r χ2 =45t OR χ2