Bài giảng Xác suất thống kê y học - Tuần 4: Thống kê mô tả (Phần 1) - Bùi Thị Kiều Anh

Ví dụ 1  Một nghiên cứu đoàn hệ theo dõi trọng lượng sơ sinh của 2 nhóm bà mẹ ở một phường của TP HCM:  Con những bà mẹ không hút thuốc lá có tỉ lệ sinh con nhẹ cân là 5%  Con những bà mẹ hút thuốc lá có tỉ lệ sinh con nhẹ cân là 10%  Sự khác biệt có ý nghĩa thống kê (p<0,05)  Các bà mẹ không hút thuốc lá có tỉ lệ sinh con nhẹ cân thấp hơn các bà mẹ hút thuốc lá  Hút thuốc lá là một trong nhiều yếu tố nguy cơ của sinh con nhẹ cân

pdf45 trang | Chia sẻ: thanhle95 | Lượt xem: 224 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Bài giảng Xác suất thống kê y học - Tuần 4: Thống kê mô tả (Phần 1) - Bùi Thị Kiều Anh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
THỐNG KÊ MÔ TẢ (phần 1) Ths. Bùi Thị Kiều Anh Ths. Lê Huỳnh Thị Cẩm Hồng Mục tiêu:  Phân biệt các loại biến số: • Biến số định tính – biến số định lượng • Biến số độc lập – biến số phụ thuộc • Biến số gây nhiễu  Hiểu được ý nghĩa của thống kê mô tả  Lựa chọn các phương pháp mô tả phù hợp với loại dữ liệu 2 là kết quả việc thu thập có hệ thống về các đặc tính hay đại lượng của đối tượng nghiên cứu. 3 Số liệu 4ID Tuổi Giới Quốc tịch Thời gian sống ở Úc (năm) Ngôn ngữ sử dụng ở nhà BHBR001 31 Nữ Burma 2 months Karenni and Burmese BHBR002 24 Nữ Thailand 2 years Kayah BHBR003 32 Nam Thailand 3 months Karenni and Burmese BHBR004 67 Nữ Myanmar 2 months Karenni and Burmese BHBR005 19 Nữ Thailand 3 months Karen BHBR006 17 Nữ Thailand 3 years Karen BHBR007 69 Nam Burma 3 years Sakaw/Karen BHBR008 70 Nữ Burma 35 years Burmese BHBR009 31 Nam Myanmar 4 years 2 months Sakaw/Karen BHBR010 38 Nam Burma 3 years Karen/Myanmar Vd: Bảng số liệu Biến số (thường gọi tắt là biến) là những đại lượng hoặc đặc tính có thể thay đổi từ người này sang người khác, từ thời điểm này sang thời điểm khác. 5 Biến số (tt) 6 Cần phân biệt sự khác biệt giữa biến số và giá trị của biến số (còn gọi là yếu tố) Giới tính là biến số nhưng Nữ không phải là biến số mà là một giá trị của biến số Thời gian chờ đợi để được sử dụng dịch vụ y tế là biến số nhưng thời gian chờ đợi lâu là giá trị của biến số Tiêu chí phân loại biến số 1, Biến số định tính - Biến số định lượng 2, Biến số độc lập - Biến số phụ thuộc 3, Biến số gây nhiễu 7 Biến số định tính - Biến số định lượng 8 Biến định tính Là biến số mà những giá trị của nó không thể diễn tả được bằng số, mà chỉ bằng cách phân nhóm Vd: Giới tính, dân tộc, nơi sinh, nghề nghiệp, thu nhập, học vấn Gồm 3 loại: nhị giá, danh định, thứ tự. 9 Biến định tính Có 2 giá trị:  Nhị giá: VD: • sống/chết; • đúng/sai; • đậu/rớt; • có/không; • phơi nhiễm/không phơi nhiễm; • can thiệp/không can thiệp ị i : • / t; • / i; • / t; • / ; • i i / i i ; • t i / t i Trên 2 giá trị:  Danh định: Các giá trị không theo thứ tự và được sắp xếp theo tên VD: nơi sinh, giới, dân tộc, hôn nhân,  Thứ tự: Các giá trị được sắp xếp theo thứ tự có ý nghĩa; không xem xét sự khác biệt giữa các giá trị. VD: Trầm cảm (nhẹ, trung bình, nặng); BMI (suy dinh dưỡng, bình thường, béo phì); Thu nhập (thấp, trung bình, cao) ị : i t ị t t t t t : i i , i i, t , , i t ị t t t ĩ ; t i t i i t ị. : , t ì , ; I i , ì t , ì ; t , t ì , 10 Biến định lượng Là biến số có những giá trị diễn tả được bằng số Gồm 2 loại: biến liên tục hoặc biến không liên tục 11 Biến định lượng Biến liên tục Giữa hai giá trị của 1 biến liện tục, có mọi giá trị đi liền nhau VD: • Chiều cao (1.1m, 1.2m, ) • Thu nhập (3 triệu, 3,1 triệu, ) • Huyết áp (90mmHg, 91mmHg) i i i t ị i li t , i i t ị i li : • i . , . , • t i , , t i , • t , Biến không liên tụci li  Khoảng cách giữa các nhóm bằng nhau;  Chỉ có giá trị là những số nguyên VD: • Số con trong gia đình (1,2,3) • Số lần nhiễm trùng (1,2,3) • Số lần sạm da (1,2,3)  i ;  ỉ i t ị l : • t i ì , , • l i t , , • l , , 12 Chuyển biến số 13 20, 21,22,23,69 (năm) 20-29, 30-39, 40-49, 50- 59,60-69 Trẻ; Già Lứa tuổi 20; 30; 40; 50; 60 Biến số độc lập - Biến số phụ thuộc 14 Biến số độc lập: Là biến số mà một giá trị của nó sẽ quyết định một giá trị của biến số khác Biến số phụ thuộc: Là biến số mà giá trị của nó chịu ảnh hưởng của biến số độc lập VD: - Hút thuốc lá làm tăng nguy cơ ung thư phổi - Tập thể dục đều đặn làm giảm nguy cơ béo phì. 15 Ví dụ 1  Một nghiên cứu đoàn hệ theo dõi trọng lượng sơ sinh của 2 nhóm bà mẹ ở một phường của TP HCM:  Con những bà mẹ không hút thuốc lá có tỉ lệ sinh con nhẹ cân là 5%  Con những bà mẹ hút thuốc lá có tỉ lệ sinh con nhẹ cân là 10%  Sự khác biệt có ý nghĩa thống kê (p<0,05)  Các bà mẹ không hút thuốc lá có tỉ lệ sinh con nhẹ cân thấp hơn các bà mẹ hút thuốc lá  Hút thuốc lá là một trong nhiều yếu tố nguy cơ của sinh con nhẹ cân 16 Hút thuốc lá (có/không) Tình trạng sinh con nhẹ cân (con nhẹ cân / con không bệnh) Hút thuốc lá là biến số độc lập Tình trạng sinh con nhẹ cân là biến số phụ thuộc 18 Chế độ ăn nhiều ra củ quả Bệnh về tim mạch (có bệnh/không bệnh) Biến số độc lập Biến số phụ thuộc Việc tập thể dục hàng ngày Một nghiên cứu đoàn hệ tiến hành trong 20 năm tại Úc đã đưa ra kết luận rằng việc tập thể dục đều đặn hàng ngày và chế độ ăn nhiều rau củ quả giúp làm giảm nguy cơ bệnh về tim mạch ở người trưởng thành. Biến số gây nhiễu 19 Biến số gây nhiễu Là biến số gây nhiễu khi có 3 đặc tính sau: – Có liên quan đến biến số phụ thuộc (là yếu tố nguy cơ của vấn đề nghiên cứu) – Có liên quan đến biến số độc lập (phân bố không đều giữa các giá trị của biến độc lập) – Không nằm trong cơ chế tác động của biến độc lập lên biến phụ thuộc Không thuộc trọng tâm nghiên cứu 20 Khám thai (Đủ / Không đủ) (Biến độc lập) Cân nặng con (Nhẹ cân / Bình thường) (Biến phụ thuộc) Thu nhập gia đình (cao / trung bình / thấp) (Biến số nhiễu) 21 Hoạt động thể lực (Đủ / Không đủ) (Biến độc lập) Nhồi máu cơ tim (Có / Không) (Biến phụ thuộc) Tuổi (thanh niên / trung niên / cao tuổi) (Biến số nhiễu) 22 Chế độ ăn uống (Thiếu chất / Vừa phải / Dư chất) (Biến độc lập) Cân nặng trẻ (Nhẹ cân / Bình thường / Béo phì) (Biến phụ thuộc) Thu nhập gia đình (cao / trung bình / thấp) (Biến số nhiễu) 23 Kiểm soát biến số nhiễu Phương pháp chia nhóm ngẫu nhiên: Thực hiện trong nghiên cứu thực nghiệm: toàn diện nhất. Phương pháp mô hình hóa: Dùng hồi quy đa biến để tách riêng tác động của từng biến số Phương pháp hạn chế Khi chọn mẫu: chọn mẫu bắt cặp; phân tầng. Khi phân tích: phân tích phân tầng: riêng cho từng nhóm (VD: nhóm người trẻ, nhóm người lớn tuổi: trong nghiên cứu “nhồi máu cơ tim” và “vận động thể lực”). 24 THỐNG KÊ MÔ TẢ 25 26 89 45 46 65 57 74 67 55 76 46 75 86 97 68 85 55 97 93 79 81 58 102 104 90 74 96 65 92 68 95 83 78 96 94 102 Cân nặng của mẫu nghiên cứu là 35 người Bạn có mong đợi nhìn thấy bảng số liệu thô này trong một bài báo khoa học không? Mô tả dữ liệu - Cần để tóm tắt thông tin cho người đọc - Chỉ ra những điểm trong dữ liệu mà bạn muốn người đọc chú ý - 2 điểm chính mà bạn nên mô tả là: • Mô tả khuynh hướng tập trung • Mô tả tính phân tán THỐNG KÊ MÔ TẢ KHUYNH HƯỚNG TẬP TRUNG  Trung bình  Trung vị  Yếu vị Trung bình  Trung bình (Mean)  Ký hiệu:  Giá trị trung bình thường được thể hiện bằng trung bình cộng. Tính bằng cách lấy tổng các giá trị chia cho số lần quan sát.  Công thức: 29 VD: Số liêu về huyết áp tâm thu của 5 người là: 135, 150, 120, 125, 130 = (120 + 125 + 130 + 135 + 150) / 5 = 132 Trung vị • Trung vị là giá trị chia phân phối làm đôi • Nếu các giá trị sắp xếp theo thứ tự tăng dần; trung vị là quan sát ở chính giữa • Nếu có 1 số chẵn các quan sát, không có quan sát chính giữa thì lấy trung bình của 2 quan sát ở giữa làm trung vị 31 Yếu vị • Yếu vị là giá trị xảy ra thường xuyên nhất • Giả sử trong 1 ấp có 361 người Kinh, 120 Khmer, 27 Hoa. Yếu vị của biến số dân tộc là: Người Kinh. • Trong một số liệu cụ thể có thể không có yếu vị, có thể có 1, 2 hay nhiều yếu vị 32 Ví dụ: Thể tích huyết tương của 8 người đàn ông khỏe mạnh 2,7 5 2,8 6 3,3 7 2,7 6 2,6 2 3,4 9 3,0 5 3,1 2 33 Tổng quan sát? Trung bình? Trung vị? Yếu vị? Lưu ý: Khi biến số định lượng có phân phối bình thường, trung bình thường được dùng để mô tả số liệu. Khi số liệu bị lệch (do những số ngoại lai), trung vị phản ánh chính xác hơn giá trị tiêu biểu của số liệu. Tuổi trung bình: 19 Tuổi trung vị: 16 THỐNG KÊ MÔ TẢ TÍNH PHÂN TÁN  Độ lêch chuẩn  Khoảng tứ vị  Phạm vi của số liệu • Standard deviation - SD • Ký hiệu: s • Công thức: Độ lệch chuẩn: Số liêu về huyết áp tâm thu của 5 người là: 135, 150, 120, 125, 130, có trung bình = 132. SD = (135-132)2 + (150-132)2 + (120-132)2 + (125-132)2 + (130-132)2 / (5-1) = 11.5     Inter-quartile range (IQR)  Khoảng tứ vị là khoảng cách trung vị phần trên và phần dưới.  Số liêu về huyết áp tâm thu của 5 người là: 135, 150, 120, 125, 130. Theo thứ tự: 120, 125, 130, 135, 150. Chia số liệu thành 2 phần đều nhau. Phần trên: 120, 125, 130. Phần dưới: 130, 135, 150. Trung vị phần trên là 125. Trung vị phần dưới là 135. Vậy: Khoảng tứ vị = 135 – 125 = 10 Khoảng tứ vị: • Range (Min – Max) • Là tất cả các giá trị của số liệu từ Min đến Max. • Số liêu về huyết áp tâm thu của 5 người là: 120, 125, 130, 135, 150 Vậy có phạm vi số liệu là (120 – 150) Phạm vi số liệu Nên cần mô tả cả khuynh hướng tập trung và tính phân tán 41 Trung bình Trung vị Min, Max, Phạm vi số liệu, Khoảng tứ vị Độ lệch chuẩn Trung bình hay Trung vị Trong các y văn, chúng ta thường thấy trung bình và độ lệch chuẩn được trình bày. Nhưng trong một số trường hợp, trình bày trung bình và độ lệch chuẩn thì không phù hợp 42 Giả sử có 19 người nghèo và 1 tỉ phú trong một căn phòng. Mọi người đều bỏ tất cả tiền trong túi mình ra và đặt lên một cái bàn. Mỗi người nghèo đặt 5 đồng lên bàn; người tỉ phú đặt 1 tỷ đồng (109 đồng) lên đó. Khi đó, tổng số là 1.000.000.095 đồng. Số tiền trung bình: 50.000.004 đồng và 75 xu. Nhưng số trung vị lại là 5 đồng Theo nghĩa đó, số trung vị là số tiền mà một người điển hình mang tới. Ngược lại, giá trị trung bình không điển hình chút nào 43 Trung bình hay Trung vị ??? 44 Trung vị dùng để mô tả dữ liệu tốt hơn khi dữ liệu có phân phối lệch Good study!!!