Ví dụ 1
Một nghiên cứu đoàn hệ theo dõi trọng lượng sơ sinh của
2 nhóm bà mẹ ở một phường của TP HCM:
Con những bà mẹ không hút thuốc lá có tỉ lệ sinh con
nhẹ cân là 5%
Con những bà mẹ hút thuốc lá có tỉ lệ sinh con nhẹ cân
là 10%
Sự khác biệt có ý nghĩa thống kê (p<0,05)
Các bà mẹ không hút thuốc lá có tỉ lệ sinh con nhẹ cân
thấp hơn các bà mẹ hút thuốc lá
Hút thuốc lá là một trong nhiều yếu tố nguy cơ của sinh
con nhẹ cân
45 trang |
Chia sẻ: thanhle95 | Lượt xem: 395 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Bài giảng Xác suất thống kê y học - Tuần 4: Thống kê mô tả (Phần 1) - Bùi Thị Kiều Anh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
THỐNG KÊ MÔ TẢ
(phần 1)
Ths. Bùi Thị Kiều Anh
Ths. Lê Huỳnh Thị Cẩm Hồng
Mục tiêu:
Phân biệt các loại biến số:
• Biến số định tính – biến số định lượng
• Biến số độc lập – biến số phụ thuộc
• Biến số gây nhiễu
Hiểu được ý nghĩa của thống kê mô tả
Lựa chọn các phương pháp mô tả phù hợp với loại dữ
liệu
2
là kết quả việc thu thập có hệ thống về các đặc
tính hay đại lượng của đối tượng nghiên cứu.
3
Số liệu
4ID Tuổi Giới Quốc tịch Thời gian sống ở Úc (năm)
Ngôn ngữ sử dụng ở
nhà
BHBR001 31 Nữ Burma 2 months Karenni and Burmese
BHBR002 24 Nữ Thailand 2 years Kayah
BHBR003 32 Nam Thailand 3 months Karenni and Burmese
BHBR004 67 Nữ Myanmar 2 months Karenni and Burmese
BHBR005 19 Nữ Thailand 3 months Karen
BHBR006 17 Nữ Thailand 3 years Karen
BHBR007 69 Nam Burma 3 years Sakaw/Karen
BHBR008 70 Nữ Burma 35 years Burmese
BHBR009 31 Nam Myanmar 4 years 2 months Sakaw/Karen
BHBR010 38 Nam Burma 3 years Karen/Myanmar
Vd: Bảng số liệu
Biến số
(thường gọi tắt là biến) là những đại lượng hoặc đặc
tính có thể thay đổi từ người này sang người khác, từ
thời điểm này sang thời điểm khác.
5
Biến số (tt)
6
Cần phân biệt sự khác biệt giữa biến số và giá
trị của biến số (còn gọi là yếu tố)
Giới tính là biến số nhưng Nữ không phải là biến
số mà là một giá trị của biến số
Thời gian chờ đợi để được sử dụng dịch vụ y tế
là biến số nhưng thời gian chờ đợi lâu là giá trị
của biến số
Tiêu chí phân loại biến số
1, Biến số định tính - Biến số định lượng
2, Biến số độc lập - Biến số phụ thuộc
3, Biến số gây nhiễu
7
Biến số định tính
-
Biến số định lượng
8
Biến định tính
Là biến số mà những giá trị của nó không thể diễn
tả được bằng số, mà chỉ bằng cách phân nhóm
Vd: Giới tính, dân tộc, nơi sinh, nghề nghiệp, thu
nhập, học vấn
Gồm 3 loại: nhị giá, danh định, thứ tự.
9
Biến định tính
Có 2 giá trị:
Nhị giá:
VD:
• sống/chết;
• đúng/sai;
• đậu/rớt;
• có/không;
• phơi nhiễm/không
phơi nhiễm;
• can thiệp/không
can thiệp
ị i
:
• / t;
• / i;
• / t;
• / ;
• i i /
i i ;
• t i /
t i
Trên 2 giá trị:
Danh định:
Các giá trị không theo thứ tự và được sắp xếp
theo tên
VD: nơi sinh, giới, dân tộc, hôn nhân,
Thứ tự:
Các giá trị được sắp xếp theo thứ tự có ý nghĩa;
không xem xét sự khác biệt giữa các giá trị.
VD: Trầm cảm (nhẹ, trung bình, nặng); BMI (suy
dinh dưỡng, bình thường, béo phì); Thu
nhập (thấp, trung bình, cao)
ị :
i t ị t t t
t t
: i i , i i, t , ,
i t ị t t t ĩ ;
t i t i i t ị.
: , t ì , ; I
i , ì t , ì ;
t , t ì ,
10
Biến định lượng
Là biến số có những giá trị diễn tả được bằng số
Gồm 2 loại: biến liên tục hoặc biến không liên tục
11
Biến định lượng
Biến liên tục
Giữa hai giá trị của 1 biến liện tục,
có mọi giá trị đi liền nhau
VD:
• Chiều cao (1.1m, 1.2m, )
• Thu nhập (3 triệu, 3,1 triệu, )
• Huyết áp (90mmHg, 91mmHg)
i i i t ị i li t ,
i i t ị i li
:
• i . , . ,
• t i , , t i ,
• t ,
Biến không liên tụci li
Khoảng cách giữa các nhóm bằng
nhau;
Chỉ có giá trị là những số nguyên
VD:
• Số con trong gia đình (1,2,3)
• Số lần nhiễm trùng (1,2,3)
• Số lần sạm da (1,2,3)
i
;
ỉ i t ị l
:
• t i ì , ,
• l i t , ,
• l , ,
12
Chuyển biến số
13
20, 21,22,23,69
(năm)
20-29, 30-39, 40-49, 50-
59,60-69
Trẻ; Già
Lứa tuổi 20; 30; 40;
50; 60
Biến số độc lập
-
Biến số phụ thuộc
14
Biến số độc lập:
Là biến số mà một giá trị của nó sẽ quyết định một giá trị
của biến số khác
Biến số phụ thuộc:
Là biến số mà giá trị của nó chịu ảnh hưởng của biến số
độc lập
VD: - Hút thuốc lá làm tăng nguy cơ ung thư phổi
- Tập thể dục đều đặn làm giảm nguy cơ béo phì.
15
Ví dụ 1
Một nghiên cứu đoàn hệ theo dõi trọng lượng sơ sinh của
2 nhóm bà mẹ ở một phường của TP HCM:
Con những bà mẹ không hút thuốc lá có tỉ lệ sinh con
nhẹ cân là 5%
Con những bà mẹ hút thuốc lá có tỉ lệ sinh con nhẹ cân
là 10%
Sự khác biệt có ý nghĩa thống kê (p<0,05)
Các bà mẹ không hút thuốc lá có tỉ lệ sinh con nhẹ cân
thấp hơn các bà mẹ hút thuốc lá
Hút thuốc lá là một trong nhiều yếu tố nguy cơ của sinh
con nhẹ cân
16
Hút thuốc lá
(có/không)
Tình trạng sinh con
nhẹ cân
(con nhẹ cân / con
không bệnh)
Hút thuốc lá là biến
số độc lập
Tình trạng sinh con nhẹ cân
là biến số phụ thuộc
18
Chế độ ăn
nhiều ra củ
quả
Bệnh về tim mạch
(có bệnh/không bệnh)
Biến số độc lập
Biến số phụ thuộc
Việc tập thể
dục hàng ngày
Một nghiên cứu đoàn hệ tiến hành trong 20 năm tại Úc
đã đưa ra kết luận rằng việc tập thể dục đều đặn hàng
ngày và chế độ ăn nhiều rau củ quả giúp làm giảm nguy
cơ bệnh về tim mạch ở người trưởng thành.
Biến số gây nhiễu
19
Biến số gây nhiễu
Là biến số gây nhiễu khi có 3 đặc tính sau:
– Có liên quan đến biến số phụ
thuộc (là yếu tố nguy cơ của vấn đề
nghiên cứu)
– Có liên quan đến biến số độc lập (phân
bố không đều giữa các giá trị của biến độc
lập)
– Không nằm trong cơ chế tác động của
biến độc lập lên biến phụ thuộc
Không thuộc trọng tâm nghiên cứu
20
Khám thai
(Đủ / Không đủ)
(Biến độc lập)
Cân nặng con
(Nhẹ cân / Bình thường)
(Biến phụ thuộc)
Thu nhập gia đình
(cao / trung bình /
thấp)
(Biến số nhiễu)
21
Hoạt động thể lực
(Đủ / Không đủ)
(Biến độc lập)
Nhồi máu cơ tim
(Có / Không)
(Biến phụ thuộc)
Tuổi
(thanh niên / trung
niên / cao tuổi)
(Biến số nhiễu)
22
Chế độ ăn uống
(Thiếu chất / Vừa
phải / Dư chất)
(Biến độc lập)
Cân nặng trẻ
(Nhẹ cân / Bình thường /
Béo phì)
(Biến phụ thuộc)
Thu nhập gia đình
(cao / trung bình /
thấp)
(Biến số nhiễu)
23
Kiểm soát biến số nhiễu
Phương pháp chia nhóm ngẫu nhiên:
Thực hiện trong nghiên cứu thực nghiệm: toàn
diện nhất.
Phương pháp mô hình hóa:
Dùng hồi quy đa biến để tách riêng tác động của
từng biến số
Phương pháp hạn chế
Khi chọn mẫu: chọn mẫu bắt cặp; phân tầng.
Khi phân tích: phân tích phân tầng: riêng cho
từng nhóm (VD: nhóm người trẻ, nhóm người lớn
tuổi: trong nghiên cứu “nhồi máu cơ tim” và “vận
động thể lực”).
24
THỐNG KÊ MÔ TẢ
25
26
89 45 46 65 57
74 67 55 76 46
75 86 97 68 85
55 97 93 79 81
58 102 104 90 74
96 65 92 68 95
83 78 96 94 102
Cân nặng của mẫu nghiên cứu là 35 người
Bạn có mong đợi nhìn thấy bảng số liệu thô
này trong một bài báo khoa học không?
Mô tả dữ liệu
- Cần để tóm tắt thông tin cho người đọc
- Chỉ ra những điểm trong dữ liệu mà bạn muốn người đọc
chú ý
- 2 điểm chính mà bạn nên mô tả là:
• Mô tả khuynh hướng tập trung
• Mô tả tính phân tán
THỐNG KÊ MÔ TẢ
KHUYNH HƯỚNG TẬP TRUNG
Trung bình
Trung vị
Yếu vị
Trung bình
Trung bình (Mean)
Ký hiệu:
Giá trị trung bình thường được thể hiện bằng
trung bình cộng. Tính bằng cách lấy tổng các
giá trị chia cho số lần quan sát.
Công thức:
29
VD: Số liêu về huyết áp tâm thu của 5 người là:
135, 150, 120, 125, 130
= (120 + 125 + 130 + 135 + 150) / 5 = 132
Trung vị
• Trung vị là giá trị chia phân phối làm đôi
• Nếu các giá trị sắp xếp theo thứ tự tăng dần;
trung vị là quan sát ở chính giữa
• Nếu có 1 số chẵn các quan sát, không có quan
sát chính giữa thì lấy trung bình của 2 quan sát ở
giữa làm trung vị
31
Yếu vị
• Yếu vị là giá trị xảy ra thường xuyên nhất
• Giả sử trong 1 ấp có 361 người Kinh, 120
Khmer, 27 Hoa. Yếu vị của biến số dân tộc
là: Người Kinh.
• Trong một số liệu cụ thể có thể không có
yếu vị, có thể có 1, 2 hay nhiều yếu vị
32
Ví dụ:
Thể tích huyết tương của 8 người đàn ông
khỏe mạnh
2,7
5
2,8
6
3,3
7
2,7
6
2,6
2
3,4
9
3,0
5
3,1
2
33
Tổng quan sát?
Trung bình?
Trung vị?
Yếu vị?
Lưu ý:
Khi biến số định lượng có phân phối bình
thường, trung bình thường được dùng để mô tả
số liệu.
Khi số liệu bị lệch (do những số ngoại lai), trung
vị phản ánh chính xác hơn giá trị tiêu biểu của
số liệu.
Tuổi trung bình: 19 Tuổi trung vị: 16
THỐNG KÊ MÔ TẢ
TÍNH PHÂN TÁN
Độ lêch chuẩn
Khoảng tứ vị
Phạm vi của số liệu
• Standard deviation - SD
• Ký hiệu: s
• Công thức:
Độ lệch chuẩn:
Số liêu về huyết áp tâm thu của 5 người là: 135,
150, 120, 125, 130, có trung bình = 132.
SD = (135-132)2 + (150-132)2 + (120-132)2 +
(125-132)2 + (130-132)2 / (5-1)
= 11.5
Inter-quartile range (IQR)
Khoảng tứ vị là khoảng cách trung vị phần trên và phần dưới.
Số liêu về huyết áp tâm thu của 5 người là:
135, 150, 120, 125, 130.
Theo thứ tự: 120, 125, 130, 135, 150.
Chia số liệu thành 2 phần đều nhau.
Phần trên: 120, 125, 130. Phần dưới: 130, 135, 150.
Trung vị phần trên là 125. Trung vị phần dưới là 135.
Vậy: Khoảng tứ vị = 135 – 125 = 10
Khoảng tứ vị:
• Range (Min – Max)
• Là tất cả các giá trị của số liệu từ Min đến Max.
• Số liêu về huyết áp tâm thu của 5 người là:
120, 125, 130, 135, 150
Vậy có phạm vi số liệu là (120 – 150)
Phạm vi số liệu
Nên cần mô tả cả khuynh hướng
tập trung và tính phân tán
41
Trung bình
Trung vị
Min, Max,
Phạm vi số liệu,
Khoảng tứ vị
Độ lệch chuẩn
Trung bình hay Trung vị
Trong các y văn, chúng ta thường thấy trung
bình và độ lệch chuẩn được trình bày.
Nhưng trong một số trường hợp, trình bày trung
bình và độ lệch chuẩn thì không phù hợp
42
Giả sử có 19 người nghèo và 1 tỉ phú trong một căn phòng.
Mọi người đều bỏ tất cả tiền trong túi mình ra và đặt lên một
cái bàn.
Mỗi người nghèo đặt 5 đồng lên bàn; người tỉ phú đặt 1 tỷ
đồng (109 đồng) lên đó.
Khi đó, tổng số là 1.000.000.095 đồng.
Số tiền trung bình: 50.000.004 đồng và 75 xu.
Nhưng số trung vị lại là 5 đồng
Theo nghĩa đó, số trung vị là số tiền mà một người điển hình
mang tới.
Ngược lại, giá trị trung bình không điển hình chút nào
43
Trung bình hay Trung vị ???
44
Trung vị dùng để mô tả dữ liệu tốt hơn khi dữ liệu
có phân phối lệch
Good study!!!