Ví dụ 1
 Một nghiên cứu đoàn hệ theo dõi trọng lượng sơ sinh của
2 nhóm bà mẹ ở một phường của TP HCM:
 Con những bà mẹ không hút thuốc lá có tỉ lệ sinh con
nhẹ cân là 5%
 Con những bà mẹ hút thuốc lá có tỉ lệ sinh con nhẹ cân
là 10%
 Sự khác biệt có ý nghĩa thống kê (p<0,05)
 Các bà mẹ không hút thuốc lá có tỉ lệ sinh con nhẹ cân
thấp hơn các bà mẹ hút thuốc lá
 Hút thuốc lá là một trong nhiều yếu tố nguy cơ của sinh
con nhẹ cân
                
              
                                            
                                
            
                       
            
                
45 trang | 
Chia sẻ: thanhle95 | Lượt xem: 858 | Lượt tải: 1
              
            Bạn đang xem trước 20 trang tài liệu Bài giảng Xác suất thống kê y học - Tuần 4: Thống kê mô tả (Phần 1) - Bùi Thị Kiều Anh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
THỐNG KÊ MÔ TẢ 
(phần 1)
Ths. Bùi Thị Kiều Anh
Ths. Lê Huỳnh Thị Cẩm Hồng
Mục tiêu:
 Phân biệt các loại biến số:
• Biến số định tính – biến số định lượng
• Biến số độc lập – biến số phụ thuộc
• Biến số gây nhiễu
 Hiểu được ý nghĩa của thống kê mô tả
 Lựa chọn các phương pháp mô tả phù hợp với loại dữ 
liệu 
2
 là kết quả việc thu thập có hệ thống về các đặc 
tính hay đại lượng của đối tượng nghiên cứu.
3
Số liệu 
4ID Tuổi Giới Quốc tịch Thời gian sống ở Úc (năm)
 Ngôn ngữ sử dụng ở 
nhà
BHBR001 31 Nữ Burma 2 months Karenni and Burmese
BHBR002 24 Nữ Thailand 2 years Kayah
BHBR003 32 Nam Thailand 3 months Karenni and Burmese
BHBR004 67 Nữ Myanmar 2 months Karenni and Burmese
BHBR005 19 Nữ Thailand 3 months Karen
BHBR006 17 Nữ Thailand 3 years Karen
BHBR007 69 Nam Burma 3 years Sakaw/Karen
BHBR008 70 Nữ Burma 35 years Burmese
BHBR009 31 Nam Myanmar 4 years 2 months Sakaw/Karen
BHBR010 38 Nam Burma 3 years Karen/Myanmar
Vd: Bảng số liệu 
Biến số
(thường gọi tắt là biến) là những đại lượng hoặc đặc 
tính có thể thay đổi từ người này sang người khác, từ 
thời điểm này sang thời điểm khác.
5
Biến số (tt)
6
Cần phân biệt sự khác biệt giữa biến số và giá 
trị của biến số (còn gọi là yếu tố)
Giới tính là biến số nhưng Nữ không phải là biến 
số mà là một giá trị của biến số
Thời gian chờ đợi để được sử dụng dịch vụ y tế 
là biến số nhưng thời gian chờ đợi lâu là giá trị 
của biến số
Tiêu chí phân loại biến số
1, Biến số định tính - Biến số định lượng
2, Biến số độc lập - Biến số phụ thuộc
3, Biến số gây nhiễu
7
Biến số định tính 
- 
Biến số định lượng
8
Biến định tính
Là biến số mà những giá trị của nó không thể diễn 
tả được bằng số, mà chỉ bằng cách phân nhóm
Vd: Giới tính, dân tộc, nơi sinh, nghề nghiệp, thu 
nhập, học vấn
Gồm 3 loại: nhị giá, danh định, thứ tự.
9
Biến định tính
Có 2 giá trị: 
 Nhị giá:
VD:
• sống/chết;
• đúng/sai;
• đậu/rớt; 
• có/không; 
• phơi nhiễm/không 
phơi nhiễm; 
• can thiệp/không 
can thiệp
ị i
:
• / t;
• / i;
• / t; 
• / ; 
• i i / 
i i ; 
• t i / 
 t i
Trên 2 giá trị:
 Danh định: 
Các giá trị không theo thứ tự và được sắp xếp 
theo tên 
VD: nơi sinh, giới, dân tộc, hôn nhân,
 Thứ tự: 
Các giá trị được sắp xếp theo thứ tự có ý nghĩa; 
không xem xét sự khác biệt giữa các giá trị.
VD: Trầm cảm (nhẹ, trung bình, nặng); BMI (suy 
dinh dưỡng, bình thường, béo phì); Thu 
nhập (thấp, trung bình, cao)
 ị : 
 i t ị t t t 
t t 
: i i , i i, t , ,
 i t ị t t t ĩ ; 
 t i t i i t ị.
: , t ì , ; I 
i , ì t , ì ; 
 t , t ì , 
10
Biến định lượng
Là biến số có những giá trị diễn tả được bằng số
Gồm 2 loại: biến liên tục hoặc biến không liên tục
11
Biến định lượng
Biến liên tục 
Giữa hai giá trị của 1 biến liện tục, 
có mọi giá trị đi liền nhau
VD:
• Chiều cao (1.1m, 1.2m, )
• Thu nhập (3 triệu, 3,1 triệu, )
• Huyết áp (90mmHg, 91mmHg) 
i i i t ị i li t , 
 i i t ị i li 
:
• i . , . , 
• t i , , t i , 
• t , 
Biến không liên tụci li
 Khoảng cách giữa các nhóm bằng 
nhau;
 Chỉ có giá trị là những số nguyên
VD: 
• Số con trong gia đình (1,2,3) 
• Số lần nhiễm trùng (1,2,3) 
• Số lần sạm da (1,2,3) 
 i 
;
 ỉ i t ị l 
: 
• t i ì , , 
• l i t , , 
• l , , 
12
Chuyển biến số
13
20, 21,22,23,69 
(năm)
20-29, 30-39, 40-49, 50-
59,60-69
Trẻ; Già
Lứa tuổi 20; 30; 40; 
50; 60
Biến số độc lập 
- 
Biến số phụ thuộc
14
Biến số độc lập: 
Là biến số mà một giá trị của nó sẽ quyết định một giá trị 
của biến số khác 
Biến số phụ thuộc: 
Là biến số mà giá trị của nó chịu ảnh hưởng của biến số 
độc lập 
VD: - Hút thuốc lá làm tăng nguy cơ ung thư phổi
 - Tập thể dục đều đặn làm giảm nguy cơ béo phì.
15
Ví dụ 1
 Một nghiên cứu đoàn hệ theo dõi trọng lượng sơ sinh của 
2 nhóm bà mẹ ở một phường của TP HCM:
 Con những bà mẹ không hút thuốc lá có tỉ lệ sinh con 
nhẹ cân là 5%
 Con những bà mẹ hút thuốc lá có tỉ lệ sinh con nhẹ cân 
là 10%
 Sự khác biệt có ý nghĩa thống kê (p<0,05)
 Các bà mẹ không hút thuốc lá có tỉ lệ sinh con nhẹ cân 
thấp hơn các bà mẹ hút thuốc lá
 Hút thuốc lá là một trong nhiều yếu tố nguy cơ của sinh 
con nhẹ cân
16
Hút thuốc lá 
(có/không)
Tình trạng sinh con 
nhẹ cân
(con nhẹ cân / con 
không bệnh)
Hút thuốc lá là biến 
số độc lập
Tình trạng sinh con nhẹ cân 
là biến số phụ thuộc
18
Chế độ ăn 
nhiều ra củ 
quả
Bệnh về tim mạch
(có bệnh/không bệnh)
Biến số độc lập
Biến số phụ thuộc
Việc tập thể 
dục hàng ngày
Một nghiên cứu đoàn hệ tiến hành trong 20 năm tại Úc 
đã đưa ra kết luận rằng việc tập thể dục đều đặn hàng 
ngày và chế độ ăn nhiều rau củ quả giúp làm giảm nguy 
cơ bệnh về tim mạch ở người trưởng thành.
Biến số gây nhiễu
19
Biến số gây nhiễu
Là biến số gây nhiễu khi có 3 đặc tính sau:
– Có liên quan đến biến số phụ 
thuộc (là yếu tố nguy cơ của vấn đề 
nghiên cứu)
– Có liên quan đến biến số độc lập (phân 
bố không đều giữa các giá trị của biến độc 
lập)
– Không nằm trong cơ chế tác động của 
biến độc lập lên biến phụ thuộc
Không thuộc trọng tâm nghiên cứu
20
Khám thai 
(Đủ / Không đủ)
(Biến độc lập)
Cân nặng con
(Nhẹ cân / Bình thường)
(Biến phụ thuộc)
Thu nhập gia đình
(cao / trung bình / 
thấp)
(Biến số nhiễu)
21
Hoạt động thể lực 
(Đủ / Không đủ)
(Biến độc lập)
Nhồi máu cơ tim
(Có / Không)
(Biến phụ thuộc)
Tuổi
(thanh niên / trung 
niên / cao tuổi)
(Biến số nhiễu)
22
Chế độ ăn uống
(Thiếu chất / Vừa 
phải / Dư chất)
(Biến độc lập)
Cân nặng trẻ
(Nhẹ cân / Bình thường / 
Béo phì)
(Biến phụ thuộc)
Thu nhập gia đình
(cao / trung bình / 
thấp)
(Biến số nhiễu)
23
Kiểm soát biến số nhiễu
Phương pháp chia nhóm ngẫu nhiên: 
Thực hiện trong nghiên cứu thực nghiệm: toàn 
diện nhất. 
Phương pháp mô hình hóa: 
Dùng hồi quy đa biến để tách riêng tác động của 
từng biến số 
Phương pháp hạn chế
Khi chọn mẫu: chọn mẫu bắt cặp; phân tầng.
Khi phân tích: phân tích phân tầng: riêng cho 
từng nhóm (VD: nhóm người trẻ, nhóm người lớn 
tuổi: trong nghiên cứu “nhồi máu cơ tim” và “vận 
động thể lực”).
24
THỐNG KÊ MÔ TẢ
25
26
89 45 46 65 57
74 67 55 76 46
75 86 97 68 85
55 97 93 79 81
58 102 104 90 74
96 65 92 68 95
83 78 96 94 102
Cân nặng của mẫu nghiên cứu là 35 người
Bạn có mong đợi nhìn thấy bảng số liệu thô 
này trong một bài báo khoa học không?
Mô tả dữ liệu
- Cần để tóm tắt thông tin cho người đọc
- Chỉ ra những điểm trong dữ liệu mà bạn muốn người đọc 
chú ý
- 2 điểm chính mà bạn nên mô tả là:
• Mô tả khuynh hướng tập trung
• Mô tả tính phân tán
THỐNG KÊ MÔ TẢ 
KHUYNH HƯỚNG TẬP TRUNG
 Trung bình
 Trung vị
 Yếu vị
Trung bình
 Trung bình (Mean)
 Ký hiệu: 
 Giá trị trung bình thường được thể hiện bằng 
trung bình cộng. Tính bằng cách lấy tổng các 
giá trị chia cho số lần quan sát.
 Công thức: 
29
VD: Số liêu về huyết áp tâm thu của 5 người là: 
135, 150, 120, 125, 130
= (120 + 125 + 130 + 135 + 150) / 5 = 132
Trung vị
• Trung vị là giá trị chia phân phối làm đôi
• Nếu các giá trị sắp xếp theo thứ tự tăng dần; 
trung vị là quan sát ở chính giữa
• Nếu có 1 số chẵn các quan sát, không có quan 
sát chính giữa thì lấy trung bình của 2 quan sát ở 
giữa làm trung vị
31
Yếu vị
• Yếu vị là giá trị xảy ra thường xuyên nhất
• Giả sử trong 1 ấp có 361 người Kinh, 120 
Khmer, 27 Hoa. Yếu vị của biến số dân tộc 
là: Người Kinh.
• Trong một số liệu cụ thể có thể không có 
yếu vị, có thể có 1, 2 hay nhiều yếu vị
32
Ví dụ: 
Thể tích huyết tương của 8 người đàn ông 
khỏe mạnh
2,7
5
2,8
6
3,3
7
2,7
6
2,6
2
3,4
9
3,0
5 
3,1
2
33
Tổng quan sát?
Trung bình?
Trung vị?
Yếu vị?
Lưu ý:
Khi biến số định lượng có phân phối bình 
thường, trung bình thường được dùng để mô tả 
số liệu.
Khi số liệu bị lệch (do những số ngoại lai), trung 
vị phản ánh chính xác hơn giá trị tiêu biểu của 
số liệu.
Tuổi trung bình: 19 Tuổi trung vị: 16
THỐNG KÊ MÔ TẢ 
TÍNH PHÂN TÁN
 Độ lêch chuẩn
 Khoảng tứ vị
 Phạm vi của số liệu
• Standard deviation - SD
• Ký hiệu: s
• Công thức:
Độ lệch chuẩn: 
Số liêu về huyết áp tâm thu của 5 người là: 135, 
150, 120, 125, 130, có trung bình = 132.
SD = (135-132)2 + (150-132)2 + (120-132)2 + 
(125-132)2 + (130-132)2 / (5-1) 
 = 11.5
  
 Inter-quartile range (IQR)
 Khoảng tứ vị là khoảng cách trung vị phần trên và phần dưới.
 Số liêu về huyết áp tâm thu của 5 người là: 
135, 150, 120, 125, 130. 
Theo thứ tự: 120, 125, 130, 135, 150.
Chia số liệu thành 2 phần đều nhau.
Phần trên: 120, 125, 130. Phần dưới: 130, 135, 150. 
Trung vị phần trên là 125. Trung vị phần dưới là 135. 
Vậy: Khoảng tứ vị = 135 – 125 = 10
Khoảng tứ vị: 
• Range (Min – Max)
• Là tất cả các giá trị của số liệu từ Min đến Max.
• Số liêu về huyết áp tâm thu của 5 người là: 
120, 125, 130, 135, 150 
Vậy có phạm vi số liệu là (120 – 150)
Phạm vi số liệu
Nên cần mô tả cả khuynh hướng 
tập trung và tính phân tán
41
Trung bình
Trung vị
Min, Max, 
Phạm vi số liệu, 
Khoảng tứ vị
Độ lệch chuẩn
Trung bình hay Trung vị
Trong các y văn, chúng ta thường thấy trung 
bình và độ lệch chuẩn được trình bày.
Nhưng trong một số trường hợp, trình bày trung 
bình và độ lệch chuẩn thì không phù hợp
42
Giả sử có 19 người nghèo và 1 tỉ phú trong một căn phòng. 
Mọi người đều bỏ tất cả tiền trong túi mình ra và đặt lên một 
cái bàn. 
Mỗi người nghèo đặt 5 đồng lên bàn; người tỉ phú đặt 1 tỷ 
đồng (109 đồng) lên đó. 
Khi đó, tổng số là 1.000.000.095 đồng. 
Số tiền trung bình: 50.000.004 đồng và 75 xu. 
Nhưng số trung vị lại là 5 đồng
Theo nghĩa đó, số trung vị là số tiền mà một người điển hình 
mang tới. 
Ngược lại, giá trị trung bình không điển hình chút nào
43
Trung bình hay Trung vị ???
44
Trung vị dùng để mô tả dữ liệu tốt hơn khi dữ liệu 
có phân phối lệch
Good study!!!