Thuật ngữ này có thể được hiểu theo hai nghĩa:
Thứ nhất: thống kê là các số liệu được thu thập để phản ánh các hiện tượng
kinh tế - xã hội, tự nhiên, kỹ thuật.
Thứ hai: thống kê là hệ thống các phương pháp được sử dụng để mô tả các
hiện tượng kinh tế - xã hội, tự nhiên, kỹ thuật.
Nói một cách tổng quát thống kê là hệ thống các phương pháp dùng để thu
thập, xử lý và phân tích các con số (mặt lượng) của các hiện tượng để tìm hiểu bản
chất và tính qui luật vốn có của chúng (mặt chất) trong điều kiện thời gian và không
gian cụ thể.
Thống kê thường được chia thành hai lãnh vực:
- Thống kê mô tả(Descriptive Statistics): bao gồm các phương pháp thu thập
số liệu, mô tả và trình bày số liệu, tính toán các đặc trưng đo lường.
- Thống kê suy diễn(Inferential Statistics): bao gồm các phương pháp như
ước lượng, kiểm định, phân tích mối liên hệ, dự đoán. trên cơ sở các thông tin thu
thập từ mẫu.
57 trang |
Chia sẻ: lylyngoc | Lượt xem: 4266 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Thống kê sinh học Phần 1, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
THỐNG KÊ SINH HỌC
i
MỤC LỤC
Chương 1. GIỚI THIỆU VỀ THỐNG KÊ SINH HỌC
I. MỘT SỐ KHÁI NIỆM ........................................................................................... 1
1. Thống kê ....................................................................................................... 1
2. Thống kê sinh học ......................................................................................... 1
3. Mẫu và tổng thể ............................................................................................ 1
II. DỮ LIỆU TRONG SINH HỌC ............................................................................. 2
1. Dữ liệu .......................................................................................................... 2
2. Các quan sát và biến số ................................................................................. 2
3. Các loại thang đo .......................................................................................... 2
4. Các loại biến số trong sinh học ...................................................................... 3
5. Độ đúng và độ chính xác của dữ liệu ............................................................. 4
III. GIỚI THIỆU PHẦN MỀM THỐNG KÊ MINITAB ............................................. 4
Chương 2. MÔ TẢ VÀ TRÌNH BÀY DỮ LIỆU
I. MÔ TẢ VÀ TRÌNH BÀY DỮ LIỆU BẰNG BẢNG .............................................. 7
1. Bảng tần số một chiều ................................................................................... 8
2. Bảng tần số hai chiều .................................................................................... 9
II. MÔ TẢ VÀ TRÌNH BÀY DỮ LIỆU BẰNG BIỂU ĐỒ ......................................... 10
1. Pie Chart ....................................................................................................... 10
2. Time Series Plot ............................................................................................ 11
3. Line Graph .................................................................................................... 12
4. Bar Chart ...................................................................................................... 13
5. Interval Plot .................................................................................................. 17
6. Histogram ..................................................................................................... 18
7. Stem and Leaf Plots ...................................................................................... 21
8. Dotplot .......................................................................................................... 22
9. Scatterplots ................................................................................................... 23
III. CÁC SỐ ĐO ĐỊNH TÂM .................................................................................... 24
1. Số trung bình ................................................................................................. 24
2. Số trung vị .................................................................................................... 26
3. Số yếu vị ....................................................................................................... 26
IV. CÁC SỐ ĐO ĐỘ PHÂN TÁN ............................................................................. 27
1. Khoảng biến thiên ......................................................................................... 27
2. Khoảng tứ vị ................................................................................................. 27
Simpo PDF Merge and Split Unregistered Version -
BÙI TẤN ANH
ii
3. Độ lệch trung bình ........................................................................................ 27
4. Phương sai .................................................................................................... 28
5. Độ lệch chuẩn ............................................................................................... 28
6. Hệ số biến thiên ............................................................................................ 28
7. Boxplot ......................................................................................................... 29
Chương 3. PHÂN BỐ XÁC SUẤT
I. CÁC DẠNG PHÂN BỐ ......................................................................................... 31
1. Phân bố đối xứng .......................................................................................... 31
2. Phân bố lệch dương ...................................................................................... 32
3. Phân bố lệch âm ............................................................................................ 33
II PHÂN BỐ NHỊ THỨC .......................................................................................... 34
1. Xác suất nhị thức .......................................................................................... 34
2. Trung bình và phương sai của phân bố nhị thức ............................................ 38
3. Hình dạng của phân bố nhị thức .................................................................... 38
4. Các thí dụ ..................................................................................................... 38
III. PHÂN BỐ POISSON .......................................................................................... 39
1. Xác suất Poisson ........................................................................................... 40
2. Trung bình và phương sai của phân bố Poisson ............................................. 41
3. Hình dạng của phân bố Poisson .................................................................... 41
4. Các tìm xác suất Poisson ............................................................................... 41
IV. PHÂN BỐ CHUẨN ............................................................................................ 43
1. Xác suất chuẩn .............................................................................................. 43
2. Hình dạng của phân bố chuẩn ....................................................................... 44
3. Cách tính xác suất của phân bố chuẩn tắc ...................................................... 46
4. Kiểm tra phân bố chuẩn ................................................................................ 51
V. PHÂN BỐ MẪU .................................................................................................. 52
1. Phân bố của trung bình mẫu .......................................................................... 52
2. Sai số mẫu .................................................................................................... 53
3. Định lý giới hạn trung tâm ............................................................................ 53
Chương 4. KIỂM ĐỊNH GIẢ THUYẾT
I CHUYỂN DẠNG DỮ LIỆU ................................................................................... 55
II. TỔNG QUAN VỀ KIỂM ĐỊNH GIẢ THUYẾT ................................................... 64
III. KIỂM ĐỊNH MỘT MẪU .................................................................................... 65
1. Kiểm định Z ................................................................................................. 65
2. Kiểm định t ................................................................................................... 68
Simpo PDF Merge and Split Unregistered Version -
THỐNG KÊ SINH HỌC
iii
3. Khoảng tin cậy của trung bình tổng thể ......................................................... 69
IV. KIỂM ĐỊNH HAI MẪU ...................................................................................... 70
1. Hai mẫu độc lập, phương sai bằng nhau ........................................................ 71
2. Hai mẫu độc lập, phương sai không bằng nhau .............................................. 75
3. Hai mẫu liên hệ - So sánh cặp ....................................................................... 80
V. KIỂM ĐỊNH SỰ PHÙ HỢP GIỮA LÝ THUYẾT VÀ THỰC NGHIỆM .............. 83
VI. KIỂM ĐỊNH TÍNH ĐỘC LẬP ............................................................................. 85
Chương 5. BỐ TRÍ THÍ NGHIỆM & PHÂN TÍCH PHƯƠNG SAI
I. ĐẠI CƯƠNG VỀ BỐ TRÍ THÍ NGHIỆM .............................................................. 91
1. Mục đích ....................................................................................................... 91
2. Một số khái niệm thường dùng ...................................................................... 91
3. Hai nguyên tắc cơ bản về bố trí thí nghiệm .................................................... 91
4. Kỹ thuật ngẫu nhiên hoá ................................................................................ 91
II. CÁC KIÊU BỐ TRÍ THÍ NGHIỆM PHỔ BIẾN .................................................... 92
1. Bố trí ngẫu nhiên hoàn toàn ........................................................................... 92
2. Bố trí khối hoàntoàn ngẫu nhiên .................................................................... 94
3. Bố trí ô vuông La tin ..................................................................................... 95
III. PHÂN TÍCH PHƯƠNG SAI MỘT NHÂN TỐ .................................................... 96
1. Các bước tổng quát ....................................................................................... 96
2. So sánh các nghiệm thức ...............................................................................105
IV. PHÂN TÍCH PHƯƠNG SAI HAI NHÂN TỐ ......................................................110
1. Hai nhân tố không lặp lại ...............................................................................110
2. Hai nhân tố có lặp lại .....................................................................................117
Chương 6. PHÂN TÍCH HỒI QUY VÀ TƯƠNG QUAN
I. PHÂN TÍCH HỒI QUY ..........................................................................................121
1. Hồi quy đơn ..................................................................................................121
2. Hồi quy bội ...................................................................................................129
3. Hồi quy đa thức .............................................................................................131
II. PHÂN TÍCH TƯƠNG QUAN ...............................................................................135
1. Tính hệ số tương quan ...................................................................................135
2. Thiết lập biểu đồ tương quan .........................................................................136
Phụ lục. CÁC BẢNG THỐNG KÊ .............................................................................137
TÀI LIỆU THAM KHẢO...........................................................................................144
BÀI TẬP ....................................................................................................................145
Simpo PDF Merge and Split Unregistered Version -
THỐNG KÊ SINH HỌC
1
CHƯƠNG 1. GIỚI THIỆU VỀ THỐNG KÊ SINH HỌC
I. MỘT SỐ KHÁI NIỆM
1. Thống kê (Statistics)
Thuật ngữ này có thể được hiểu theo hai nghĩa:
Thứ nhất: thống kê là các số liệu được thu thập để phản ánh các hiện tượng
kinh tế - xã hội, tự nhiên, kỹ thuật.
Thứ hai: thống kê là hệ thống các phương pháp được sử dụng để mô tả các
hiện tượng kinh tế - xã hội, tự nhiên, kỹ thuật.
Nói một cách tổng quát thống kê là hệ thống các phương pháp dùng để thu
thập, xử lý và phân tích các con số (mặt lượng) của các hiện tượng để tìm hiểu bản
chất và tính qui luật vốn có của chúng (mặt chất) trong điều kiện thời gian và không
gian cụ thể.
Thống kê thường được chia thành hai lãnh vực:
- Thống kê mô tả (Descriptive Statistics): bao gồm các phương pháp thu thập
số liệu, mô tả và trình bày số liệu, tính toán các đặc trưng đo lường.
- Thống kê suy diễn (Inferential Statistics): bao gồm các phương pháp như
ước lượng, kiểm định, phân tích mối liên hệ, dự đoán... trên cơ sở các thông tin thu
thập từ mẫu.
2. Thống kê sinh học (Biometry)
Theo nghĩa hẹp, biometry bắt nguồn từ tiếng Hy Lạp bios = sự sống và metron
= đo đạc nên có người gọi đây là sinh trắc (biological measurement). Theo nghĩa
rộng thì thống kê sinh học là khoa học về sự ứng dụng các phương pháp thống kê để
giải quyết các vấn đề của sinh học vì vậy biometry cũng còn được gọi là biological
statistics hoặc đơn giản là biostatistics. Các phương pháp thống kê bao gồm các
bước (1) bố trí thí nghiệm, (2) thu thập dữ liệu, (3) trình bày và tóm tắt dữ liệu, (4)
từ các dữ liệu mẫu suy rộng ra tổng thể.
Trong giáo trình này chúng ta sẽ tập trung vào hai lãnh vực có liên quan mật
thiết với thống kê sinh học. Đó là bố trí thí nghiệm (experimental design) và phân
tích thống kê (statistical analysis).
3. Mẫu và Tổng thể
Trong thống kê sinh học các nghiên cứu thường dựa trên quan sát riêng rẽ
(individual observation), là những quan sát hoặc đo đạc tiến hành trên đơn vị mẫu
nhỏ nhất (smallest sampling unit). Trong sinh học, đơn vị mẫu nhỏ nhất thường là
cá thể. Nếu ta đo trọng lượng của 100 con chuột thì trọng lượng của mỗi con chuột
chính là một quan sát.. 100 trọng lượng chuột đo được đại diện cho một mẫu của
quan sát (sample of observations). Nếu chúng ta nghiên cứu sự thay đổi trọng
lượng của một con chuột trong một thời kỳ xác định thì mẫu sẽ là tất cả các số đo
trọng lượng của con chuột đó trong suốt thời kỳ nghiên cứu.
Tuy nhiên, thuật ngữ “quan sát riêng rẽ” và “mẫu của quan sát” chỉ nêu được
cấu trúc mà không nêu được bản chất của dữ liệu nghiên cứu. Giá trị thật sự đo
được thật sự bởi một quan sát riêng rẽ là một biến số (variable). Trong một đơn vị
mẫu nhỏ nhất có thể có nhiều hơn một biến.
Tập hợp tất cả các dữ liệu mà ta quan tâm nghiên cứu trong một lãnh vực nào
đó được gọi là tổng thể (population) hay còn gọi là tập hợp chính. Nếu ta chọn 5
Simpo PDF Merge and Split Unregistered Version -
BÙI TẤN ANH
2
người để nghiên cứu số lượng bạch cầu trong máu họ và từ đó rút ra kết luận về số
lượng bạch cầu trong máu của toàn bộ loài người thì tổng thể chính là toàn bộ loài
người. Thông thường kích thước của tổng thể (N) rất lớn, thậm chí là vô hạn. Tổng
thể có thể được mô tả bởi các thông số (parameters) nhưng thường các giá trị này
không thể xác định chính xác được.
II. DỮ LIỆU TRONG SINH HỌC (DATA IN BIOLOGY)
1. Dữ liệu (Data)
Các ghi nhận, mô tả hoặc các thuộc tính, sự kiện, các quá trình đều có thể hình
thành một khối dữ liệu. Các dữ liệu thường được được đo ở dạng thang số
(numerical scale) hoặc phân loại thành nhóm (category) rồi sau đó mã hoá dưới
dạng số. Dưới đây là một số thí dụ về dữ liệu:
(1) Huyết áp tối thiểu của tất cả các học sinh ở một trường trung học được đo
để xác định xem có bao nhiêu phần trăm học sinh có huyết áp tối thiểu trên 90 mm
Hg. Trong trường hợp này dữ liệu là số đo huyết áp.
(2) Tất cả cán bộ viên chức của một công ty được yêu cầu báo cáo thể trọng
hàng tháng để đánh giá hiệu quả của chương trình kiểm soát thể trọng. Dữ liệu là?
(3) Trong một nghiên cứu về giáo dục, tất cả các tài xế của một trường đại học
được yêu cầu trả lời câu hỏi “ bạn có lái xe khi cơ thể đã có rượu, bia hay không?”.
Dữ liệu là gì?
Việc thu thập đủ và đúng dữ liệu rất quan trọng. Bạn không thể có một nghiên
cứu tốt nếu không có các dữ liệu tốt.
2. Các quan sát (Observations) và các biến số (Variables)
Trong thống kê, các đối tượng nghiên cứu được gọi là các đơn vị quan sát
(observational units). Trên đơn vị này, các đặc tính được quan sát hoặc đo đạc được
gọi là các biến số (variables). Trong mỗi đối tượng nghiên cứu, các giá trị số gán
cho biến số được gọi là các quan sát (observations) hay các biến (variate).
Thí dụ: để nghiên cứu huyết áp của các sinh viên trong một trường đại học,
các nhà nghiên cứu đo huyết áp tối đa và tối thiểu cho từng sinh viên. Huyết áp tối
đa và tối thiểu là các biến số, số đo huyết áp là các quan sát, các sinh viên là các
đơn vị quan sát.
Trong mỗi đơn vị, chúng ta thường quan sát nhiều hơn một biến. Chẳng hạn,
trong các sinh viên đã nêu trên, người ta nghiên cứu bệnh cao huyết áp ở 500 người.
Ngoài các số đo huyết áp tối đa và tối thiểu, nhà nghiên cứu còn ghi nhận tuổi,
chiều cao, giới tính, trọng lượng cơ thể. Trong trường hợp này, chúng ta có một bộ
dữ liệu của 500 sinh viên với các quan sát được ghi nhận cho mỗi biến trong sáu
biến của từng đơn vị quan sát.
3. Các loại thang đo (scale)
Có bốn loại thang đo được dùng với các biến số: thang đo định danh (nominal
scale), thang đo thứ bậc (ordinal scale), thang đo khoảng (interval scale), và thang
đo tỉ lệ (ratio scale). Các thang đo này được xác định dựa vào thông tin giá trị được
gán cho biến số.
a. Thang đo định danh
Được dùng để chỉ các thuộc tính. Các thuộc tính này được mã hoá bởi các con
số dùng để phân loại đối tượng, giữa các con số không có giá trị hơn kém.
Simpo PDF Merge and Split Unregistered Version -
THỐNG KÊ SINH HỌC
3
Thí dụ: khi khảo sát giới tính, 1 được dùng để chỉ nữ, 2 được dùng để chỉ nam.
b. Thang đo thứ bậc
Được dùng để chỉ các thứ bậc của các đơn vị quan sát. Sự chênh lệch giữa các
biểu hiện không nhất thiết phải bằng nhau.
Thí dụ: khảo sát điều kiện làm việc của công nhân, người ta ước lượng mức độ
độc hại của chất amiăng (asbestos) đối với công nhân: (1) thấp, (2) trung bình, (3)
cao.
c. Thang đo khoảng và thang đo tỉ lệ
Dùng khi các biến được đo ở những khoảng cách đều nhau, chẳng hạn nhiệt
độ tính theo độ Celsius (thang đo khoảng) hoặc chiều cao tính theo cm (thang đo tỉ
lệ). Giữa hai loại thang đo này có các điểm khác biệt:
- Thang đo tỉ lệ có giá trị zero thật. Thí dụ chiều cao bằng 0 nghĩa là không có
chiều cao, trong khi nhiệt độ 00C không có nghĩa là không có nhiệt độ.
- Khi một biến được đo bằng thang đo tỉ lệ, sự so sánh tỉ lệ giữa hai số là có ý
nghĩa. Thí dụ một cây 140cm cao gấp đôi cây 70cm nhưng một lò nung 3000C
không nóng gấp đôi lò nung ở 1500C.
Việc sử dụng thang đo thường phụ thuộc vào phương pháp hoặc công cụ đo
hơn là thuộc tính. Cùng một thuộc tính có thể được đo bằng các thang khác nhau.
Chẳng hạn tuổi có thể được đo theo năm (thang tỉ lệ), hoặc được chia thành 3 nhóm
trẻ, trung niên, già (thang thứ bậc)...
4. Các loại biến số trong sinh học (Variables in Biology)
Quan sát và đo lường các hiện tượng là điều căn bản cho tất cả các nghiên cứu
khoa học. Các hiện tượng mà ta muốn quan sát được gọi là các biến số (variables),
mỗi lĩnh vực nghiên cứu đều có biến số riêng. Biến (Variate) là những đại lượng có
thể mang các giá trị khác nhau.
Có thể phân loại các biến số như sau:
Biến số (Variable)
Biến định lượng
(Measurement Variable)
Biến định tính
(Categorical Variable)
Biến liên tục
(Continuous Variable)
Biến rời rạc
(Discrete Variable)
Biến được xếp hạng
(Ranked Variable)
Biến thuộc tính
(Attribute Variable)
a. Biến định lượng (Measurement Variable)
Là những biến mà giá trị của chúng có thể được biểu hiện dưới dạng số và có
thể đo đạc. Có hai loại biến định lượng là biến liên tục (Continuous Variable) và
biến không liên tục (Discontinuous Variable).
- Biến liên tục là biến (về lý thuyết) có một số giá trị xác định nằm giữa hai
điểm cố định. Chẳng hạn giữa hai chiều dài 1,5 cm và 1,6 cm có vô số các giá trị có
thể đo được. Rất nhiều biến được nghiên cứu trong sinh học là biến liên tục. Thí dụ
chiều cao cây (cm), trọng lượng cơ thể (kg) hoặc pH của đất.
- Biến không liên tục còn được gọi là biến rời rạc (Discrete Variable =
Meristic Variable) là những biến chỉ có những giá trị xác định, không c