Định nghĩa 1.1 (STATISTICS). Thống kê là khoa học về việc thu thập, tổ chức,
trình bày, phân tích và diễn giải các dữ liệu nhằm đưa ra những quyết định hiệu
quả.
Về mặt lịch sử, khoa học thống kê ra đời và phát triển nhờ:
1. Nhu cầu của nhà nước về việc thu thập, xử lý và giải thích các dữ liệu.
2. Sự phát triển của lý thuyết xác suất trong Toán học.
85 trang |
Chia sẻ: lylyngoc | Lượt xem: 3534 | Lượt tải: 3
Bạn đang xem trước 20 trang tài liệu Bài giảng lý thuyết thống kê - Đoàn Hồng Chương, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
BÀI GIẢNG LÝ THUYẾT THỐNG KÊ
Đoàn Hồng Chương1
1Bộ môn Toán - TKKT, Đại học Kinh Tế - Luật
Lý thuyết thống kê
GIỚI THIỆUMÔNHỌC
1. Giới thiệu đề cương
• Thống kê mô tả
• Hướng dẫn sử dụng SPSS
• Ước lượng
• Kiểm định tham số
• Kiểm định phi tham số
2. Kiểm tra đánh giá
• Kiểm tra cuối kì: Trắc nghiệm (20 câu hỏi - 60 phút) - Tỉ lệ 100%
• Đề mẫu sẽ gửi vào tuần học cuối.
3. Thông tin liên lạc
• Email: chuongdh@uel.edu.vn
• Blog: www.chuongdh.wordpress.com
Trang 1
Lý thuyết thống kê
Chương 1
CÁC KHÁI NIỆM CƠ BẢN VỀ THỐNG KÊ
1.1 Thống kê là gì?
Định nghĩa 1.1 (STATISTICS). Thống kê là khoa học về việc thu thập, tổ chức,
trình bày, phân tích và diễn giải các dữ liệu nhằm đưa ra những quyết định hiệu
quả.
Về mặt lịch sử, khoa học thống kê ra đời và phát triển nhờ:
1. Nhu cầu của nhà nước về việc thu thập, xử lý và giải thích các dữ liệu.
2. Sự phát triển của lý thuyết xác suất trong Toán học.
Phân loại:
1. Thống kê mô tả (DESCRIPTION STATISTICS) là phương pháp tổ chức,
tổng hợp và trình bày các dữ liệu dưới dạng thông tin.
2. Thống kê suy diễn (INFERENTIAL STATISTICS) là phương pháp dùng
ước lượng các tính chất của một tổng thể dựa trên mẫu.
Trang 2
Lý thuyết thống kê
1.2 Tổng thể và mẫu
Định nghĩa 1.2 (POPULATION). Tổng thể là tập hợp toàn bộ các cá thể hoặc sự
vật được nghiên cứu.
Định nghĩa 1.3 (SAMPLE).Mẫu là một phần của tổng thể. Số lượng các phần
tử được gọi là kích thước mẫu. Kí hiệu: n.
1.3 Các loại dữ liệu
Định nghĩa 1.4 (QUALITATIVE DATA). Dữ liệu định tính là loại dữ liệu chỉ
thể hiện tính chất của đối tượng được nghiên cứu.
Định nghĩa 1.5 (QUANTITATIVE DATA). Dữ liệu định lượng là loại dữ liệu
được thể hiện dưới dạng các con số.
Ví dụ 1.1. Dữ liệu định tính & Dữ liệu định lượng
• Giới tính (Nam, Nữ), xếp loại (Giỏi, Khá, Trung bình...), tỉ lệ khách hàng hài
lòng, xếp hạng (Rating).
• Số tiền trong tài khoản (Balance account), tuổi, khối lượng của một vật, khoảng
cách, nhiệt độ.
Trang 3
Lý thuyết thống kê
1.4 Cấp bậc dữ liệu
Định nghĩa 1.6 (NOMINAL LEVEL DATA). Dữ liệu định danh là loại dữ liệu
có các đặc tính sau:
• các giá trị được chia thành nhóm hoặc phạm trù.
• giữa các nhóm hoặc phạm trù không có sự phân biệt thứ tự.
Ví dụ 1.2. Lĩnh vực kinh doanh của công ty
1. Kinh doanh 2. Tài chính 3. Vận tải 4. Dịch vụ
Định nghĩa 1.7 (ORDINAL LEVEL DATA). Dữ liệu thứ bậc là loại dữ liệu có
các đặc tính sau:
• các giá trị được chia thành nhóm hoặc phạm trù.
• giữa các nhóm hoặc phạm trù có thể sắp thứ tự và do đó có thể xếp hạng các
nhóm hoặc phạm trù.
Ví dụ 1.3. Student rating of a Prof. Finance1.
1Doughlas A. Lind, William G. Marchal, and Samuel A. Wathen., "Basic Statistics for Business & Economics",McGraw Hill, Singapore, 2008.
Trang 4
Lý thuyết thống kê
Rating Superior Good Average Poor Inferior
Frequency 6 28 25 12 3
Định nghĩa 1.8 (INTERVAL LEVEL DATA). Dữ liệu khoảng là loại dữ liệu có
các đặc tính sau:
• các giá trị có thể so sánh và thực hiện được các phép tính số học.
• điểm gốc 0 của loại dữ liệu này chỉ mang tính tương đối.
Ví dụ 1.4. Nhiệt độ, cỡ giày, cỡ quần áo là các dữ liệu khoảng.
Định nghĩa 1.9 (RATIO LEVEL DATA). Dữ liệu tỉ lệ là loại dữ liệu có các đặc
tính sau:
• các giá trị có thể so sánh và thực hiện được các phép tính số học
• điểm gốc 0 và tỉ lệ giữa các giá trị của loại dữ liệu này thực sự có ý nghĩa.
Ví dụ 1.5. Father-son income combinations2
2Doughlas A. Lind, William G. Marchal, and Samuel A. Wathen., "Basic Statistics for Business & Economics",McGraw Hill, Singapore, 2008.
Trang 5
Lý thuyết thống kê
Name Father Son
Lahey $80000 $40000
Nale $90000 $30000
Rho $60000 $120000
Steele $75000 $130000
1.5 Kỹ thuật chọn mẫu
1. Chọn mẫu ngẫu nhiên đơn giản (PROBABILITY SAMPLING): là cách
chọn ngẫu nhiên n phần tử bất kì từ N phần tử của tổng thể.
Các bước tiến hành
• Lập danh sách sắp thứ tự các đơn vị của tổng thể.
• Thực hiện lấy mẫu bằng cách bốc thăm, quay số hoặc sử dụng phần
mềm máy tính chọn ngẫu nhiên.
2. Chọn mẫu ngẫu nhiên hệ thống (SYSTEMATIC SAMPLING): là cách
chọn ngẫu nhiên n phần tử từ N phần từ của tổng thể theo các bước sau
• Lập danh sách và đánh số thứ tự các phần tử của tổng thể.
Trang 6
Lý thuyết thống kê
• Xác định cỡ mẫu n.
• Xác định khoảng cách chọn mẫu k theo công thức
k =
{ [
N
n
]
, nếu
{
N
n
}
< 0, 5;[
N
n
]
+ 1, nếu
{
N
n
} ≥ 0, 5.
• Trong k phần tử đầu tiên của tổng thể, chọn ngẫu nhiên 1 phần tử.
Phần tử được chọn tiếp theo cách phần tử đầu tiên k vị trí và cứ thế
tiếp tục chọn đến phần tử cuối cùng của mẫu.
Ví dụ 1.6. Giả sử tổng thể bao gồm N=13, kích thước mẫu n=4. Vì
N
n
= 3, 25
nên k = 3. Khi đó ta chọn mẫu theo tắc:
• Chọn ngẫu nhiên một phần tử trong 3 phần tử đầu tiên.
• Phần tử tiếp theo được chọn cách phần tử đầu tiên 3 vị trí.
Công việc trên được mô tả qua sơ đồ sau (ô vuông màu đen thể hiện phần tử
được chọn của mẫu)
© © © © © © © © ©
Trang 7
Lý thuyết thống kê
Ví dụ 1.7. Giả sử tổng thể bao gồm N=10, kích thước mẫu n=6. Vì
N
n
= 1, 67
nên k = 2. Khi đó ta chọn mẫu theo tắc:
• Chọn ngẫu nhiên một phần tử trong 2 phần tử đầu tiên.
• Phần tử tiếp theo được chọn cách phần tử đầu tiên 2 vị trí.
Công việc trên được mô tả qua sơ đồ sau (ô vuông màu đen thể hiện phần tử
được chọn của mẫu)
© © © © ©
Lưu ý. Trong trường hợp này, chúng ta chỉ chọn được mẫu có kích thước n = 5.
3. Lấy mẫu phân tầng (STRATIFIED SAMPLING) được sử dụng khi có sự
khác biệt lớn về tính chất giữa các phần tử của tổng thể. Khi chọn mẫu
phân tầng, chúng ta cần lưu ý 2 vấn đề:
• phân tầng theo đặc điểm gì?
• phân bố số lượng mẫu trong các tầng.
Trang 8
Lý thuyết thống kê
Chương 2
TÓM TẮT VÀ TRÌNH BÀY DỮ LIỆU
2.1 Bảng phân phối tần số, tần suất, tần số tích lũy và tần suất tích lũy
Định nghĩa 2.1. FREQUENCY-RELATIVE FREQUENCY
• Tần số ni là số lần xuất hiện của giá trị quan sát Xi.
• Tần suất fi là tỉ lệ xuất hiện của giá trị quan sát Xi.
Ví dụ 2.1. Bảng tần số, tần suất về nhiệt độ trung bình của 18 ngày mùa đông
(tính bằng độ 0F ) tại một vùng:
Nhiệt độ Xi (0F ) Tần số ni Tần suất fi
12 2 11,11%
15 3 16,67%
17 4 22,22%
18 4 22,22%
20 3 16,67%
21 2 11,11%
Trang 9
Lý thuyết thống kê
Định nghĩa 2.2 (CUMULATIVE FREQUNECY). Tần số tích lũy Si được xác
định bởi công thức
Si = n1 + n2 + . . . + ni (2.1)
Định nghĩa 2.3 (CUMULATIVE RELATIVE FREQUENCY). Tần suất tích lũy
Fi được xác định bởi công thức
Fi = f1 + f2 + . . . + fi (2.2)
Ví dụ 2.2. Bảng tần số tích lũy, tần suất tích lũy của ví dụ (2.1) là
Nhiệt độ Xi (0F ) Tần số ni Tần suất fi Tần số tích lũy Si Tần suất tích lũy Fi
12 2 11,11% 2 11,11%
15 3 16,67% 5 27,78%
17 4 22,22% 9 50,00%
18 4 22,22% 13 72,22%
20 3 16,67% 16 88,89%
21 2 11,11% 18 100,0%
Trang 10
Lý thuyết thống kê
Ví dụ 2.3. Năng suất lúa (tạ/ha) của 50 hộ dân tại một địa phương được cho như
sau
35 41 32 44 33 41 38 44 43 42
30 35 35 43 48 46 48 49 39 49
46 42 41 51 36 42 44 34 46 34
36 47 42 41 37 47 49 38 41 39
40 44 48 42 46 52 43 41 52 43
Hãy lập bảng phân phối tần số, tần suất, tần số tích lũy, tần suất tích lũy của dữ
liệu trên.
2.2 Biểu đồ cột
Trang 11
Lý thuyết thống kê
2.3 Histogram
Định nghĩa 2.4. Đồ thị phân phối tần số (Histogram) là một dạng biểu đồ cột
trong đó diện tích của mỗi cột tỉ lệ với tần số của các giá trị Xi.
Ví dụ 2.4. Cho bảng tần số về nhiệt độ của một vùng như sau:
Nhiệt độ Xi (0F ) 12-15 15-18 18-24 24-27
Tần số ni 2 5 12 2
Khi đó Histogram của dữ liệu này là
Trang 12
Lý thuyết thống kê
2.4 Biểu đồ hình tròn
2.5 Biểu đồ thân và lá
Biểu đồ thân và lá là công cụ hữu hiệu để tóm tắt và trình bày dữ liệu mà
vẫn giúp người xem thấy được cách thức phân tán dữ liệu gốc một cách chi
tiết.
Qui tắc lập biểu đồ này là dữ liệu định lượng dưới dạng những con số sẽ
được tách thành 2 phần: thân và lá. Các chữ số bên phải của dữ liệu đóng
vai trò là lá; các chữ số bên trái đóng vai trò là thân.
Trang 13
Lý thuyết thống kê
Ví dụ 2.5. Xét dữ liệu về độ tuổi của một nhóm nhân viên trong công ty A như
sau
28 23 30 24 19 21 39 22 22
Biểu đồ thân và lá của dữ liệu trên là
1 9
2 122348
3 09
2.6 Phân tổ/nhóm dữ liệu
Định nghĩa 2.5. Công thức phân tổ dữ liệu
• Cho một mẫu có kích thước là n. Số tổ/nhóm dữ liệu được xác định bởi công
thức sau:
k ' 3
√
2n. (2.3)
• Độ rộng mỗi tổ
h ' Xmax −Xmin
k
. (2.4)
Trang 14
Lý thuyết thống kê
Nhận xét 2.1. Các điều kiện phân tổ
• Các tổ phải rời nhau.
• Các tổ được phân chia phải đầy đủ (nghĩa là phủ hết toàn bộ các giá trị của dữ
liệu).
• Không được có tổ là tập rỗng.
Ví dụ 2.6. Hãy thực hiện phân tổ cho ví dụ (2.3) và lập bảng tần số tương ứng.
Đáp số.
Vì 3
√
100 = 4, 64 nên số tổ k = 5.
Độ rộng mỗi tổ: h =
Xmax −Xmin
k
= 4, 4 ' 5
Năng suất lúa (tấn/ha) Tần số
≤35 8
35-40 8
40-45 19
45-50 12
50-55 3
Trang 15
Lý thuyết thống kê
Chương 3
THỐNG KÊMÔ TẢ
3.1 Số trung bình
Định nghĩa 3.1 (Trung bình tổng thể). Giả sử tổng thể Ω có N phần tử. Khi đó
giá trị
µ =
N∑
i=1
Xi
N
, (3.1)
được gọi là trung bình tổng thể.
Định nghĩa 3.2 (Trung bình mẫu). Giả sử mẫu có kích thước là n. Khi đó giá
trị
X =
n∑
i=1
xi
n
, (3.2)
được gọi là trung bình mẫu.
Ví dụ 3.1. Tính giá trị trung bình của mẫu số liệu được cho như sau
Trang 16
Lý thuyết thống kê
Tuổi 19 23 25 30 45
Tần số 2 4 5 3 2
Giải.
X =
19.2 + 23.4 + 25.5 + 30.3 + 45.2
2 + 4 + 5 + 3 + 2
= 27, 1875
Ví dụ 3.2. Tính giá trị trung bình của mẫu số liệu được cho như sau
Năng suất lúa (tấn/ha) 30-35 35-40 40-45 45-50 50-55
Tần số 8 8 19 12 3
Giải.
Trước tiên chúng ta tính các giá trị đại diện của mỗi nhóm theo công thức
ai =
xα + xβ
2
. (3.3)
Khi đó ta có bảng tần số
Năng suất lúa (tấn/ha) 32,5 37,5 42,5 47,5 52,5
Tần số 8 8 19 12 3
Trang 17
Lý thuyết thống kê
Khi đó giá trị trung bình mẫu
X =
32, 5.8 + 37, 5.8 + 42, 5.19 + 47, 5.12 + 52, 5.3
8 + 8 + 19 + 12 + 3
= 41, 9.
3.2 Số yếu vị - Mode
Định nghĩa 3.3 (Trường hợp dữ liệu nhận giá trị rời rạc).Mode là giá trị
xuất hiện nhiều lần nhất trong dãy số liệu. Kí hiệu là ModX hoặc X0.
Ví dụ 3.3. Cho bảng số liệu
Số nhân khẩu xi 1 2 3 4 5 6 ≥ 7
Số gia đình ni 10 30 75 45 20 15 5
Khi đó ModX = 3.
Định nghĩa 3.4 (Trường hợp dữ liệu dạng phân tổ đều nhau). Giá trị của
ModX được xác định gần đúng theo công thức
ModX = L + h.
fMo − fMo−1
(fMo − fMo−1) + (fMo − fMo+1), (3.4)
Trang 18
Lý thuyết thống kê
trong đó
L là giới hạn dưới của nhóm chứa Mode,
h là khoảng cách của nhóm chứa Mode,
fMo là tần số của nhóm chứa Mode,
fMo−1, fMo+1 là tần số của nhóm đứng trước và đứng sau nhóm chứa Mode.
Ví dụ 3.4. Cho bảng số liệu về nhiệt độ trung bình trong ngày ở một vùng trong
60 ngày.
Nhiệt độ xi (0C) 15-18 18-21 21-24 24-27 27-30 30-33 ≥ 33
Tần số ni 5 7 8 10 14 11 5
Khi đó nhóm chứa Mode là nhóm có nhiệt độ trung bình trong khoảng 27− 30 0C.
Giá trị gần đúng của
ModX = 27 + 3.
14− 10
(14− 10) + (14− 11) =
201
7
' 28, 71.
Điều này có nghĩa là đa số các ngày, nhiệt độ trung bình là 28,710C.
3.3 Số trung vị - Median
Trang 19
Lý thuyết thống kê
Định nghĩa 3.5. Giả sử mẫu gồm n giá trị rời rạc, được sắp xếp theo thứ tự tăng
dần (hoặc giảm dần).
• Nếu n là số lẻ thì trung vị, kí hiệu MedX , là giá trị ở vị trí thứ n + 1
2
.
• Nếu n là số chẵn thì trung vị là trung bình cộng của giá trị ở vị trí n
2
và
n
2
+ 1.
Ví dụ 3.5. Cho bảng số liệu
6 12 21 22 24 35 41.
Khi đó MedX = 22.
Ví dụ 3.6. Cho bảng số liệu
10 11 13 15 16 18 30 45.
Khi đó MedX =
15 + 16
2
= 15, 5.
Định nghĩa 3.6. Giả sử mẫu số liệu gồm n phần tử được cho dưới dạng phân tổ
đều nhau. Khi đó trung vị MedX được xác định gần đúng như sau
1. Tính tần số tích lũy.
Trang 20
Lý thuyết thống kê
2. Xác định nhóm chứa trung vị Med, là nhóm có tần số tích lũy ≥ n + 1
2
.
3. Áp dụng công thức
MedX = L + h.
n
2 − SMe−1
fMe
, trong đó (3.5)
L là giới hạn dưới của nhóm chứa Med,
h là khoảng cách của nhóm chứa Med,
SMe−1 là tần số tích lũy của nhóm đứng trước nhóm chứa Med,
fMe là tần số của nhóm chứa Med.
Ví dụ 3.7. Cho bảng số liệu sau
Trọng lượng (gram) 484-490 490-496 496-502 502-508 508-514
Tần số ni 5 10 15 13 7
Tần số tích lũy Si 5 15 30 43 50
Khi đó nhóm chứa Med là nhóm có trọng lượng nằm trong khoảng 496−502 gram.
Trang 21
Lý thuyết thống kê
Áp dụng công thức (3.5), ta có
MedX = 496 + 6.
50
2 − 15
15
= 500.
Điều này có nghĩa là sẽ có khoảng 50% giá trị của dãy dữ liệu nhỏ hơn MedX .
3.4 Phân vị
Định nghĩa 3.7 (Tứ phân vị). Giả sử dãy dữ liệu có n phần tử.
• Q1 được gọi là tứ phân vị thứ nhất và là giá trị ở vị trí thứ n + 1
4
.
• Q2 được gọi là tứ phân vị thứ hai và chính là trung vị.
• Q3 được gọi là tứ phân vị thứ ba và là giá trị ở vị trí thứ 3(n + 1)
4
.
Ví dụ 3.8. Tìm tứ phân vị của dữ liệu sau
6 12 21 22 24 35 41.
10 11 13 15 16 18 30 45.
Định nghĩa 3.8. Nếu dữ liệu được cho dưới dạng phân tổ đều nhau thì
Trang 22
Lý thuyết thống kê
• Tứ phân vị thứ nhất
Q1 = L + h.
n
4 − SQ1−1
fQ1
, trong đó (3.6)
L là giới hạn dưới của nhóm chứa Q1,
h là khoảng cách của nhóm chứa Q1,
SQ1−1 là tần số tích lũy của nhóm đứng trước nhóm chứa Q1,
fQ1 là tần số của nhóm chứa Q1.
• Tứ phân vị thứ ba
Q3 = L + h.
3n
4 − SQ3−1
fQ3
, trong đó (3.7)
L là giới hạn dưới của nhóm chứa Q3,
h là khoảng cách của nhóm chứa Q3,
SQ3−1 là tần số tích lũy của nhóm đứng trước nhóm chứa Q3,
fQ3 là tần số của nhóm chứa Q3.
Trang 23
Lý thuyết thống kê
Ví dụ 3.9. Tìm các tứ phân vị của dữ liệu
Trọng lượng (gram) 484-490 490-496 496-502 502-508 508-514
Tần số ni 5 10 15 13 7
Tần số tích lũy Si 5 15 30 43 50
3.5 Khoảng biến thiên - Range
Định nghĩa 3.9. Khoảng biến thiên là sai biệt giữa giá trị lớn nhất và giá trị nhỏ
nhất của các dữ liệu.
R := Xmax −Xmin. (3.8)
3.6 Độ trải giữa
Định nghĩa 3.10. Độ trải giữa là sai biệt giữa tứ phân vị thứ ba Q3 và thứ nhất
Q1 của dãy dữ liệu.
R1 := Q3 −Q1. (3.9)
Ví dụ 3.10. Tìm độ trải giữa của dữ liệu trong ví dụ (3.9)
3.7 Phương sai & Độ lệch chuẩn
Trang 24
Lý thuyết thống kê
Định nghĩa 3.11 (Độ lệch bình phương trung bình).
MS =
n∑
i=1
(xi −X)2
n
(3.10)
Định nghĩa 3.12. Phương sai mẫu là đại lượng đặc trưng cho mức độ phân tán
của các dữ liệu. Kí hiệu: s2.
s2 =
n∑
i=1
(xi −X)2
n− 1 . (3.11)
Tính chất 3.1.
s2 =
n
n− 1MS (3.12)
Định nghĩa 3.13. Độ lệch chuẫn mẫu:
s =
√√√√√ n∑i=1(xi −X)2
n− 1 . (3.13)
Trang 25
Lý thuyết thống kê
Ví dụ 3.11. Cho số liệu về năng suất lao động của một mẫu gồm 50 công nhân
trong một xí nghiệp
Năng suất lao động (kg/h) <34 34-38 38-42 42-46 46-50 50-54 ≥ 54
Số công nhân 3 6 9 12 8 7 5
• Hãy tính giá trị trung bình của mẫu số liệu trên.
• Tính phương sai và độ lệch chuẩn.
Giải.
Năng suất lao động (kg/h) <34 34-38 38-42 42-46 46-50 50-54 ≥ 54
Giá trị đại diện 32 36 40 44 48 52 56
Số công nhân 3 6 9 12 8 7 5
Giá trị trung bìnhX = 44, 56; phương sai s2 = 45, 72; độ lệch chuẩn s = 6, 76.
3.8 Hệ số biến thiên - CV
Định nghĩa 3.14 (Coefficient of variation). Hệ số biến thiên
CV =
s
X
.100% (3.14)
Trang 26
Lý thuyết thống kê
Ý nghĩa. Hệ số biến thiên cho biết mức độ thay đổi của độ lệch chuẩn so
với giá trị trung bình.
Ví dụ 3.12.Một nhà kinh doanh đang xem xét đầu tư vào 2 danh mục A và B.
Đối với danh mục A: lợi nhuận trung bình là 16% và độ lệch chuẩn là 4%. Đối với
danh mục B: lợi nhuận trung bình là 11% và độ lệch chuẩn là 3%. Hỏi nên chọn
đầu tư vào danh mục nào? Vì sao?
Giải. Ta có hệ số biến thiên CVA = 25% CVB = 27%.
Điều này có nghĩa là nếu tăng tỉ lệ lợi nhuận thêm 1% thì, đối với danh mục
A, mức độ rủi ro trong đầu tư sẽ tăng 25%, còn đối với danh mục B, rủi ro
sẽ tăng 27%. Do đó, chọn đầu tư vào danh mục A ít rủi ro hơn danh mục B.
3.10 Độ lệch - Skewness
Định nghĩa 3.15. Độ lệch được xác định bởi công thức
γ1 =
n∑i=1(xi−X)3
n
s3
. (3.15)
Trang 27
Lý thuyết thống kê
• Nếu γ1 = 0 thì ta nói các dữ liệu của mẫu có tính đối xứng.
• Nếu γ1 > 0 thì ta nói các dữ liệu của mẫu lệch phải.
• Nếu γ1 < 0 thì ta nói các dữ liệu của mẫu lệch trái.
Tính chất 3.2. Cho mẫu ngẫu nhiên X có giá trị trung bình là X . Khi đó
• Nếu X = ModX = MedX thì các dữ liệu của mẫu có tính đối xứng.
• Nếu X > MedX > ModX thì các dữ liệu của mẫu lệch phải.
• Nếu X < MedX < ModX thì các dữ liệu của mẫu lệch trái.
Trang 28
Lý thuyết thống kê
Ví dụ 3.13. Cho bảng số liệu
Trọng lượng (g) 25 26 27 40
Số túi (ni) 4 6 4 2
Độ lệch (skewness) của bảng số liệu trên là γ1 = 2.395 > 0. Do đó histogram lệch
phải.
3.9 Độ nhọn - Kurtosis
Định nghĩa 3.16. Độ nhọn được xác định bởi công thức
β2 =
n∑i=1(xi−X)4
n
s4
. (3.16)
Trang 29
Lý thuyết thống kê
• β < 3: đồ thị tù
• β = 3: đồ thị bình thường
• β > 3: đồ thị nhọn
Nhận xét 3.1. Người ta còn tính độ nhọn theo công thức
γ2 = β2 − 3 =
n∑i=1(xi−X)4
n
s4
− 3. (3.17)
Ví dụ 3.14. Giả sử ta có số liệu của VN-Index trong 30 ngày từ 2/8/2012 đến
13/9/2012, với trung bình là X = 413 điểm. Độ lệch và độ nhọn được tính là
γ1 = −0, 5, γ2 = −0, 6. Từ các số liệu này chúng ta nhận thấy đồ thị của bộ dữ liệu
này sẽ lệch về bên trái, ít nhọn.
Trang 30
Lý thuyết thống kê
3.10 Quy tắc thực nghiệm
Giả sử một mẫu số liệu có đồ thị dạng hình chuông (phân phối chuẩn)
Khi đó ta có các tính chất sau
• Có khoảng 68% quan sát dao động trong khoảng (µ− σ, µ + σ).
• Có khoảng 95% quan sát dao động trong khoảng (µ− 2σ, µ + 2σ).
• Có khoảng 99,7% quan sát dao động trong khoảng (µ− 3σ, µ + 3σ).
Trang 31
Lý thuyết thống kê
Chương 4
ƯỚC LƯỢNG THAM SỐ TỔNG THỂ
4.1 Khoảng tin cậy
Định nghĩa 4.1. Khoảng (G1, G2) được gọi là khoảng tin cậy (hay khoảng ước
lượng) của tham số θ nếu
P [G1 < θ < G2] = 1− α. (4.1)
• 1− α được gọi là độ tin cậy. • α được gọi là mức ý nghĩa.
4.2 Ước lượng trung bình tổng thể
4.2.1 Ước lượng trung bình của một tổng thể
Giả sử biến ngẫu nhiên X có phân phối chuẩn N(µ, σ2). Khi đó khoảng tin
cậy cho trung bình tổng thể µ, với mức ý nghĩa α, được xác định như sau:
a. Trường hợp biết phương sai σ2
• Độ chính xác
= zα
2
σ√
n
. (4.2)
Trang 32
Lý thuyết thống kê
Trong đó zα
2
được tra từ bảng phân phối chuẩn3.
• Khoảng tin cậy:
µ ∈ (X − ,X + ) . (4.3)
Ví dụ 4.1. Giả sử trọng lượng của sản phẩm X có phân phối chuẩn N(µ, σ2) và
độ lệch chuẩn σ = 1(g). Khảo sát mẫu gồm 50 sản phẩm, người ta tính được trung
bình mẫu X = 19, 64(g). Với độ tin cậy 95%, hãy ước lượng trọng lượng trung
bình µ của loại sản phẩm nói trên.
Giải.
Vì X có phân phối chuẩn và phương sai σ2 = 1 nên khoảng tin cậy cho
trọng lượng trung bình µ của loại sản phẩm X có dạng
(X − zα
2
σ√
n
,X + zα
2
σ√
n
).
Với độ tin cậy 1− α = 95%, ta có α
2
= 2, 5%. Khi đó giá trị zα
2
= 1, 96.
Vậy
µ ∈ (19, 36; 19, 92)
3Bảng 1, Hoàng Trọng, Chu Nguyễn Mộng Ngọc, "Thống kê ứng dụng - trong Kinh tế & Xã hội", Nhà xuất bản Lao Động - Xã Hội, 2010.
Trang 33
Lý thuyết thống kê
b. Trường hợp chưa biết phương sai σ2
• Độ chính xác
= zα
2
s√
n
, nếu n ≥ 30. (4.4)
= tα
2 ,n−1
s√
n
, nếu n < 30. (4.5)
Trong đó tα
2 ,n−1 được tra từ bảng phân phối Student, với bậc tự do là
n− 14.
• Khoảng tin cậy:
µ ∈ (X − ,X + ) . (4.6)
Ví dụ 4.2. Giả sử mức xăng tiêu thụ của một loại xe máy là đại lượng có phân
phối chuẩn N(µ, σ2). Quan sát mức hao xăng của 25 xe máy này trên cùng một
đoạn đường, người ta thu được kết quả sau
Mức xăng 1,9-2,1 2,1-2,3 2,3-2,5 2,5-2,7
Số xe 5 9 8 3
4Bảng 2, Hoàng Trọng, Chu Nguyễn Mộng Ngọc, "Thống kê ứng dụng - trong Kinh tế & Xã hội", Nhà xuất bản Lao Động - Xã Hội, 2010.
Trang 34
Lý thuyết thống kê
Hãy ước lượng mức hao phí xăng trung bình với độ tin cậy 95%.
Giải. Từ bảng số liệu, ta có
X = 2, 272, s = 0, 19
Do chưa biết phương sai σ2 và kích thước mẫu n = 25 < 30 nên khoảng tin
cậy cho mức xăng tiêu thụ trung bình của loại xe máy trên có dạng
(X − tα
2 ,n−1
s√
n
,X + tα
2 ,n−1
s√
n
).
Với độ tin cậy 1− α = 95%, ta có α
2
= 2, 5%. Khi đó giá trị tα
2 ,n−1 = 2, 0639.
Vậy
µ ∈ (2, 19; 2, 35)
Ví dụ 4.3. Trong ví dụ