Bài giảng lý thuyết thống kê - Đoàn Hồng Chương

Định nghĩa 1.1 (STATISTICS). Thống kê là khoa học về việc thu thập, tổ chức, trình bày, phân tích và diễn giải các dữ liệu nhằm đưa ra những quyết định hiệu quả. Về mặt lịch sử, khoa học thống kê ra đời và phát triển nhờ: 1. Nhu cầu của nhà nước về việc thu thập, xử lý và giải thích các dữ liệu. 2. Sự phát triển của lý thuyết xác suất trong Toán học.

pdf85 trang | Chia sẻ: lylyngoc | Lượt xem: 3523 | Lượt tải: 3download
Bạn đang xem trước 20 trang tài liệu Bài giảng lý thuyết thống kê - Đoàn Hồng Chương, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
BÀI GIẢNG LÝ THUYẾT THỐNG KÊ Đoàn Hồng Chương1 1Bộ môn Toán - TKKT, Đại học Kinh Tế - Luật Lý thuyết thống kê GIỚI THIỆUMÔNHỌC 1. Giới thiệu đề cương • Thống kê mô tả • Hướng dẫn sử dụng SPSS • Ước lượng • Kiểm định tham số • Kiểm định phi tham số 2. Kiểm tra đánh giá • Kiểm tra cuối kì: Trắc nghiệm (20 câu hỏi - 60 phút) - Tỉ lệ 100% • Đề mẫu sẽ gửi vào tuần học cuối. 3. Thông tin liên lạc • Email: chuongdh@uel.edu.vn • Blog: www.chuongdh.wordpress.com Trang 1 Lý thuyết thống kê Chương 1 CÁC KHÁI NIỆM CƠ BẢN VỀ THỐNG KÊ 1.1 Thống kê là gì? Định nghĩa 1.1 (STATISTICS). Thống kê là khoa học về việc thu thập, tổ chức, trình bày, phân tích và diễn giải các dữ liệu nhằm đưa ra những quyết định hiệu quả. Về mặt lịch sử, khoa học thống kê ra đời và phát triển nhờ: 1. Nhu cầu của nhà nước về việc thu thập, xử lý và giải thích các dữ liệu. 2. Sự phát triển của lý thuyết xác suất trong Toán học. Phân loại: 1. Thống kê mô tả (DESCRIPTION STATISTICS) là phương pháp tổ chức, tổng hợp và trình bày các dữ liệu dưới dạng thông tin. 2. Thống kê suy diễn (INFERENTIAL STATISTICS) là phương pháp dùng ước lượng các tính chất của một tổng thể dựa trên mẫu. Trang 2 Lý thuyết thống kê 1.2 Tổng thể và mẫu Định nghĩa 1.2 (POPULATION). Tổng thể là tập hợp toàn bộ các cá thể hoặc sự vật được nghiên cứu. Định nghĩa 1.3 (SAMPLE).Mẫu là một phần của tổng thể. Số lượng các phần tử được gọi là kích thước mẫu. Kí hiệu: n. 1.3 Các loại dữ liệu Định nghĩa 1.4 (QUALITATIVE DATA). Dữ liệu định tính là loại dữ liệu chỉ thể hiện tính chất của đối tượng được nghiên cứu. Định nghĩa 1.5 (QUANTITATIVE DATA). Dữ liệu định lượng là loại dữ liệu được thể hiện dưới dạng các con số. Ví dụ 1.1. Dữ liệu định tính & Dữ liệu định lượng • Giới tính (Nam, Nữ), xếp loại (Giỏi, Khá, Trung bình...), tỉ lệ khách hàng hài lòng, xếp hạng (Rating). • Số tiền trong tài khoản (Balance account), tuổi, khối lượng của một vật, khoảng cách, nhiệt độ. Trang 3 Lý thuyết thống kê 1.4 Cấp bậc dữ liệu Định nghĩa 1.6 (NOMINAL LEVEL DATA). Dữ liệu định danh là loại dữ liệu có các đặc tính sau: • các giá trị được chia thành nhóm hoặc phạm trù. • giữa các nhóm hoặc phạm trù không có sự phân biệt thứ tự. Ví dụ 1.2. Lĩnh vực kinh doanh của công ty 1. Kinh doanh 2. Tài chính 3. Vận tải 4. Dịch vụ Định nghĩa 1.7 (ORDINAL LEVEL DATA). Dữ liệu thứ bậc là loại dữ liệu có các đặc tính sau: • các giá trị được chia thành nhóm hoặc phạm trù. • giữa các nhóm hoặc phạm trù có thể sắp thứ tự và do đó có thể xếp hạng các nhóm hoặc phạm trù. Ví dụ 1.3. Student rating of a Prof. Finance1. 1Doughlas A. Lind, William G. Marchal, and Samuel A. Wathen., "Basic Statistics for Business & Economics",McGraw Hill, Singapore, 2008. Trang 4 Lý thuyết thống kê Rating Superior Good Average Poor Inferior Frequency 6 28 25 12 3 Định nghĩa 1.8 (INTERVAL LEVEL DATA). Dữ liệu khoảng là loại dữ liệu có các đặc tính sau: • các giá trị có thể so sánh và thực hiện được các phép tính số học. • điểm gốc 0 của loại dữ liệu này chỉ mang tính tương đối. Ví dụ 1.4. Nhiệt độ, cỡ giày, cỡ quần áo là các dữ liệu khoảng. Định nghĩa 1.9 (RATIO LEVEL DATA). Dữ liệu tỉ lệ là loại dữ liệu có các đặc tính sau: • các giá trị có thể so sánh và thực hiện được các phép tính số học • điểm gốc 0 và tỉ lệ giữa các giá trị của loại dữ liệu này thực sự có ý nghĩa. Ví dụ 1.5. Father-son income combinations2 2Doughlas A. Lind, William G. Marchal, and Samuel A. Wathen., "Basic Statistics for Business & Economics",McGraw Hill, Singapore, 2008. Trang 5 Lý thuyết thống kê Name Father Son Lahey $80000 $40000 Nale $90000 $30000 Rho $60000 $120000 Steele $75000 $130000 1.5 Kỹ thuật chọn mẫu 1. Chọn mẫu ngẫu nhiên đơn giản (PROBABILITY SAMPLING): là cách chọn ngẫu nhiên n phần tử bất kì từ N phần tử của tổng thể. Các bước tiến hành • Lập danh sách sắp thứ tự các đơn vị của tổng thể. • Thực hiện lấy mẫu bằng cách bốc thăm, quay số hoặc sử dụng phần mềm máy tính chọn ngẫu nhiên. 2. Chọn mẫu ngẫu nhiên hệ thống (SYSTEMATIC SAMPLING): là cách chọn ngẫu nhiên n phần tử từ N phần từ của tổng thể theo các bước sau • Lập danh sách và đánh số thứ tự các phần tử của tổng thể. Trang 6 Lý thuyết thống kê • Xác định cỡ mẫu n. • Xác định khoảng cách chọn mẫu k theo công thức k = { [ N n ] , nếu { N n } < 0, 5;[ N n ] + 1, nếu { N n } ≥ 0, 5. • Trong k phần tử đầu tiên của tổng thể, chọn ngẫu nhiên 1 phần tử. Phần tử được chọn tiếp theo cách phần tử đầu tiên k vị trí và cứ thế tiếp tục chọn đến phần tử cuối cùng của mẫu. Ví dụ 1.6. Giả sử tổng thể bao gồm N=13, kích thước mẫu n=4. Vì N n = 3, 25 nên k = 3. Khi đó ta chọn mẫu theo tắc: • Chọn ngẫu nhiên một phần tử trong 3 phần tử đầu tiên. • Phần tử tiếp theo được chọn cách phần tử đầu tiên 3 vị trí. Công việc trên được mô tả qua sơ đồ sau (ô vuông màu đen thể hiện phần tử được chọn của mẫu) ©  © ©  © ©  © ©  © © Trang 7 Lý thuyết thống kê Ví dụ 1.7. Giả sử tổng thể bao gồm N=10, kích thước mẫu n=6. Vì N n = 1, 67 nên k = 2. Khi đó ta chọn mẫu theo tắc: • Chọn ngẫu nhiên một phần tử trong 2 phần tử đầu tiên. • Phần tử tiếp theo được chọn cách phần tử đầu tiên 2 vị trí. Công việc trên được mô tả qua sơ đồ sau (ô vuông màu đen thể hiện phần tử được chọn của mẫu) ©  ©  ©  ©  ©  Lưu ý. Trong trường hợp này, chúng ta chỉ chọn được mẫu có kích thước n = 5. 3. Lấy mẫu phân tầng (STRATIFIED SAMPLING) được sử dụng khi có sự khác biệt lớn về tính chất giữa các phần tử của tổng thể. Khi chọn mẫu phân tầng, chúng ta cần lưu ý 2 vấn đề: • phân tầng theo đặc điểm gì? • phân bố số lượng mẫu trong các tầng. Trang 8 Lý thuyết thống kê Chương 2 TÓM TẮT VÀ TRÌNH BÀY DỮ LIỆU 2.1 Bảng phân phối tần số, tần suất, tần số tích lũy và tần suất tích lũy Định nghĩa 2.1. FREQUENCY-RELATIVE FREQUENCY • Tần số ni là số lần xuất hiện của giá trị quan sát Xi. • Tần suất fi là tỉ lệ xuất hiện của giá trị quan sát Xi. Ví dụ 2.1. Bảng tần số, tần suất về nhiệt độ trung bình của 18 ngày mùa đông (tính bằng độ 0F ) tại một vùng: Nhiệt độ Xi (0F ) Tần số ni Tần suất fi 12 2 11,11% 15 3 16,67% 17 4 22,22% 18 4 22,22% 20 3 16,67% 21 2 11,11% Trang 9 Lý thuyết thống kê Định nghĩa 2.2 (CUMULATIVE FREQUNECY). Tần số tích lũy Si được xác định bởi công thức Si = n1 + n2 + . . . + ni (2.1) Định nghĩa 2.3 (CUMULATIVE RELATIVE FREQUENCY). Tần suất tích lũy Fi được xác định bởi công thức Fi = f1 + f2 + . . . + fi (2.2) Ví dụ 2.2. Bảng tần số tích lũy, tần suất tích lũy của ví dụ (2.1) là Nhiệt độ Xi (0F ) Tần số ni Tần suất fi Tần số tích lũy Si Tần suất tích lũy Fi 12 2 11,11% 2 11,11% 15 3 16,67% 5 27,78% 17 4 22,22% 9 50,00% 18 4 22,22% 13 72,22% 20 3 16,67% 16 88,89% 21 2 11,11% 18 100,0% Trang 10 Lý thuyết thống kê Ví dụ 2.3. Năng suất lúa (tạ/ha) của 50 hộ dân tại một địa phương được cho như sau 35 41 32 44 33 41 38 44 43 42 30 35 35 43 48 46 48 49 39 49 46 42 41 51 36 42 44 34 46 34 36 47 42 41 37 47 49 38 41 39 40 44 48 42 46 52 43 41 52 43 Hãy lập bảng phân phối tần số, tần suất, tần số tích lũy, tần suất tích lũy của dữ liệu trên. 2.2 Biểu đồ cột Trang 11 Lý thuyết thống kê 2.3 Histogram Định nghĩa 2.4. Đồ thị phân phối tần số (Histogram) là một dạng biểu đồ cột trong đó diện tích của mỗi cột tỉ lệ với tần số của các giá trị Xi. Ví dụ 2.4. Cho bảng tần số về nhiệt độ của một vùng như sau: Nhiệt độ Xi (0F ) 12-15 15-18 18-24 24-27 Tần số ni 2 5 12 2 Khi đó Histogram của dữ liệu này là Trang 12 Lý thuyết thống kê 2.4 Biểu đồ hình tròn 2.5 Biểu đồ thân và lá Biểu đồ thân và lá là công cụ hữu hiệu để tóm tắt và trình bày dữ liệu mà vẫn giúp người xem thấy được cách thức phân tán dữ liệu gốc một cách chi tiết. Qui tắc lập biểu đồ này là dữ liệu định lượng dưới dạng những con số sẽ được tách thành 2 phần: thân và lá. Các chữ số bên phải của dữ liệu đóng vai trò là lá; các chữ số bên trái đóng vai trò là thân. Trang 13 Lý thuyết thống kê Ví dụ 2.5. Xét dữ liệu về độ tuổi của một nhóm nhân viên trong công ty A như sau 28 23 30 24 19 21 39 22 22 Biểu đồ thân và lá của dữ liệu trên là 1 9 2 122348 3 09 2.6 Phân tổ/nhóm dữ liệu Định nghĩa 2.5. Công thức phân tổ dữ liệu • Cho một mẫu có kích thước là n. Số tổ/nhóm dữ liệu được xác định bởi công thức sau: k ' 3 √ 2n. (2.3) • Độ rộng mỗi tổ h ' Xmax −Xmin k . (2.4) Trang 14 Lý thuyết thống kê Nhận xét 2.1. Các điều kiện phân tổ • Các tổ phải rời nhau. • Các tổ được phân chia phải đầy đủ (nghĩa là phủ hết toàn bộ các giá trị của dữ liệu). • Không được có tổ là tập rỗng. Ví dụ 2.6. Hãy thực hiện phân tổ cho ví dụ (2.3) và lập bảng tần số tương ứng. Đáp số. Vì 3 √ 100 = 4, 64 nên số tổ k = 5. Độ rộng mỗi tổ: h = Xmax −Xmin k = 4, 4 ' 5 Năng suất lúa (tấn/ha) Tần số ≤35 8 35-40 8 40-45 19 45-50 12 50-55 3 Trang 15 Lý thuyết thống kê Chương 3 THỐNG KÊMÔ TẢ 3.1 Số trung bình Định nghĩa 3.1 (Trung bình tổng thể). Giả sử tổng thể Ω có N phần tử. Khi đó giá trị µ = N∑ i=1 Xi N , (3.1) được gọi là trung bình tổng thể. Định nghĩa 3.2 (Trung bình mẫu). Giả sử mẫu có kích thước là n. Khi đó giá trị X = n∑ i=1 xi n , (3.2) được gọi là trung bình mẫu. Ví dụ 3.1. Tính giá trị trung bình của mẫu số liệu được cho như sau Trang 16 Lý thuyết thống kê Tuổi 19 23 25 30 45 Tần số 2 4 5 3 2 Giải. X = 19.2 + 23.4 + 25.5 + 30.3 + 45.2 2 + 4 + 5 + 3 + 2 = 27, 1875 Ví dụ 3.2. Tính giá trị trung bình của mẫu số liệu được cho như sau Năng suất lúa (tấn/ha) 30-35 35-40 40-45 45-50 50-55 Tần số 8 8 19 12 3 Giải. Trước tiên chúng ta tính các giá trị đại diện của mỗi nhóm theo công thức ai = xα + xβ 2 . (3.3) Khi đó ta có bảng tần số Năng suất lúa (tấn/ha) 32,5 37,5 42,5 47,5 52,5 Tần số 8 8 19 12 3 Trang 17 Lý thuyết thống kê Khi đó giá trị trung bình mẫu X = 32, 5.8 + 37, 5.8 + 42, 5.19 + 47, 5.12 + 52, 5.3 8 + 8 + 19 + 12 + 3 = 41, 9. 3.2 Số yếu vị - Mode Định nghĩa 3.3 (Trường hợp dữ liệu nhận giá trị rời rạc).Mode là giá trị xuất hiện nhiều lần nhất trong dãy số liệu. Kí hiệu là ModX hoặc X0. Ví dụ 3.3. Cho bảng số liệu Số nhân khẩu xi 1 2 3 4 5 6 ≥ 7 Số gia đình ni 10 30 75 45 20 15 5 Khi đó ModX = 3. Định nghĩa 3.4 (Trường hợp dữ liệu dạng phân tổ đều nhau). Giá trị của ModX được xác định gần đúng theo công thức ModX = L + h. fMo − fMo−1 (fMo − fMo−1) + (fMo − fMo+1), (3.4) Trang 18 Lý thuyết thống kê trong đó L là giới hạn dưới của nhóm chứa Mode, h là khoảng cách của nhóm chứa Mode, fMo là tần số của nhóm chứa Mode, fMo−1, fMo+1 là tần số của nhóm đứng trước và đứng sau nhóm chứa Mode. Ví dụ 3.4. Cho bảng số liệu về nhiệt độ trung bình trong ngày ở một vùng trong 60 ngày. Nhiệt độ xi (0C) 15-18 18-21 21-24 24-27 27-30 30-33 ≥ 33 Tần số ni 5 7 8 10 14 11 5 Khi đó nhóm chứa Mode là nhóm có nhiệt độ trung bình trong khoảng 27− 30 0C. Giá trị gần đúng của ModX = 27 + 3. 14− 10 (14− 10) + (14− 11) = 201 7 ' 28, 71. Điều này có nghĩa là đa số các ngày, nhiệt độ trung bình là 28,710C. 3.3 Số trung vị - Median Trang 19 Lý thuyết thống kê Định nghĩa 3.5. Giả sử mẫu gồm n giá trị rời rạc, được sắp xếp theo thứ tự tăng dần (hoặc giảm dần). • Nếu n là số lẻ thì trung vị, kí hiệu MedX , là giá trị ở vị trí thứ n + 1 2 . • Nếu n là số chẵn thì trung vị là trung bình cộng của giá trị ở vị trí n 2 và n 2 + 1. Ví dụ 3.5. Cho bảng số liệu 6 12 21 22 24 35 41. Khi đó MedX = 22. Ví dụ 3.6. Cho bảng số liệu 10 11 13 15 16 18 30 45. Khi đó MedX = 15 + 16 2 = 15, 5. Định nghĩa 3.6. Giả sử mẫu số liệu gồm n phần tử được cho dưới dạng phân tổ đều nhau. Khi đó trung vị MedX được xác định gần đúng như sau 1. Tính tần số tích lũy. Trang 20 Lý thuyết thống kê 2. Xác định nhóm chứa trung vị Med, là nhóm có tần số tích lũy ≥ n + 1 2 . 3. Áp dụng công thức MedX = L + h. n 2 − SMe−1 fMe , trong đó (3.5) L là giới hạn dưới của nhóm chứa Med, h là khoảng cách của nhóm chứa Med, SMe−1 là tần số tích lũy của nhóm đứng trước nhóm chứa Med, fMe là tần số của nhóm chứa Med. Ví dụ 3.7. Cho bảng số liệu sau Trọng lượng (gram) 484-490 490-496 496-502 502-508 508-514 Tần số ni 5 10 15 13 7 Tần số tích lũy Si 5 15 30 43 50 Khi đó nhóm chứa Med là nhóm có trọng lượng nằm trong khoảng 496−502 gram. Trang 21 Lý thuyết thống kê Áp dụng công thức (3.5), ta có MedX = 496 + 6. 50 2 − 15 15 = 500. Điều này có nghĩa là sẽ có khoảng 50% giá trị của dãy dữ liệu nhỏ hơn MedX . 3.4 Phân vị Định nghĩa 3.7 (Tứ phân vị). Giả sử dãy dữ liệu có n phần tử. • Q1 được gọi là tứ phân vị thứ nhất và là giá trị ở vị trí thứ n + 1 4 . • Q2 được gọi là tứ phân vị thứ hai và chính là trung vị. • Q3 được gọi là tứ phân vị thứ ba và là giá trị ở vị trí thứ 3(n + 1) 4 . Ví dụ 3.8. Tìm tứ phân vị của dữ liệu sau 6 12 21 22 24 35 41. 10 11 13 15 16 18 30 45. Định nghĩa 3.8. Nếu dữ liệu được cho dưới dạng phân tổ đều nhau thì Trang 22 Lý thuyết thống kê • Tứ phân vị thứ nhất Q1 = L + h. n 4 − SQ1−1 fQ1 , trong đó (3.6) L là giới hạn dưới của nhóm chứa Q1, h là khoảng cách của nhóm chứa Q1, SQ1−1 là tần số tích lũy của nhóm đứng trước nhóm chứa Q1, fQ1 là tần số của nhóm chứa Q1. • Tứ phân vị thứ ba Q3 = L + h. 3n 4 − SQ3−1 fQ3 , trong đó (3.7) L là giới hạn dưới của nhóm chứa Q3, h là khoảng cách của nhóm chứa Q3, SQ3−1 là tần số tích lũy của nhóm đứng trước nhóm chứa Q3, fQ3 là tần số của nhóm chứa Q3. Trang 23 Lý thuyết thống kê Ví dụ 3.9. Tìm các tứ phân vị của dữ liệu Trọng lượng (gram) 484-490 490-496 496-502 502-508 508-514 Tần số ni 5 10 15 13 7 Tần số tích lũy Si 5 15 30 43 50 3.5 Khoảng biến thiên - Range Định nghĩa 3.9. Khoảng biến thiên là sai biệt giữa giá trị lớn nhất và giá trị nhỏ nhất của các dữ liệu. R := Xmax −Xmin. (3.8) 3.6 Độ trải giữa Định nghĩa 3.10. Độ trải giữa là sai biệt giữa tứ phân vị thứ ba Q3 và thứ nhất Q1 của dãy dữ liệu. R1 := Q3 −Q1. (3.9) Ví dụ 3.10. Tìm độ trải giữa của dữ liệu trong ví dụ (3.9) 3.7 Phương sai & Độ lệch chuẩn Trang 24 Lý thuyết thống kê Định nghĩa 3.11 (Độ lệch bình phương trung bình). MS = n∑ i=1 (xi −X)2 n (3.10) Định nghĩa 3.12. Phương sai mẫu là đại lượng đặc trưng cho mức độ phân tán của các dữ liệu. Kí hiệu: s2. s2 = n∑ i=1 (xi −X)2 n− 1 . (3.11) Tính chất 3.1. s2 = n n− 1MS (3.12) Định nghĩa 3.13. Độ lệch chuẫn mẫu: s = √√√√√ n∑i=1(xi −X)2 n− 1 . (3.13) Trang 25 Lý thuyết thống kê Ví dụ 3.11. Cho số liệu về năng suất lao động của một mẫu gồm 50 công nhân trong một xí nghiệp Năng suất lao động (kg/h) <34 34-38 38-42 42-46 46-50 50-54 ≥ 54 Số công nhân 3 6 9 12 8 7 5 • Hãy tính giá trị trung bình của mẫu số liệu trên. • Tính phương sai và độ lệch chuẩn. Giải. Năng suất lao động (kg/h) <34 34-38 38-42 42-46 46-50 50-54 ≥ 54 Giá trị đại diện 32 36 40 44 48 52 56 Số công nhân 3 6 9 12 8 7 5 Giá trị trung bìnhX = 44, 56; phương sai s2 = 45, 72; độ lệch chuẩn s = 6, 76. 3.8 Hệ số biến thiên - CV Định nghĩa 3.14 (Coefficient of variation). Hệ số biến thiên CV = s X .100% (3.14) Trang 26 Lý thuyết thống kê Ý nghĩa. Hệ số biến thiên cho biết mức độ thay đổi của độ lệch chuẩn so với giá trị trung bình. Ví dụ 3.12.Một nhà kinh doanh đang xem xét đầu tư vào 2 danh mục A và B. Đối với danh mục A: lợi nhuận trung bình là 16% và độ lệch chuẩn là 4%. Đối với danh mục B: lợi nhuận trung bình là 11% và độ lệch chuẩn là 3%. Hỏi nên chọn đầu tư vào danh mục nào? Vì sao? Giải. Ta có hệ số biến thiên CVA = 25% CVB = 27%. Điều này có nghĩa là nếu tăng tỉ lệ lợi nhuận thêm 1% thì, đối với danh mục A, mức độ rủi ro trong đầu tư sẽ tăng 25%, còn đối với danh mục B, rủi ro sẽ tăng 27%. Do đó, chọn đầu tư vào danh mục A ít rủi ro hơn danh mục B. 3.10 Độ lệch - Skewness Định nghĩa 3.15. Độ lệch được xác định bởi công thức γ1 =  n∑i=1(xi−X)3 n  s3 . (3.15) Trang 27 Lý thuyết thống kê • Nếu γ1 = 0 thì ta nói các dữ liệu của mẫu có tính đối xứng. • Nếu γ1 > 0 thì ta nói các dữ liệu của mẫu lệch phải. • Nếu γ1 < 0 thì ta nói các dữ liệu của mẫu lệch trái. Tính chất 3.2. Cho mẫu ngẫu nhiên X có giá trị trung bình là X . Khi đó • Nếu X = ModX = MedX thì các dữ liệu của mẫu có tính đối xứng. • Nếu X > MedX > ModX thì các dữ liệu của mẫu lệch phải. • Nếu X < MedX < ModX thì các dữ liệu của mẫu lệch trái. Trang 28 Lý thuyết thống kê Ví dụ 3.13. Cho bảng số liệu Trọng lượng (g) 25 26 27 40 Số túi (ni) 4 6 4 2 Độ lệch (skewness) của bảng số liệu trên là γ1 = 2.395 > 0. Do đó histogram lệch phải. 3.9 Độ nhọn - Kurtosis Định nghĩa 3.16. Độ nhọn được xác định bởi công thức β2 =  n∑i=1(xi−X)4 n  s4 . (3.16) Trang 29 Lý thuyết thống kê • β < 3: đồ thị tù • β = 3: đồ thị bình thường • β > 3: đồ thị nhọn Nhận xét 3.1. Người ta còn tính độ nhọn theo công thức γ2 = β2 − 3 =  n∑i=1(xi−X)4 n  s4 − 3. (3.17) Ví dụ 3.14. Giả sử ta có số liệu của VN-Index trong 30 ngày từ 2/8/2012 đến 13/9/2012, với trung bình là X = 413 điểm. Độ lệch và độ nhọn được tính là γ1 = −0, 5, γ2 = −0, 6. Từ các số liệu này chúng ta nhận thấy đồ thị của bộ dữ liệu này sẽ lệch về bên trái, ít nhọn. Trang 30 Lý thuyết thống kê 3.10 Quy tắc thực nghiệm Giả sử một mẫu số liệu có đồ thị dạng hình chuông (phân phối chuẩn) Khi đó ta có các tính chất sau • Có khoảng 68% quan sát dao động trong khoảng (µ− σ, µ + σ). • Có khoảng 95% quan sát dao động trong khoảng (µ− 2σ, µ + 2σ). • Có khoảng 99,7% quan sát dao động trong khoảng (µ− 3σ, µ + 3σ). Trang 31 Lý thuyết thống kê Chương 4 ƯỚC LƯỢNG THAM SỐ TỔNG THỂ 4.1 Khoảng tin cậy Định nghĩa 4.1. Khoảng (G1, G2) được gọi là khoảng tin cậy (hay khoảng ước lượng) của tham số θ nếu P [G1 < θ < G2] = 1− α. (4.1) • 1− α được gọi là độ tin cậy. • α được gọi là mức ý nghĩa. 4.2 Ước lượng trung bình tổng thể 4.2.1 Ước lượng trung bình của một tổng thể Giả sử biến ngẫu nhiên X có phân phối chuẩn N(µ, σ2). Khi đó khoảng tin cậy cho trung bình tổng thể µ, với mức ý nghĩa α, được xác định như sau: a. Trường hợp biết phương sai σ2 • Độ chính xác  = zα 2 σ√ n . (4.2) Trang 32 Lý thuyết thống kê Trong đó zα 2 được tra từ bảng phân phối chuẩn3. • Khoảng tin cậy: µ ∈ (X − ,X + ) . (4.3) Ví dụ 4.1. Giả sử trọng lượng của sản phẩm X có phân phối chuẩn N(µ, σ2) và độ lệch chuẩn σ = 1(g). Khảo sát mẫu gồm 50 sản phẩm, người ta tính được trung bình mẫu X = 19, 64(g). Với độ tin cậy 95%, hãy ước lượng trọng lượng trung bình µ của loại sản phẩm nói trên. Giải. Vì X có phân phối chuẩn và phương sai σ2 = 1 nên khoảng tin cậy cho trọng lượng trung bình µ của loại sản phẩm X có dạng (X − zα 2 σ√ n ,X + zα 2 σ√ n ). Với độ tin cậy 1− α = 95%, ta có α 2 = 2, 5%. Khi đó giá trị zα 2 = 1, 96. Vậy µ ∈ (19, 36; 19, 92) 3Bảng 1, Hoàng Trọng, Chu Nguyễn Mộng Ngọc, "Thống kê ứng dụng - trong Kinh tế & Xã hội", Nhà xuất bản Lao Động - Xã Hội, 2010. Trang 33 Lý thuyết thống kê b. Trường hợp chưa biết phương sai σ2 • Độ chính xác  = zα 2 s√ n , nếu n ≥ 30. (4.4)  = tα 2 ,n−1 s√ n , nếu n < 30. (4.5) Trong đó tα 2 ,n−1 được tra từ bảng phân phối Student, với bậc tự do là n− 14. • Khoảng tin cậy: µ ∈ (X − ,X + ) . (4.6) Ví dụ 4.2. Giả sử mức xăng tiêu thụ của một loại xe máy là đại lượng có phân phối chuẩn N(µ, σ2). Quan sát mức hao xăng của 25 xe máy này trên cùng một đoạn đường, người ta thu được kết quả sau Mức xăng 1,9-2,1 2,1-2,3 2,3-2,5 2,5-2,7 Số xe 5 9 8 3 4Bảng 2, Hoàng Trọng, Chu Nguyễn Mộng Ngọc, "Thống kê ứng dụng - trong Kinh tế & Xã hội", Nhà xuất bản Lao Động - Xã Hội, 2010. Trang 34 Lý thuyết thống kê Hãy ước lượng mức hao phí xăng trung bình với độ tin cậy 95%. Giải. Từ bảng số liệu, ta có X = 2, 272, s = 0, 19 Do chưa biết phương sai σ2 và kích thước mẫu n = 25 < 30 nên khoảng tin cậy cho mức xăng tiêu thụ trung bình của loại xe máy trên có dạng (X − tα 2 ,n−1 s√ n ,X + tα 2 ,n−1 s√ n ). Với độ tin cậy 1− α = 95%, ta có α 2 = 2, 5%. Khi đó giá trị tα 2 ,n−1 = 2, 0639. Vậy µ ∈ (2, 19; 2, 35) Ví dụ 4.3. Trong ví dụ