Bài giảng Xác suất và thống kê chương 4: Thống kê mô tả

Có thể nghiên cứu dân số theo các dấu hiệu Tuổi Trình độ văn hóa Địa bàn cư trú Nghề nghiệp Tuổi và trình độ văn hóa được biểu thị bởi con số nên thuộc về dấu hiệu định lượng. Địa bàn cư trú và nghề nghiệp thuộc về dấu hiệu định tính.

pdf58 trang | Chia sẻ: haohao89 | Lượt xem: 6808 | Lượt tải: 2download
Bạn đang xem trước 20 trang tài liệu Bài giảng Xác suất và thống kê chương 4: Thống kê mô tả, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
TRẦN AN HẢI    TUẦN 5  HÀ NỘI - 2009 Chương 4 THỐNG KÊ MÔ TẢ Thống kê là gì Có thể nghiên cứu dân số theo các dấu hiệu Tuổi Trình độ văn hóa Địa bàn cư trú Nghề nghiệp Tuổi và trình độ văn hóa được biểu thị bởi con số nên thuộc về dấu hiệu định lượng. Địa bàn cư trú và nghề nghiệp thuộc về dấu hiệu định tính. Việc nghiên cứu này có thể làm theo kiểu tổng điều tra dân số và phân tích từng người theo các dấu hiệu trên, từ đó tổng hợp thành dấu hiệu chung cho toàn bộ dân số nước đó. Làm như vậy có nhiều khó khăn như: đòi hỏi nhiều chi phí vật chất và thời gian, điều tra có thể bị lặp hoặc sót, … Người ta thường dùng phương pháp nghiên cứu như sau: Chọn ngẫu nhiên ra một số người (gọi là lấy mẫu) rồi điều tra và xử lí số liệu bằng phương pháp xác suất để từ đó suy ra những kết luận về các dấu hiệu. Làm như vậy có ưu điểm: Thu được các kết luận một cách nhanh chóng, đỡ tốn kém mà vẫn đảm bảo được độ chính xác cần thiết. Cơ sở của phương pháp này là khoa học Thống kê. Thống kê là khoa học về các phương pháp thu thập, tổ chức, trình bày, phân tích và xử lí số liệu. Nó biến những con số khô khan câm lặng trong dữ liệu thu thập thành những con số biết nói. Trên cơ sở này, chúng ta mới có thể đưa ra được những dự báo và quyết định đúng đắn. Vì thế, thống kê cần thiết cho mọi lực lượng lao động, đặc biệt rất cần cho các nhà quản lí, hoạch định chính sách. Năm 1920, nhà văn người Anh, H.G.Wells đã dự báo: “Trong một tương lai không xa, kiến thức thống kê và tư duy thống kê sẽ trở thành một yếu tố không thể thiếu được trong học vấn phổ thông của mỗi công dân, giống như là khả năng biết đọc, biết viết vậy”. Năm 1973, khi tổng kết về công tác cải cách giáo dục, UNESCO đã khẳng định rằng Xác suất – Thống kê là một trong 9 quan điểm chủ chốt để xây dựng học vấn trong thời đại ngày nay. Ngày nay Thống kê đã được ứng dụng rộng rãi trong hầu hết các hoạt động của con người, từ khoa học tự nhiên, kinh tế, nông nghiệp, y học cho tới các khoa học xã hội và nhân văn. Thống kê mô tả là bước đầu tiên của Thống kê, có mục đích thu thập và hệ thống hóa số liệu, tính các số đặc trưng thực nghiệm và tìm qui luật phân phối thực nghiệm của hiện tượng cần nghiên cứu. §1  TỔNG THỂ VÀ MẪU Tập hợp gồm tất cả các phần tử là đối tượng nghiên cứu của ta gọi là tổng thể. Số phần tử của tổng thể gọi là kích thước của nó. n phần tử lấy ra từ tổng thể được gọi là một mẫu kích thước n. Một mẫu được gọi là mẫu ngẫu nhiên nếu các phần tử của nó được lấy một cách ngẫu nhiên. Ví dụ Khi nghiên cứu về điểm thi đại học khối A năm 2008, thì toàn thể học sinh dự thi khối A năm đó là tổng thể. Số học sinh dự thi năm đó là kích thước của tổng thể. Nếu ở đây ta chọn ra ngẫu nhiên 100 học sinh, thì ta có một mẫu ngẫu nhiên kích thước 100. Mối quan hệ giữa Xác suất và Thống kê Xác suất nghiên cứu tổng thể và nhờ đó mà ta hiểu về mẫu. Còn thống kê nghiên cứu về mẫu và nhờ đó mà ta hiểu về tổng thể. Mẫu có 2 loại: Mẫu định tính là mẫu mà ta quan tâm đến các phần tử của nó có một tính chất A hay không. Một mẫu định tính có dạng Kích thước mẫu: n Số phần tử của mẫu có tính chất A Ví dụ Tiến hành điều tra về sự ưa dùng một loại bột giặt trên 10 hộ gia đình ta có một mẫu định tính. Mẫu định lượng là mẫu mà ta quan tâm đến một yếu tố về lượng của các phần tử trong mẫu. Một mẫu định lượng kích thước n có dạng (x1, x2, …, xn) trong đó xj là giá trị của yếu tố lượng thuộc phần tử thứ j trong mẫu. Ví dụ Giá của mặt hàng A sau Tết tại 8 cửa hiệu (95, 109, 99, 98, 105, 99, 109, 102) là mẫu định lượng Nhận xét Nếu đặt X là yếu tố về lượng của các phần tử trong tổng thể, thì X là bnn. Mẫu (x1, x2, …, xn) chính là một tập con của tập giá trị của X. Ta xét một bộ gồm n bnn (X1, X2, …, Xn) xác định như sau: khi lấy một mẫu (x1, x2, …, xn) thì Xj nhận giá trị xj. Ta gọi (X1, X2, …, Xn) là mẫu ngẫu nhiên tổng quát, (x1, x2, …, xn) là mẫu ngẫu nhiên cụ thể. §2  HỆ THỐNG HÓA SỐ LIỆU TRONG TRƯỜNG HỢP MẪU ĐỊNH LƯỢNG Tổng quát Sắp xếp số liệu thành dãy (x1, x2, …, xn), sao cho x1 ≤ x2 ≤ … ≤ xn. Trường hợp mẫu (x1, x2,…, xn) có ít các xi khác nhau Ta thu gọn mẫu thành bảng phân bố tần số sau X … Tần số n1 n2 … nk trong đó là tất cả các số liệu khác nhau trong mẫu và ni = số các xj trong mẫu mà bằng . Ta có . Từ bảng này ta có bảng phân bố tần suất sau X … Tần suất f1 f2 … fk trong đó . Biểu đồ tần suất hình gậy của X Ví dụ Giá của mặt hàng A sau Tết tại 8 cửa hiệu là (95, 109, 99, 98, 105, 99, 109, 102). Thu gọn mẫu, ta có Giá hàng A 95 98 99 102 105 109 số cửa hàng 1 1 2 1 1 2 Trường hợp mẫu (x1, x2,…, xn) có nhiều các xi khác nhau Ta chọn k khoảng [ai-1; ai) (i = 1,…, k) sao cho chứa tất cả các xj. Ta thu gọn mẫu thành bảng phân bố tần số ghép lớp X a0 - a1 a1- a2 … ak-1- ak Tần số n1 n2 … nk với ai-1 - ai là [ai-1; ai), ni = số các xj thuộc [ai-1; ai). Từ bảng này ta có bảng phân bố tần suất ghép lớp sau X a0 - a1 a1- a2 … ak-1- ak Tần số f1 f2 … fk trong đó fi = ni/n. Ví dụ Đo chiều cao của 36 sinh viên nam của một trường: 160 161 161 162 162 162 163 163 163 164 164 164 164 165 165 165 165 165 166 166 166 166 167 167 168 168 168 168 169 169 170 171 171 172 172 174 Ta có bảng phân bố tần số ghép lớp Chiều cao 159,5-162,5 162,5-165,5 165,5-168,5 168,5- 171,5 171,5-174,5 Tần số 6 12 10 5 3 Biểu đồ tần số hình cột Ta cũng có thể ghép các số liệu trong mẫu vào các đoạn rời nhau Ví dụ Chiều cao [160;162] [163;165] [166;168] [169;171] [172;174] Tần số 6 12 10 5 3 Biểu đồ tần số hình cột Ở mẫu ghép lớp, trong mỗi khoảng thứ i ta chọn một số làm đại diện (Thường lấy là trung điểm của 2 đầu mút của khoảng), ta lại có bảng phân bố tần số như ở trường hợp trên X … Tần số n1 n2 … nk Ví dụ Chiều cao 161 164 167 170 173 Tần số 6 12 10 5 3 Đường gấp khúc tần số Biểu đồ hình quạt rất thích hợp cho việc thể hiện bảng phân bố tần suất ghép lớp Ví dụ Chiều cao [160;162] [163;165] [166;168] [169;171] [172;174] Tần suất (%) 16,7 33,3 27,8 13,9 8,3 §3  CÁC ĐẶC TRƯNG MẪU  Tỉ lệ mẫu Cho mẫu định tính kích thước n, trong đó số phần tử có tính chất A bằng m. Ta gọi số là tỉ lệ mẫu.  Trung bình mẫu và phương sai mẫu Cho mẫu định lượng thu gọn X x1 x2 … xk Tần số n1 n2 … nk Tần suất f1 f2 … fk Trung bình mẫu Phương sai mẫu Có thể chứng minh Phương sai mẫu điều chỉnh Độ lệch mẫu Độ lệch mẫu điều chỉnh Đối với mẫu ngẫu nhiên tổng quát (X1, X2, …, Xn) Trung bình mẫu Phương sai mẫu Phương sai mẫu điều chỉnh Độ lệch mẫu Độ lệch mẫu điều chỉnh Thực hành tính đặc trưng mẫu Đối với mẫu định lượng thu gọn ta lập bảng xi ni xini x1 n1 x1n1 x2 n2 x2n2 … … … … xk nk xknk n Các công thức sau đây cho phép giảm bớt sự cồng kềnh khi tính toán: Với x0 và h 0 tùy ý, ta có các công thức Ta chọn x0 trùng với với xj có nj lớn nhất. Nếu các xj không cách đều, chọn h = 1. Nếu các xj cách đều, chọn h = x2 – x1. xi ni x1 n1 x2 n2 … … … … … xk nk n Cách dùng máy tính CASIO fx – 500MS trong thống kê Đầu tiên, để vào chế độ tính toán thống kê, ta ấn MODE 2 Muốn nhập số liệu từ mẫu (x1, x2, …, xn), ta ấn x1 DT x2 DT … xn DT Muốn nhập số liệu từ mẫu thu gọn X x1 x3 … xk Tần suất n1 n2 … nk ta ấn x1 SHIFT n1 DT x2 SHIFT n2 DT… xk SHIFT nk DT Sau khi nhập xong dữ liệu: Muốn tính , ta ấn SHIFT S-VAR 1 = Muốn tính , ta ấn SHIFT S-VAR 2 = Muốn tính , ta ấn tiếp x 2 = Muốn tính s, ta ấn SHIFT S-VAR 3 = Muốn tính s2, ta ấn tiếp x 2 = Chú ý Muốn chỉnh dữ liệu cũ, ấn hoặc . Tiếp theo: Nếu muốn thay thế dữ liệu đó, ta nhập giá trị mới và ấn , giá trị mới sẽ thay thế giá trị cũ. Nếu muốn xóa dữ liệu đó,ấn SHIFT CL (các dữ liệu còn lại sẽ tự động dồn số thứ tự lại). Chương 5 ƯỚC LƯỢNG THAM SỐ _________________________________________________ §1 ĐẶT VẤN ĐỀ Biết chiều dài một sản phẩm do một xưởng sản xuất ra là bnn X . Hãy ước lượng giá trị của . là một tham số cần ước lượng. Muốn ước lượng nó, ta phải dựa vào mẫu gồm một số sản phẩm do xưởng này sản xuất. Ta có thể ước đoán bởi một giá trị hoặc ước đoán thuộc khoảng (a; b) nào đấy. Trong thống kê, gọi là ước lượng điểm của , còn (a; b) là ước lượng khoảng của . §2 ƯỚC LƯỢNG ĐIỂM Giả sử bnn X đã biết được dạng của quy luật ppxs nhưng chưa biết tham số nào đó. Ta ước đoán bởi một con số * như sau: Ta xây dựng hàm của mẫu ngẫu nhiên tổng quát là . Với mỗi mẫu ngẫu nhiên cụ thể (x1, x2, …, xn), ta lấy làm ước lượng cho . Gọi hay là ước lượng điểm của . Để đánh giá chất lượng * xem “tốt” hay không ta không thể mong muốn nó thật gần bởi vì ta chưa biết . Vì vậy, dưới đây người ta đưa ra các tiêu chuẩn để dựa vào đó kết luận về chất lượng của *.  Ước lượng không chệch (ưlkc) Gọi là ước lượng không chệch của , nếu = , Ngược lại, nếu thì gọi là ước lượng chệch của .  Ước lượng hiệu quả (ưlhq) Gọi là ước lượng hiệu quả của , nếu nó là ưlkc của và nhỏ nhất so với phương sai của mọi ưlkc khác của .  Ước lượng vững (ưlv) Gọi là ước lượng vững của , nếu Ý nghĩa của công thức này Hầu như chắc chắn sai khác không nhiều miễn là n đủ lớn. Các kết quả về ước lượng điểm là ưlkc, ưlhq, ưlv của E(X). , là ưlkc, ưlv của D(X). là ưlkc, ưlhq, ưlv của P(A). , là ước lượng chệch của D(X). §3 ƯỚC LƯỢNG KHOẢNG Phương pháp ước lượng điểm có nhược điểm là khi kích thước mẫu nhỏ thì ước lượng điểm tìm được có thể sai lệch rất nhiều so với tham số cần ước lượng. Ngoài ra không thể đánh giá được khả năng mắc sai lầm khi ước lượng. Để khắc phục các nhược điểm này, ta thường dùng phương pháp ước lượng bằng khoảng tin cậy. Giả sử bnn X đã biết được dạng của quy luật ppxs nhưng chưa biết tham số nào đó. Ta đi tìm một khoảng để nó chứa với xác suất bằng như sau: Ta xây dựng như là các hàm của mẫu ngẫu nhiên tổng quát và . sao cho . Khi ấy ta gọi . là ước lượng khoảng (hay khoảng tin cậy của ), còn là độ tin cậy của ước lượng này. Số đo khả năng để rơi vào khoảng này, nên người ta thường chọn nó gần 1. Chú ý Với một mẫu ngẫu nhiên cụ thể (x1, x2, …, xn), ta cũng gọi là ước lượng khoảng (hay khoảng tin cậy) của . I – Tìm khoảng tin cậy cho kỳ vọng a) Trường hợp X Nếu đã biết, ta dùng công thức trong đó n = kích thước mẫu, còn , , . Như vậy, khoảng tin cậy của X với độ tin cậy là Đặc biệt:  Nếu chọn , thì ta có khoảng tin cậy đối xứng là .  Nếu chọn , thì ta có khoảng tin cậy bên phải là .  Nếu chọn , thì ta có khoảng tin cậy bên trái là . Nếu chưa biết, ta dùng công thức trong đó , n = kích thước mẫu.