Có thể nghiên cứu dân số theo các dấu hiệu
Tuổi Trình độ văn hóa
Địa bàn cư trú Nghề nghiệp
Tuổi và trình độ văn hóa được biểu thị bởi con số nên
thuộc về dấu hiệu định lượng.
Địa bàn cư trú và nghề nghiệp thuộc về dấu hiệu định
tính.
58 trang |
Chia sẻ: haohao89 | Lượt xem: 6785 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Bài giảng Xác suất và thống kê chương 4: Thống kê mô tả, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
TRẦN AN HẢI
TUẦN 5
HÀ NỘI - 2009
Chương 4
THỐNG KÊ MÔ TẢ
Thống kê là gì
Có thể nghiên cứu dân số theo các dấu hiệu
Tuổi Trình độ văn hóa
Địa bàn cư trú Nghề nghiệp
Tuổi và trình độ văn hóa được biểu thị bởi con số nên
thuộc về dấu hiệu định lượng.
Địa bàn cư trú và nghề nghiệp thuộc về dấu hiệu định
tính.
Việc nghiên cứu này có thể làm theo kiểu tổng điều tra
dân số và phân tích từng người theo các dấu hiệu trên, từ
đó tổng hợp thành dấu hiệu chung cho toàn bộ dân số
nước đó.
Làm như vậy có nhiều khó khăn như: đòi hỏi nhiều chi
phí vật chất và thời gian, điều tra có thể bị lặp hoặc sót,
…
Người ta thường dùng phương pháp nghiên cứu như sau:
Chọn ngẫu nhiên ra một số người (gọi là lấy mẫu) rồi
điều tra và xử lí số liệu bằng phương pháp xác suất để từ
đó suy ra những kết luận về các dấu hiệu. Làm như vậy
có ưu điểm: Thu được các kết luận một cách nhanh
chóng, đỡ tốn kém mà vẫn đảm bảo được độ chính xác
cần thiết.
Cơ sở của phương pháp này là khoa học Thống kê.
Thống kê là khoa học về các phương pháp thu thập, tổ
chức, trình bày, phân tích và xử lí số liệu. Nó biến những
con số khô khan câm lặng trong dữ liệu thu thập thành
những con số biết nói. Trên cơ sở này, chúng ta mới có thể
đưa ra được những dự báo và quyết định đúng đắn. Vì thế,
thống kê cần thiết cho mọi lực lượng lao động, đặc biệt rất
cần cho các nhà quản lí, hoạch định chính sách.
Năm 1920, nhà văn người Anh, H.G.Wells đã dự báo:
“Trong một tương lai không xa, kiến thức thống kê và tư
duy thống kê sẽ trở thành một yếu tố không thể thiếu
được trong học vấn phổ thông của mỗi công dân, giống
như là khả năng biết đọc, biết viết vậy”.
Năm 1973, khi tổng kết về công tác cải cách giáo dục,
UNESCO đã khẳng định rằng Xác suất – Thống kê là
một trong 9 quan điểm chủ chốt để xây dựng học vấn
trong thời đại ngày nay.
Ngày nay Thống kê đã được ứng dụng rộng rãi trong
hầu hết các hoạt động của con người, từ khoa học tự
nhiên, kinh tế, nông nghiệp, y học cho tới các khoa
học xã hội và nhân văn.
Thống kê mô tả là bước đầu tiên của Thống kê, có
mục đích thu thập và hệ thống hóa số liệu, tính các số
đặc trưng thực nghiệm và tìm qui luật phân phối thực
nghiệm của hiện tượng cần nghiên cứu.
§1 TỔNG THỂ VÀ MẪU
Tập hợp gồm tất cả các phần tử là đối tượng nghiên
cứu của ta gọi là tổng thể.
Số phần tử của tổng thể gọi là kích thước của nó. n
phần tử lấy ra từ tổng thể được gọi là một mẫu kích
thước n.
Một mẫu được gọi là mẫu ngẫu nhiên nếu các phần
tử của nó được lấy một cách ngẫu nhiên.
Ví dụ
Khi nghiên cứu về điểm thi đại học khối A năm 2008,
thì toàn thể học sinh dự thi khối A năm đó là tổng thể.
Số học sinh dự thi năm đó là kích thước của tổng thể.
Nếu ở đây ta chọn ra ngẫu nhiên 100 học sinh, thì ta có
một mẫu ngẫu nhiên kích thước 100.
Mối quan hệ giữa Xác suất và Thống kê
Xác suất nghiên cứu tổng thể và nhờ đó mà ta hiểu về
mẫu. Còn thống kê nghiên cứu về mẫu và nhờ đó mà
ta hiểu về tổng thể.
Mẫu có 2 loại:
Mẫu định tính là mẫu mà ta quan tâm đến các phần
tử của nó có một tính chất A hay không.
Một mẫu định tính có dạng
Kích thước mẫu: n
Số phần tử của mẫu có tính chất A
Ví dụ
Tiến hành điều tra về sự ưa dùng một loại bột giặt trên
10 hộ gia đình ta có một mẫu định tính.
Mẫu định lượng là mẫu mà ta quan tâm đến một
yếu tố về lượng của các phần tử trong mẫu.
Một mẫu định lượng kích thước n có dạng
(x1, x2, …, xn)
trong đó xj là giá trị của yếu tố lượng thuộc phần tử thứ
j trong mẫu.
Ví dụ
Giá của mặt hàng A sau Tết tại 8 cửa hiệu
(95, 109, 99, 98, 105, 99, 109, 102)
là mẫu định lượng
Nhận xét
Nếu đặt X là yếu tố về lượng của các phần tử trong tổng
thể, thì X là bnn. Mẫu (x1, x2, …, xn) chính là một tập
con của tập giá trị của X.
Ta xét một bộ gồm n bnn (X1, X2, …, Xn) xác định như
sau: khi lấy một mẫu (x1, x2, …, xn) thì Xj nhận giá trị xj.
Ta gọi
(X1, X2, …, Xn) là mẫu ngẫu nhiên tổng quát,
(x1, x2, …, xn) là mẫu ngẫu nhiên cụ thể.
§2 HỆ THỐNG HÓA SỐ LIỆU TRONG
TRƯỜNG HỢP MẪU ĐỊNH LƯỢNG
Tổng quát
Sắp xếp số liệu thành dãy
(x1, x2, …, xn),
sao cho x1 ≤ x2 ≤ … ≤ xn.
Trường hợp mẫu (x1, x2,…, xn) có ít các xi
khác nhau
Ta thu gọn mẫu thành bảng phân bố tần số sau
X …
Tần số n1 n2 … nk
trong đó là tất cả các số liệu khác nhau trong mẫu và
ni = số các xj trong mẫu mà bằng .
Ta có .
Từ bảng này ta có bảng phân bố tần suất sau
X …
Tần suất f1 f2 … fk
trong đó .
Biểu đồ tần suất hình gậy của X
Ví dụ
Giá của mặt hàng A sau Tết tại 8 cửa hiệu là
(95, 109, 99, 98, 105, 99, 109, 102).
Thu gọn mẫu, ta có
Giá hàng A 95 98 99 102 105 109
số cửa hàng 1 1 2 1 1 2
Trường hợp mẫu (x1, x2,…, xn) có nhiều các xi
khác nhau
Ta chọn k khoảng [ai-1; ai) (i = 1,…, k) sao cho
chứa tất cả các xj.
Ta thu gọn mẫu thành bảng phân bố tần số ghép lớp
X a0 - a1 a1- a2 … ak-1- ak
Tần số n1 n2 … nk
với ai-1 - ai là [ai-1; ai), ni = số các xj thuộc [ai-1; ai).
Từ bảng này ta có bảng phân bố tần suất ghép lớp sau
X a0 - a1 a1- a2 … ak-1- ak
Tần số f1 f2 … fk
trong đó fi = ni/n.
Ví dụ
Đo chiều cao của 36 sinh viên nam của một trường:
160 161 161 162 162 162 163 163 163
164 164 164 164 165 165 165 165 165
166 166 166 166 167 167 168 168 168
168 169 169 170 171 171 172 172 174
Ta có bảng phân bố tần số ghép lớp
Chiều
cao
159,5-162,5 162,5-165,5 165,5-168,5 168,5- 171,5 171,5-174,5
Tần số 6 12 10 5 3
Biểu đồ tần số hình cột
Ta cũng có thể ghép các số liệu trong mẫu vào các đoạn
rời nhau
Ví dụ
Chiều cao [160;162] [163;165] [166;168] [169;171] [172;174]
Tần số 6 12 10 5 3
Biểu đồ tần số hình cột
Ở mẫu ghép lớp, trong mỗi khoảng thứ i ta chọn một số
làm đại diện (Thường lấy là trung điểm của 2 đầu
mút của khoảng), ta lại có bảng phân bố tần số như ở
trường hợp trên
X …
Tần số n1 n2 … nk
Ví dụ
Chiều cao 161 164 167 170 173
Tần số 6 12 10 5 3
Đường gấp khúc tần số
Biểu đồ hình quạt rất thích hợp cho việc thể hiện bảng
phân bố tần suất ghép lớp
Ví dụ
Chiều cao [160;162] [163;165] [166;168] [169;171] [172;174]
Tần suất
(%)
16,7 33,3 27,8 13,9 8,3
§3 CÁC ĐẶC TRƯNG MẪU
Tỉ lệ mẫu
Cho mẫu định tính kích thước n, trong đó số phần tử có
tính chất A bằng m. Ta gọi số
là tỉ lệ mẫu.
Trung bình mẫu và phương sai mẫu
Cho mẫu định lượng thu gọn
X x1 x2 … xk
Tần số n1 n2 … nk
Tần suất f1 f2 … fk
Trung bình mẫu
Phương sai mẫu
Có thể chứng minh
Phương sai mẫu điều chỉnh
Độ lệch mẫu
Độ lệch mẫu điều chỉnh
Đối với mẫu ngẫu nhiên tổng quát (X1, X2, …, Xn)
Trung bình mẫu
Phương sai mẫu
Phương sai mẫu điều chỉnh
Độ lệch mẫu
Độ lệch mẫu điều chỉnh
Thực hành tính đặc trưng mẫu
Đối với mẫu định lượng thu gọn ta lập bảng
xi ni xini
x1 n1 x1n1
x2 n2 x2n2
… … … …
xk nk xknk
n
Các công thức sau đây cho phép giảm bớt sự cồng kềnh khi
tính toán:
Với x0 và h 0 tùy ý, ta có các công thức
Ta chọn x0 trùng với với xj có nj lớn nhất.
Nếu các xj không cách đều, chọn h = 1. Nếu các xj cách
đều, chọn h = x2 – x1.
xi ni
x1 n1
x2 n2
… … … … …
xk nk
n
Cách dùng máy tính CASIO fx – 500MS trong thống kê
Đầu tiên, để vào chế độ tính toán thống kê, ta ấn
MODE 2
Muốn nhập số liệu từ mẫu (x1, x2, …, xn), ta ấn
x1 DT x2 DT … xn DT
Muốn nhập số liệu từ mẫu thu gọn
X x1 x3 … xk
Tần suất n1 n2 … nk
ta ấn
x1 SHIFT n1 DT x2 SHIFT n2 DT… xk SHIFT nk DT
Sau khi nhập xong dữ liệu:
Muốn tính , ta ấn
SHIFT S-VAR 1 =
Muốn tính , ta ấn
SHIFT S-VAR 2 =
Muốn tính , ta ấn tiếp
x
2
=
Muốn tính s, ta ấn
SHIFT S-VAR 3 =
Muốn tính s2, ta ấn tiếp
x
2
=
Chú ý
Muốn chỉnh dữ liệu cũ, ấn hoặc . Tiếp theo:
Nếu muốn thay thế dữ liệu đó, ta nhập giá trị mới và
ấn , giá trị mới sẽ thay thế giá trị cũ.
Nếu muốn xóa dữ liệu đó,ấn SHIFT CL (các dữ liệu
còn lại sẽ tự động dồn số thứ tự lại).
Chương 5
ƯỚC LƯỢNG THAM SỐ
_________________________________________________
§1 ĐẶT VẤN ĐỀ
Biết chiều dài một sản phẩm do một xưởng sản xuất ra là
bnn X . Hãy ước lượng giá trị của .
là một tham số cần ước lượng. Muốn ước lượng nó, ta
phải dựa vào mẫu gồm một số sản phẩm do xưởng này
sản xuất. Ta có thể ước đoán bởi một giá trị hoặc
ước đoán thuộc khoảng (a; b) nào đấy.
Trong thống kê, gọi là ước lượng điểm của , còn
(a; b) là ước lượng khoảng của .
§2 ƯỚC LƯỢNG ĐIỂM
Giả sử bnn X đã biết được dạng của quy luật ppxs nhưng
chưa biết tham số nào đó. Ta ước đoán bởi một con
số * như sau: Ta xây dựng hàm của mẫu ngẫu nhiên
tổng quát là
.
Với mỗi mẫu ngẫu nhiên cụ thể (x1, x2, …, xn), ta lấy
làm ước lượng cho .
Gọi
hay
là ước lượng điểm của .
Để đánh giá chất lượng * xem “tốt” hay không ta không
thể mong muốn nó thật gần bởi vì ta chưa biết . Vì
vậy, dưới đây người ta đưa ra các tiêu chuẩn để dựa vào
đó kết luận về chất lượng của *.
Ước lượng không chệch (ưlkc)
Gọi là ước lượng không chệch
của , nếu
= ,
Ngược lại, nếu
thì gọi là ước lượng chệch của .
Ước lượng hiệu quả (ưlhq)
Gọi là ước lượng hiệu quả của ,
nếu nó là ưlkc của và nhỏ
nhất so với phương sai của mọi ưlkc khác của .
Ước lượng vững (ưlv)
Gọi là ước lượng vững của , nếu
Ý nghĩa của công thức này
Hầu như chắc chắn sai khác
không nhiều miễn là n đủ lớn.
Các kết quả về ước lượng điểm
là ưlkc, ưlhq, ưlv của E(X).
, là ưlkc, ưlv của D(X).
là ưlkc, ưlhq, ưlv của P(A).
, là ước lượng chệch của D(X).
§3 ƯỚC LƯỢNG KHOẢNG
Phương pháp ước lượng điểm có nhược điểm là khi kích
thước mẫu nhỏ thì ước lượng điểm tìm được có thể sai
lệch rất nhiều so với tham số cần ước lượng. Ngoài ra
không thể đánh giá được khả năng mắc sai lầm khi ước
lượng. Để khắc phục các nhược điểm này, ta thường
dùng phương pháp ước lượng bằng khoảng tin cậy.
Giả sử bnn X đã biết được dạng của quy luật ppxs nhưng
chưa biết tham số nào đó. Ta đi tìm một khoảng
để nó chứa với xác suất bằng như sau: Ta
xây dựng như là các hàm của mẫu ngẫu nhiên tổng
quát
và .
sao cho
.
Khi ấy ta gọi
.
là ước lượng khoảng (hay khoảng tin cậy của ), còn
là độ tin cậy của ước lượng này. Số đo khả năng để
rơi vào khoảng này, nên người ta thường chọn nó gần 1.
Chú ý
Với một mẫu ngẫu nhiên cụ thể (x1, x2, …, xn), ta cũng
gọi
là ước lượng khoảng (hay khoảng tin cậy) của .
I – Tìm khoảng tin cậy cho kỳ vọng
a) Trường hợp X
Nếu đã biết, ta dùng công thức
trong đó n = kích thước mẫu, còn ,
, .
Như vậy, khoảng tin cậy của X với độ tin cậy là
Đặc biệt:
Nếu chọn , thì ta có khoảng tin
cậy đối xứng là
.
Nếu chọn , thì ta có khoảng tin cậy bên
phải là
.
Nếu chọn , thì ta có khoảng tin cậy bên
trái là
.
Nếu chưa biết, ta dùng công thức
trong đó , n = kích thước mẫu.