Giáo trình Nội bộ xác suất thống kê - Phần 2: Thống kê toán

Chương 3 Cơ sở lý thuyết mẫu Quá trình nghiên cứu thống kê gốm các giai đoạn: thu thập số liệu, xử lý tổng hợp và thân tích, dự báo, Trung thu thập số liệu thường áp dụng hai hình thức chủ yếu: bảo cho thống kê định kỳ và điều tra thống kê, Chương này nhằm giới thiệu một số vấn đề cần quan tâm khi bắt đầu làm một bài toán thống kê, đó là giai đoạn thu thập và xử lý số liệu, 3.1 Tổng thể và mẫu 3.1.1 Tổng thể và kích thước của tổng thể Định nghĩa 3, 1.1. Txn bộ tập hợp các phần tử đồng nhất theo một dấu hiệu nghiên cứu định tỉnh lộc định lượng nào đó được gọi là tổng thể nghiên cứu (poỊNH ca ion) (hay tổng thể loẬT tập chỉnh), Số lượng các cá thể hay các phần tử) của tổng thể được gọi là k ck thước của tổng thể ( size of Pew w io), thường được kí hiệu là N. Với Tổi tống thể ta không nghiên cứu trực tiếp tổng thể đó là thông qua một hay nhiều dấu hiệu đặc trưng cho tổng thể đó, được gọi là dấu hiệu nghiên cứu. Các dấu hiệu này có thể là định tính hoặc định lượng (ta cũng có thể gọi là biến định tính hoặc biến định lượng). Chẳng hạn, để nghiên cứu chiều dài bông lúa của một giống lúa nào đó thì dấu hiệu nghiên cứu ở đây Ting tỉnh định lượng chính là chiều dài bông; khi nghiên cứu một loại bệnh mới xuất hiện trên gia cầm tại đồng bằng Bắc Bộ thì đặc tính mà ta quan tâm đến ở đây là đặc tính mang tính định tính, xét mỗi cá thể gia cầm trong tổng thể thì có hoặc không có loại bệnh mà tai quan tâm.

pdf77 trang | Chia sẻ: thanhle95 | Lượt xem: 274 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Giáo trình Nội bộ xác suất thống kê - Phần 2: Thống kê toán, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
70 Phần 2. Thống kê toán Thống kê toán họ ra đời gắn liền với nhu ầu thự tiễn ủa tự nhiên - xã hội và ó lị h sử phát triển lâu đời nhất. Nội dung hính ủa thống kê toán là xây dựng á phương pháp thu thập, sắp xếp và xử lý số liệu thống kê (số liệu thống kê ở đây ó thể là những đặ tính định tính hoặ những đặ tính định lượng). Thông qua việ phát hiện, phản ánh những quy luật về mặt lượng ủa á hiện tượng, á on số thống kê giúp ho việ kiểm tra, đánh giá á hiện tượng tự nhiên, á vấn đề kinh tế ũng như á vấn đề xã hội. Từ đó đưa ra những quyết định, dự báo và hoạ h định hiến lượ phát triển ủa á sự vật, hiện tượng đượ nghiên ứu. Phần thống kê toán sẽ giới thiệu những kiến thứ ơ bản nhất về một số bài toán quan trọng trong thống kê bài toán ướ lượng tham số, bài toán kiểm định giả thuyết thống kê và bài toán tương quan hồi quy. Chương 3 Cơ sở lý thuyết mẫu Quá trình nghiên ứu thống kê gồm á giai đoạn: thu thập số liệu, xử lý tổng hợp và phân tí h, dự báo. Trong thu thập số liệu thường áp dng hai hình thứ hủ yếu: báo áo thống kê định kỳ và điều tra thống kê. Chương này nhằm giới thiệu một số vấn đề ần quan tâm khi bắt đầu làm một bài toán thống kê, đó là giai đoạn thu thập và xử lý số liệu. 3.1 Tổng thể và mẫu 3.1.1 Tổng thể và kí h thướ ủa tổng thể Định nghĩa 3.1.1. Toàn bộ tập hợp á phần tử đồng nhất theo một dấu hiệu nghiên ứu định tính hoặ định lượng nào đó đượ gọi là tổng thể nghiên ứu (population) (hay tổng thể hoặ tập hính). Số lượng á á thể (hay á phần tử) ủa tổng thể đượ gọi là kí h thướ ủa tổng thể (size of population), thường đượ kí hiệu là N . Với mỗi tổng thể ta không nghiên ứu trự tiếp tổng thể đó mà thông qua một hay nhiều dấu hiệu đặ trưng ho tổng thể đó, đượ gọi là dấu hiệu nghiên ứu. Cá dấu hiệu này ó thể là định tính hoặ định lượng (ta ũng ó thể gọi là biến định tính hoặ biến định lượng). Chẳng hạn, để nghiên ứu hiều dài bông lúa ủa một giống lúa nào đó thì dấu hiệu nghiên ứu ở đây mang tính định lượng hính là hiều dài bông; khi nghiên ứu một loại bệnh mới xuất hiện trên gia ầm tại đồng bằng Bắ Bộ thì đặ tính mà ta quan tâm đến ở đây là đặ tính mang tính định tính, xt mỗi á thể gia ầm trong tổng thể thì ó hoặ không ó loại bệnh mà ta quan tâm. 3.1.2 Mẫu và phương pháp họn mẫu Định nghĩa 3.1.2. Một tập hợp á á thể đượ lấy ra từ tổng thể đượ gọi là mẫu (sample). Số lượng á thể trong một mẫu gọi là kí h thướ mẫu (size of sample), thường kí hiệu là n. Chú ý rằng kí h thướ ủa mẫu thường nhỏ hơn rất nhiều so với kí h thướ tổng thể. Từ tổng thể đã ho ta ó thể lấy ra nhiều mẫu khá nhau với ùng một kí h thướ n. Tập hợp tất 71 72 ả á mẫu ó thể lấy ra đượ từ tổng thể đượ gọi là không gian mẫu (sample spa e). Thay vì nghiên ứu tất ả á á thể ó mặt trong tổng thể ta huyển sang nghiên ứu một bộ phận ủa tổng thể là mẫu vì vậy mẫu phải đại diện một á h khá h quan nhất ho tổng thể. Ta quan tâm đến á phương pháp lấy mẫu sau đây: a) Lấy mẫu ngẫu nhiên không hoàn lại: Đó là phương pháp lấy mẫu bằng á h đánh số á á thể trong tổng thể từ 1 đến N . Rút ngẫu nhiên lần lượt n á thể đưa vào mẫu theo một trong hai á h sau. - Mẫu ngẫu nhiên đơn giản: Từ tổng thể kí h thướ N người ta dùng á h rút thăm đơn giản ra n phần tử ủa mẫu theo một bảng số ngẫu nhiên nào đó. u điểm ủa phương pháp này là ho php thu đượ một mẫu ó tính đại diện ao, ho php suy rộng á kết quả ủa mẫu ho tổng thể với một sai số xá định. Nhượ điểm ủa phương pháp này là phải ó đượ toàn bộ danh sá h ủa tổng thể nghiên ứu, mặt khá hi phí họn mẫu khá lớn. -Mẫu ngẫu nhiên hệ thống: Là loại mẫu ngẫu nhiên đã đượ đơn giản hoá trong á h họn, trong đó hỉ ó phần tử đầu tiên đượ họn một á h ngẫu nhiên, sau đó dựa trên danh sá h đã đượ đánh số ủa tổng thể để họn ra á phần tử tiếp theo vào mẫu theo một thủ t nào đó. Nhượ điểm ủa phương pháp này là dễ mắ sai số hệ thống khi danh sá h ủa tổng thể không đượ sắp xếp một á h ngẫu nhiên mà lại theo một trật tự hủ quan nào đó. b) Lấy mẫu ngẫu nhiên ó hoàn lại: Đánh số á á thể trong tổng thể từ 1 đến N . Rút ngẫu nhiên từ tổng thể ra 1 á thể, ghi đặ tính ủa á thể này rồi trả á thể đó về tổng thể, đặ tính vừa ghi lại đượ oi là phần tử đầu tiên ủa mẫu. Việ xá định á phần tử tiếp theo ủa mẫu ũng đượ làm tương tự như trên. Từ phương pháp lấy mẫu ngẫu nhiên ó hoàn lại ta thấy xá suất để mỗi á thể ó mặt trong mẫu đều là 1/N . Mỗi á thể ó thể ó mặt nhiều lần trong mẫu. Dễ thấy, với kí h thướ n, số lượng á mẫu trong trường hợp lấy mẫu không hoàn lại là AnN , số lượng á mẫu trong trường hợp lấy ó hoàn lại là A n N = N n . Khi N lớn hơn rất nhiều so với n thì AnN ≈ Nn, khi đó việ lấy mẫu hoàn lại và không hoàn lại ho ta á kết quả sai lệ h không đáng kể. ) Lấy mẫu theo á lớp: Chia tổng thể ra làm k lớp. Rồi từ mỗi lớp lấy ngẫu nhiên ra một số á thể đưa vào mẫu. Nếu số lượng á á thể ở lớp thứ i là Ni thì số á thể đượ họn vào mẫu ủa lớp này là ni nên thỏa mãn điều kiện ni n ≈ Ni N . d) Lấy mẫu theo hu kì: Trong việ kiểm tra hất lượng sản phẩm ông nghiệp đượ sản xuất theo dây huyền, việ lấy mẫu ngẫu nhiên sẽ gặp khó khăn và tốn km. Phương pháp lấy mẫu theo hu kỳ tỏ ra ó hiệu quả trong nền sản xuất ông nghiệp hiện đại. Cứ sau một hu kỳ gồm T sản phẩm lấy ra một sản phẩm để đưa vào mẫu. Để tránh sự trùng lặp ủa hu kỳ sản xuất ra á sản phẩm tốt, xấu ủa dây huyền với hu kỳ lấy mẫu, ta ó thể thay đổi hu kỳ T trong á đợt lấy mẫu khá nhau với m đí h mẫu phải đại diện một á h khá h quan nhất ho tổng thể. 73 Cá phương pháp lấy mẫu trên là á phương pháp phổ biến trong việ thu thập á dữ liệu. Việ lấy mẫu tốt, xấu theo nghĩa ó khá h quan hay không ảnh hưởng rất lớn đến việ đưa ra kết luận ó hính xá hay không về á đặ tính ó mặt trong tổng thể. Chú ý 3.1.3. Từ kết quả tập mẫu ó đượ ta ó thể suy ra á kết quả ho tổng thể bởi vậy bao giờ ũng ó thể mắ phải sai lầm nhất định. Độ sai lệ h lớn hay b ph thuộ vào phương pháp xây dựng mẫu và kí h thướ mẫu. Độ hính xá trong thống kê thường đượ gọi là độ tin ậy (degree of onfiden e) ủa kết luận, kí hiệu là γ. Nếu gọi α là tỉ lệ sai sót (hay mứ ý nghĩa) ủa kết luận thì α = 1− γ. 3.1.3 Mẫu ngẫu nhiên Sau đây, mẫu đượ hiểu là mẫu ó lặp lại và đượ lấy theo phương pháp ngẫu nhiên đơn giản. Giả sử đặ trưng biến X ở mỗi á thể ở tổng thể là một biến ngẫu nhiên, òn đượ gọi là biến ngẫu nhiên gố , ó hàm phân phối xá suất F (x). Ta tiến hành một php lấy mẫu ngẫu nhiên ó kí h thướ n. Gọi Xi là biến ngẫu nhiên hỉ giá trị X ủa á thể thứ i trong mẫu, ta thấy á Xi là á biến ngẫu nhiên ó ùng phân phối xá suất với X . Với mỗi mẫu  thể Xi sẽ ó giá trị xá định là xi. Do việ lấy mẫu độ lập nên dãy X1, X2, . . . , Xn là á biến ngẫu nhiên độ lập. Định nghĩa 3.1.4. Mẫu ngẫu nhiên (random sample) kí h thướ n là tập hợp ủa n biến ngẫu nhiên độ lập X1, X2, . . . , Xn đượ thành lập từ biến ngẫu nhiên X và ó ùng quy luật phân phối xá suất với X , ký hiệu là W = (X1, X2, . . . , Xn). Giả sử X1 nhận giá trị x1, X2 nhận giá trị x2, . . . , Xn nhận giá trị xn. Tập hợp n giá trị x1, x2, . . . , xn tạo thành một giá trị ủa mẫu ngẫu nhiên, hay òn gọi là mẫu  thể, ký hiệu w = (x1, x2, . . . , xn). Ví d 3.1.5. Xt tổng thể là tập sinh viên Việt Nam, biến ngẫu nhiên gố X là hiều ao ủa mỗi sinh viên. Xt một mẫu ó kí h thướ n = 10, gọi Xi là hiều ao ủa sinh viên thứ i trong mẫu, khi đóW = (X1, X2, . . . , X10) là một mẫu ngẫu nhiên. Thự hiện một php thử đối với mẫu ngẫu nhiên trên, tứ là tiến hành đo hiều ao ủa 10 sinh viên họn vào mẫu ta thu đượ mẫu  thể x1 = 1, 50; x2 = 1, 52; x3 = 1, 60; x4 = 1, 65; x5 = 1, 70; x6 = 1, 81; x7 = 1, 63; x8 = 1, 77; x9 = 1, 55, x10 = 1, 58 (đơn vị là mt), bộ số (1, 50; 1, 52; 1, 60; 1, 65; 1, 70; 1, 81; 1, 63; 1, 77; 1, 55; 1, 58) là một mẫu  thể (hay một thể hiện) ủa mẫu ngẫu nhiên (X1, X2, . . . , X10). Chú ý 3.1.6. Với á h xây dựngmẫu ngẫu nhiên như trên thì á biến ngẫu nhiênX1, X2, . . . , Xn ủa mẫu không những ó ùng dạng phân phối xá suất với biến ngẫu nhiên gố X , tứ là ó 74 ùng hàm phân phối xá suất F (x) mà á tham số đặ trưng ủa húng ũng bằng á tham số đặ trưng ủa X , tứ là: E(X1) = E(X2) = ã ã ã = E(Xn) = E(X) (3.1) V (X1) = V (X2) = ã ã ã = V (Xn) = V (X) (3.2) 3.2 Cá phương pháp mô tả mẫu ngẫu nhiên 3.2.1 Sắp xếp số liệu thự nghiệm Để khai thá và xử lý á thông tin hứa đựng trong dãy số liệu này ta ần sắp xếp số liệu nhằm nhận ra á đặ trưng ủa dãy số liệu đó. Thông thường ta sắp xếp số liệu theo thứ tự tăng dần. Dãy số liệu này ưu điểm hơn dãy số liệu ban đầu, ta ó thể dễ dàng nhận biết giá trị nhỏ nhất và giá trị lớn nhất ủa á số liệu mẫu, biết đượ biên độ dao động ủa á số liệu mẫu. Với á h sắp xếp này ta dễ dàng nhận biết á số liệu ó mặt trong mẫu một lần vì á số liệu bằng nhau đượ xếp liền nhau. Một số phương pháp thường đượ dùng để sắp xếp số liệu như sau. a) Phương pháp liệt kê. Liệt kê tất ả á phần tử ủa mẫu. Chẳng hạn, với một mẫu ỡ n, ta ó thể viết x1 = 2, 5; x2 = 2, 6; . . . , xn = 3, 0. Nhượ điểm ủa á h sắp xếp này là không mô tả đượ mẫu ỡ lớn, tính toán phứ tạp, không khoa họ . b) Phương pháp dùng bảng tần số và bảng tần suất. Giả sử từ tổng thể ủa biến ngẫu nhiên gố X rút ra một mẫu ngẫu nhiên kí h thướ n, trong đó giá trị x1 xuất hiện với tần số n1, giá trị x2 xuất hiện với tần số n2, . . . , giá trị xk xuất hiện với tần số nk, lú đó sau khi á xi đã đượ sắp xếp theo trình tự tăng dần giá trị  thể ủa mẫu, ta ó thể mô tả mẫu  thể bằng bảng phân phối tần số thự nghiệm sau. xi x1 x2 . . . xi . . . xk ni n1 n2 . . . ni . . . nk với n1 + n2 + . . .+ nk = n. Dòng trên ghi á giá trị ó thể ó ủa mẫu theo thứ tự tăng dần, dòng dưới ghi tần số tương ứng. Tần số mẫu là số á thể ó đặ tính X = xi trong mẫu. Bảng tần số ho ta nhiều thông tin hơn dãy số liệu đượ sắp xếp theo thứ tự tăng dần. Ngoài những thông tin ó đượ như dãy số liệu sắp xếp theo thứ tự tăng dần, qua bảng tần số ta ó thể biết đượ số liệu nào ó mặt nhiều nhất, số liệu nào ó mặt ít nhất trong mẫu. Gọi fi = ni n , (i = 1, . . . , k) là tần suất ủa á thể ó đặ tính xi trong mẫu, ta ó bảng phân phối tần suất thự nghiệm như sau xi x1 x2 . . . xi . . . xk fi f1 f2 . . . fi . . . fk 75 với f1 + f2 + . . . + fk = 1. Ngoài những thông tin ó đượ như bảng tần số mẫu, ta òn biết đượ tỷ lệ phần trăm đóng góp ủa số liệu mẫu. Ví d 3.2.1. Gặt ngẫu nhiên 100 điểm trồng lúa ủa một vùng, ta thu đượ á số liệu đượ sắp xếp thành bảng sau: Năng suất(tạ/ha) 21 24 25 26 28 32 34 Số điểm gặt tương ứng 10 20 30 15 10 10 5 Bảng phân phối tần suất thự nghiệm: xi 21 24 25 26 28 32 34 fi 0, 1 0, 2 0, 3 0, 15 0, 1 0, 1 0, 05 Những phương pháp trên ó ưu điểm là mô tả đượ mẫu ỡ lớn, nhưng nhượ điểm là khó mô tả đượ mẫu liên t . Khi kí h thướ mẫu lớn và đặ tính định lượng ủa tổng thể là một biến ngẫu nhiên liên t thì người ta thường dùng phương pháp sau. ) Phương pháp phân khoảng. Phân hia số liệu theo lớp với ùng một độ rộng để thuận tiện ho việ phân tí h và xử lý số liệu. Giả sử xmin là giá trị nhỏ nhất, xmax là giá trị lớn nhất ủa số liệu. Chia khoảng (xmin, xmax) thành k khoảng á h đều nhau với độ rộng ủa mỗi khoảng là h = xmax − xmin k , Người ta hứng minh đượ rằng số khoảng đượ họn tối ưu theo ông thứ : k = 1+3, 322 lgn. Ta ó bảng sau (gọi là bảng ghp lớp) Khoảng x0 − x1 x1 − x2 . . . xk−1 − xk Tần số dữ liệu trong khoảng n1 n2 . . . nk trong đó ni là số á thể ó đặ tính X thỏa mãn xi−1 6 X 6 xi, i = 1, 2, . . . , n ó trong mẫu. Phương pháp này ó ưu điểm là mô tả đượ mọi dữ liệu, khoảng àng dầy thì àng hính xá , tính toán trên máy tính thuận lợi. Ví d 3.2.2. Tiến hành đo ngẫu nhiên 100 ây bạ h đàn trồng trong một khu rừng tái sinh sau 10 năm, ta thu đượ á số liệu đượ sắp xếp thành bảng sau: Chiều ao (m) 3, 5− 4, 5 4, 5− 5, 0 5, 0− 5, 5 5, 5− 6, 0 6, 0− 6, 5 Số ây 10 20 30 25 15 3.2.2 Hàm phân phối thự nghiệm ủa mẫu Cho mẫu ngẫu nhiên (X1, X2, . . . , Xn) lấy từ biến ngẫu nhiên X ó hàm phân phối F (x); ở đây F (x) hưa biết nên ta ăn ứ vào mẫu để tìm một hàm số nào đó gần với F (x). 76 Định nghĩa 3.2.3. Hàm phân phối thự nghiệm ủa mẫu (hay hàm phân phối mẫu) ủa biến ngẫu nhiên X , kí hiệu là Fn(x), là một hàm số theo biến số thự x và đượ xá định như sau: Fn(x) = m n , x ∈ R (3.3) trong đóm là số phần tử ủa mẫu ó trị số nhỏ hơn x (Xi < x). Với á h xây dựng hàm Fn(x) như trên thì rõ ràng là sau khi lấy mẫu rồi thì phân phối này đượ xá định hoàn toàn. Theo (3.3), Fn(x) là tần suất ủa biến ngẫu nhiên X nhận giá trị nhỏ hơn x ứng với n php thử độ lập nên việ định nghĩa Fn(x) trong (3.3) tương đương với việ định nghĩa luật phân phối Pn xá định bởi: Pn(X = Xi) = 1 n (i = 1, 2, . . . , n). (3.4) Như vậy rõ ràng là hàm phân phối mẫu ũng là hàm phân phối xá suất và khi ỡ mẫu tăng vô hạn thì hàm phân phối thự nghiệm Fn(x) tiến dần đến hàm phân phối xá suất F (x) ủa tổng thể. Do đó ó thể dùng hàm phân phối thự nghiệm ủa mẫu để biểu diễn một á h gần đúng quy luật phân phối xá suất F (x) ủa tổng thể. Ví d 3.2.4. Điều tra mứ độ sâu bệnh trên một ánh đồng ngô, người ta kiểm tra ngẫu nhiên 500 hố , mỗi hố ó 2 ây. Kết quả kiểm tra như sau Số ây bị bệnh 0 1 2 Số hố 242 185 73 Hãy lập hàm phân phối thự nghiệm. Giải: Theo định nghĩa ta ó hàm phân phối mẫu đượ xá định là + Với x < 0 thì Fn(x) = 0; + Với 0 < x ≤ 1 thì Fn(x) = 242 500 = 0, 484; + Với 1 ≤ x < 2 thì Fn(x) = 242 + 185 500 = 427 500 = 0, 854; + Với x ≥ 2 thì Fn(x) = 1. Vậy Fn(x) =   0 x < 0; 0, 484 0 < x ≤ 1; 0, 854 1 ≤ x < 2; 1 x ≥ 2. 3.2.3 Biểu diễn số liệu bằng biểu đồ Phương pháp này thường đượ dùng trong thống kê mô tả. Sau khi thu thập đượ số liệu vào một mẫu và sắp xếp số liệu thành bảng tần số, bảng tần suất hay bảng ghp lớp, người ta biểu diễn á số liệu đó bằng biểu đồ để minh họa mật độ phân bố ủa á hiện tượng ngẫu nhiên dựa trên ơ sở mẫu ngẫu nhiên đã ho. Có nhiều loại biểu đồ để biểu diễn á số liệu 77 thống kê như biểu đồ hình tròn, hình ột, biểu đồ đường, biểu đồ hình bậ thang, . . . . Việ sử dng loại biểu đồ nào để biểu diễn số liệu ho thí h hợp ph thuộ vào đặ tính đặ trưng mà ta nghiên ứu (biến định tính hay biến định lượng), ph thuộ vào phương pháp sắp xếp số liệu và m đí h nghiên ứu ủa hủ thể. a) Biểu đồ tần số. Nếu số liệu đượ sắp xếp phân loại theo tần số thì người ta thường dùng á loại biểu đồ sau để biểu diễn: - Biểu đồ tần số hình ột gồm nhiều hình hữ nhật, mỗi đặ tính ứng với một ột hình hữ nhật, đáy ủa á ột trùng với tr hoành biểu thị á đặ tính tương ứng, tr tung biểu thị tần số và độ ao ủa mỗi ột hình hữ nhật thể hiện tần số ủa á đặ tính. - Biểu đồ đường tần số hay đa giá tần số là đường nối á điểm (x1, n1), (x2, n2), . . . , (xk, nk). Ví d 3.2.5. Để nghiên ứu hất lượng họ tập ủa sinh viên năm thứ nhất ở một trường đại họ , người ta thống kê điểm tổng kết theo xếp loại A,B,C,D ủa 400 sinh viên năm thứ nhất đượ họn ngẫu nhiên từ danh sá h và thu đượ bảng số liệu sau. Đánh giá A B C D Tần số 35 260 93 12 Hãy vẽ biểu đồ hình tròn và hình ột biểu diễn kết quả họ tập ủa 400 sinh viên trên. Giải. Ta ó thể tổng hợp á số liệu trong bảng trên dưới dạng bảng thống kê sau để thuận tiện ho việ biểu diễn á số liệu bằng biểu đồ hình tròn. Đánh giá Tần số Tần suất Phần trăm Gó tròn A 35 35/400 = 0, 09 9% 0, 09ì 360 = 32, 4o B 260 260/400 = 0, 65 65% 234o C 93 93/400 = 0, 23 23% 82, 8o D 12 12/400 = 0, 03 3% 10, 8o Tổng số 400 1, 00 100% 360o 50 100 150 200 250 300 0 A B C D 35 260 93 12 fi xi Hình 3.1: Biểu đồ tần số hình ột 65% A C 32% 9% D3% B Hình 3.2: Biểu đồ hình tròn b) Biểu đồ tần suất. Nếu dữ liệu sắp xếp phân loại theo tần suất hay tỷ lệ phần trăm thì người ta thường dùng á loại biểu đồ sau để biểu diễn: 78 - Biểu đồ hình tròn là biểu đồ gồm nhiều hình quạt, mỗi hình quạt biểu diễn tỷ lệ phần trăm ủa mỗi đặ tính so với toàn bộ á đặ tính thu đượ ở mẫu. - Biểu đồ đường tần suất hay đa giá tần suất là đường nối á điểm (x1, n1 n ), (x2, n2 n ), . . ., (xk, nk n ). Gọi pi = P (X = xi), theo định nghĩa thống kê về xá suất thì ni n → pi khi n→∞, điều này nghĩa là khi n lớn thì tung độ ủa biểu đồ đường tần suất xấp xỉ tung độ ủa biểu đồ đường xá suất ần tìm. Do đó biểu đồ đường tần suất giúp ta hình dung dạng hàm mật độ ủa biến ngẫu nhiên X . Ví d 3.2.6. Hãy vẽ đa giá tần suất ủa bảng số liệu kiểm tra kết quả thi môn toán ủa 20 họ sinh: xi 1 3 5 6 8 ni 2 4 8 5 1 Giải. Ta ó bảng tần suất xi 1 3 5 6 8 fi 0, 1 0, 2 0, 4 0, 25 0, 05 Biểu đồ đường tần suất ó dạng như hình 3.3. 1 3 5 6 8 xi 0, 1 0, 2 0, 4 0, 6 fi Hình 3.3: Biểu đồ đường tần suất Tá động trự quan ủa hai loại biểu đồ trên ó sự khá nhau. Biểu đồ hình tròn đượ dùng để biểu thị mối quan hệ ủa mỗi loại đặ tính với toàn bộ; biểu đồ hình ột đượ dùng để nhấn mạnh số lượng thự sự là tần số ủa mỗi đặ tính ó trong mẫu thông qua độ ao ủa á ột. Hai loại biểu đồ này ũng đượ dùng để mô tả á số liệu ủa biến định lượng. Nhiều khi người ta phải tập hợp số liệu ủa biến định lượng trên những nhóm đã đượ phân loại ủa tổng thể. Chẳng hạn, người ta ó thể nghiên ứu thu nhập trung bình ủa người dân theo á nhóm giới tính, nghề nghiệp hoặ theo á vùng địa lý khá nhau trong một quố gia. Trong những trường hợp đó, húng ta ó thể dùng đồ thị hình tròn hoặ hình ột để mô tả số liệu thu thập đượ . 79 3.3 Cá đặ trưng ủa mẫu ngẫu nhiên 3.3.1 Hàm thống kê Để nghiên ứu biến ngẫu nhiên gố X trong tổng thể, nếu hỉ rút một mẫu ngẫu nhiên (X1, X2, . . . , Xn) thì mới hỉ ó một vài kết luận sơ bộ và rời rạ về X , vì á giá trị Xi ủa mẫu ó hung quy luật phân phối xá suất với X , song quy luật này lại hưa đượ xá định hoàn toàn. Nhưng nếu tổng hợp á biến ngẫu nhiênX1, X2, . . . , Xn này lại thì theo luật số lớn húng sẽ bộ lộ những quy luật mới làm ơ sở để nhận định về biến ngẫu nhiên gố X trong tổng thể. Việ tổng hợp mẫu (X1, X2, . . . , Xn) đượ thự hiện dưới dạng một hàm nào đó ủa á giá trịX1, X2, . . . , Xn ủa mẫu đượ gọi là hàm thống kê (statisti al fun tion) hay thống kê, ký hiệu là G = f(X1, X2, . . . , Xn). Với mẫu  thể (x1, x2, . . . , xn) thì g = f(x1, x2, . . . , xn) là giá trị  thể mà thống kê G = f(X1, X2, . . . , Xn) nhận tương ứng với mẫu đã ho. Như vậy, về thự hất thống kê là một hàm ủa á biến ngẫu nhiên, do đó nó ũng là một biến ngẫu nhiên tuân theo một quy luật phân phối xá suất nhất định và ũng ó á tham số đặ trưng như kỳ vọng, phương sai, . . . Cá thống kê ùng với quy luật phân phối xá suất ủa húng là ơ sở để suy rộng á thông tin ủa mẫu ho dấu hiệu nghiên ứu tổng thể. 3.3.2 Trung bình mẫu Giả sử từ tổng thể ủa biến ngẫu nhiên gố X , ta lập một ngẫu nhiên (X1, X2, . . . , Xn) ó kí h thướ n. Định nghĩa 3.3.1. Một thống kê đượ gọi là một trung bình mẫu (sample mean) nếu nó là trung bình số họ ủa á giá trị mẫu, kí hiệu là X, tứ là X đượ xá định bởi X = 1 n n∑ i=1 Xi. Chú ý 3.3.2. (i) Khi thự hiện một php thử đối với mẫu ngẫu nhiên, nó sẽ nhận một mẫu  thể (x1, x2, . . . , xn), do đó trung bình mẫu ũng nhận một giá trị  thể, kí hiệu là x. (ii) Trung bình mẫu là một thống kê nên nó ũng là một biến ngẫu nhiên, do đó nó ó á tham số đặ trưng tương ứng như kì vọng toán, phương sai... Nếu biến ngẫu nhiên gố X ó kì vọng toán E(X) và phương sai V (X) thì E(X) = E(X); V (X) = V (X) n ; σ(X) = σ(X)√ n . (3.5) Vậy bất kì biến ngẫu nhiên gố phân phối theo quy l