Thống kê sinh học Phần 2 - Tài liệu, ebook, giáo trình, hướng dẫn

Trong các thí nghiệm sinh học, không phải lúc nào ta cũng thu thập được các dữ liệu có phân bố chuẩn. Nếu các dữ liệu thu được không có phân bố chuẩn thì trước khi xử lý và phân tích, các dữ liệu này cần phải được chuyển dạng. Bộ dữ liệu sau khi chuyển dạng sẽ có phân bố chuẩn, phương sai bền vững hơn nhưng bản chất không đổi. Sau khi xử lý thống kê và thu được kết quả từ bộ dữ liệu mới, các kết quả cần phải được chuyển dạng ngược trở lại theo thang đo ban đầu. Có nhiều phương pháp khác nhau để chuyển dạng dữ liệu. Trong giáo trình này ta chỉ tập trung vào hai phương pháp chuyển dạng căn bậc hai (square root) và chuyển dạng theo hàm logarit.

104 trang | Chia sẻ: lylyngoc | Lượt xem: 1875 | Lượt tải: 3

Bạn đang xem trước 20 trang tài liệu Thống kê sinh học Phần 2, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

THỐNG KÊ SINH HỌC 55 Chương 4. KIỂM ĐỊNH GIẢ THUYẾT I. CHUYỂN DẠNG DỮ LIỆU (TRANSFORMATIONS OF DATA) Trong các thí nghiệm sinh học, không phải lúc nào ta cũng thu thập được các dữ liệu có phân bố chuẩn. Nếu các dữ liệu thu được không có phân bố chuẩn thì trước khi xử lý và phân tích, các dữ liệu này cần phải được chuyển dạng. Bộ dữ liệu sau khi chuyển dạng sẽ có phân bố chuẩn, phương sai bền vững hơn nhưng bản chất không đổi. Sau khi xử lý thống kê và thu được kết quả từ bộ dữ liệu mới, các kết quả cần phải được chuyển dạng ngược trở lại theo thang đo ban đầu. Có nhiều phương pháp khác nhau để chuyển dạng dữ liệu. Trong giáo trình này ta chỉ tập trung vào hai phương pháp chuyển dạng căn bậc hai (square root) và chuyển dạng theo hàm logarit. Các thí dụ dưới đây sẽ cho ta thấy làm cách nào để chọn được cách chuyển dạng tối ưu nhất. Thí dụ 1. Số lượng tế bào máu quan sát được trong 400 ô của buồng đếm hồng cầu (hematocytometer) (Fisher, 1990). Dữ liệu Số tế bào máu: 0 1 2 3 4 5 6 7 8 9 10 11 12 Tần số: 0 20 43 53 86 70 54 37 18 10 5 2 2 (1) Nhập dữ liệu vào Minitab Cách 1. Dùng các lệnh từ thanh Menu Calc > Make Patterned Data > Arbitrary Set of Numbers ... Store patterned data in: C1 Arbitrary set of numbers: 1 (số tế bào máu) Numbers of times to list each value: 20 (tần số) Number of times to list the sequence: 1 Lặp lại Calc > Make Patterned Data > Arbitrary Set of Numbers ... Store patterned data in: C2 Arbitrary set of numbers: 2 (số tế bào máu) Numbers of times to list each value: 43 (tần số) Number of times to list the sequence: 1 Tiến hành tương tự với các giá trị còn lại từ 3 đến 12. Kết quả ta có được 400 giá trị quan sát được lưu trong 12 cột từ C1 đến C12. Nhập toàn bộ các dữ liệu trong 12 cột vào 1 cột (C13). Đặt tên cột này là Count Data > Stack >/Column... Stack the following columns: C1 – C12 Store stacked data in:  Column of current worksheet: C13  OK Data > Display data... Simpo PDF Merge and Split Unregistered Version - BÙI TẤN ANH 56 Cách 2. Gõ lệnh vào Session Window Editor > Enable commands MTB > SET C1 DATA> (1)20 (2)43 (3)53 (4)86 (5)70 (6)54 (7)37 (8)18 (9)10 DATA> (10)5 (11)2 (12)2 DATA> END MTB> NAME C1 ‘Count’ MTB > PRINT C1 Kết quả dữ liệu xuất ra trên cửa sổ session như sau Data Display Count 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 9 9 9 9 9 9 9 9 9 9 10 10 10 10 10 11 11 12 12 (2) Mô tả dữ liệu Stat > Basic Statistics > Display Descriptive Statistics... Descriptive Statistics: Count Variable N Mean SE Mean StDev Minimum Q1 Median Count 400 4.680 0.106 2.114 1.000 3.000 4.000 Variable Q3 Maximum Count 6.000 12.000 Simpo PDF Merge and Split Unregistered Version - THỐNG KÊ SINH HỌC 57 12.09.67.24.82.4 Median Mean 5.04.84.64.44.24.0 A nderson-D arling N ormality T est V ariance 4.4688 S kew ness 0.531363 Kurtosis 0.311605 N 400 M inimum 1.0000 A -S quared 1st Q uartile 3.0000 M edian 4.0000 3rd Q uartile 6.0000 M aximum 12.0000 95% C onfidence Interv al for M ean 4.4722 4.94 4.8878 95% C onfidence Interv al for M edian 4.0000 5.0000 95% C onfidence Interv al for S tDev 1.9769 2.2716 P -V alue < 0.005 M ean 4.6800 S tD ev 2.1139 9 5 % Confidence Interv als Summary for Count Counts P r o b a b ili t y 129630 0.999 0.99 0.95 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.05 0.01 0.001 Mean <0.005 4.68 StDev 2.114 N 400 A D 4.938 P-Value Probability Plot of Counts  Dữ liệu có phân bố lệch dương Simpo PDF Merge and Split Unregistered Version - BÙI TẤN ANH 58 Chuyển dạng căn bậc 2 Minitab output Chuyển toàn bộ dữ liệu gốc trong cột C1 (‘Counts’) thành dạng căn bậc 2 nhờ công cụ Calculator. Lưu kết quả chuyển dạng trong cột C2 và đặt tên cho cột này là SqrtCnt. Calc > Calculator... Mô tả dữ liệu trong cột SqrtCnt Stat > Basic Statistics > Display Descriptive Statistics Descriptive Statistics: SqrtCnt Variable N Mean SE Mean StDev Minimum Q1 SqrtCnt 400 2.1040 0.0252 0.5040 1.0000 1.7321 Variable Median Q3 Maximum SqrtCnt 2.0000 2.4495 3.4641 Simpo PDF Merge and Split Unregistered Version - THỐNG KÊ SINH HỌC 59 3.22.82.42.01.61.2 Median Mean 2.252.202.152.102.052.00 A nderson-D arling N ormality T est V ariance 0.2540 S kew ness -0.137839 Kurtosis -0.132102 N 400 M inimum 1.0000 A -S quared 1st Q uartile 1.7321 M edian 2.0000 3rd Q uartile 2.4495 M aximum 3.4641 95% C onfidence Interv al for M ean 2.0544 4.50 2.1535 95% C onfidence Interv al for M edian 2.0000 2.2361 95% C onfidence Interv al for S tDev 0.4713 0.5415 P -V alue < 0.005 M ean 2.1040 S tD ev 0.5040 9 5 % Confidence Interv als Summary for SqrtCnt SqrtCnt P r o b a b ili t y 4.03.53.02.52.01.51.00.5 0.999 0.99 0.95 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.05 0.01 0.001 Mean <0.005 2.104 StDev 0.5040 N 400 A D 4.497 P-Value Probability Plot for Square Root Count Mặc dù kiểm tra Anderson-Darling cho thấy phân bố này khác biệt có ý nghĩa đối với phân bố chuẩn (P < 0.05) nhưng biểu đồ xác suất có dạng tuyến tính và histogram có đối xứng.  Chuyển dạng thành công. Simpo PDF Merge and Split Unregistered Version - BÙI TẤN ANH 60 Chuyển dạng Log Dùng công cụ Calculator để chuyển toàn bộ dữ liệu gốc trong cột C1 (‘Counts’) sang dạng Log và lưu kết quả trong cột C3 với tên là LogCount. Có thể chọn hàm Natural log trong Functions hoặc gỏ nhập trực tiếp LOGE(‘Counts’) vào ô Expression. Minitab output Calc > Calculator... Mô tả dữ liệu trong cột LogCnt Stat > Basic Statistics > Display Descriptive Statistics Descriptive Statistics: LogCount Variable N Mean SE Mean StDev Minimum Q1 LogCount 400 1.4234 0.0263 0.5269 0.000000000 1.0986 Variable Median Q3 Maximum LogCount 1.3863 1.7918 2.4849 Simpo PDF Merge and Split Unregistered Version - THỐNG KÊ SINH HỌC 61 2.42.01.61.20.80.40.0 Median Mean 1.601.551.501.451.40 A nderson-D arling N ormality T est V ariance 0.2776 S kew ness -0.868773 Kurtosis 0.707780 N 400 M inimum 0.0000 A -S quared 1st Q uartile 1.0986 M edian 1.3863 3rd Q uartile 1.7918 M aximum 2.4849 95% C onfidence Interv al for M ean 1.3716 9.39 1.4752 95% C onfidence Interv al for M edian 1.3863 1.6094 95% C onfidence Interv al for S tDev 0.4927 0.5662 P -V alue < 0.005 M ean 1.4234 S tD ev 0.5269 9 5 % Confidence Interv als Summary for LogCount LogCount P ro b a b il it y 3.02.52.01.51.00.50.0 0.999 0.99 0.95 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.05 0.01 0.001 Mean <0.005 1.423 StDev 0.5269 N 400 A D 9.388 P-Value Probability Plot of LogCount Chuyển dạng không phù hợp (quá mạnh). Biên trái (Left hand tail) có số lạ (outlier) Thí dụ 2. Số nang trứng trong các mẫu phân của 100 con dê Dữ liệu có phân bố lệch dương (trang 30) Simpo PDF Merge and Split Unregistered Version - BÙI TẤN ANH 62 Chuyển dạng căn bậc hai Calc > Calculator... Stat > Basic Statistics > Display Descriptive Statistics... Descriptive Statistics: SqrtOocy Variable N Mean SE Mean StDev Minimum Q1 Median Q3 Maximum SqrtOocy 100 71.17 2.21 22.14 34.64 53.85 67.08 81.70 146.29 140120100806040 Median Mean 75.072.570.067.565.0 A nderson-D arling N ormality T est V ariance 490.039 S kew ness 0.806398 Kurtosis 0.471601 N 100 M inimum 34.641 A -S quared 1st Q uartile 53.852 M edian 67.082 3rd Q uartile 81.700 M aximum 146.287 95% C onfidence Interv al for M ean 66.782 1.30 75.567 95% C onfidence Interv al for M edian 63.624 73.659 95% C onfidence Interv al for S tDev 19.436 25.716 P -V alue < 0.005 M ean 71.175 S tD ev 22.137 9 5 % Confidence Interv als Summary for SqrtOocy SqrtOocy P r o b a b ili t y 160140120100806040200 0.999 0.99 0.95 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.05 0.01 0.001 Mean <0.005 71.17 StDev 22.14 N 100 A D 1.299 P-Value Probability Plot of SqrtOocy Chuyển dạng chưa đủ mạnh - dữ liệu vẫn còn phân bố lệch dương Simpo PDF Merge and Split Unregistered Version - THỐNG KÊ SINH HỌC 63 Chuyển dạng Log Calc > Calculator.... Stat > Basic Statistics > Display Descriptive Statistics... Descriptive Statistics: LogOocy Variable N Mean SE Mean StDev Minimum Q1 Median Q3 LogOocy 100 8.4385 0.0607 0.6073 7.0901 7.9725 8.4118 8.8061 Variable Maximum LogOocy 9.9711 9.69.08.47.87.2 Median Mean 8.608.558.508.458.408.358.30 A nderson-D arling N ormality T est V ariance 0.3688 S kew ness 0.099690 Kurtosis -0.459615 N 100 M inimum 7.0901 A -S quared 1st Q uartile 7.9725 M edian 8.4118 3rd Q uartile 8.8061 M aximum 9.9711 95% C onfidence Interv al for M ean 8.3180 0.24 8.5590 95% C onfidence Interv al for M edian 8.3059 8.5989 95% C onfidence Interv al for S tDev 0.5332 0.7055 P -V alue 0.757 M ean 8.4385 S tD ev 0.6073 9 5 % Confidence Interv als Summary for LogOocy LogOocy P ro b a b il it y 109876 0.999 0.99 0.95 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.05 0.01 0.001 Mean 0.757 8.438 StDev 0.6073 N 100 A D 0.244 P-Value Probability Plot of LogOocy Normal Chuyển dạng thành công – Phân bố đối xứng Simpo PDF Merge and Split Unregistered Version - BÙI TẤN ANH 64 II. TỔNG QUAN VỀ KIỂM ĐỊNH GIẢ THUYẾT Các đặc trưng của mẫu ngoài việc dùng để ước lượng các đặc trưng của tổng thể còn được dùng để đánh giá xem một giả thuyết nào đó của tổng thể là đúng hay sai. Việc tìm ra kết luận để bác bỏ hay chấp nhận một giả thuyết được gọi là kiểm định giả thuyết (hypothesis testing). Giả thuyết đưa ra kiểm định được ký hiệu là H0 và được gọi là giả thuyết không (null hypothesis). Đây là giả thuyết mà ta nghi ngờ và muốn bác bỏ. Ngoài ra ta còn phải định rõ một giả thuyết nữa gọi là giả thuyết đối (alternate hypothesis), ký hiệu là H1. H1 sẽ được chấp nhận khi H0 bị bác bỏ. Câu hỏi đặt ra là: Chúng ta bác bỏ hay chấp nhận một giả thuyết bằng cách nào?. Các nhà thống kê đều nhất trí nguyên lý sau: “Nếu một biến cố có xác suất rất nhỏ thì trong một phép thử biến cố đó sẽ không xảy ra” Như vậy chúng ta sẽ quyết định bác bỏ giả thuyết H0 nếu xác suất xuất hiện của một sự kiện quan sát được là “nhỏ” Thí dụ 1: Thời gian mang thai của bò có phân bố chuẩn, x ~ N(285, 102). Ở một giống bò mới người ta xác định được thời gian mang thai là 295 ngày. Liệu giá trị quan sát này có phù hợp với trung bình tổng thể (nghĩa là thời gian mang thai của giống bò mới trung bình cũng là 285 ngày) hay hoàn toàn khác? Cách giải: Giả sử rằng trung bình tổng thể của giống bò mới là 285 ngày. Chúng ta cần tính xác suất của giá trị trung bình >295 ngày hoặc <275 ngày (nghĩa là m  10 ngày). Xác suất của biến cố này là: P(X 295) = 275 285 295 285 or 10 10 P Z Z         = P (Z 1) = 2 * P(Z < - 1) = 2 * 0.1587 = 0.3174 275 0.159 0.159 295 Đây là một xác suất lớn (1/3) vì vậy không có lý do gì để bác bỏ giả thuyết trung bình tổng thể là 285 ngày. Simpo PDF Merge and Split Unregistered Version - THỐNG KÊ SINH HỌC 65 Thí dụ 2: Giả sử rằng thời gian mang thai quan sát được ở giống bò mới là 305 ngày. Ta có thể kết luận gì? Cách giải: Bây giờ ta cần tính xác suất của m> 305 ngày hoặc m < 265 ngày Xác suất của biến cố này là: P(X 305) = 265 285 305 285 or 10 10 P Z Z         = P (Z 2) = 2 * P(Z < - 2) = 2 * 0.0228 = 0.0456 265 305 0.02280.0228 Đây là một xác suất nhỏ (1/20) vì vậy chúng ta bác bỏ giả thuyết trung bình tổng thể là m = 285 ngày và ta có thể kết luận rằng trung bình tổng thể lớn hơn có ý nghĩa so với 285 ngày. Khi phải lựa chọn giữa hai giả thuyết H0 và H1, ta có thể phạm một trong hai loại sai lầm: (1) Bác bỏ H0 khi thực ra H0 là đúng  sai lầm loại I (2) Chấp nhận H0 khi thực ra H0 là sai  sai lầm loại II Có 4 khả năng có thể xảy ra thể hiện trong bảng dưới đây: Kết luận Thực tế Chấp nhận H0 Bác bỏ H0 H0 đúng Kết luận đúng Sai lầm loại I H0 sai Sai lầm loại II Kết luận đúng III. KIỂM ĐỊNH 1 MẪU (KIỂM ĐỊNH GIÁ TRỊ TRUNG BÌNH) 1. Kiểm định Z Thí dụ 1: Tiếp tục với thí dụ về thời gian mang thai của bò (có phân bố chuẩn, trung bình là 285 ngày, độ lệch chuẩn là 10 ngày), nghĩa là x ~ N(285, 102). Ở một giống bò mới người ta ghi nhận được thời gian mang thai của 6 con bò: 307 293 293 283 294 297 Simpo PDF Merge and Split Unregistered Version - BÙI TẤN ANH 66 Giả sử rằng độ lệch chuẩn trong trường hợp này cũng là 10 ngày. Như vậy có bằng chứng nào cho thấy trung bình thời gian mang thai của giống bò mới là khác với 285 ngày? Cách giải: Giả định  = 10 ngày dùng z-test Giả thuyết không: H0 : m = 285 ngày Giả thuyết đối: H1 : m  285 ngày với m = trung bình thời gian mang thai của giống bò mới x = (307+293+293+283+294+297)/6 = 294.5 ngày Kiểm định: 2 ( ) ( ) ( )/ x x z se xn m m      Trong thí dụ trên 2 294.5 285 2.33 10 / 6 z    Nếu giả thuyết H0 là đúng thì z = 2.33 là một quan sát từ một phân bố chuẩn tắc (standard normal distribution). Chúng ta tính xác suất để: ( 275.5 294.5) ( 2.33 2.33) 2* ( 2.33) 2*0.010 0.020 or = or = = P P x x P Z Z P Z          - 2.33 0.01 2.33 0.01 Nếu H0 là đúng, chỉ có 2% cơ hội để nhận được giá trị này của x . Do đó chúng ta bác bỏ giả thuyết H0. Kết luận: Thời gian mang thai của giống bò mới có giá trị trung bình lớn hơn có ý nghĩa so với 285 ngày. Tổng quát: P < 0.05 (ít hơn 1/20)  bác bỏ H0 P > 0.05 (lớn hơn 1/20)  chấp nhận H0 Simpo PDF Merge and Split Unregistered Version - THỐNG KÊ SINH HỌC 67 Khi H0 được chấp nhận cũng chưa có nghĩa là H0 hoàn toàn đúng; cỡ mẫu có thể quá nhỏ nên không thể phát hiện sự sai khác. Ngay cả khi H0 bị bác bỏ, vẫn có khả năng xảy ra sai lầm. Nếu ta chọn giá trị 5% như trên thì ta vẫn có 5% sai lầm khi H0 đúng. Thí dụ 2: Thử nghiệm thuốc gây mê trên chó. Người ta muốn kiểm tra xem mức độ epinephrine huyết thanh trong máu sau khi dùng phương pháp gây mê mới có thay đổi hay không so với khi dùng phương pháp gây mê trước đây. Phương pháp gây mê trước đây đã cho kết quả là mức trung bình = 0.4 ng.ml-1 và độ lệch chuẩn là 0.2 ng.ml-1. Các bước tiến hành Bước 1. Nhập liệu Đặt tên cột C1 là ‘Hormone’. Nhập dữ liệu vào cột này: 0.64 0.74 0.48 0.66 0.34 0.70 Bước 2. Mô tả dữ liệu Stat > Basic Statistics > Descriptive Statistics …/Variable ‘Hormone’ Descriptive Statistics: Hormone Variable N Mean SE Mean StDev Minimum Median Maximum Hormone 6 0.5933 0.0623 0.1527 0.3400 0.6500 0.7400 Bước 3. Kiểm tra tính phân bố chuẩn Graph > Boxplot …/Simple 0.80.70.60.50.40.3 Hormone Do mẫu quá nhỏ nên khó kiểm tra. Chỉ xác định được là không có số liệu lạ (outlier). Bước 4. Kiểm định Stat > Basic Statistics > 1-sample Z…/ Samples in Columns: Hormone Standard deviation: 0.2 Test mean: 0.4 Simpo PDF Merge and Split Unregistered Version - BÙI TẤN ANH 68 One-Sample Z: Hormone Test of mu = 0.4 vs not = 0.4 The assumed standard deviation = 0.2 Variable N Mean StDev SE Mean Hormone 6 0.593333 0.152665 0.081650 Variable 95% CI Z P Hormone (0.433303, 0.753364) 2.37 0.018 Giả thuyết không và giả thuyết đối được viết bởi Minitab là: Test of mu = 0.4 vs not = 0.4 Chúng ta sẽ viết lại như sau: Giả thuyết không: H0 : m = 0.4 ng.ml -1 Giả thuyết đối : H1 : m ≠ 0.4 ng.ml -1 Trong đó m = trung bình mức epinephrine huyết thanh trong máu sau khi dùng phương pháp gây mê mới. Bước 5. Kết luận Mức epinephrine huyết thanh trong máu tăng có ý nghĩa sau khi dùng phương pháp gây mê mới 2. Kiểm định t Thí dụ 1. Cũng dùng thí dụ 1 trong phần kiểm định Z nhưng bây giờ ta giả định rằng sự biến thiên của thời gian mang thai của giống bò mới rất khác so với giống cũ. Kết quả phân tích sẽ thay đổi như thế nào? Cách giải Không thể giả định  = 10 ngày  dùng t-test Giả thuyết không: H0 : m = 285 ngày Giả thuyết đối: H1 : m  285 ngày x = 294.5 ngày và s = 7.74 ngày Kiểm định 2 ( ) ( ) / x x t ses n m m    độ tự do: df = n – 1 Trong thí dụ trên: 2 294.5 285 9.5 3.01 3.16(7.74) / 6 t     df = 6 – 1 = 5 nếu giả thuyết H0 là đúng thì t = 3.01 thuộc phân bố t với độ tự do = 5. Simpo PDF Merge and Split Unregistered Version - THỐNG KÊ SINH HỌC 69 7.55.02.50.0-2.5-5.0 0.4 0.3 0.2 0.1 0.0 z t Phân bố t có đuôi rộng hơn phân bố chuẩn. Phân bố này được dùng khi độ lệch chuẩn được ước lượng từ mẫu. Cỡ mẫu càng lớn thì ước lượng càng chính xác vì độ tự do tăng lên, t  phân bố chuẩn. Giá trị P của t-test là: P = ( 275.5 or 294.5)P x x  = 5 5( 3.01 or T 3.01)P T    = 52* ( 3.01)P T   = 2*0.0015 = 0.03 Kết luận: Vì P < 0.05 nên ta bác bỏ giả thuyết H0 và kết luận rằng giống bò mới có thời gian mang thai dài hơn. Thí dụ 2: giống thí dụ trong kiểm định z Bước 4. Kiểm định Stat > Basic Statistics > 1-sample t…/ Samples in Columns: Hormone Test mean: 0.4 One-Sample T: Hormone Test of mu = 0.4 vs not = 0.4 Variable N Mean StDev SE Mean Hormone 6 0.593333 0.152665 0.062325 Variable 95% CI T P Hormone (0.433121, 0.753546) 3.10 0.027 3. Khoảng tin cậy của trung bình tổng thể (m) Kiểm định giả thuyết cho ta biết dữ liệu phù hợp hay không phù hợp với một giá trị trung bình xác định mCâu hỏi tiếp theo là khoảng giá trị nào của m phù hợp với trung bình mẫu x ? Simpo PDF Merge and Split Unregistered Version - BÙI TẤN ANH 70 Công thức tính khoảng tin cậy 95% (95% CI = 95% confidence interval) Thời gian mang thai của bò được dùng làm thí dụ minh hoạ. Nhắc lại chúng có phân bố chuẩn N(285, 102). Sáu giá trị quan sát (n = 6) thu được trên một giống bò mới, giá trị trung bình mẫu là x = 294.5 ngày. Trường hợp 1. Nếu ta gỉả sử phương sai mẫu không khác so với phương sai tổng thể, ta sẽ có  = 10 ngày và xác định khoảng tin cậy cho kiểm định z. ( /2) 2 (0.025) * / * x z n x z se    Trong đó z(/2) = z(0.025) = 1.96 là 2.5% đuôi bên phải của phân bố chuẩn tắc. Trong thí dụ trên 295% CI 294.5 1.96* 10 / 6 294.5 8.00 (286.5, 302.5)     Như vậy ta có thể tin đến 95% rằng trung bình thời gian mang thai của giống bò mới nằm đâu đó trong khoảng 286.5 đến 302.5 ngày, mặc dù ước lượng là 294.5 ngày. Trường hợp 2. Nếu ta không thể giả sử rằngphương sai mẫu không đổi so với phương sai tổng thể, ta sẽ phải ước lượng  bằng độ lệch chuẩn mẫu s và dùng khoảng tin cậy cho kiểm định t. ( /2) 2 (0.025) 1* / *df nx t s n x t se     Trong đó /2 (0.025)1df nt t   là đuôi bên phải của phân bố t với độ tự do df = n – 1. Trong thí dụ trên: độ lệch chuẩn mẫu là s = 7.74 ngày với df = n – 1 = 5 thì (0.025)5t = 2.57 295% CI 294.5 2.57* 7.74 / 6 294.5 8.1 (286.4, 302.6)     Như vậy mộ