Cùng với lý thuyết ước lượng, lý thuyết kiểm định các giả thuyết thống kê là một bộ phận quan trọng của thống kê toán. Nó là phương tiện giúp ta giải quyết những bài toán nhìn từ góc độ khác liên quan đến dấu hiệu cần nghiên cứu trong tổng thể.
Trong kiểm định giả thuyết thống kê về kỳ vọng toán, thông thường ta thường giả sử dấu hiệu X cần nghiên cứu trên đám đông có E(X) µ, Var(X) , trong đó µ chưa biết. Từ một cơ sở nào đó người ta tìm được µ = µ0 , nhưng nghi ngờ về điều này. Với mức ý nghĩa cho trước ta cần kiểm định giả thuyết : µ = µ0.
19 trang |
Chia sẻ: lylyngoc | Lượt xem: 4732 | Lượt tải: 2
Bạn đang xem nội dung tài liệu Báo cáo Thảo luận lý thuyết xác suất và thống kê toán, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Trường Đại học Thương Mại
Báo cáo thảo luận
Lý thuyết xác suất và thống kê toán
Nhóm 3
Mã lớp học phần: 1012AMAT0111
Đề tài 4.1: Phương pháp P - giá trị trong kiểm định giả thuyết thống kê về kỳ vọng toán.
Danh sách thành viên:
Bùi Thị Đào
Nguyễn Hữu Đạt
Nguyễn Mẫu Đơn
Tạ Văn Đức
Hồ Ngọc Diệp
Phan Thị Thanh Dung
Đào Anh Dũng
Nguyễn Việt Dũng
Nguyễn Thị Hồng Gấm
Lời mở đầu
Cùng với lý thuyết ước lượng, lý thuyết kiểm định các giả thuyết thống kê là một bộ phận quan trọng của thống kê toán. Nó là phương tiện giúp ta giải quyết những bài toán nhìn từ góc độ khác liên quan đến dấu hiệu cần nghiên cứu trong tổng thể.
Trong kiểm định giả thuyết thống kê về kỳ vọng toán, thông thường ta thường giả sử dấu hiệu X cần nghiên cứu trên đám đông có E(X)µ, Var(X) , trong đó µ chưa biết. Từ một cơ sở nào đó người ta tìm được µ , nhưng nghi ngờ về điều này. Với mức ý nghĩa cho trước ta cần kiểm định giả thuyết : µ . Từ đám đông lấy ra mẫu: và tính được các đặc trưng mẫu: , . Lấy một mẫu cụ thể . Từ mẫu này ta tính được , rồi so sánh với để bác bỏ hay không bác bỏ , chấp nhận hay không chấp nhận .
Thủ tục trình bày ở trên có tính chất truyền thống và thường được gọi là kiểm định theo cách tiếp cận cổ điển, theo đó ta xác định được các bộ phận của một giả thuyết thống kê theo các sai lầm loại 1 và loại 2 tương ứng với xác suất và . Trong những năm gần đây nhiều nhà nghiên cứu thường sử dụng một cách tiếp cận khác. Thay vì kiểm định giả thuyết với một giá trị định trước thì họ cho rằng ta nên định rõ các giả thuyết cơ sở và giả thuyết đối , sau đó thu thập các số liệu mẫu và xác định mức độ khẳng định việc bác bỏ giả thuyết . Mức độ khẳng định này thường được gọi là giá trị P(P- value). Và phương pháp này được gọi là phương pháp P- giá trị (P-Value).
Sau khi kết thúc học phần lý thuyết và xác suất thống kê toán, nhóm chúng tôi đã vinh dự được giao nhiêm vụ thảo luận: Phương pháp P – giá trị trong kiểm định giả thuyết thống kê về kỳ vọng toán. Thực sự đây là cơ hội rất tốt để chúng tôi có thể hoàn thiện kiến thức của mình cho môn học đồng thời cũng là cơ hội để được làm việc theo nhóm.
Bài thảo luận này được xây dựng dựa trên cơ sở của: giáo trình Lý thuyết xác suất và thống kê toán của trường Đại học Thương Mại, giáo trình Lý thuyết xác suất và thống kê toán của trường Đại học Kinh Tế Quốc Dân cùng với các kiến thức đã tiếp thu được từ các bài giảng của giảng viên bộ môn trường Đại học Thương Mại.
Do thời gian, điều kiện và khả năng có hạn, bài thảo luận nhóm chúng tôi không tránh khỏi những khiếm khuyết. Chúng tôi rất mong nhận được sự cảm thông, chia sẻ và góp ý từ phía các giảng viên, các bạn sinh viên và những ai quan tâm để bài thảo luận nhóm được hoàn thiện hơn.
Hà Nội, ngày 28/04/2010
Tập thể nhóm 3
Phương pháp P – giá trị trong kiểm định giả thuyết thống kê về kỳ vọng toán
Để hiểu rõ hơn phương pháp này, trước hết ta xét bài toán kiểm định giả thuyết về kỳ vọng toán của một ĐLNN phân phối chuẩn với đã biết sau:
Ta vẫn dùng TCKĐ như trong phương pháp kiểm định truyền thống: . Nếu đúng thì . Từ mẫu cụ thể ta tìm được:
Tiếp đến ta tính được P (trong đó U~N(0,1) – quy luật phân phối xác suất của TCKĐ khi đúng). Nếu p khá bé thì ta có cơ sở bác bỏ vì khi p khá bé, theo nguyên lý xác suất nhỏ, trong thực hành ta có thể coi biến cố không xảy ra trong một lần lấy mẫu. Dĩ nhiên nếu không quá bé ta chưa có cơ sở bác bỏ .
Xác suất được gọi là P- giá trị (hoặc P-value).
Như vậy P- giá trị , trong đó U~N(0,1) (quy luật phân phối xác suất của TCKĐ khi ) đúng),
Sau khi tìm được P- giá trị người ta có thể sử dụng nó để kết luận về giả thuyết theo hai cách như sau:
Cách thứ nhất:
Nếu P- giá trị thì thường người ta nhận .
Nếu 0,005 < P- giá trị < 0,1 thì cần cân nhắc cẩn thận trước khi bác bỏ .
Nếu 0,01< P- giá trị < 0,005 thì nghiêng về hướng bác bỏ nhiều hơn.
Nếu 0,001 <P- giá trị < 0,01 thì có thể ít băn khoăn trước khi bác bỏ .
Nếu P- giá trị < 0,001 thì có thể hoàn toàn yên tâm khi bác bỏ .
Cách thứ hai:
Nếu P- giá trị < thì bác bỏ .
Nếu P- giá trị > chưa có cơ sở bác bỏ .
Theo cách thứ hai này việc sử dụng P- giá trị lại quay về phương pháp kiểm định giả thuyết thống kê truyền thống.
Trường hợp 1: ĐLNN trên đám đông có phân phối chuẩn với đã biết.
Bài toán 1: ; P- giá trị .
Trong đó U~N(0,1) và
Bài toán 2: ; P- giá trị .
Bài toán 3: ; P- giá trị .
Chú ý: Các công thức tìm P- giá trị trên còn được dùng cho các bài toán kiểm định giả thuyết thống kê khác, trong đó có dùng tiêu chuẩn U.
Các ví dụ
Bài toán 1 : ; P- giá trị .
Các bước làm:
Xác định:
Nếu đúng thì U~N(0,1) và
Dùng phương pháp P- giá trị = 2P(U>
Kết luận theo giá trị của P- giá trị.
Ví dụ 1: Trước khi thay đổi trang thiết bị, tiền lãi trung bình mỗi ngày của một cửa hàng là 20 triệu đồng. Sau khi thay đổi trang thiết bị, theo dõi 16 ngày liên tiếp thấy tiền lãi trung bình của mỗi ngày là 20,3 triệu đồng.
Sử dụng phương pháp P- giá trị để kết luận xem: với mức ý nghĩa 0,05 có thể cho rằng sau khi thay đổi trang thiết bị tiền lãi trung bình đã thay đổi hay không?
Biết tiền lãi mỗi ngày của cửa hàng là một ĐLNN phân phối chuẩn với độ lệch tiêu chuẩn là 0,6 triệu đồng.
Tóm tắt:
X: ĐLNN phân phối chuẩn
Lời giải
Gọi X là số tiền lãi của cửa hàng trong một ngày.
là số tiền lãi trung bình của cửa hàng trong một ngày trên mẫu.
là số tiền lãi trung bình của cửa hàng trong một ngày trên đám đông.
Vì X có phân phối chuẩn nên : .
Với mức ý nghĩa cần kiểm định:
XĐTCKĐ: . Nếu đúng thì U~N(0,1).
Khi đó ta tìm được P- giá trị
Ta có
P-giá trị
=> bác bỏ .
Kết luận: Vậy với mức ý nghĩa 0,05 có thể cho rằng sau khi thay đổi trang thiết bị tiền lãi trung bình đã thay đổi.
Bài toán 2 ; P- giá trị
Các bước làm:
Xác định:
Nếu đúng thì U~N(0,1) và
Dùng phương pháp P- giá trị = P(U>
Kết luận theo giá trị của P- giá trị.
Ví dụ 1: Theo dõi 25 bệnh nhân mắc bệnh ung thư gan thấy thời gian trung bình từ khi phát hiện ra bệnh đến khi chết kéo dài 49 tháng.
Sử dụng phương pháp P- giá trị để kết luận xem: với mức ý nghĩa 0,05 có thể nói rằng thời gian trung bình từ khi phát hiện ra bệnh đến khi chết kéo dài hơn 4 năm hay không?
Biết thời gian từ khi phát hiện ra bệnh ung thư gan đến khi chết của bệnh nhân là một ĐLNN phân phối chuẩn với độ lệch tiêu chuẩn là 4 tháng.
Tóm tắt:
X: ĐLNN phân phối chuẩn.
Lời giải
Gọi X là thời gian từ khi phát hiện ra bệnh đến khi chết của bệnh nhân.
là thời gian trung bình khi phát hiện ra bệnh đến khi chết của bệnh nhân trên mẫu.
là thời gian trung bình khi phát hiện ra bệnh đến khi chết của bệnh nhân trên đám đông.
Vì X có phân phối chuẩn nên: .
Với mức ý nghĩa cần kiểm định:
XĐTCKĐ: . Nếu đúng thì U~N(0,1).
Khi đó ta tìm được P- giá trị
Ta có
P- giá trị chưa có cơ sở bác bỏ .
Kết luận: Với mức ý nghĩa 0,05 chưa thể nói rằng thời gian trung bình từ khi phát bệnh đến khi chết kéo dài hơn 4 năm.
Bài toán 3 ; P- giá trị
Các bước làm:
Xác định:
Nếu đúng thì U~N(0,1) và
Dùng phương pháp P- giá trị = P(U<
Kết luận theo giá trị của P- giá trị.
Ví dụ 1: Cân thử lượng ga trong 9 bình được kết quả: 11,8kg, 11,7kg, 11,6kg, 11,4kg, 11,5kg, 11,6kg, 11,8kg, 11,4kg, 11,5kg.
Sử dụng phương pháp P- giá trị để kết luận: với mức ý nghĩa 0,01 co thể kết luận rằng trọng lượng trung bình của mỗi bình ga là nhỏ hơn 12kg hay không?
Biết trọng lượng ga trong mỗi bình là một ĐLNN phân phối theo quy luật chuẩn với độ lệch tiêu chuẩn là 0,15kg.
Tóm tắt:
X: ĐLNN phân phối chuẩn.
Lời giải
Gọi X là trọng lượng của mỗi bình ga.
là trọng lượng trung bình của mỗi bình ga trên mẫu.
là trọng lượng trung bình của mỗi bình ga trên đám đông.
Vì X có phân phối chuẩn nên: .
Với mức ý nghĩa cần kiểm định:
XĐTCKĐ: . Nếu đúng thì U~N(0,1).
Khi đó ta tìm được P- giá trị
Lập bảng tính toán:
11,8
2
23,6
11,7
1
11,7
11,6
2
23,2
11,5
2
23
11,4
2
22,8
n=9
Trong đó
Ta có
P- giá trị có cơ sở chắc chắn bác bỏ .
Kết luận: Vậy với mức ý nghĩa 0,01 chắc chắn trọng lượng trung bình của mỗi bình ga là nhỏ hơn 12kg.
Ví dụ 2: Tuổi thọ của người dân tại một địa phương A là một ĐLNN phân phối chuẩn với độ lệch tiêu chuẩn là 8 năm. Điều tra ngẫu nhiên 25 người thấy tuổi thọ trung bình của một người là 73,5 năm.
Với mức ý nghĩa 0,05 hãy kiểm tra giả thuyết cho rằng tuổi thọ trung bình của người dân ở địa phương A là thấp hơn 75 năm.
Tóm tắt:
X: ĐLNN phân phối chuẩn
Lời giải
Gọi X là tuổi thọ của người dân khu vực A.
Gọi là tuổi thọ trung bình của người dân khu vực A trên mẫu.
Gọi là tuổi thọ trung bình của người dân khu vực A trên đám đông.
Vì X có phân phối chuẩn nên:
Với mức ý nghĩa cần kiểm định:
XDTCKD: . Nếu thì U~N(0,1).
Khi đó ta tìm được P- giá trị = P(U<).
Ta có
Vậy P- giá trị = P(U0,9375) = 0,1736>0,05 => Chưa có cơ sở bác bỏ
Kết luận: Vậy với mức ý nghĩa 0,05 chưa thể khẳng định rằng tuổi thọ trung bình của người dân ở địa phương A là thấp hơn 75 năm
Trường hợp 2: ĐLNN trên đám đông có phân phối chuẩn với chưa biết.
Bài toán 1: ; P- giá trị
Trong đó T~, .
Bài toán 2: ; P- giá trị .
Bài toán 3: ; P- giá trị .
Chú ý 1: Công thức tìm P- giá trị trên còn được dùng cho các bài toán về kiểm định khác có dùng tiêu chuẩn kiểm định T.
Chú ý 2: Khi ĐLNN X có phân phối chuẩn, mặc dù chưa biết, nhưng nếu kích thước mẫu n>30 người ta thường dùng tiêu chuẩn U như trong trường hợp 1. Đến khi tìm ta lấy .
Các ví dụ
Bài toán 1 ; P- giá trị
Các bước làm:
Xác định:
Nếu đúng thì T~ và
Dùng phương pháp P- giá trị = 2P(U>
Kết luận theo giá trị của P- giá trị.
Ví dụ 1: Năng suất của một giống lúa là một ĐLNN phân phối theo quy luật chuẩn. Thống kê năng suất ở 9 thửa ruộng thì được năng suất trung bình là 61 tạ/ha và độ lệch tiêu chuẩn mẫu điều chỉnh là 1,6129 tạ.
Với mức ý nghĩa 0,05 hãy kiểm định giả thuyết:
bằng phương pháp P- giá trị.
Tóm tắt:
X: ĐLNN phân phối chuẩn.
Lời giải
Gọi X là năng suất của giống lúa trên 1ha.
Gọi là năng suất trung bình của giống lúa trên 1ha trên mẫu.
Gọi là năng suất trung bình của giống lúa trên 1ha trên đám đông.
Với mức ý nghĩa cần kiểm định
XDTCKD: . Nếu đúng thì T~.
Theo phương pháp P- giá trị ta có: P- giá trị
Trong đó
Vậy P-giá trị => chưa có cơ sở bác bỏ .
Kết luận: Với mức ý nghĩa 0,05 chưa thể khẳng định năng suất của giống lúa đã thay đổi.
Bài toán 2 ; P- giá trị
Các bước làm:
Xác định:
Nếu đúng thì T~ và
Dùng phương pháp P- giá trị = P(U>
Kết luận theo giá trị của P- giá trị.
Ví dụ 1: Thống kê doanh thu 36 ngày liên tiếp của một cửa hàng và tính được doanh thu trung bình của một ngày là 63 triệu đồng và độ lệch tiêu chuẩn mẫu điều chỉnh là 9 triệu đồng. Với mức ý nghĩa 0,05 có thể nói rằng doanh thu trung bình một ngày của cửa hàng là lớn hơn 60 triệu hay không?
Tóm tắt:
X: ĐLNN phân phối chuẩn.
Lời giải
Gọi X là doanh thu của cửa hàng trong một ngày.
Gọi là doanh thu trung bình của cửa hàng trong một ngày trên mẫu.
Gọi là doanh thu trung bình của cửa hàng trong một ngày trên đám đông.
Với mức ý nghĩa cần kiểm định
XDTCKD: . Nếu đúng thì T~.
Theo phương pháp P- giá trị ta có: P- giá trị
Trong đó
Vậy P- giá trị => có cơ sở bác bỏ .
Kết luận: Với mức ý nghĩa 0,05 có thể nói rằng doanh thu trung bình một ngày của cửa hàng là lớn hơn 60 triệu đồng.
Ví dụ 2: Kiểm định 9 ngày liên tiếp lượng thịt lợn không qua kiểm dịch bán tại một chợ và tính được tạ và tạ. Với mức ý nghĩa 0,1 có thể nói rằng lượng thịt lợn không qua kiểm dịch trung bình được bán tại chợ nhiều hơn 1 tạ hay không? Biết lượng thịt lợn không qua kiểm dịch được bán tại chợ là một ĐLNN phân phối theo quy luật chuẩn.
Tóm tắt:
X: ĐLNN phân phối chuẩn.
Lời giải
Gọi X là lượng thịt lợn bán không qua kiểm dịch tại chợ trong một ngày.
Gọi là lượng thịt lợn bán trung bình không qua kiểm dịch tại chợ trong một ngày trên mẫu.
Gọi là lượng thịt lợn bán trung bình không qua kiểm dịch tại chợ trong một ngày trên đám đông.
Với mức ý nghĩa cần kiểm định
XDTCKD: . Nếu đúng thì T~.
Theo phương pháp P- giá trị ta có: P- giá trị
Trong đó
Vậy P- giá trị => Có cơ sở bác bỏ .
Kết luận: Với mức ý nghĩa 0,1 chắc chắn lượng thịt lợn không qua kiểm dịch trung bình được bán tại chợ nhiều hơn một tạ.
Bài tập 3 ; P- giá trị
Các bước làm:
Xác định:
Nếu đúng thì T~ và
Dùng phương pháp P- giá trị = P(U<
Kết luận theo giá trị của P- giá trị.
Ví dụ 1: Theo dõi thời gian cần thiết để sản xuất ra một đơn vị sản phẩm cùng loại của 49 công nhân được kết quả
Thời gian cần thiết (đ/v: phút)
13
14
15
16
Số công nhân
8
13
18
10
Với mức ý nghĩa 0,05 có thể nói rằng thời gian trung bình cần thiết để sản xuất ra một đơn vi sản phẩm là ít hơn 15 phút hay không?
Tóm tắt:
X: ĐLNN phân phối chuẩn.
Lời giải
Gọi X là thời gian sản xuất ra một đơn vị sản phẩm.
Gọi là thời gian trung bình sản xuất ra một đơn vị sản phẩm trên mẫu.
Gọi là thời gian trung bình sản xuất ra một đơn vị sản phẩm trên mẫu.
Với mức ý nghĩa cần kiểm định
XDTCKD: . Nếu đúng thì T~.
Theo phương pháp P- giá trị ta có: P- giá trị
Lập bảng tính toán:
13
8
104
1352
14
13
182
2548
15
18
270
4050
16
10
160
2560
N=49
716
10510
Vậy P- giá trị = P(T2,72476) = 0,05>0,005 => Có cơ sở chắc chắn bác bỏ .
Kết luận: Với mức ý nghĩa 0,05 không thể nói rằng thời gian trung bình cần thiết để sản xuất ra một đơn vị sản phẩm là ít hơn 15 phút.
Ví dụ 2: Chiều dài các trục máy đo một máy tự động sản xuất là một ĐLNN phân phối chuẩn với chiều dài thiết kế là 25cm. Kiểm tra ngẫu nhiên 16 trục đo máy sản xuất người ta thấy chiều dài trung bình mỗi trục là 24,8cm và độ lệch tiêu chuẩn mẫu điều chỉnh dài là 0,2143. Có ý kiến cho rằng máy có sự cố đã làm giảm chiều dài trung bình của các trục máy. Với mức ý nghĩa 0,01 hãy cho kết luận trên.
Tóm tắt:
X: ĐLNN phân phối chuẩn
Lời giải
Gọi X là chiều dài của trục đo.
Gọi là chiều dài trung bình của một trục đo trên mẫu.
Gọi là chiều dài trung bình của một trục đo trên đám đông.
Với mức ý nghĩa cần kiểm định
XDTCKD: . Nếu đúng thì T~.
Theo phương pháp P- giá trị ta có: P- giá trị
Trong đó
Vậy P- giá trị => Bác bỏ
Kết luận: Với mức ý nghĩa 0,01 thì ý kiến cho rằng máy có sự cố đã làm giảm chiều dài trung bình của các trục máy là sai.