2.3. Hệ số tin cậy và mức ý nghĩa
• Hệ số tin cậy là xác xuất để khoảng tin cậy chứa
giá trị thực của một thông số của không gian
mẫu. Hệ số tin cậy còn được gọi là mức tin cậy
• Mức ý nghĩa, được dùng trong kiểm định giả
thuyết, là xác xuất mà ta loại bỏ một giả thuyết
đúng hay phần trăm rủi ro khi ta loại bỏ giả
thuyết khi giả thuyết đó đúng. Giá trị liên quan
đến sai số loại I.
• Đối với sai số loại II, người ta thường đánh giá
bằng giá trị . Tuy nhiên ý nghĩa của không đơn
giản là xác xuất nhận kết quả sai như .
24 trang |
Chia sẻ: thanhle95 | Lượt xem: 263 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Bài giảng Quy hoạch thực nghiệm - Chương 2b: Kỳ vọng và biến lượng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
2.2. Kỳ vọng và biến lượng
Giá trị kỳ vọng
• Đối với biến rời rạc
• Đối với biến liên tục
f(x) là hàm mật độ xác xuất
Biến lượng 2
• Đối với biến rời rạc
• Đối với biến liên tục
E X xf x dx
1
i n
i i
i
E X x p
2
iVar X x f x dx
2
1
i n
i i
i
Var X x p
Var X
Một không gian mẫu được mô tả bởi 2 đại
lượng là kỳ vọng và độ lệch chuẩn
Tính chất của giá trị kỳ vọng
• Với biến không ngẫu nhiên E{c}= c
• Biến không ngẫu nhiên có thể đặt ngoài dấu kỳ
vọng
E{cX} = cE{X}
• Tính cộng
E{X1+X2+.+Xn} = E{X1} + E{X2} + ..+ E{Xn}
• Tính nhân
E{X1.X2..Xn} = E{X1}.E{X2}..E{Xn}
Tính chất của biến lượng
• Với biến không ngẫu nhiên Var{c} = 0
• Biến không ngẫu nhiên có thể dặt ngoài ký
hiệu Var
Var{cX} = c2Var{X}
• Tính cộng
Var{X1+X2++Xn} = Var{X1} + Var{X2}+ + Var{Xn}
• Var{X} = E{X2} - 2
Đối với một mẫu khảo sát nằm trong không gian mẫu
• Ước lượng giá trị trung bình hay giá trị trung bình của
mẩu, biểu thị độ đúng của phép đo
= xi/n
• Ước lượng biến lượng hay biến lượng mẫu, s2 biểu thị
độ chính xác của phép đo
s2 = (xi - )
2/(n-1)
Biến lượng mẫu còn được gọi là bình phương trung
bình sai số (error mean square)
• Các hàm trong Excel: AVERAGE(number1,[number2],..);
VAR(number1,[number2],..)
x
x
x
2.3. Hệ số tin cậy và mức ý nghĩa
• Hệ số tin cậy là xác xuất để khoảng tin cậy chứa
giá trị thực của một thông số của không gian
mẫu. Hệ số tin cậy còn được gọi là mức tin cậy
• Mức ý nghĩa, được dùng trong kiểm định giả
thuyết, là xác xuất mà ta loại bỏ một giả thuyết
đúng hay phần trăm rủi ro khi ta loại bỏ giả
thuyết khi giả thuyết đó đúng. Giá trị liên quan
đến sai số loại I.
• Đối với sai số loại II, người ta thường đánh giá
bằng giá trị . Tuy nhiên ý nghĩa của không đơn
giản là xác xuất nhận kết quả sai như .
Các loại sai số:
Kết luận khi so sánh kết quả rút ra được từ
không gian mẫu và kết quả rút ra được theo
khảo sát sẽ có 4 trường hợp
H0 đúng H0 sai
Loại H0
Giữ H0
Sai số loại I OK
OK Sai số loại II
H0 Đúng Sai
Loại I
Loại II
• Theo phân tích thống kê khi tiêu chí đánh giá
nhỏ hơn 5% thì sẽ loại bỏ giả thuyết; đồng
nghĩa với kết luận biến thuộc phân bố không
gian khác
2.4. Kiểm nghiệm giả thiết
• Một giả thuyết thống kê là một phát biểu về phân
bố không gian mẫu của một biến ngẫu nhiên
• Kiểm nghiệm giả thuyết là một quá trình lấy
quyết định là giả thuyết có tương thích với dữ
liệu hay không bằng cách so sánh giả thuyết
(thường ký hiệu H0) với dữ liệu hay các đại lượng
thống kê suy ra từ dữ liệu (giá trị trung bình, biến
lượng hay hệ số hồi qui)
• Khi tiến hành kiểm nghiệm giả thuyết thì giả
thuyết kiểm nghiệm, H0 được đối sánh với giả
thuyết ngược lại H1.
• Phương pháp bắt đầu cho rằng giả thuyết là đúng
• Mục tiêu là xác định có đủ chứng cớ để kết luận
là giả thuyết ngược, H1 lại là đúng, hoặc giả
thuyết ban đầu, H0 có lẽ sai
• Có 2 khả năng quyết định
– Có đủ chứng cớ khẳng định giả thuyết ngược H1 là
đúng: Loại bỏ giả thuyết ban đầu H0
– Không đủ chứng cớ khẳng định giả thuyết ngược H1 là
đúng: không bỏ giả thuyết ban đầu H0
Các bước kiểm nghiệm giả thuyết
• Phát biểu giả thuyết
• Xác định các đại lượng thống kê sẽ đánh giá
• Xác định kích thước mẫu khảo sát
• Đặt tiêu chí loại bỏ giả thuyết
• Tính các đại lượng thống kê
• Đưa ra kết luận về giả thuyết ban đầu
• Phát biểu cả giả thuyết ban đầu lẫn giả thuyết ngược
• Tiêu chí loại bỏ giả thuyết: thường dùng mức ý nghĩa,
dựa trên xác xuất gây ra sai số loại I. Nhà nghiên cứu
sẽ xác định giá trị
• Có nhiều kiểm nghiệm thống kê có thể sử dụng. Việc
chọn lựa phương pháp kiểm nghiệm dựa trên loại dữ
liệu có được, giả thuyết được kiểm nghiệm, các đại
lượng thống kê quan tâm (giá trị trung bình, biến
lượng, mối quan hệ ), cách thu thập dữ liệu, giả
thuyết về không gian mẫu, và có biết được các đại
lượng thống kê của không gian mẫu hay không.
• Đối với bất kỳ kiểm nghiệm giả thuyết nào
đều dựa trên tiêu chí đánh giá
Giá trị thống kê mẫu – Thông số không gian giả định
Tiêu chí đánh giá =
Sai số chuẩn của phân bố thống kê
Hay
Khác biệt quan sát được
Tiêu chí đánh giá =
Khác biệt kỳ vọng do ngẩu nhiên
• Loại bỏ giả thuyết nếu tiêu chí đánh giá rơi
vào vùng phân bố mẫu xác định
Những lưu ý khi phân tích thống kê
• Sự khác biệt từ phân tích thống kê không cần
thiết mang ý nghĩa khác biệt thực tế
• Với mẫu lớn sự khác biệt rất nhỏ không quan
trọng trong thực tế nhưng có thể là đáng kể
khi phân tích thống kê
• Với mẫu nhỏ sự khác biệt đáng kể trong thực
tế có thể không nhận thấy khi phân tích thống
kê
• Luôn luôn bắt đầu với những nhận xét từ thực
tế và củng cố bằng phân tích thống kê
Những quan điểm sai khi kiểm nghiệm giả thuyết
• Không loại bỏ giả thuyết nghĩa là chấp nhận giả thuyết
(SAI! Không loại bỏ có nghĩa là không đủ chứng cớ để
loại bỏ)
• Giá trị p là xác xuất để nói rằng giả thuyết sai (SAI! Giá
trị p là xác xuất của dữ liệu hiện có hay là dữ liệu cực
cùng giả sử là giả thuyết đúng)
• Giá trị p nhỏ chỉ rằng có hiệu ứng cao (SAI! Giá trị p
không nói lên độ lớn của hiệu ứng)
• Các dữ liệu cho biết giả thuyết sai hay đúng (SAI! Các dữ
liệu chỉ nhằm củng cố hay bác bỏ giả thuyết)
• Ý nghĩa thống kê ám chí mức độ quan trọng (HOÀN
TOÀN SAI! Ý nghĩa thống kê cho biết rất ít về mức độ
quan trọng của quan hệ)
2.5. Loại bỏ dữ liệu sai
• Trong quá trình thu thập dữ liệu, có những dữ liệu do
bất cẩn khi thu thập không thể hiện đúng bản chất,
nằm xa giá trị kỳ vọng. Các giá trị này được xem là giá
trị sai(outlier). Do đó chúng ta phải kiểm tra để xác
định nên loại bỏ dữ liệu này hay không.
• Có nhiều phương pháp đánh giá để loại bỏ dữ liệu sai
– Loại bỏ các dữ liệu nằm ngoài khoảng 2
– Loại bỏ dữ liệu nằm ngoài khoảng phân vị (quantile) Q2 và
Q3
– Dùng kiểm nghiệm Dixon
– Dùng kiểm nghiệm Grubbs
Kiểm nghiệm Dixon
• Còn gọi là kiểm nghiệm Q
• Dựa trên tỉ số các khoảng xác định của dữ liệu
• Tùy thuộc số dữ liệu dự đoán là dữ liệu sai sẽ sử dụng
các tỉ lệ khác nhau
• Nhóm tỉ lệ thứ nhất, r10, dùng kiểm nghiệm khi dự
đoán dữ liệu lớn nhất hoặc nhỏ nhất là dữ liệu sai
• Nhóm tỉ lệ thứ hai, r11, dùng kiểm nghiệm khi dự đoán
dữ liệu lớn thứ hai hoặc nhỏ thứ hai là dữ liệu sai
• Nếu tỉ lệ tính được lớn hơn giá trị tương ứng ở bảng
thì dữ liệu này sẽ bị loại bỏ
• Kiểm nghiệm dữ liệu lớn nhất
• Kiểm nghiệm dữ liệu nhỏ nhất
• Kiểm nghiệm dữ liệu lớn nhất bỏ qua dữ liệu nhỏ
nhất
• Kiểm nghiệm dữ liệu lớn nhất bỏ qua dữ liệu nhỏ
nhất
1
10
1
n n
n
x x
r
x x
2 1
10
1n
x x
r
x x
1
11
2
n n
n
x x
r
x x
2 1
11
1 1n
x x
r
x x
Giá trị kiểm nghiệm Dixon (=0.05)
Số dữ liệu R10 R11
3 0.941
4 0.765 0.955
5 0.642 0.807
6 0.560 0.689
7 0.507 0.610
8 0.468 0.554
9 0.437 0.512
10 0.412 0.477
Kiểm nghiệm Grubbs
• Kiểm nghiệm Grubbs rất hiệu quả khi loại bỏ
từng dữ liệu trong phân bố bình thường
• Tính giá trị ESD (Extreme Studentized Deviate)
• So sánh giá trị tính và giá trị bảng. Nếu giá trị
tính lớn hơn giá trị bảng thì loại bỏ dữ liệu.
Lập lại phép kiểm nghiệm với số liệu còn lai
ix x
ESD
s
Giá trị dùng cho kiểm nghiệm Grubbs
Số dữ liệu N = 0.05 = 0.01
10 2.29 2.48
11 2.35 2.56
12 2.41 2.64
13 2.46 2.70
14 2.51 2.76
15 2.55 2.81
16 2.59 2.85
17 2.62 2.89
18 2.65 2.93
19 2.68 2.97
20 2.71 3.00
25 2.82 3.14
30 2.91 3.24
35 2.98 3.32
40 3.04 3.38