Chương 4: Đa cộng tuyến
Bản chất của đa cộng tuyến
Ước lượng trong trường hợp có đa cộng tuyến
Hậu quả của đa cộng tuyến
Phát hiện đa cộng tuyến
Các biện pháp khắc phục
21 trang |
Chia sẻ: thanhtuan.68 | Lượt xem: 1018 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Bài giảng Kinh tế lượng - Chương 4: Đa cộng tuyến, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
104
Chương 4: Đa cộng tuyến
Bản chất của đa cộng tuyến
Ước lượng trong trường hợp có đa cộng tuyến
Hậu quả của đa cộng tuyến
Phát hiện đa cộng tuyến
Các biện pháp khắc phục
105
Bản chất của đa cộng tuyến
Đa cộng tuyến (Multicollinearity):
Ragnar Frisch: Đa cộng tuyến có nghĩa là sự tồn
tại mối quan hệ tuyến tính “hoàn hảo” hoặc
chính xác giữa một số hoặc tất cả các biến giải
thích trong một mô hình hồi qui.
106
Minh họa bằng hình ảnh
107
Xét hàm hồi qui tuyến tính k biến độc lập:
Yi = 0 + 1X1i + 2X2i + + kXki + Ui
Đa cộng tuyến hoàn hảo: Nếu tồn tại các số i
không đồng thời bằng 0 sao cho:
1X1i + 2X2i + + kXki = 0
Có nghĩa là tồn tại biến độc lập biểu diễn tuyến
tính qua các biến còn lại.
Đa cộng tuyến không hoàn hảo: Nếu tồn tại
các số i không đồng thời bằng 0 sao cho:
1X1i + 2X2i + + kXki + V = 0
108
Ví dụ:
X2i = 5X1i, vì vậy có cộng tuyến hoàn hảo giữa X1 và
X2 ; r23 = 1
X1 và X3 không có cộng tuyến hoàn hảo, nhưng hai
biến này có tương quan chặt chẽ.
X1 10 15 18 24 30
X2 50 75 90 120 150
X3 52 75 97 129 152
109
Lưu ý:
Giả định về sự đa cộng tuyến liên quan đến mối
quan hệ tuyến tính giữa các biến Xi, và không
đề cập đến các mối quan hệ phi tuyến tính.
Xem xét mô hình:
Y = 0 + 1X + 2X
2 + 3X
3 + U
Rõ ràng X2 và X3 có mối quan hệ hàm số với X
nhưng phi tuyến tính nên không vi phạm giả
định về đa cộng tuyến.
110
Ước lượng tham số khi có đa cộng tuyến
Xét mô hình hồi qui 2 biến dưới dạng sau:
Yi = 0 + 1 X1i + 2 X2i + Ui
yi = 1x1i + 2x2i + Ui
Với:
2
2
21
2
2
2
1
2
1
2
2
21
2
2
2
1
211
2
12
2
)(
)(
)(
iiii
i
iiii
iiiiiii
xxxx
x
bVar
xxxx
xxxyxxy
b
YYyXXx iiii ,
111
Trường hợp đa cộng tuyến hoàn hảo:
Giả sử x2i = x1i
2
2
21
2
2
2
1
2
1
2
2
21
2
2
2
1
211
2
12
2
)())((
)(
)())((
))(())((
iiii
i
iiii
iiiiiii
xxxx
x
bVar
xxxx
xxxyxxy
b
Thay vào chúng ta thấy mẫu số đều bằng 0. Do đó
ước lượng tham số và phương sai không còn ý
nghĩa.
112
Trường hợp đa cộng tuyến gần hoàn hảo:
Nếu x1, x2 có quan hệ tuyến tính chặt chẽ r12 gần ±1
2
12
2
2
2
2
2
12
2
1
2
1
1
1
.)(
1
1
.)(
rx
bVar
rx
bVar
i
i
Chúng ta thấy mẫu số sẽ tiến về 0 nên ước lượng
phương sai sẽ rất lớn.
113
Hậu quả nếu có đa cộng tuyến gần hoàn hảo:
1. Ước lượng phương sai sẽ lớn.
2. Ước lượng các tham số sẽ rộng.
3. Kiểm định tham số có khuynh hướng chấp
nhận.
4. Các ước lượng sẽ nhạy với thay đổi nhỏ của
dữ liệu.
5. Dấu của các tham số có thể sai.
6. Thêm vào hoặc bớt đi biến có đa cộng tuyến
mô hình sẽ thay đổi nhiều.
)( 2/,1 ibknii Stb
ib
i
S
b
t
114
Phát hiện đa cộng tuyến
1. Hệ số R2 lớn (>0,8) nhưng tỷ số t nhỏ.
Ví dụ: Thực hiện hồi qui file hoi quy boi
Model Summary
,881a ,776 ,757 1,77383
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Predictors: (Constant), dung tich dong co (lit), cong suat
dong co (HP), trong luong xe (kg), so may (cylinder)
a.
Coefficientsa
26,234 2,319 11,312 ,000
-,046 ,016 -,348 -2,783 ,008
-,009 ,002 -,722 -4,161 ,000
,244 ,536 ,100 ,455 ,651
,178 ,882 ,063 ,202 ,841
(Constant)
cong suat dong co (HP)
trong luong xe (kg)
so may (cylinder)
dung tich dong co (lit)
Model
1
B Std. Error
Unstandardized
Coefficients
Beta
Standardized
Coefficients
t Sig.
Dependent Variable: muc tieu thu xang (km/lit)a.
115
Phát hiện đa cộng tuyến
2. Tương quan cặp giữa các biến giải thích cao
Correlations
1 ,786** ,752** ,818**
,000 ,000 ,000
50 50 50 50
,786** 1 ,802** ,901**
,000 ,000 ,000
50 50 50 50
,752** ,802** 1 ,941**
,000 ,000 ,000
50 50 50 50
,818** ,901** ,941** 1
,000 ,000 ,000
50 50 50 50
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
cong suat dong co (HP)
trong luong xe (kg)
so may (cylinder)
dung tich dong co (lit)
cong suat
dong co (HP)
trong luong
xe (kg)
so may
(cylinder)
dung tich
dong co (lit)
Correlation is significant at the 0.01 level (2-tailed).**.
116
Phát hiện đa cộng tuyến
3. Sử dụng mô hình hồi qui phụ:
ANOVAb
75,849 3 25,283 287,473 ,000a
4,046 46 ,088
79,895 49
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), so may (cylinder), cong suat dong co (HP), trong luong xe
(kg)
a.
Dependent Variable: dung tich dong co (lit)b.
ikkjjjjj VXXXXX ...... 1111110
Với biến phụ thuộc là Xj có hệ số tương quan lớn.
Nếu mô hình có ý nghĩa thì ta nghi ngờ có hiện
tượng đa cộng tuyến.
117
Phát hiện đa cộng tuyến
4. Sử dụng yếu tố phóng đại phương sai (VIF)
21
1
jR
VIF
Rj
2 là hệ số xác định của hàm hồi qui phụ. Nếu VIF
lớn hơn 10 có thể nghi ngờ xảy ra hiện tượng đa
cộng tuyến.
118
Phát hiện đa cộng tuyến
4. Sử dụng yếu tố phóng đại phương sai (VIF)
21
1
jR
VIF
Rj
2 là hệ số xác định của hàm hồi qui phụ. Nếu VIF
lớn hơn 5 có thể nghi ngờ xảy ra hiện tượng đa
cộng tuyến.
119
4. Sử dụng yếu tố phóng đại phương sai (VIF)
120
4. Sử dụng yếu tố phóng đại phương sai (VIF)
Coefficientsa
26,234 2,319 11,312 ,000
-,046 ,016 -,348 -2,783 ,008 ,318 3,141
-,009 ,002 -,722 -4,161 ,000 ,165 6,067
,244 ,536 ,100 ,455 ,651 ,102 9,763
,178 ,882 ,063 ,202 ,841 ,051 19,748
(Constant)
cong suat dong co (HP)
trong luong xe (kg)
so may (cylinder)
dung tich dong co (lit)
Model
1
B Std. Error
Unstandardized
Coefficients
Beta
Standardized
Coefficients
t Sig. Tolerance VIF
Collinearity Statistics
Dependent Variable: muc tieu thu xang (km/lit)a.
Biến dung tích nghi ngờ xảy ra hiện tượng đa cộng
tuyến
121
Các biện pháp khắc phục
1. Sử dụng thông tin tiên nghiệm:
Ví dụ: hàm sản xuất Cobb-Douglas:
tu
ttt eKALQ
Qt là sản lượng sản phẩm sản xuất ở thời kỳ t
Lt là lao động ở thời kỳ t;
Kt là vốn ở thời kỳ t;
Ut là sai số ngẫu nhiên
UKLAQ
UKLAQ
****
lnlnlnln
Logarit 2 vế ta được:
122
1. Sử dụng thông tin tiên nghiệm:
UKLAQ
UKLAQ
****
lnlnlnln
Logarit 2 vế ta được:
Dựa vào thông nào đó chúng ta biết hàm sản xuất
thu nhập theo qui mô không đổi: + = 1.
=> = 1 -
ttt
ttttt
UXAY
UKLAKQ
***
***** )(
123
Các biện pháp khắc phục
2. Thu thập thêm số liệu hoặc thu thập mới.
Hiện tượng đa cộng tuyến nhiều khi do đặc tính
của mẫu, do đó khi gia tăng kích thước mẫu có
thể làm giảm đa cộng tuyến.
3. Bỏ bớt biến xảy ra đa cộng tuyến:
Thông thường ta bỏ biến nào gây ra đa cộng
tuyến nhiều.
124
Các biện pháp khắc phục
Coefficientsa
25,823 1,108 23,315 ,000
-,045 ,016 -,341 -2,857 ,006 ,341 2,930
-,009 ,002 -,700 -5,307 ,000 ,280 3,577
,333 ,301 ,137 1,106 ,274 ,318 3,147
(Constant)
cong suat dong co (HP)
trong luong xe (kg)
so may (cylinder)
Model
1
B Std. Error
Unstandardized
Coefficients
Beta
Standardized
Coefficients
t Sig. Tolerance VIF
Collinearity Statistics
Dependent Variable: muc tieu thu xang (km/lit)a.