B. VÍ DỤ MINH HỌA
Bài toán: Cho bảng số liệu sau.
Trong đó:
Y: sản lượng dầu thô (đơn vị: nghìn tấn)
X: kim ngạch xuất khẩu dầu thô (đơn vị: nghìn tấn)
Z: vốn đầu tư khai thác (đơn vị trăm triệu đồng)
Yêu cầu: Hãy phát hiện hiện tượng đa cộng tuyến và tìm biện pháp khắc phục. Cho α = 5%.
10 trang |
Chia sẻ: thanhtuan.68 | Lượt xem: 1232 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Cách phát hiện và khắc phục hiện tượng đa cộng tuyến, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
B. VÍ DỤ MINH HỌA
Bài toán: Cho bảng số liệu sau.
Trong đó:
Y: sản lượng dầu thô (đơn vị: nghìn tấn)
X: kim ngạch xuất khẩu dầu thô (đơn vị: nghìn tấn)
Z: vốn đầu tư khai thác (đơn vị trăm triệu đồng)
Yêu cầu: Hãy phát hiện hiện tượng đa cộng tuyến và tìm biện pháp khắc phục. Cho α = 5%.
2.9975
13.0394
26.444
3.2615
13.2836
71.3427
3.9534
13.6048
129.8
5.3669
13.937
230.7305
6.0973
14.3781
341.7524
7.2072
14.5893
481.4634
7.8243
15.2548
601.2952
8.1796
15.7597
696.9732
9.5359
15.9621
863.8135
10.7118
16.1865
1003.6598
11.9966
16.8256
1144.594
13.9931
17.6121
1287.8756
15.9544
18.2776
1420.5488
17.1974
18.8364
1569.5317
18.4503
18.8881
1814.2707
Tiến hành ước lượng hàm hồi quy mẫu ta được
Dependent Variable: Y
Method: Least Squares
Date: 05/06/10 Time: 19:25
Sample: 1 15
Included observations: 15
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
12.47549
0.301090
41.43445
0.0000
X
0.228322
0.105322
2.167852
0.0510
Z
0.001431
0.000924
1.547751
0.1476
R-squared
0.990379
Mean dependent var
15.76234
Adjusted R-squared
0.988776
S.D. dependent var
1.989505
S.E. of regression
0.210776
Akaike info criterion
-0.099186
Sum squared resid
0.533118
Schwarz criterion
0.042424
Log likelihood
3.743892
F-statistic
617.6576
Durbin-Watson stat
1.650553
Prob(F-statistic)
0.000000
I/ Phát hiện hiện tượng đa cộng tuyến
Ta có hàm hồi quy mẫu:
Cách 1: Hệ số xác định bội cao nhưng t thấp.
Nhận xét:
Thống kê t của hệ số ứng với biến X
T = 2.167852 < 2.179
Thống kê t của hệ số ứng với biến Z
T = 1.547751 < 2.179
Vậy cao nhưng t thấp. Suy ra có hiện tượng đa cộng tuyến.
Cách 2: Hệ số tương quan cặp giữa các biến giải thích cao
Ta có.
X
Z
X
1.000000
0.994412
Z
0.994412
1000000
=> Như vậy ta càng có cơ sở kết luận có hiện tượng đa cộng tuyến trong mô hình trên
Cách 3: Hồi quy phụ
Ta hồi quy biến X theo biến Z được kết quả như sau:
Dependent Variable: X
Method: Least Squares
Date: 05/06/10 Time: 21:05
Sample: 1 15
Included observations: 15
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
2.717476
0.246174
11.03884
0.0000
Z
0.008727
0.000257
33.96160
0.0000
R-squared
0.988854
Mean dependent var
9.515147
Adjusted R-squared
0.987997
S.D. dependent var
5.066274
S.E. of regression
0.555048
Akaike info criterion
1.784043
Sum squared resid
4.005022
Schwarz criterion
1.878449
Log likelihood
-11.38032
F-statistic
1153.390
Durbin-Watson stat
0.703053
Prob(F-statistic)
0.000000
Ta có ta đi kiểm định giả thiết
: X không có hiện tượng đa cộng tuyến với Z
: X có hiện tượng đa cộng tuyến với Z
Nhận xét:
Ta thấy giá trị p-value của thống kê F là 0.000000 < =0.05
=> bác bỏ giả thiết chấp nhận giả thiết
Vậy càng có cơ sở khẳng định mô hình trên có hiện tượng đa cộng tuyến
Cách 4: Độ đo Theil
Ta có các hệ số tương quan giữa các biến Y và X,Z như
Y
X
Z
Y
1.000000
0.994213
0.993283
X
0.994213
1.000000
0.994412
Z
0.993283
0.994412
1.000000
Để tính được độ đo Theil ta phải tính được ,. Theo công thức đã biết ở chương hai ta có
=
Vậy m = = 0.99038 – 2(1-0.98846)0.16636=0.98654
m khác 0 nên chứng tỏ có hiện tượng đa cộng tuyến sảy ra. Và mức độ đa cộng tuyến là 0.98654
II/ Khắc phục hiện tượng đa cộng tuyến
Cách 1: Bỏ biến
Bước 1: hồi quy Y theo X =>
Bước 2: hồi quy Y theo Z =>
Bước 3: so sánh và trong các hồi quy trên
Bước 4: kết luận.
* Bước 1 : Hồi quy Y theo X
Dependent Variable: Y
Method: Least Squares
Date: 05/06/10 Time: 22:42
Sample: 1 15
Included observations: 15
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
12.04740
0.125199
96.22580
0.0000
X
0.390423
0.011701
33.36762
0.0000
R-squared
0.988459
Mean dependent var
15.76234
Adjusted R-squared
0.987571
S.D. dependent var
1.989505
S.E. of regression
0.221801
Akaike info criterion
-0.050508
Sum squared resid
0.639543
Schwarz criterion
0.043899
Log likelihood
2.378807
F-statistic
1113.398
Durbin-Watson stat
1.323845
Prob(F-statistic)
0.000000
* Bước 2 Hồi quy Y theo Z
Dependent Variable: Y
Method: Least Squares
Date: 05/06/10 Time: 22:44
Sample: 1 15
Included observations: 15
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
13.09595
0.105953
123.6014
0.0000
Z
0.003423
0.000111
30.95139
0.0000
R-squared
0.986612
Mean dependent var
15.76234
Adjusted R-squared
0.985582
S.D. dependent var
1.989505
S.E. of regression
0.238892
Akaike info criterion
0.097958
Sum squared resid
0.741904
Schwarz criterion
0.192365
Log likelihood
1.265315
F-statistic
957.9883
Durbin-Watson stat
1.580353
Prob(F-statistic)
0.000000
* Bước 3 :
Từ kết quả hồi quy ở trên ta có:
= 0.990379 = 0.988776
= 0.988459 = 0.987571
= 0.986612 = 0.985582
* Bước 4:
Ta tiến hành so sánh. Và kết luận trong trường hợp này loại biến Z
Cách 2: Sử dụng sai phân cấp 1
Chúng ta có số liệu chuỗi thời gian biểu thị liên hệ giữa biến Y và các biến phụ thuộc X,Z theo mô hình sau
(*)
Với t là thời gian. Phương trình trên đúng với t thì cũng đúng với t-1 nghĩa là :
(**)
Trừ (* ) cho (** ). Và đặt
Ta thu được bảng số liệu mới
0.2442
0.264
44.8987
0.3212
0.6919
58.4573
0.3322
0.14135
100.9305
0.4411
0.7004
111.0219
0.2112
1.1099
139.711
0.6655
0.6171
119.8318
0.5049
0.3553
95.678
0.2024
1.3563
166.8403
0.2244
1.1759
139.8463
0.6391
1.2848
140.9342
0.7865
1.9965
143.2816
0.6655
1.9613
132.6732
0.5588
1.243
148.9829
0.0517
1.2529
244.739
Hồi quy sai phân cấp 1
Dependent Variable: Y
Method: Least Squares
Date: 05/07/10 Time: 00:26
Sample: 1 14
Included observations: 14
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
0.492919
0.156868
3.142245
0.0094
X
0.253956
0.118246
2.147699
0.0549
Z
-0.002599
0.001415
-1.836880
0.0934
R-squared
0.318112
Mean dependent var
0.417764
Adjusted R-squared
0.194132
S.D. dependent var
0.222390
S.E. of regression
0.199640
Akaike info criterion
-0.197197
Sum squared resid
0.438416
Schwarz criterion
-0.060256
Log likelihood
4.380378
F-statistic
2.565840
Durbin-Watson stat
1.895777
Prob(F-statistic)
0.121737
Ta có hệ số tương quan giữa các biến giải thích
1.000000
0.582640
0.582640
1.000000
Hồi quy phụ của biến sai phân theo ta được
Dependent Variable: X
Method: Least Squares
Date: 05/07/10 Time: 00:52
Sample: 1 14
Included observations: 14
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
0.120602
0.381380
0.316226
0.7573
Z
0.006971
0.002807
2.483386
0.0288
R-squared
0.339469
Mean dependent var
1.010761
Adjusted R-squared
0.284425
S.D. dependent var
0.576160
S.E. of regression
0.487384
Akaike info criterion
1.532033
Sum squared resid
2.850513
Schwarz criterion
1.623327
Log likelihood
-8.724231
F-statistic
6.167204
Durbin-Watson stat
1.094455
Prob(F-statistic)
0.028779
Nhận xét =0.318112< 0.8
= 0.582640 <0.8
Khi ta tiến hành hồi quy phụ theo , mặc dù vẫn còn hiện tượng đa cộng tuyến nhưng mức độ cộng tuyến giảm vì=0.028778 đã gần với =0.05 hơn. Tuy nhiên ta thấy, khi sử dụng sai phân cấp 1 mức độ phù hợp của mô hình đã bị suy giảm.
Bỏ biến sai phân
Hồi quy Y theo biến X
Dependent Variable: Y
Method: Least Squares
Date: 05/07/10 Time: 07:51
Sample: 1 14
Included observations: 14
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
0.288988
0.121294
2.382547
0.0346
X
0.127405
0.105180
1.211307
0.2491
R-squared
0.108950
Mean dependent var
0.417764
Adjusted R-squared
0.034696
S.D. dependent var
0.222390
S.E. of regression
0.218498
Akaike info criterion
-0.072519
Sum squared resid
0.572895
Schwarz criterion
0.018774
Log likelihood
2.507636
F-statistic
1.467265
Durbin-Watson stat
1.736288
Prob(F-statistic)
0.249092
Hồi quy Y theo biến Z
Dependent Variable: Y
Method: Least Squares
Date: 05/07/10 Time: 07:55
Sample: 1 14
Included observations: 14
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
0.523546
0.178189
2.938155
0.0124
Z
-0.000828
0.001311
-0.631636
0.5395
R-squared
0.032177
Mean dependent var
0.417764
Adjusted R-squared
-0.048475
S.D. dependent var
0.222390
S.E. of regression
0.227716
Akaike info criterion
0.010130
Sum squared resid
0.622256
Schwarz criterion
0.101423
Log likelihood
1.929093
F-statistic
0.398964
Durbin-Watson stat
1.210672
Prob(F-statistic)
0.539472
Từ kết quả hồi quy của theo và theo ta sẽ chọn loại bỏ biến khỏi mô hình
Mặt khác ta lại có
t là số quan sát. Phương trình cũng đúng với t quan sát thì cũng đúng với t-1 quan sát
* Ta có mô hình hồi quy gốc ban đầu là:
(1)
* Xây dựng hàm hồi quy thứ 2 mà khi ta đã bỏ đi quan sát đâu tiên
Dependent Variable: Y
Method: Least Squares
Date: 05/07/10 Time: 08:23
Sample: 1 14
Included observations: 14
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
12.53141
0.311569
40.22029
0.0000
X
0.222474
0.108643
2.047760
0.0652
Z
0.001445
0.000958
1.509363
0.1594
R-squared
0.989091
Mean dependent var
15.95684
Adjusted R-squared
0.987107
S.D. dependent var
1.910897
S.E. of regression
0.216974
Akaike info criterion
-0.030672
Sum squared resid
0.517854
Schwarz criterion
0.106269
Log likelihood
3.214701
F-statistic
498.6660
Durbin-Watson stat
1.705403
Prob(F-statistic)
0.000000
Ta có hàm hồi quy mới sau khi bỏ đi quan sát đầu tiên
=12.53141 +0.222474+0.001445(2)
Lấy hiệu của (1) trừ đi (2) ta được môi hình sai phân cấp 1
= -0.05592+0.00585- 0.000014
Mô hình này cũng cũng có thể làm giảm đa cộng tuyến của các biến dộc lập
Kết luận.
Có nhiều cách phát hiện và khắc phục hiện tượng đa cộng tuyến khác nhau. Mỗi phương pháp có những hạn chế nhất định. Vì vậy, khi áp dụng một phương pháp nào ta cần cân nhắc kĩ lượng để mang lại kết quả tin cậy nhất.