Cách phát hiện và khắc phục hiện tượng đa cộng tuyến

B. VÍ DỤ MINH HỌA Bài toán: Cho bảng số liệu sau. Trong đó: Y: sản lượng dầu thô (đơn vị: nghìn tấn) X: kim ngạch xuất khẩu dầu thô (đơn vị: nghìn tấn) Z: vốn đầu tư khai thác (đơn vị trăm triệu đồng) Yêu cầu: Hãy phát hiện hiện tượng đa cộng tuyến và tìm biện pháp khắc phục. Cho α = 5%.

doc10 trang | Chia sẻ: thanhtuan.68 | Lượt xem: 1232 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Cách phát hiện và khắc phục hiện tượng đa cộng tuyến, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
B. VÍ DỤ MINH HỌA Bài toán: Cho bảng số liệu sau. Trong đó: Y: sản lượng dầu thô (đơn vị: nghìn tấn) X: kim ngạch xuất khẩu dầu thô (đơn vị: nghìn tấn) Z: vốn đầu tư khai thác (đơn vị trăm triệu đồng) Yêu cầu: Hãy phát hiện hiện tượng đa cộng tuyến và tìm biện pháp khắc phục. Cho α = 5%. 2.9975 13.0394 26.444 3.2615 13.2836 71.3427 3.9534 13.6048 129.8 5.3669 13.937 230.7305 6.0973 14.3781 341.7524 7.2072 14.5893 481.4634 7.8243 15.2548 601.2952 8.1796 15.7597 696.9732 9.5359 15.9621 863.8135 10.7118 16.1865 1003.6598 11.9966 16.8256 1144.594 13.9931 17.6121 1287.8756 15.9544 18.2776 1420.5488 17.1974 18.8364 1569.5317 18.4503 18.8881 1814.2707 Tiến hành ước lượng hàm hồi quy mẫu ta được Dependent Variable: Y Method: Least Squares Date: 05/06/10 Time: 19:25 Sample: 1 15 Included observations: 15 Variable Coefficient Std. Error t-Statistic Prob. C 12.47549 0.301090 41.43445 0.0000 X 0.228322 0.105322 2.167852 0.0510 Z 0.001431 0.000924 1.547751 0.1476 R-squared 0.990379 Mean dependent var 15.76234 Adjusted R-squared 0.988776 S.D. dependent var 1.989505 S.E. of regression 0.210776 Akaike info criterion -0.099186 Sum squared resid 0.533118 Schwarz criterion 0.042424 Log likelihood 3.743892 F-statistic 617.6576 Durbin-Watson stat 1.650553 Prob(F-statistic) 0.000000 I/ Phát hiện hiện tượng đa cộng tuyến Ta có hàm hồi quy mẫu: Cách 1: Hệ số xác định bội cao nhưng t thấp. Nhận xét: Thống kê t của hệ số ứng với biến X T = 2.167852 < 2.179 Thống kê t của hệ số ứng với biến Z T = 1.547751 < 2.179 Vậy cao nhưng t thấp. Suy ra có hiện tượng đa cộng tuyến. Cách 2: Hệ số tương quan cặp giữa các biến giải thích cao Ta có. X Z X 1.000000 0.994412 Z 0.994412 1000000 => Như vậy ta càng có cơ sở kết luận có hiện tượng đa cộng tuyến trong mô hình trên Cách 3: Hồi quy phụ Ta hồi quy biến X theo biến Z được kết quả như sau: Dependent Variable: X Method: Least Squares Date: 05/06/10 Time: 21:05 Sample: 1 15 Included observations: 15 Variable Coefficient Std. Error t-Statistic Prob. C 2.717476 0.246174 11.03884 0.0000 Z 0.008727 0.000257 33.96160 0.0000 R-squared 0.988854 Mean dependent var 9.515147 Adjusted R-squared 0.987997 S.D. dependent var 5.066274 S.E. of regression 0.555048 Akaike info criterion 1.784043 Sum squared resid 4.005022 Schwarz criterion 1.878449 Log likelihood -11.38032 F-statistic 1153.390 Durbin-Watson stat 0.703053 Prob(F-statistic) 0.000000 Ta có ta đi kiểm định giả thiết : X không có hiện tượng đa cộng tuyến với Z : X có hiện tượng đa cộng tuyến với Z Nhận xét: Ta thấy giá trị p-value của thống kê F là 0.000000 < =0.05 => bác bỏ giả thiết chấp nhận giả thiết Vậy càng có cơ sở khẳng định mô hình trên có hiện tượng đa cộng tuyến Cách 4: Độ đo Theil Ta có các hệ số tương quan giữa các biến Y và X,Z như Y X Z Y 1.000000 0.994213 0.993283 X 0.994213 1.000000 0.994412 Z 0.993283 0.994412 1.000000 Để tính được độ đo Theil ta phải tính được ,. Theo công thức đã biết ở chương hai ta có = Vậy m = = 0.99038 – 2(1-0.98846)0.16636=0.98654 m khác 0 nên chứng tỏ có hiện tượng đa cộng tuyến sảy ra. Và mức độ đa cộng tuyến là 0.98654 II/ Khắc phục hiện tượng đa cộng tuyến Cách 1: Bỏ biến Bước 1: hồi quy Y theo X => Bước 2: hồi quy Y theo Z => Bước 3: so sánh và trong các hồi quy trên Bước 4: kết luận. * Bước 1 : Hồi quy Y theo X Dependent Variable: Y Method: Least Squares Date: 05/06/10 Time: 22:42 Sample: 1 15 Included observations: 15 Variable Coefficient Std. Error t-Statistic Prob. C 12.04740 0.125199 96.22580 0.0000 X 0.390423 0.011701 33.36762 0.0000 R-squared 0.988459 Mean dependent var 15.76234 Adjusted R-squared 0.987571 S.D. dependent var 1.989505 S.E. of regression 0.221801 Akaike info criterion -0.050508 Sum squared resid 0.639543 Schwarz criterion 0.043899 Log likelihood 2.378807 F-statistic 1113.398 Durbin-Watson stat 1.323845 Prob(F-statistic) 0.000000 * Bước 2 Hồi quy Y theo Z Dependent Variable: Y Method: Least Squares Date: 05/06/10 Time: 22:44 Sample: 1 15 Included observations: 15 Variable Coefficient Std. Error t-Statistic Prob. C 13.09595 0.105953 123.6014 0.0000 Z 0.003423 0.000111 30.95139 0.0000 R-squared 0.986612 Mean dependent var 15.76234 Adjusted R-squared 0.985582 S.D. dependent var 1.989505 S.E. of regression 0.238892 Akaike info criterion 0.097958 Sum squared resid 0.741904 Schwarz criterion 0.192365 Log likelihood 1.265315 F-statistic 957.9883 Durbin-Watson stat 1.580353 Prob(F-statistic) 0.000000 * Bước 3 : Từ kết quả hồi quy ở trên ta có: = 0.990379 = 0.988776 = 0.988459 = 0.987571 = 0.986612 = 0.985582 * Bước 4: Ta tiến hành so sánh. Và kết luận trong trường hợp này loại biến Z Cách 2: Sử dụng sai phân cấp 1 Chúng ta có số liệu chuỗi thời gian biểu thị liên hệ giữa biến Y và các biến phụ thuộc X,Z theo mô hình sau (*) Với t là thời gian. Phương trình trên đúng với t thì cũng đúng với t-1 nghĩa là : (**) Trừ (* ) cho (** ). Và đặt Ta thu được bảng số liệu mới 0.2442 0.264 44.8987 0.3212 0.6919 58.4573 0.3322 0.14135 100.9305 0.4411 0.7004 111.0219 0.2112 1.1099 139.711 0.6655 0.6171 119.8318 0.5049 0.3553 95.678 0.2024 1.3563 166.8403 0.2244 1.1759 139.8463 0.6391 1.2848 140.9342 0.7865 1.9965 143.2816 0.6655 1.9613 132.6732 0.5588 1.243 148.9829 0.0517 1.2529 244.739 Hồi quy sai phân cấp 1 Dependent Variable: Y Method: Least Squares Date: 05/07/10 Time: 00:26 Sample: 1 14 Included observations: 14 Variable Coefficient Std. Error t-Statistic Prob. C 0.492919 0.156868 3.142245 0.0094 X 0.253956 0.118246 2.147699 0.0549 Z -0.002599 0.001415 -1.836880 0.0934 R-squared 0.318112 Mean dependent var 0.417764 Adjusted R-squared 0.194132 S.D. dependent var 0.222390 S.E. of regression 0.199640 Akaike info criterion -0.197197 Sum squared resid 0.438416 Schwarz criterion -0.060256 Log likelihood 4.380378 F-statistic 2.565840 Durbin-Watson stat 1.895777 Prob(F-statistic) 0.121737 Ta có hệ số tương quan giữa các biến giải thích 1.000000 0.582640 0.582640 1.000000 Hồi quy phụ của biến sai phân theo ta được Dependent Variable: X Method: Least Squares Date: 05/07/10 Time: 00:52 Sample: 1 14 Included observations: 14 Variable Coefficient Std. Error t-Statistic Prob. C 0.120602 0.381380 0.316226 0.7573 Z 0.006971 0.002807 2.483386 0.0288 R-squared 0.339469 Mean dependent var 1.010761 Adjusted R-squared 0.284425 S.D. dependent var 0.576160 S.E. of regression 0.487384 Akaike info criterion 1.532033 Sum squared resid 2.850513 Schwarz criterion 1.623327 Log likelihood -8.724231 F-statistic 6.167204 Durbin-Watson stat 1.094455 Prob(F-statistic) 0.028779 Nhận xét =0.318112< 0.8 = 0.582640 <0.8 Khi ta tiến hành hồi quy phụ theo , mặc dù vẫn còn hiện tượng đa cộng tuyến nhưng mức độ cộng tuyến giảm vì=0.028778 đã gần với =0.05 hơn. Tuy nhiên ta thấy, khi sử dụng sai phân cấp 1 mức độ phù hợp của mô hình đã bị suy giảm. Bỏ biến sai phân Hồi quy Y theo biến X Dependent Variable: Y Method: Least Squares Date: 05/07/10 Time: 07:51 Sample: 1 14 Included observations: 14 Variable Coefficient Std. Error t-Statistic Prob. C 0.288988 0.121294 2.382547 0.0346 X 0.127405 0.105180 1.211307 0.2491 R-squared 0.108950 Mean dependent var 0.417764 Adjusted R-squared 0.034696 S.D. dependent var 0.222390 S.E. of regression 0.218498 Akaike info criterion -0.072519 Sum squared resid 0.572895 Schwarz criterion 0.018774 Log likelihood 2.507636 F-statistic 1.467265 Durbin-Watson stat 1.736288 Prob(F-statistic) 0.249092 Hồi quy Y theo biến Z Dependent Variable: Y Method: Least Squares Date: 05/07/10 Time: 07:55 Sample: 1 14 Included observations: 14 Variable Coefficient Std. Error t-Statistic Prob. C 0.523546 0.178189 2.938155 0.0124 Z -0.000828 0.001311 -0.631636 0.5395 R-squared 0.032177 Mean dependent var 0.417764 Adjusted R-squared -0.048475 S.D. dependent var 0.222390 S.E. of regression 0.227716 Akaike info criterion 0.010130 Sum squared resid 0.622256 Schwarz criterion 0.101423 Log likelihood 1.929093 F-statistic 0.398964 Durbin-Watson stat 1.210672 Prob(F-statistic) 0.539472 Từ kết quả hồi quy của theo và theo ta sẽ chọn loại bỏ biến khỏi mô hình Mặt khác ta lại có t là số quan sát. Phương trình cũng đúng với t quan sát thì cũng đúng với t-1 quan sát * Ta có mô hình hồi quy gốc ban đầu là: (1) * Xây dựng hàm hồi quy thứ 2 mà khi ta đã bỏ đi quan sát đâu tiên Dependent Variable: Y Method: Least Squares Date: 05/07/10 Time: 08:23 Sample: 1 14 Included observations: 14 Variable Coefficient Std. Error t-Statistic Prob. C 12.53141 0.311569 40.22029 0.0000 X 0.222474 0.108643 2.047760 0.0652 Z 0.001445 0.000958 1.509363 0.1594 R-squared 0.989091 Mean dependent var 15.95684 Adjusted R-squared 0.987107 S.D. dependent var 1.910897 S.E. of regression 0.216974 Akaike info criterion -0.030672 Sum squared resid 0.517854 Schwarz criterion 0.106269 Log likelihood 3.214701 F-statistic 498.6660 Durbin-Watson stat 1.705403 Prob(F-statistic) 0.000000 Ta có hàm hồi quy mới sau khi bỏ đi quan sát đầu tiên =12.53141 +0.222474+0.001445(2) Lấy hiệu của (1) trừ đi (2) ta được môi hình sai phân cấp 1 = -0.05592+0.00585- 0.000014 Mô hình này cũng cũng có thể làm giảm đa cộng tuyến của các biến dộc lập Kết luận. Có nhiều cách phát hiện và khắc phục hiện tượng đa cộng tuyến khác nhau. Mỗi phương pháp có những hạn chế nhất định. Vì vậy, khi áp dụng một phương pháp nào ta cần cân nhắc kĩ lượng để mang lại kết quả tin cậy nhất.
Tài liệu liên quan