Phương sai của sai số thay đổi (Heteroscedasticity) - Tài liệu, ebook, giáo trình, hướng dẫn

Bản chất của hiện tượng phương sai của sai số thay đổi Hậu quả của phương sai sai số thay đổi Cách phát hiện phương sai sai số thay đổi Cách khắc phục phương sai sai số thay đổi

53 trang | Chia sẻ: lylyngoc | Lượt xem: 10834 | Lượt tải: 2

Bạn đang xem trước 20 trang tài liệu Phương sai của sai số thay đổi (Heteroscedasticity), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

C3. Phương sai của sai số thay đổi(Heteroscedasticity) Bản chất của hiện tượng phương sai của sai số thay đổi Hậu quả của phương sai sai số thay đổi Cách phát hiện phương sai sai số thay đổi Cách khắc phục phương sai sai số thay đổi Bản chất hiện tượng PSSS thay đổi Xét ví dụ mô hình hồi qui 2 biến trong đó biến phụ thuộc Y là chi tiêu của hộ gia đình và biến giải thích X là thu nhập khả dụng của hộ gia đình Bản chất hiện tượng PSSS thay đổi Bản chất hiện tượng PSSS thay đổi a) Phương sai sai số không đổi var(ui|X) = 2 b) Phương sai sai số thay đổi var(ui|X) = i2 Thu nhập Thu nhập Chi tiêu Chi tiêu f(ui) f(ui) Hình 3.1a chỉ ra rằng khi thu nhập khả dụng tăng lên, giá trị trung bình của chi tiêu cũng tăng lên nhưng phương sai của sai số quanh giá trị trung bình của nó không thay đổi tại mọi mức thu nhập khả dụng. Đây là trường hợp của phương sai sai số không đổi, hay phương sai bằng nhau. E(ui2) = 2 Hình 3.1b, mặc dù giá trị trung bình của chi tiêu cũng tăng lên nhưng phương sai của sai số không bằng nhau tại mỗi mức thu nhập khả dụng – phương sai tăng lên với thu nhập khả dụng. E(ui2) = i2 Giải thích: Những người có thu nhập cao, nhìn chung, sẽ chi tiêu nhiều hơn so với người có thu nhập thấp nhưng sự biến động của chi tiêu sẽ cao hơn. Đối với người có thu nhập thấp, họ chỉ có một ít thu nhập để chi tiêu. Phương sai sai số của những hộ gia đình có thu nhập cao có thể lớn hơn của những hộ có thu nhập thấp. Nguyên nhân Do bản chất các mối quan hệ kinh tế; Ví dụ: thu nhập & chi tiêu Do kỹ thuật thu thập số liệu được cải tiến làm cho 2 ngày càng giảm; Do quá trình “học hỏi từ công việc”; Ví dụ: số lỗi đánh máy của một thư ký có thể giảm dần theo thời gian làm việc. Do có sự hiện diện của các “quan sát dị biệt” (outlier); Do định dạng sai mô hình. Hiện tượng này thường gặp phải đối với “số liệu theo không gian” (cross-section data). Quan sát dị biệt x x x x x x x x x x x x x x x x x x X Y Hậu quả của phương sai sai số thay đổi Nếu các giả thiết khác vẫn đảm bảo thì… Các ước lượng OLS vẫn tuyến tính. Chúng vẫn là ước lượng không chệch Tuy nhiên, chúng sẽ không còn có phương sai nhỏ nhất nữa, nghĩa là, chúng sẽ không còn hiệu quả nữa. Công thức thông thường để ước lượng phương sai của ước lượng OLS, nhìn chung, sẽ chệch. Hậu quả của phương sai sai số thay đổi 5. Theo đó, các khoảng tin cậy và kiểm định giả thuyết thông thường dựa trên phân phối t và F sẽ không còn đáng tin cậy nữa. Do vậy, nếu chúng ta áp dụng các kỹ thuật kiểm định giả thuyết thông thường sẽ cho ra kết quả sai. Phương pháp phát hiện ra PSSS thay đổi Xem xét đồ thị của phần dư Kiểm định Park Kiểm định Glejser Kiểm định tương quan hạng của Spearman Kiểm định Goldfeld – Quandt Kiểm định Breusch – Pagan Kiểm định White Ví dụ 1 Kết quả hồi quy… . reg Y X Source | SS df MS Number of obs = 20 -------------+------------------------------ F( 1, 18) = 1501.41 Model | 2184.59892 1 2184.59892 Prob > F = 0.0000 Residual | 26.1904894 18 1.45502719 R-squared = 0.9882 -------------+------------------------------ Adj R-squared = 0.9875 Total | 2210.78941 19 116.357337 Root MSE = 1.2062 ------------------------------------------------------------------------------ Y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- X | .9078664 .02343 38.75 0.000 .8586419 .957091 _cons | .8583391 .644867 1.33 0.200 -.4964761 2.213154 ------------------------------------------------------------------------------ Có nhận xét gì về kết quả này? Liệu có tồn tại hiện tượng phương sai sai số thay đổi? 1. Xem xét đồ thị của sai số Cách 1: Đồ thị của sai số Nhận xét gì? 2. Kiểm định Park Park cho rằng i2 là một hàm số nào đó của biến giải thích X. Park đã đưa ra dạng hàm số giữa i2 và X như sau: i2 = B1 + B2ln|Xi |+ vi trong đó vi là phần sai số. Park đã đề nghị chúng ta có thể sử dụng ei thay cho ui và chạy mô hình hồi qui sau: lnei2 = B1 + B2 ln|Xi|+ vi (*) 2. Kiểm định Park ei2 có thể được thu thập từ mô hình hồi qui gốc. Kiểm định Park được tiến hành theo các bước sau đây: 1) Chạy hàm hồi qui gốc bất chấp vấn đề phương sai của sai số thay đổi, nếu có. 2) Từ hàm hồi qui này, tính phần dư ei, sau đó, bình phương chúng và lấy log chúng: lnei2. 3) Chạy hàm hồi qui (*), sử dụng biến giải thích của hàm hồi qui ban đầu. Nếu có nhiều biến giải thích, chúng ta sẽ chạy hồi qui cho từng biến giải thích đó. Hay cách khác, chúng ta có thể chạy hồi qui mô hình với biến giải thích là , ước lượng của Y. 2. Kiểm định Park 4) Kiểm định giả thuyết H0: B2 = 0, nghĩa là, không có phương sai của sai số thay đổi. Nếu giả thuyết H0 bị bác bỏ, mối quan hệ giữa lnei2 và lnX có ý nghĩa thống kê, có phương sai của sai số thay đổi. 5) Nếu giả thuyết H0 được chấp nhận, B1 trong mô hình (*) có thể được xem là giá trị chung của phương sai của sai số không đổi, 2. Cách 2: Kiểm định Park Source | SS df MS Number of obs = 20 -------------+------------------------------ F( 1, 18) = 32.43 Model | 32.7929497 1 32.7929497 Prob > F = 0.0000 Residual | 18.204119 18 1.01133994 R-squared = 0.6430 -------------+------------------------------ Adj R-squared = 0.6232 Total | 50.9970687 19 2.68405625 Root MSE = 1.0057 ------------------------------------------------------------------------------ lne_sq | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- lnX | 2.301639 .4041993 5.69 0.000 1.452448 3.15083 _cons | -7.728774 1.266995 -6.10 0.000 -10.39063 -5.066917 ------------------------------------------------------------------------------ Nhận xét gì? 3. Kiểm định Glejser Tương tự như kiểm định Park: Sau khi thu thập được phần dư từ mô hình hồi qui gốc, Glejser đề nghị chạy hồi qui giá trị tuyệt đối của ei, | ei |, theo biến X nào mà có quan hệ chặt chẽ với i2. Glejser đề xuất một số dạng hàm hồi qui sau: |ei| = B1 + B2Xi + vi 3. Kiểm định Glejser Giả thuyết H0 trong mỗi hàm số trên là phương sai của sai số không đổi, nghĩa là, H0: B2 = 0. Nếu giả thuyết này bị bác bỏ thì có thể có hiện tượng phương sai sai số không đồng đều. 3. Kiểm định Glejser Goldfeld và Quandt đã chỉ ra rằng sai số vi trong các mô hình hồi qui của Glejser có một số vấn đề, như giá trị kỳ vọng của nó khác không, nó có tương quan chuỗi. 4 mô hình đầu cho kết quả tốt khi sử dụng OLS 2 mô hình sau (phi tuyến tính tham số) không sử dụng OLS được Do vậy, kiểm định Glejser có thể được dùng để chẩn đoán đối với những mẫu lớn. 4. Kiểm định tương quan hạng của Spearman Hệ số tương quan hạng của Spearman, rS, được xác định như sau: trong đó di là hiệu của các hạng được gán cho 2 đặc trưng khác nhau của cùng một phần tử thứ i và n là số các phần tử được xếp hạng. 4. Kiểm định tương quan hạng của Spearman Xét mô hình hồi qui sau: Yi = 1 + 2Xi + ui Các bước thực hiện kiểm định tương quan hạng như sau: Ước lượng mô hình hồi qui trên dựa trên bộ mẫu cho trước, thu thập phần dư ei. Xếp hạng | ei| và Xi theo thứ tự tăng dần hay giảm dần, tính d = hạng | ei| - hạng Xi, sau đó tính hệ số tương quan hạng Spearman. 4. Kiểm định tương quan hạng (tt) Giả sử hệ số tương quan hạng của tổng thể là  = 0 và n > 8 thì ý nghĩa của hệ số tương quan hạng mẫu rS có thể được kiểm định bằng tiêu chuẩn t sau: Nếu giá trị t tính được lớn hơn giá trị tra bảng t với mức ý nghĩa đã cho thì chúng ta có thể chấp nhận giả thuyết phương sai sai số thay đổi; ngược lại chúng ta bác bỏ giả thuyết này. với bậc tự do df = n – 2. 5. Kiểm định Goldfeld - Quandt Xét mô hình hồi qui sau: Yi = 1 + 2Xi + ui Giả sử i2 có quan hệ dương với biến X theo cách sau: i2 = 2Xi2 trong đó 2 là hằng số. Các bước thực hiện kiểm định Goldfeld - Quandt như sau: Sắp xếp các quan sát theo thứ tự tăng dần về giá trị của biến X. Bỏ qua quan sát ở giữa theo cách sau: 5. Kiểm định Goldfeld - Quandt Bỏ qua quan sát ở giữa theo cách sau: Đối với mô hình 2 biến: c = 4 nếu cỡ mẫu khoảng n = 30; c = 10 nếu cỡ mẫu khoảng n = 60. và chia số quan sát còn lại thành 2 nhóm, trong đó mỗi nhóm có (n – c)/2 quan sát. 5. Kiểm định Goldfeld - Quandt Sử dụng phương pháp bình phương bé nhất để ước lượng tham số của các hàm hồi qui đối với (n – c)/2 quan sát đầu và cuối; Thu thập tổng bình phương của các phần dư RSS1 và RSS2 tương ứng. Trong đó RSS1 đại diện cho RSS từ hồi qui ứng với các giá trị của Xi nhỏ hơn và RSS2 ứng với các giá trị Xi lớn hơn. Bậc tự do tương ứng là hoặc (n – c – 2k)/2. Trong đó, k là các tham số được ước lượng kể cả hệ số chặn (trường hợp 2 biến: k = 2). 5. Kiểm định Goldfeld - Quandt Tính tỷ số Nếu ui theo phân phối chuẩn và nếu giả định về phương sai có điều kiện không đổi được thỏa mãn thì  tuân theo phân phối F với bậc tự do ở tử số và mẫu số là Nếu  tính được lớn hơn giá trị tra bảng F ở mức ý nghĩa mong muốn, thì chúng ta có thể bác bỏ giả thuyết H0, nghĩa là chúng ta có thể nói phương sai của sai số thay đổi. 6. Kiểm định Breusch - Pagan Xét mô hình hồi qui k biến sau: Yi = 1 + 2X2i + … + kXki + ui (**) Giả sử i2 được mô tả như là một hàm số của các biến phi ngẫu nhiên Zi, Zi là các biến Xi (một số hoặc tất cả) có ảnh hưởng đến i2, có dạng: i2 = f(z2i, z3i, …, zmi) Giả định f() có dạng tuyến tính: i2 = 1 + 2Z2i + … + mZmi nếu 2 = 3 = … = m = 0 thì i2 = 1 là hằng số. 6. Kiểm định Breusch - Pagan Do vậy, việc kiểm định xem liệu rằng i2 có thay đổi hay không, chúng ta có thể kiểm định giả thuyết H0: 2 = 3 = … = m = 0. Kiểm định Breusch – Pagan qua các bước sau: Ước lượng (**) bằng phương pháp OLS để thu được phần dư e1, e2, …, en. Tính Xây dựng biến pi = ei2/ . 6. Kiểm định Breusch - Pagan Hồi qui pi theo các biến Zi dưới dạng: pi = 1 + 2Z2i + … + mZmi + vi (*) trong đó vi là số hạng ngẫu nhiên của hồi qui này. Thu được ESS (tổng các bình phương được giải thích) từ (*) và xác định: 6. Kiểm định Breusch - Pagan Giả thuyết rằng ui có phân phối chuẩn và khi cỡ mẫu n tăng lên vô hạn thì   2(m – 1). Tức là  sẽ xấp xỉ 2 với m – 1 bậc tự do. Như vậy, nếu trong áp dụng mà ta tính được  vượt giá trị tra bảng 2 với m – 1 bậc tự do với mức ý nghĩa đã chọn, thì chúng ta bác bỏ giả thuyết H0 về phương sai đồng đều. Ngược lại, chúng ta có thể chấp nhận nó. 6. Kiểm định Breusch - Pagan Sau khi tính giá trị cho biến pi theo công thức trên, . reg pi_sq X Source | SS df MS Number of obs = 20 -------------+------------------------------ F( 1, 18) = 15.54 Model | 17.3765893 1 17.3765893 Prob > F = 0.0010 Residual | 20.1289422 18 1.11827456 R-squared = 0.4633 -------------+------------------------------ Adj R-squared = 0.4335 Total | 37.5055315 19 1.97397534 Root MSE = 1.0575 ------------------------------------------------------------------------------ pi_sq | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- X | .0809689 .0205405 3.94 0.001 .037815 .1241228 _cons | -1.024223 .5653388 -1.81 0.087 -2.211956 .1635096 ------------------------------------------------------------------------------ Ta tính được  = 17.3765893/2 = 8.6882946 ( 8.9) Giá trị tra bảng 1, 5% = 3.84 bác bỏ giả thuyết H0 về phương sai đồng đều Trường hợp sử dụng lệnh trong Stata, sau khi hồi quy Y theo X chúng ta thực hiện lệnh sau: . hettest Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: fitted values of Y chi2(1) = 8.69 Prob > chi2 = 0.0032 Hoặc, cách khác như sau: Tạo biến X-squared và lnX Thực hiện lệnh . bpagan X X_sq lnX Breusch-Pagan LM statistic: 12.22094 Chi-sq( 3) P-value = .0067 Kết quả này nói gì? 7. Kiểm định White Kiểm định Breusch – Pagan đòi hỏi u phải có phân phối chuẩn, White đã đề nghị một phương pháp không cần đòi hỏi u có phân phối chuẩn. Xét mô hình hồi qui sau: Yi = 1 + 2X2i + 3X3i + ui Bước 1: Ước lượng mô hình trên bằng OLS, thu được các phần dư ei. Bước 2: Ước lượng một trong các mô hình sau đây: ei2 = 1 + 2X2i + 3X3i + 4X2i2 + 5X3i2 + v2i (1) 7. Kiểm định White hay ei2 = 1 + 2X2i + 3X3i + 4X2i2 + 5X3i2 + 6X2iX3i + v2i (2) (1) và (2) có thể có số mũ cao hơn và nhất thiết phải có hệ số chặn bất kể mô hình gốc có hay không. R2 là hệ số xác định bội, thu được từ (1) với mô hình không có số hạng chéo hay (2) với mô hình có số hạng chéo. 7. Kiểm định White Bước 3: Với H0: PSSS không đổi, ta có thể chỉ ra rằng: nR2 có phân phối xấp xỉ 2(df), df bằng số hệ số của mô hình (1) hoặc (2). Bước 4: Nếu nR2 không lớn hơn giá trị tra bảng 2(df), chúng ta chấp nhận giả thuyết H0. Do đó, chúng ta có thể kết luận trong mô hình (1) 2 = 3 = 4 = 5 = 0 hay 2 = 3 = 4 = 5 = 6 = 0 trong mô hình (2). Ngược lại, chúng ta bác bỏ H0 và như vậy, có hiện tượng phương sai sai số thay đổi. 7. Kiểm định White Sau khi tạo biến e_sq, X_sq, ta thực hiện hồi quy: . reg e_sq X X_sq Source | SS df MS Number of obs = 20 -------------+------------------------------ F( 2, 17) = 12.98 Model | 38.8698893 2 19.4349446 Prob > F = 0.0004 Residual | 25.4466375 17 1.49686103 R-squared = 0.6044 -------------+------------------------------ Adj R-squared = 0.5578 Total | 64.3165268 19 3.38508036 Root MSE = 1.2235 ------------------------------------------------------------------------------ e_sq | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- X | -.1758568 .1169453 -1.50 0.151 -.4225898 .0708762 X_sq | .0055821 .0022675 2.46 0.025 .0007981 .0103661 _cons | 1.477384 1.318608 1.12 0.278 -1.304635 4.259402 ------------------------------------------------------------------------------ 7. Kiểm định White ta có nR2 = 20*0.6044 = 12.088 12.088 lớn hớn 5.99 (2, 5%) nên ta bác bỏ H0 về sự đồng nhất của PSSS trong mô hình hồi quy Y theo X. Nếu dùng Stata thì sau khi hồi quy Y theo X, ta thực hiện lệnh sau: . whitetst White's general test statistic : 12.08706 Chi-sq( 2) P-value = .0024 Biện pháp khắc phục PSSS thay đổi 1. Trường hợp đã biết i2 Chúng ta hãy xem xét trường hợp mô hình hồi qui tổng thể 2 biến: Yi = 1 + 2Xi + ui Chúng ta giả sử rằng PSSS i2 đã biết; nghĩa là PSSS của mỗi quan sát đã biết. Đơn giản, chúng ta chia hai vế của MH cho i đã biết. 1. Trường hợp đã biết i2 (tt) Xem phần chứng minh trong giáo trình, vi2 là hằng số. Hay phần sai số “được chuyển đổi”, vi là đồng đều. Trong thực tế, chúng ta chia mỗi quan sát Yi và Xi cho i đã biết và chạy hồi qui OLS cho dữ liệu đã được chuyển đổi này. Ước lượng OLS của 1 và 2 được tính theo cách này được gọi là ước lượng bình phương bé nhất có trọng số (WLS); mỗi quan sát Y và X đều được chia cho trọng số (độ lệch chuẩn) của riêng nó, i. 2. Trường hợp chưa biết i2 Trường hợp 1: Phương sai sai số tỷ lệ với biến giải thích. Sau khi ước lượng hồi qui OLS thông thường, chúng ta vẽ đồ thị phần dư từ ước lượng này theo biến giải thích X và quan sát hình ảnh của nó. Nếu hình ảnh của phần dư tương tự như hình sau: 2. Trường hợp chưa biết i2 2. Trường hợp chưa biết i2 Như vậy, phương sai sai số có quan hệ tuyến tính: E(ui2) = 2Xi Chúng ta chia hai vế của mô hình cho căn bậc hai của Xi. Trong mô hình đa biến, chúng ta chia hai vế của mô hình cho căn bậc hai của , với Một điều quan trọng mà chúng ta cần lưu ý là để ước lượng mô hình trên, chúng ta phải sử dụng mô hình hồi qui qua gốc. Phương sai sai số tỷ lệ với Xi . reg Y_new X_root_rev X_root, nocons Source | SS df MS Number of obs = 20 -------------+------------------------------ F( 2, 18) = 4964.25 Model | 443.986743 2 221.993372 Prob > F = 0.0000 Residual | .804930833 18 .04471838 R-squared = 0.9982 -------------+------------------------------ Adj R-squared = 0.9980 Total | 444.791674 20 22.2395837 Root MSE = .21147 ------------------------------------------------------------------------------ Y_new | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- X_root_rev | .6381967 .3956905 1.61 0.124 -.1931182 1.469512 X_root | .9166721 .0184377 49.72 0.000 .8779359 .9554084 ------------------------------------------------------------------------------ So với mô hình gốc, hệ số góc hầu như không đổi nhưng với mô hình chuyển hóa này s.e. giảm gần 21% (.0184377) so với (.02343) 2. Trường hợp chưa biết i2 (tt) Trường hợp 2: Phương sai sai số tỷ lệ với bình phương của biến giải thích. Tương tự trường hợp 1, nếu hình ảnh của phần dư tương tự như hình bên dưới, phương sai sai số có quan hệ tuyến tính với bình phương của X: E(ui2) = 2Xi2. Chúng ta chia hai vế của mô hình cho Xi. Phương sai sai số tỷ lệ với bình phương của biến X 2. Trường hợp chưa biết i2 (tt) Trường hợp 3: Phương sai sai số tỷ lệ với bình phương của giá trị kỳ vọng của Y. E(ui2) = 2[E(Yi)]2. Tương tự chúng ta chia hai vế của mô hình cho E(Yi) Tiến hành theo 2 bước sau: Bước 1: Ước lượng mô hình hồi qui: Yi = 1 + 2Xi + ui bằng phương pháp OLS thông thường, từ đó ta thu được 2. Trường hợp chưa biết i2 (tt) Trường hợp 3:(tt) biến đổi mô hình gốc về dạng như sau: Bước 2: Ước lượng hồi qui trên dù không chính xác là E(Yi\Xi), nhưng chúng là ước lượng vững, nghĩa là khi cỡ mẫu tăng lên vô hạn thì chúng hội tụ về E(Yi|Xi). Do vậy, phép biến đổi trên có thể dùng được khi cỡ mẫu tương đối lớn. 2. Trường hợp chưa biết i2 (tt) Trường hợp 4: Định dạng lại mô hình. Thay vì ước lượng mô hình hồi qui gốc, ta có thể ước lượng mô hình hồi qui: lnYi = 1 + 2lnXi + ui Tình trạng phương sai sai số không đồng nhất sẽ bớt nghiêm trọng hơn so với mô hình gốc bởi vì khi được logarit hóa, độ lớn các biến bị ‘nén lại’. Một ưu thế của phép biến đổi này là hệ số 2 sẽ đo lường hệ số co giãn của Y theo X, nghĩa là, nó cho biết % thay đổi của Y khi X thay đổi 1%. Phương pháp dùng sai số chuẩn điều chỉnh - White’s heteroscedasticity-corrected s.e. hay robust s.e. Các chương trình máy tính về KTL đều có tính toán loại s.e. này, Người dùng có thể chọn thêm “White’s heteroscedasticity-corrected variances” hay “robust standard error” khi chạy OLS. . regress Y X, vce(robust) Linear regression Number of obs = 20 F( 1, 18) = 995.24 Prob > F = 0.0000 R-squared = 0.9882 Root MSE = 1.2062 ------------------------------------------------------------------------------ | Robust Y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- X | .9078664 .0287778 31.55 0.000 .8474064 .9683264 _cons | .8583391 .5438968 1.58 0.132 -.2843456 2.001024 ------------------------------------------------------------------------------ Một số điểm lưu ý: Khi nghiên cứu mô hình có nhiều biến giải thích thì việc chọn biến nào để biến đổi cần phải được xem xét cẩn thận. Phép biến đổi logarit không dùng được khi các giá trị của các biến âm. Khi i2 chưa biết, nó sẽ được ước lượng từ một trong các cách biến đổi trên. Các kiểm định t, F mà chúng ta sử dụng chỉ đáng tin cậy khi cỡ mẫu lớn, do đó chúng ta phải cẩn thận khi giải thích các kết quả dựa trên các phép biến đổi khác nhau trong các mẫu nhỏ.