Mô hình phân tích số liệu mảng - Thực hiện trên phần mềm Stata (kỳ 2)

TÓM TẮT Trong bài báo này chúng tôi trình bày về số liệu mảng, tầm quan trọng và các đặc trưng ưu việt của nó trong việc phân tích và dự báo kinh tế. Chúng tôi cũng trình bày hai mô hình cơ bản và các phương pháp ước lượng để phân tích số liệu mảng. Cuối cùng chúng tôi trình bày các kiểm định cho số liệu và mô hình đã trình bày ở trên. Từ khóa: số liệu mảng, mô hình tác động ngẫu nhiên, mô hình tác động cố định, Stata ABSTRACTS In this paper we present the Panel data, and the importance of its unique adVantages in Vietnam economic analysis and forecasting. We also present two basic models and estimation methods to analyze array data. Finally we present the testing for data and model presented above.

5 trang | Chia sẻ: thanhle95 | Lượt xem: 273 | Lượt tải: 0

Bạn đang xem nội dung tài liệu Mô hình phân tích số liệu mảng - Thực hiện trên phần mềm Stata (kỳ 2), để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

TAÏP CHÍ KHOA HOÏC ÑAÏI HOÏC SAØI GOØN Soá 25 - Thaùng 12/2014 115 MÔ HÌNH PHÂN TÍCH SỐ LIỆU MẢNG - THỰC HIỆN TRÊN PHẦN MỀM STATA (KỲ 2) PHAN TẤT HIỂN(*) LÊ KHẮC PHONG(**) PHAN HUY BẰNG(***) TÓM TẮT Trong bài báo này chúng tôi trình bày về số liệu mảng, tầm quan trọng và các đặc trưng ưu việt của nó trong việc phân tích và dự báo kinh tế. Chúng tôi cũng trình bày hai mô hình cơ bản và các phương pháp ước lượng để phân tích số liệu mảng. Cuối cùng chúng tôi trình bày các kiểm định cho số liệu và mô hình đã trình bày ở trên. Từ khóa: số liệu mảng, mô hình tác động ngẫu nhiên, mô hình tác động cố định, Stata ABSTRACTS In this paper we present the Panel data, and the importance of its unique adVantages in Vietnam economic analysis and forecasting. We also present two basic models and estimation methods to analyze array data. Finally we present the testing for data and model presented above. Keywords: panel data, random effects models, fixed effects models, Stata 3. MÔ HÌNH TÁC ĐỘNG CỐ ĐỊNH VÀ ƯỚC LƯỢNG(*)(**)(***) Phần này sẽ xem xét mô hình tác động cố định, dùng để giải quyết các bài toán trong đó yếu tố không quan sát được có dạng ci và có tương quan với biến giải thích trong mô hình. 3.1. Mô hình – các giả thiết Viết lại mô hình tác động cá thể 1 2 2 .. it it k kit i it y X X c u        thành dạng như sau: 1 2 2 .. it it k kit i it y X X c u        (5.1) Mô hình tác động cố định chủ trương không gộp thành phần không quan sát (*)ThS, Trường Đại học Sài Gòn (**)ThS, Trường Đại học Vinh (***)ThS, Trường Cao đẳng nghề Công nghệ cao Đồng An, Bình Dương được ci với sai số ngẫu nhiên uit mà xem xét nó như một thành phần của mô hình có thể ước lượng được, và do đó chúng ta sẽ làm việc với mô hình có dạng (5.1) Chúng ta sẽ xem xét các giả thiết của mô hình Giả thiết FE1. ( | , ) 0 it i i E u X c  với mọi t = 1,.., T. Giả thiết FE2: rank(E(X’X)) = k Giả thiết FE3: 2ar( | ) it it u v u X  , cov(ui, uj) = 0 với i ≠ j 3.2. Các phương pháp ước lượng mô hình tác động cố định Có nhiều phương pháp để ước lượng mô hình này, trong khuôn khổ của bài báo chúng tôi xin được giới thiệu hai phương pháp sau: Phương pháp ước lượng nội bộ (within estimator) 116 Ý tưởng của phương pháp này là ước lượng các hệ số dựa trên quan sát về sự thay đổi trong nội bộ mỗi cá thể. Phương pháp này được thực hiện như sau : Từ mô hình (5.1), lấy trung bình cho mỗi cá thể dọc theo thời gian, ta có : 1 2 2 .. i i k ki i i y X X c u        (5.2) Từ (5.1) và (5.2) ta có : 2 2 2 ( ) .. ( ) ( ) (5.3) it i it i k kit ki it i y y X X X X u u         Phương pháp OLS gộp áp dụng cho mô hình (5.3) được gọi là phương pháp ước lượng nội bộ. Từ (5.2) ta thấy rằng ci có thể được ước lượng theo công thức sau 2 2 ˆ ˆ.. i i i k ki c y X X     (5.4) Thực hiện trên STATA Lệnh khai báo số liệu : xtset id time Lệnh ước lượng: xtreg y x1 x2...xk, fe Trong đó fe ngụ ý chúng ta đang ước lượng mô hình tác động cố định. Với số liệu trong ví dụ panel.dta chúng ta sẽ viết lệnh xtset id year xtreg Va vondautu, fe Trong đó: xtset id year là lệnh khai báo sử dụng số liệu mảng, fe: ngụ ý mô hình tác động cố định Với tập số liệu nói trên, kết quả thu được cho trong bảng sau1. Ở đây hệ số ước lượng của vốn đầu tư là 2.325042, đã phù hợp với kỳ vọng của chúng ta về mối quan hệ giữa giá trị gia tăng Va và vốn đầu tư. Phương pháp ước lượng sử dụng biến giả Một cách tiếp cận khác với phương pháp trên đây là xem xét ci như là các tham số có thể ước lượng cùng với các hệ số j  . Khi đó ta có thể viết lại mô hình (5.1) như sau 1 1 1 2 21 1 1 1 2 2 .. .... (5.5) .. t t k k t t nt n nt k knt nt y c X X u y c X X u                      (5.5) cho thấy rằng chúng ta có thể ước lượng các ci bằng cách sử dụng biến giả như sau : dni = 1 nếu n =i, dni = 0 nếu n i Khi đó (5.5) có thể viết gọn lại dưới dạng : 1 1 1 2 2 .. .. (5.6) it i n ni it k kit it y c d c d X X u          Phương pháp ước lượng với biến giả là phương pháp OLS gộp cho bài toán (5.6).Để tránh hiện tượng đa cộng tuyến hoàn hảo trong mô hình (5.5), Stata sẽ tự động bỏ bớt một biến giả. Kết quả ước lượng với số liệu trong panel2.dta cho mô hình (5.6) cho trong bảng 62. Lệnh thực hiện trong phần mềm Stata xi: reg Va vondautu i.id Vậy về thực chất, ước lượng với biến giả chính là phương pháp ước lượng gộp tiến hành cho số liệu mảng với n-1 biến giả thể hiện cho n cá thể. Với phương pháp này, chúng ta một mặt có được các giá trị ước lượng của các ci, mặt khác có thể đưa ra các suy diễn thống kê về sự khác biệt giữa các cá thể. Trong bảng 6 nói trên, ngành sản xuất sợi và dệt vải (tương ứng với biến giả id_1) được chọn làm ngành để so sánh. Và hệ số (5373001) thể hiện sự khác biệt trong giá trị gia tăng giữa ngành sản xuất sợi và dệt vải với ngành may trang phục do tác động của yếu tố không quan sát được ci. Do kết quả ước lượng có báo cáo về giá trị sai số chuẩn của hệ số ước lượng này nên ta hoàn toàn có thể đưa ra các suy diễn thống kê như: sự khác biệt này là có thực sự khác 0 không, sự khác biệt này có thể nằm trong khoảng giá trị nào. 117 4. VẤN ĐỀ LỰA CHỌN MÔ HÌNH Chúng ta có thể dựa vào bản chất của số liệu và mục đích nghiên cứu, cũng có thể dựa vào các kiểm định thống kê để lựa chọn mô hình. Trong phần này chúng tôi giới thiệu cách dùng kiểm định thống kê để lựa chọn giữa mô hình tác động cố định và mô hình tác động ngẫu nhiên. Sự lựa chọn giữa mô hình tác động cố định và mô hình tác động ngẫu nhiên được dựa vào kiểm định Hausman. Ý tưởng của kiểm định Hausman là như sau: Chúng ta biết rằng nếu ci là không tương quan với các biến giải thích trong mô hình thì cả hai phương pháp ước lượng đều cho ra ước lượng vững, do đó chúng ta kỳ vọng là các hệ số ước lượng thu được từ hai phương pháp là khá gần nhau. Còn nếu ci là có tương quan với biến giải thích thì ước lượng từ mô hình tác động cố định là ước lượng vững nhưng ước lượng từ mô hình tác động ngẫu nhiên lại là không vững, do đó các ước lượng từ hai phương pháp sẽ là rất khác nhau. Kiểm định Hausman dựa trên sự khác biệt giữa các hệ số ước lượng bởi hai phương pháp để đưa ra sự lựa chọn mô hình. Kiểm định Hausman: Kiểm định này được thực hiện như sau H0 : ci không tương quan với uit H1 : ci có tương quan với uit Thống kê kiểm định là 2 1ˆ ˆ ˆ ˆ( ) '( ) ( ) qs FE RE FE RE FE RE V V        Khi giả thiết H0 là đúng thì thống kê này tuân theo quy luật Khi bình phương với số bậc tự do bằng số hệ số trong mô hình trừ đi 1. Do đó nếu thống kê quan sát lớn hơn giá trị tới hạn thì giả thiết H0 bị bác bỏ và mô hình tác động cố định được lựa chọn. Trong Stata thực hiện các bước như sau: Bước 1: ước lượng mô hình tác động cố định: quietly xtreg Va vondautu, fe Bước 2: lưu giữ kết quả vừa ước lượng với một tên nào đó, chẳng hạn là fixed: estimates store fixed Bước 3: ước lượng mô hình tác động ngẫu nhiên: quietly xtreg Va vondautu, re Bước 4: lưu giữ kết quả vừa ước lượng với một tên nào đó, chẳng hạn là random estimates store random Bước 5: hausman fixed random Thực hiện với số liệu panel2.dta cho kết quả như sau3: Trong bảng 7, giá trị xác suất P tương ứng với thống kê quan sát Chi-bình- phương (18.31) là 0.0000, do đó chúng ta bác bỏ giả thuyết H0 , trong đó H0 được hiểu là “mô hình tác động ngẫu nhiên là phù hợp” (do “sự khác biệt trong các hệ số là không mang tính hệ thống”) Khi giả thiết H0 trong giả thiết trên bị bác bỏ (như trong trường hợp trên) thì chúng ta sẽ lựa chọn mô hình tác động cố định. Và điều này cũng mặc định là có tồn tại yếu tố không quan sát được ci. Do đó chúng ta không nhất thiết phải kiểm định để lựa chọn mô hình tác động cố định hay mô hình OLS gộp. 5. KẾT LUẬN Như vậy, số liệu mảng là một trong những số liệu có nhiều ứng dụng nhất trong phân tích kinh tế xã hội. Nó có những tính ưu việt hơn hẳn các số liệu khác. Đặc biệt, với số liệu mảng rất phù hợp với bối cảnh của các nước đang phát triển trong đó có Việt Nam. Phân tích số liệu mảng có nhiều ứng dụng và khắc phục được nhiều khuyết điểm của số liệu và biến số, đặc biệt là khuyết điểm về biến nội sinh. 118 Hy vọng bài báo này sẽ giúp cho bạn đọc có một số kiến thức, kỉ năng phân tích và ứng dụng của số liệu mảng. 6. BẢNG PHỤ LỤC Bảng 6: Kết quả chạy với phương pháp tác động cố định Fixed-effects (within) regression Number of obs = 99 Group Variable: id Number of groups = 9 R-sq: within = 0.6005 Obs per group: min = 11 between = 0.9580 avg = 11.0 overall = 0.7846 max = 11 F(1,89) = 133.79 corr(u_i, Xb) = 0.6187 Prob > F = 0.0000 ------------------------------------------------------------------------------ Va | Coef. Std. Err. t P>|t| [95% Conf. InterVal] -------------+---------------------------------------------------------------- vondautu | 2.325042 .2010121 11.57 0.000 1.925635 2.724449 _cons | 1387131 422746.5 3.28 0.001 547143.2 2227120 -------------+---------------------------------------------------------------- sigma_u | 2813098.8 sigma_e | 3451080.9 rho | .3991995 (fraction of Variance due to u_i) ------------------------------------------------------------------------------ F test that all u_i=0: F(8, 89) = 4.51 Prob > F = 0.0001 Bảng 7: Ước lượng với biến giả i.id _Iid_1-9 (naturally coded; _Iid_1 omitted) Source | SS df MS Number of obs = 99 -------------+------------------------------ F( 9, 89) = 54.63 Model | 5.8555e+15 9 6.5061e+14 Prob > F = 0.0000 Residual | 1.0600e+15 89 1.1910e+13 R-squared = 0.8467 -------------+------------------------------ Adj R-squared = 0.8312 Total | 6.9155e+15 98 7.0566e+13 Root MSE = 3.5e+06 ------------------------------------------------------------------------------ Va | Coef. Std. Err. t P>|t| [95% Conf. InterVal] -------------+---------------------------------------------------------------- vondautu | 2.325042 .2010121 11.57 0.000 1.925635 2.724449 _Iid_2 | -3088354 1704009 -1.81 0.073 -6474184 297476.9 _Iid_3 | -3003355 1694827 -1.77 0.080 -6370939 364229.8 _Iid_4 | -3057401 1731784 -1.77 0.081 -6498419 383616.1 _Iid_5 | -2740366 1726771 -1.59 0.116 -6171424 690690.6 _Iid_6 | -2895822 1680662 -1.72 0.088 -6235262 443617.2 _Iid_7 | -2518805 1709622 -1.47 0.144 -5915789 878177.9 _Iid_8 | 5373001 1471949 3.65 0.000 2448269 8297733 _Iid_9 | -3023819 1733673 -1.74 0.085 -6468590 420952 119 _cons | 3048789 1392242 2.19 0.031 282434.8 5815144 Bảng 8: Kiểm định Hausman ---- Coefficients ---- | (b) (B) (b-B) sqrt(diag(V_b-V_B)) | fixed random Difference S.E. -------------+---------------------------------------------------------------- vondautu | 2.325042 2.750478 -.4254356 .099427 ------------------------------------------------------------------------------ b = consistent under Ho and Ha; obtained from xtreg B = inconsistent under Ha, efficient under Ho; obtained from xtreg Test: Ho: difference in coefficients not systematic chi2(1) = (b-B)'[(V_b-V_B)^(-1)](b-B) = 18.31 Prob>chi2 = 0.0000 Chú thích: 1 Bảng kết quả chạy với mô hình tác động cố định (Bảng 6) 2 Xem bảng kết quả hồi quy theo phương pháp biến giả (Bảng 7) 3 Xem bảng kết quả Kiểm định Hausman (Bảng 8) TÀI LIỆU THAM KHẢO 1. Arthur S.Goldberger, Econometric Theory, John Wiley & Sons,Inc 2. Brown, M. B., and A. B. Forsythe. (1974). Robust test for the equality of Variances. Journal of the American Statistical Association 69: 364-367. 3. Damodar N. Gujarati (1995), Basic Econometric, MacGraw-Hill Inc, Third Ed. 4. Nguyễn Khắc Minh (2002), Các phương pháp phân tích và dự báo trong kinh tế, Nxb Khoa học và Kỹ thuật Hà Nội. 5. Nguyễn Quang Dong (2008), Bài giảng kinh tế lượng, Nxb Giao thông vận tải Hà Nội. 6. Jeffrey M. Wooldridge (2002), Econometric Analysis of Cross Section and Panel Data, The MIT Press Cambridge, Massachusetts London, England 7. Madala, G.S-macmillan (1992), Introduction of Econometrics. 2d ed., New York. 8. Greene, W. (2000). Econometric Analysis. Upper Saddle River, NJ: Prentice–Hall. *Ngày nhận bài: 30/6/2014. Biên tập xong: 1/12/2014. Duyệt đăng: 6/12/2014