Các biến phụ thuộc bị giới hạn

Chúng ta có thểtiếp xúc với các dữliệu liên quan đến các trường hợp như: tại sao có những người nằm trong lực lượng lao động và một sốngười khác thì không, tại sao có những người nằm dưới mức nghèo đói và có những người lại nằm trên mức đó, tại sao có những người sởhữu một căn nhà và những người khác thì không, tại sao một loại thuốc mới khi lâm sàng thểnghiệm thì có tác dụng với một sốngười nhưng lại không có tác dụng với người khác, tại sao có sinh viên theo học đại học điểm của họlại được cải thiện còn các sinh viên khác thì không. Nhưvậy có rất nhiều trường hợp mà chúng ta sẽnghiên cứu giống nhưnhững trường hợp đã nêu ởtrên. Đểgiải thích tại sao lại xảy ra những trường hợp nhưvậy, hay nói khác đi là chúng ta muốn tìm ra những nhân tố ảnh hưởng đến các trường hợp "có" hoặc "không" thì cần thiết phải áp dụng công cụ kinh tếlượng quen thuộc. Trong những trường hợp nhưvậy thì biến phụthuộc của chúng ta có hai tính chất (nó là một biến giả, biến nhịthức, biến định tính . . .). Các biến giả được bổsung dễdàng vào mô hình hồi qui bội dưới dạng biến giải thích, nhưng trong việc sửdụng chúng dưới dạng biến phụthuộc lại đòi hỏi các kỹthuật đặc biệt. Mô hình áp dụng cho trường hợp này là mô hình xác xuất.

pdf12 trang | Chia sẻ: haohao89 | Lượt xem: 2262 | Lượt tải: 1download
Bạn đang xem nội dung tài liệu Các biến phụ thuộc bị giới hạn, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Chương Trình Giảng Dạy Kinh Tế Fulbright Niên Khóa 2007 - 2008 Các phương pháp phân tích Các biến phụ thuộc bị giới hạn Nguyễn Trọng Hoài 1 Các biến phụ thuộc bị giới hạn Chúng ta có thể tiếp xúc với các dữ liệu liên quan đến các trường hợp như: tại sao có những người nằm trong lực lượng lao động và một số người khác thì không, tại sao có những người nằm dưới mức nghèo đói và có những người lại nằm trên mức đó, tại sao có những người sở hữu một căn nhà và những người khác thì không, tại sao một loại thuốc mới khi lâm sàng thể nghiệm thì có tác dụng với một số người nhưng lại không có tác dụng với người khác, tại sao có sinh viên theo học đại học điểm của họ lại được cải thiện còn các sinh viên khác thì không. Như vậy có rất nhiều trường hợp mà chúng ta sẽ nghiên cứu giống như những trường hợp đã nêu ở trên. Để giải thích tại sao lại xảy ra những trường hợp như vậy, hay nói khác đi là chúng ta muốn tìm ra những nhân tố ảnh hưởng đến các trường hợp "có" hoặc "không" thì cần thiết phải áp dụng công cụ kinh tế lượng quen thuộc. Trong những trường hợp như vậy thì biến phụ thuộc của chúng ta có hai tính chất (nó là một biến giả, biến nhị thức, biến định tính . . .). Các biến giả được bổ sung dễ dàng vào mô hình hồi qui bội dưới dạng biến giải thích, nhưng trong việc sử dụng chúng dưới dạng biến phụ thuộc lại đòi hỏi các kỹ thuật đặc biệt. Mô hình áp dụng cho trường hợp này là mô hình xác xuất. Có ba mô hình xác xuất khác nhau: 1) LPM (Linear probability model) dùng phương pháp ước lượng OLS 2) Logit dùng phương pháp ước lượng CDF (cummulative distribution function) 3) Probit dùng phương pháp ước lượng CDF (cummulative distribution function) LPM Mô hình xác suất tuyến tính. Bằng mô hình xác suất tuyến tính chúng ta có thể hiểu được điểm mấu chốt của phép hồi qui mà biến phụ thuộc có hai tính chất. Hàm hồi qui tổng thể có dạng: iK33221 εββββ +++++= Kiiii XXXY L [ ] [ ] E X X X s X'| Y E iKiKi3i21i εββββ 32 +++++= L [ ] Kii3i21i X X X YE β++β+β+β= L32 Nếu chúng ta viết E[Y| X] thì có nghĩa là giá trị kỳ vọng của biến phụ thuộc hai tính chất có điều kiện của biến hồi qui X. Nói cách khác, xác suất để biến phụ thuộc này bằng một là một hàm tuyến tính của các biến hồi qui X. Chúng ta có thể chứng minh điều này như sau: Biến ngẫu nhiên Yi này có phân phối xác suất rời rạc như sau: Yi Pr(Y = Yi) 1 p 0 1 - p Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Các biến phụ thuộc bị giới hạn Nguyễn Trọng Hoài 2 Phân phối này là phân phối nhị thức Bernoulli Giá trị kỳ vọng của biến ngẫu nhiên này là : [ ] p p) - (10 p YE i =×+×= 1 Có nghĩa là Pr (Y = 1Xi) = Pi Và chúng ta cũng có điều kiện cho một xác xuất 0<= E (YiXi) <=1 Nhược điểm khá nghiêm trọng của mô hình LPM khi ước lượng bằng OLS. 1) Sai số không tuân theo phân phối chuẩn Chúng ta có thể ước lượng giá trị của các hệ số hồi qui bằng OLS nhưng chúng ta phải cẩn thận với các sai số chuẩn của nó. Tại sao vậy ? [ ] iii YE Y ε+= được biến đổi thành [ ] p - Y YE - Y iiii ==ε Vì Y chỉ nhận 2 giá trị cho nên dễ dàng xác định được phân phối xác suất của iε Yi Pr(Y) iε Pr( ε = iε ) 1 p 1 - p p 0 1 - p -p 1 – p Như vậy sai số tuân theo phân phối nhị thức chứ không tuân theo phân phối chuẩn. Điều này ảnh hưởng đến các thống kê suy luận như ước lượng khoảng tin cậy và kiểm định giả thiết. Một số các hệ quả từ phương pháp OLS vẫn thoả là: Ước lượng của hệ số vẫn không chệch. Khi mẫu lớn thì hệ số ước lượng vẫn tuân theo phân phối chuẩn. 2) Phương sai của sai số thay đổi Vì [ ] 0 p) - (1p - pp) - (1 E i =××=ε Vì và [ ] ( )[ ] [ ] p p)- (1 p)- (1 p- p p)- (1 E εEεE VAR 222iìi ii ×=××==−= εε Từ biểu thức trên, chúng ta biết rằng p là một hàm của những biến hồi qui này, nên chúng ta thấy rõ là thành phần nhiễu ngẫu nhiên có phương sai thay đổi. Chúng ta có thể khử hiện tượng phương sai thay đổi bằng phương pháp OLS có trọng số. Một là, chúng ta có thể sử dụng OLS có trọng số (WLS) với các bước sau đây Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Các biến phụ thuộc bị giới hạn Nguyễn Trọng Hoài 3 Để thực hiện WLS chúng ta thực hiện 3 bước sau đây: 1) OLS: KiKi3i21i Xˆ Xˆ Xˆ ˆ pˆ β++β+β+β= L32 Ở bước này chúng ta loại bỏ các quan sát có xác xuất âm hoặc lớn hơn 1 2) Các trọng số : i i ˆ 1 w σ= trong đó ( ) 211 /iii )pˆ - (pˆ ˆ =σ 3) Xây dựng WLS chúng ta có mô hình mà phương sai của sai số thoả điều kiện là homocedasticity. Các bước này có thể thực hiện bằng cách chọn phương pháp ước lượng trong Eviews 3) Không thoả mãn điều kiện cơ bản của xác xuất 0<= E (YiXi) <=1 Có nghĩa là có giá trị lớn hơn một và có giá trị nhỏ hơn không của một số ước lượng biến phụ thuộc 4) Hệ số biến hồi qui không đổi (tác động biên không đổi) là không có lý. Nếu biến giải thích này có giá trị rất thấp và chúng ta tăng thêm 1 đơn vị. Không thể nào điều này sẽ làm tăng xác suất lên nhiều và như vậy sẽ rơi vào trường hợp hoặc chúng ta có xác suất âm hoặc chúng ta có xác suất lớn hơn 1. Nhưng khi biến giải thích nhận các giá trị gần với vài giá trị “ngưỡng” nào đó, thì việc gia tăng 1 đơn vị có thể gây ra tác động biên lớn. Cùng lập luận như vậy , sau khi biến giải thích này vượt cả những giá trị rất lớn, thì tác động biên của sự thay đổi gia tăng tiếp theo có thể rất nhỏ. 5) Hệ số xác định không còn là thước đo độ thích hợp tốt của mô hình Một điều không thể áp dụng trực tiếp là hệ số xác định R2. Bằng hồi qui tuyến tính cổ điển, nếu rằng tất cả mọi dữ liệu đều nằm trên đường hồi qui và R2 = 1 cung cấp một chuẩn mực có ý nghĩa. Nhưng với các biến phụ thuộc có hai tính chất, khái niệm này không cung cấp một chuẩn mực nào cả khi xác định thước đo độ chính xác hồi qui. Giải thích bằng minh hoạ đồ thị: trường hợp mua nhà khi thu nhập tiến đến một ngưỡng nào đó, hai trường hợp mua và không mua sẽ nằm trên đường hồi qui tuyến tính nên có khả năng R2 nhưng những trường hợp khác lại có R2 nhỏ. Đây chính là lý do chúng ta nên chọn một dạng hàm khác phù hợp với qui luật của xác xuất lựa chọn nhà. Dạng hàm này là hàm CDF ứng dụng cho hai mô hình Probit và Logit Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Các biến phụ thuộc bị giới hạn Nguyễn Trọng Hoài 4 Một mô hình xác suất hợp lý hơn mô hình LPM có thể được mô tả như sau: Ví dụ về mô hình LPM: GRIMP = Biến hai tính chất = 0 nếu điểm của sinh viên không cải thiện = 1 nếu điểm của sinh viên đã cải thiện GPA = Điểm trung bình trước khi vào trường Xác suất Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Các biến phụ thuộc bị giới hạn Nguyễn Trọng Hoài 5 Dường như có mối quan hệ thuận giữa điểm trung bình trước khi vào trường của sinh viên và khả năng cải thiện điểm của mình (GRIMP), điều này được thể hiện bằng đường thẳng trong biểu đồ phân tán trên. Hai biến giải thích khác cũng có sẵn: PreTest đo kiến thức có trước về nội dung khoá học (trái lại GPA chỉ đo lường điểm trung bình khi học tập chung); và PSI là biến mô tả liệu một sinh viên đã tham gia một kỹ thuật giảng dạy đặc biệt không (PSI = 1 nếu sinh viên đã tham gia kỹ thuật đặc biệt này, và nếu không trải qua thì PSI = 0). Đồng thời hãy khảo sát các biểu đồ phân tán giữa GRIMP với những biến hồi qui nêu trên: Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Các biến phụ thuộc bị giới hạn Nguyễn Trọng Hoài 6 Mỗi biểu đồ phân tán này không giống với những biểu đồ phân tán và các đường hồi qui mà chúng ta đã nghiên cứu trước đây. Dữ liệu dường như không nằm dọc theo đường hồi qui. Vơi bản chất của dữ liệu đã có, thật khó tìm ra hiện tượng "chính xác hoàn hảo" dọc theo đường hồi qui khi mà chúng ta xây dựng các " giá trị ước lượng". Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Các biến phụ thuộc bị giới hạn Nguyễn Trọng Hoài 7 Việc giải thích ở đây thật đơn giản : Một sinh viên có GPA cao hơn 1 điểm có xác suất cải thiện điểm cao hơn 0,46; sinh viên có tiếp cận với phương pháp giảng dạy mới có khả năng tăng xác suất cải thiện điểm thêm 0,38. Bây giờ, xét một sinh viên có GPA là 2 và có 20 điểm cho kiểm tra trước khi vào học, và là người đã tham gia phương pháp giảng dạy cải tiến. Với một sinh viên như vậy chúng ta có thể tính được xác xuất sau đây 0,18- 0,38 200,01 0,20,46 1,50- ˆ =+×+×+=ip Không thể xảy ra các giá trị xác suất âm do đo kết quả xác xuất này khó chấp nhận . Mô hình Logit Logit tuân theo dạng CDF Logistic : ( ) ( )( ) X X exp XXexp p s , Xs| 1 YPr KiKi21 KiKi21 i βββ1 βββ β 2 2 ++++ +++=== L L Pi/(1-Pi) = ezi Trong đó X XX Z KiKi3i21i ββββ 32 ++++= L Ln [Pi/(1-Pi)] = Zi là hàm Logit Ước lượng các hệ số β của mô hình Logit bằng phương pháp ML thay vì OLS (tại sao? giải thích khi xác xuất bằng 0 và bằng 1) Giải thích các hệ số trong mô hình Logit Tác động biên đối với xác xuất. Chúng ta dễ dàng chứng minh được 2 22 ) p - 1 ( p p x)| 1 Pr( β×=∂ ∂=∂ =∂ xx Y Như vậy tác động biên của xác xuất theo một biến X nào đó không còn không đổi mà phụ thuộc vào giá trị của X. Chúng ta sẽ sử dụng một ví dụ để minh hoạ điều này. Mô hình Probit Mô hình probit sử dụng hàm CDF chuẩn chuẩn hoá Sử dụng ví dụ thu nhập và xác xuất sở hữu nhà, với quan điểm là khi mua nhà thì thu nhập phải vượt qua một ngưỡng nào đó X I i21i ββ += Ứng với thu nhập dưới I* thì xác xuất mua nhà bằng 0 và khi Ii > I* thì xác xuất mua nhà pi = Pr(Y=1  X) : Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Các biến phụ thuộc bị giới hạn Nguyễn Trọng Hoài 8 pi = ( ) ( ) )β β( F β βZip I*Ip X) | 1 ( 2121ii ii XXYP +=+〈=〈== Trong đó F ký hiệu cho hàm mật độ tích lũy chuẩn chuẩn hóa (CDF) Như vậy ( ) ( ) i2iii X βPFIFI β+=== −− 111 Đây chính là dạng hàm Probit 2β cho chúng ta biết thay đổi biên dọc theo trục hoành khi tăng một đơn vị X. Để xem điều này tác động lên xác suất như thế nào, chúng ta diễm tả bằng biểu thức sau: 21 1 1 11 βββ ββ ββ ββββ ×+=∂ +∂×+∂ +∂=∂ +∂=∂ ∂=∂ =∂ )x (F x )x( )x ( )x(F x )x (F x p x x) | 1 YPr( 2 '2 2 22 Ở đây chúng ta giải thích tác động biên của xác xuất khi thay đổi X, xác xuất để Y = 1 sẽ biến đổi theo giá trị X cụ thể có nghĩa là tác động biên sẽ thay đổi theo X và nhìn vào đồ thị của hàm F chúng ta có thể biết tác động biên đang tăng dần hoặc giảm dần đối với xác xuất ứng với các giá trị X tương ứng. Trong thành phần sau cùng của biểu thức, F ' là đạo hàm của CDF và nó chính là PDF. Chúng ta sẽ thấy rằng EViews sẽ giúp chúng ta ước lượng các hệ số của hàm Probit một cách nhanh chóng. Hồi qui Probit theo nhiều biến hồi qui : )xxx(F p )x x | 1 Y(P KK32K2 ββββ 321 ++++=== LL Xác suất = )x ( 2ββF 1 + x 21 β+β ∫ ∞− −= iI /si dZe)I(F 22π2 1 Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Các biến phụ thuộc bị giới hạn Nguyễn Trọng Hoài 9 Chúng ta có thể suy ra: ( ) ( ) kiki3i2iii X.....XX PFIFI βββ ++++=== −− 32111 β Khi chúng ta biết giá trị của những tham số và giá trị của những biến hồi qui này , thì chúng ta có thể tính được những xác suất phù hợp. Ước lượng các hệ số trong mô hình Probit và Logit. Sự vận dụng của những mô hình này bằng EViews gần giống nhau. EViews ước tính cả hai loại mô hình bằng phương pháp tương đồng tối đa (Maximum-Likelihood Method). Khởi động EViews Open / Workfile / gradespsi.wf1 (đây là tên một file bất kỳ mà ở đây chúng ta vẫn sử dụng file về tình huống điểm của sinh viên) Quick / Estimate Equation Estimation Settings / Method / Binary Options / Robust Standard Errors ◙ Logit◙ Probit Equation Specification: Grimp C GPA Pretest PSI Đánh giá và kiểm định ý nghĩa thống kê mô hình Logit và probit 1) Đánh giá độ thích hợp tốt của mô hình Pseudo R2 = Mc Fadden R2 = 1 - (LLFUR / LLFR) 2) Kiểm tra ý nghĩa thống kê các hệ số Sử dụng thống kê z thay vì thống kê t Bảng phân phối chuẩn chuẩn hoá với giá trị tới hạn (critical value Z và mức ý nghĩa / 2 cho kiểm định hai đuôi) Công thức tính thống kê Z không cần thiết vì Eviews đã tính cho chúng ta, chúng ta cũng không cần tra bảng phân phối chuẩn chuẩn hoá vì trong kết quả của Eviews có cột P-Value. 3) Kiểm định ý nghĩa chung của toàn bộ mô hình Sử dụng thống kê Khi bình phương thay vì thống kê F LR= Likelihood ratio = 2(LLFUR - LLFR) so sánh với giá trị tới hạn thống kê khi bình phương với mức ý nghĩa cho trước và df = số biến độc lập trong mô hình. Tất cả các yêu cầu tính toán khi kiểm định mức ý nghĩa của mô hình đều có thể được Eviews cung cấp. Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Các biến phụ thuộc bị giới hạn Nguyễn Trọng Hoài 10 Ví dụ về mô hình probit: Như vậy biến hồi qui Pretest không có ý nghĩa thống kê . Nhưng dù sao chúng ta cũng giữ nó lại vì mục đích minh họa. Giả sử chúng ta muốn tách tác động của hai biến lên xác suất thành công: GPA và tiếp cận với phương pháp giảng dạy mới (PSI = 1). Để làm như vậy, hãy tính hai dạng khác nhau của biến PSI, với điều kiện giữ cho biến Pretest không đổi tại giá trị trung bình của nó. Giá trị trung bình của biến Pretest = 21,94 Khi PSI = 0 Genr Index0 = -7,45232 + 1,625810*GPA + 0,051729*21,94 + 1,426332*0 Khi PSI = 1 Genr Index1 = -7,45232 + 1,625810*GPA + 0,051729*21,94 + 1,426332*1 Nhớ rằng có hai nguyên nhân giải thích toàn bộ biến thiên cho hai biến này: các giá trị khác biệt của PSI, và biến thiên của GPA nhân với hệ số của GPA. Nếu có các biến hồi qui bổ sung, thì chúng ta giữ chúng không đổi giống như cách mà chúng ta đã làm với với biến pretest. Tiếp theo, hãy tính chuỗi Pr(Grimp = 1) đối với từng chuỗi chỉ số : Genr Prgrimp0 = @cnorm(index0) Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Các biến phụ thuộc bị giới hạn Nguyễn Trọng Hoài 11 Genr Prgrimp1 = @cnorm(index1) Cuối cùng, hãy vẽ các biểu đồ phân tán của những xác suất này theo GPA: Bôi đen GPA, Prgrimp0, Prgrimp1 View / Graph / Simple Scatter Ở đây chúng ta có thể thấy tác động của GPA và tác động của PSI lên xác suất để một sinh viên có khả năng cải thiện điểm của mình. Việc tính các tác động biên cũng đơn giản. Giả sử rằng Anh/Chị muốn tính tác động biên của GPA ở mỗi điểm trên đồ thị. Để làm việc này, chúng ta chỉ đơn giản tính pdf của phân phối chuẩn cho mỗi giá trị đối với chỉ số này, sau đó nhân nó với hệ số của GPA. Trên EViews, hàm pdf chuẩn là @dnorm. Genr MarGPA0 = @dnorm(index0)*1.625810 Genr MarGPA1 = @dnorm(index1)*1.625810 Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Các biến phụ thuộc bị giới hạn Nguyễn Trọng Hoài 12 Những đường này chỉ ra tác động biên cho xác suất của sự thay đổi về việc cải thiện như thế nào khi GPA thay đổi. Nên ghi nhớ là chúng ta cần giải thích chúng bằng biểu đồ trước đây. Sự thực là tác động biên của MARGPA1 thấp khi GPA = 4 phản ánh thực tế là xác suất cải thiện gần bằng 1, vì vậy các cải thiện tiếp theo là rất nhỏ.