Chúng ta có thểtiếp xúc với các dữliệu liên quan đến các trường hợp như: tại sao có những người
nằm trong lực lượng lao động và một sốngười khác thì không, tại sao có những người nằm dưới
mức nghèo đói và có những người lại nằm trên mức đó, tại sao có những người sởhữu một căn nhà
và những người khác thì không, tại sao một loại thuốc mới khi lâm sàng thểnghiệm thì có tác dụng
với một sốngười nhưng lại không có tác dụng với người khác, tại sao có sinh viên theo học đại học
điểm của họlại được cải thiện còn các sinh viên khác thì không. Nhưvậy có rất nhiều trường hợp
mà chúng ta sẽnghiên cứu giống nhưnhững trường hợp đã nêu ởtrên.
Đểgiải thích tại sao lại xảy ra những trường hợp nhưvậy, hay nói khác đi là chúng ta muốn tìm ra
những nhân tố ảnh hưởng đến các trường hợp "có" hoặc "không" thì cần thiết phải áp dụng công cụ
kinh tếlượng quen thuộc.
Trong những trường hợp nhưvậy thì biến phụthuộc của chúng ta có hai tính chất (nó là một biến
giả, biến nhịthức, biến định tính . . .). Các biến giả được bổsung dễdàng vào mô hình hồi qui bội
dưới dạng biến giải thích, nhưng trong việc sửdụng chúng dưới dạng biến phụthuộc lại đòi hỏi các
kỹthuật đặc biệt. Mô hình áp dụng cho trường hợp này là mô hình xác xuất.
12 trang |
Chia sẻ: haohao89 | Lượt xem: 2262 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Các biến phụ thuộc bị giới hạn, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Chương Trình Giảng Dạy Kinh Tế Fulbright
Niên Khóa 2007 - 2008
Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
Nguyễn Trọng Hoài 1
Các biến phụ thuộc bị giới hạn
Chúng ta có thể tiếp xúc với các dữ liệu liên quan đến các trường hợp như: tại sao có những người
nằm trong lực lượng lao động và một số người khác thì không, tại sao có những người nằm dưới
mức nghèo đói và có những người lại nằm trên mức đó, tại sao có những người sở hữu một căn nhà
và những người khác thì không, tại sao một loại thuốc mới khi lâm sàng thể nghiệm thì có tác dụng
với một số người nhưng lại không có tác dụng với người khác, tại sao có sinh viên theo học đại học
điểm của họ lại được cải thiện còn các sinh viên khác thì không. Như vậy có rất nhiều trường hợp
mà chúng ta sẽ nghiên cứu giống như những trường hợp đã nêu ở trên.
Để giải thích tại sao lại xảy ra những trường hợp như vậy, hay nói khác đi là chúng ta muốn tìm ra
những nhân tố ảnh hưởng đến các trường hợp "có" hoặc "không" thì cần thiết phải áp dụng công cụ
kinh tế lượng quen thuộc.
Trong những trường hợp như vậy thì biến phụ thuộc của chúng ta có hai tính chất (nó là một biến
giả, biến nhị thức, biến định tính . . .). Các biến giả được bổ sung dễ dàng vào mô hình hồi qui bội
dưới dạng biến giải thích, nhưng trong việc sử dụng chúng dưới dạng biến phụ thuộc lại đòi hỏi các
kỹ thuật đặc biệt. Mô hình áp dụng cho trường hợp này là mô hình xác xuất.
Có ba mô hình xác xuất khác nhau:
1) LPM (Linear probability model) dùng phương pháp ước lượng OLS
2) Logit dùng phương pháp ước lượng CDF (cummulative distribution function)
3) Probit dùng phương pháp ước lượng CDF (cummulative distribution function)
LPM Mô hình xác suất tuyến tính.
Bằng mô hình xác suất tuyến tính chúng ta có thể hiểu được điểm mấu chốt của phép hồi qui mà
biến phụ thuộc có hai tính chất.
Hàm hồi qui tổng thể có dạng:
iK33221 εββββ +++++= Kiiii XXXY L
[ ] [ ] E X X X s X'| Y E iKiKi3i21i εββββ 32 +++++= L
[ ] Kii3i21i X X X YE β++β+β+β= L32
Nếu chúng ta viết E[Y| X] thì có nghĩa là giá trị kỳ vọng của biến phụ thuộc hai tính chất có điều
kiện của biến hồi qui X. Nói cách khác, xác suất để biến phụ thuộc này bằng một là một hàm tuyến
tính của các biến hồi qui X. Chúng ta có thể chứng minh điều này như sau:
Biến ngẫu nhiên Yi này có phân phối xác suất rời rạc như sau:
Yi Pr(Y = Yi)
1 p
0 1 - p
Chương Trình Giảng Dạy Kinh Tế Fulbright
Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
Nguyễn Trọng Hoài 2
Phân phối này là phân phối nhị thức Bernoulli
Giá trị kỳ vọng của biến ngẫu nhiên này là :
[ ] p p) - (10 p YE i =×+×= 1
Có nghĩa là Pr (Y = 1Xi) = Pi
Và chúng ta cũng có điều kiện cho một xác xuất
0<= E (YiXi) <=1
Nhược điểm khá nghiêm trọng của mô hình LPM khi ước lượng bằng OLS.
1) Sai số không tuân theo phân phối chuẩn
Chúng ta có thể ước lượng giá trị của các hệ số hồi qui bằng OLS nhưng chúng ta phải cẩn thận
với các sai số chuẩn của nó. Tại sao vậy ?
[ ] iii YE Y ε+=
được biến đổi thành
[ ] p - Y YE - Y iiii ==ε
Vì Y chỉ nhận 2 giá trị cho nên dễ dàng xác định được phân phối xác suất của iε
Yi Pr(Y) iε Pr( ε = iε )
1 p 1 - p p
0 1 - p -p 1 – p
Như vậy sai số tuân theo phân phối nhị thức chứ không tuân theo phân phối chuẩn. Điều này ảnh
hưởng đến các thống kê suy luận như ước lượng khoảng tin cậy và kiểm định giả thiết. Một số các
hệ quả từ phương pháp OLS vẫn thoả là:
Ước lượng của hệ số vẫn không chệch.
Khi mẫu lớn thì hệ số ước lượng vẫn tuân theo phân phối chuẩn.
2) Phương sai của sai số thay đổi
Vì [ ] 0 p) - (1p - pp) - (1 E i =××=ε
Vì
và [ ] ( )[ ] [ ] p p)- (1 p)- (1 p- p p)- (1 E εEεE VAR 222iìi ii ×=××==−= εε
Từ biểu thức trên, chúng ta biết rằng p là một hàm của những biến hồi qui này, nên chúng ta thấy
rõ là thành phần nhiễu ngẫu nhiên có phương sai thay đổi.
Chúng ta có thể khử hiện tượng phương sai thay đổi bằng phương pháp OLS có trọng số.
Một là, chúng ta có thể sử dụng OLS có trọng số (WLS) với các bước sau đây
Chương Trình Giảng Dạy Kinh Tế Fulbright
Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
Nguyễn Trọng Hoài 3
Để thực hiện WLS chúng ta thực hiện 3 bước sau đây:
1) OLS: KiKi3i21i Xˆ Xˆ Xˆ ˆ pˆ β++β+β+β= L32
Ở bước này chúng ta loại bỏ các quan sát có xác xuất âm hoặc lớn hơn 1
2) Các trọng số :
i
i ˆ
1 w σ= trong đó ( ) 211 /iii )pˆ - (pˆ ˆ =σ
3) Xây dựng WLS chúng ta có mô hình mà phương sai của sai số thoả điều kiện là
homocedasticity.
Các bước này có thể thực hiện bằng cách chọn phương pháp ước lượng trong Eviews
3) Không thoả mãn điều kiện cơ bản của xác xuất
0<= E (YiXi) <=1
Có nghĩa là có giá trị lớn hơn một và có giá trị nhỏ hơn không của một số ước lượng biến phụ
thuộc
4) Hệ số biến hồi qui không đổi (tác động biên không đổi) là không có lý.
Nếu biến giải thích này có giá trị rất thấp và chúng ta tăng thêm 1 đơn vị. Không thể nào điều này
sẽ làm tăng xác suất lên nhiều và như vậy sẽ rơi vào trường hợp hoặc chúng ta có xác suất âm hoặc
chúng ta có xác suất lớn hơn 1.
Nhưng khi biến giải thích nhận các giá trị gần với vài giá trị “ngưỡng” nào đó, thì việc gia tăng 1
đơn vị có thể gây ra tác động biên lớn. Cùng lập luận như vậy , sau khi biến giải thích này vượt cả
những giá trị rất lớn, thì tác động biên của sự thay đổi gia tăng tiếp theo có thể rất nhỏ.
5) Hệ số xác định không còn là thước đo độ thích hợp tốt của mô hình
Một điều không thể áp dụng trực tiếp là hệ số xác định R2. Bằng hồi qui tuyến tính cổ điển, nếu
rằng tất cả mọi dữ liệu đều nằm trên đường hồi qui và R2 = 1 cung cấp một chuẩn mực có ý nghĩa.
Nhưng với các biến phụ thuộc có hai tính chất, khái niệm này không cung cấp một chuẩn mực nào
cả khi xác định thước đo độ chính xác hồi qui.
Giải thích bằng minh hoạ đồ thị: trường hợp mua nhà khi thu nhập tiến đến một ngưỡng nào đó, hai
trường hợp mua và không mua sẽ nằm trên đường hồi qui tuyến tính nên có khả năng R2 nhưng
những trường hợp khác lại có R2 nhỏ.
Đây chính là lý do chúng ta nên chọn một dạng hàm khác phù hợp với qui luật của xác xuất
lựa chọn nhà. Dạng hàm này là hàm CDF ứng dụng cho hai mô hình Probit và Logit
Chương Trình Giảng Dạy Kinh Tế Fulbright
Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
Nguyễn Trọng Hoài 4
Một mô hình xác suất hợp lý hơn mô hình LPM có thể được mô tả như sau:
Ví dụ về mô hình LPM:
GRIMP = Biến hai tính chất
= 0 nếu điểm của sinh viên không cải thiện
= 1 nếu điểm của sinh viên đã cải thiện
GPA = Điểm trung bình trước khi vào trường
Xác suất
Chương Trình Giảng Dạy Kinh Tế Fulbright
Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
Nguyễn Trọng Hoài 5
Dường như có mối quan hệ thuận giữa điểm trung bình trước khi vào trường của sinh viên và khả
năng cải thiện điểm của mình (GRIMP), điều này được thể hiện bằng đường thẳng trong biểu đồ
phân tán trên.
Hai biến giải thích khác cũng có sẵn: PreTest đo kiến thức có trước về nội dung khoá học (trái lại
GPA chỉ đo lường điểm trung bình khi học tập chung); và PSI là biến mô tả liệu một sinh viên đã
tham gia một kỹ thuật giảng dạy đặc biệt không (PSI = 1 nếu sinh viên đã tham gia kỹ thuật đặc
biệt này, và nếu không trải qua thì PSI = 0).
Đồng thời hãy khảo sát các biểu đồ phân tán giữa GRIMP với những biến hồi qui nêu trên:
Chương Trình Giảng Dạy Kinh Tế Fulbright
Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
Nguyễn Trọng Hoài 6
Mỗi biểu đồ phân tán này không giống với những biểu đồ phân tán và các đường hồi qui mà chúng
ta đã nghiên cứu trước đây. Dữ liệu dường như không nằm dọc theo đường hồi qui. Vơi bản chất
của dữ liệu đã có, thật khó tìm ra hiện tượng "chính xác hoàn hảo" dọc theo đường hồi qui khi mà
chúng ta xây dựng các " giá trị ước lượng".
Chương Trình Giảng Dạy Kinh Tế Fulbright
Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
Nguyễn Trọng Hoài 7
Việc giải thích ở đây thật đơn giản : Một sinh viên có GPA cao hơn 1 điểm có xác suất cải thiện
điểm cao hơn 0,46; sinh viên có tiếp cận với phương pháp giảng dạy mới có khả năng tăng xác suất
cải thiện điểm thêm 0,38.
Bây giờ, xét một sinh viên có GPA là 2 và có 20 điểm cho kiểm tra trước khi vào học, và là người
đã tham gia phương pháp giảng dạy cải tiến. Với một sinh viên như vậy chúng ta có thể tính được
xác xuất sau đây
0,18- 0,38 200,01 0,20,46 1,50- ˆ =+×+×+=ip
Không thể xảy ra các giá trị xác suất âm do đo kết quả xác xuất này khó chấp nhận .
Mô hình Logit
Logit tuân theo dạng CDF Logistic :
( ) ( )( ) X X exp
XXexp
p s , Xs| 1 YPr
KiKi21
KiKi21
i βββ1
βββ
β
2
2
++++
+++=== L
L
Pi/(1-Pi) = ezi
Trong đó X XX Z KiKi3i21i ββββ 32 ++++= L
Ln [Pi/(1-Pi)] = Zi là hàm Logit
Ước lượng các hệ số β của mô hình Logit bằng phương pháp ML thay vì OLS (tại sao? giải thích
khi xác xuất bằng 0 và bằng 1)
Giải thích các hệ số trong mô hình Logit
Tác động biên đối với xác xuất. Chúng ta dễ dàng chứng minh được
2
22
) p - 1 ( p p x)| 1 Pr( β×=∂
∂=∂
=∂
xx
Y
Như vậy tác động biên của xác xuất theo một biến X nào đó không còn không đổi mà phụ thuộc
vào giá trị của X. Chúng ta sẽ sử dụng một ví dụ để minh hoạ điều này.
Mô hình Probit
Mô hình probit sử dụng hàm CDF chuẩn chuẩn hoá
Sử dụng ví dụ thu nhập và xác xuất sở hữu nhà, với quan điểm là khi mua nhà thì thu nhập phải
vượt qua một ngưỡng nào đó
X I i21i ββ +=
Ứng với thu nhập dưới I* thì xác xuất mua nhà bằng 0 và khi Ii > I* thì xác xuất mua nhà
pi = Pr(Y=1 X) :
Chương Trình Giảng Dạy Kinh Tế Fulbright
Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
Nguyễn Trọng Hoài 8
pi = ( ) ( ) )β β( F β βZip I*Ip X) | 1 ( 2121ii ii XXYP +=+〈=〈==
Trong đó F ký hiệu cho hàm mật độ tích lũy chuẩn chuẩn hóa (CDF)
Như vậy ( ) ( ) i2iii X βPFIFI β+=== −− 111
Đây chính là dạng hàm Probit
2β cho chúng ta biết thay đổi biên dọc theo trục hoành khi tăng một đơn vị X. Để xem điều này
tác động lên xác suất như thế nào, chúng ta diễm tả bằng biểu thức sau:
21
1
1
11 βββ
ββ
ββ
ββββ ×+=∂
+∂×+∂
+∂=∂
+∂=∂
∂=∂
=∂ )x (F
x
)x(
)x (
)x(F
x
)x (F
x
p
x
x) | 1 YPr(
2
'2
2
22
Ở đây chúng ta giải thích tác động biên của xác xuất khi thay đổi X, xác xuất để Y = 1 sẽ biến đổi
theo giá trị X cụ thể có nghĩa là tác động biên sẽ thay đổi theo X và nhìn vào đồ thị của hàm F
chúng ta có thể biết tác động biên đang tăng dần hoặc giảm dần đối với xác xuất ứng với các giá trị
X tương ứng.
Trong thành phần sau cùng của biểu thức, F ' là đạo hàm của CDF và nó chính là PDF.
Chúng ta sẽ thấy rằng EViews sẽ giúp chúng ta ước lượng các hệ số của hàm Probit một cách
nhanh chóng.
Hồi qui Probit theo nhiều biến hồi qui :
)xxx(F p )x x | 1 Y(P KK32K2 ββββ 321 ++++=== LL
Xác suất =
)x ( 2ββF 1 +
x 21 β+β
∫ ∞− −= iI /si dZe)I(F 22π2
1
Chương Trình Giảng Dạy Kinh Tế Fulbright
Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
Nguyễn Trọng Hoài 9
Chúng ta có thể suy ra:
( ) ( ) kiki3i2iii X.....XX PFIFI βββ ++++=== −− 32111 β
Khi chúng ta biết giá trị của những tham số và giá trị của những biến hồi qui này , thì chúng ta có
thể tính được những xác suất phù hợp.
Ước lượng các hệ số trong mô hình Probit và Logit.
Sự vận dụng của những mô hình này bằng EViews gần giống nhau. EViews ước tính cả hai loại
mô hình bằng phương pháp tương đồng tối đa (Maximum-Likelihood Method).
Khởi động EViews
Open / Workfile / gradespsi.wf1 (đây là tên một file bất kỳ mà ở đây chúng ta vẫn sử dụng file về
tình huống điểm của sinh viên)
Quick / Estimate Equation
Estimation Settings / Method / Binary
Options / Robust Standard Errors
◙ Logit◙ Probit
Equation Specification: Grimp C GPA Pretest PSI
Đánh giá và kiểm định ý nghĩa thống kê mô hình Logit và probit
1) Đánh giá độ thích hợp tốt của mô hình
Pseudo R2 = Mc Fadden R2 = 1 - (LLFUR / LLFR)
2) Kiểm tra ý nghĩa thống kê các hệ số
Sử dụng thống kê z thay vì thống kê t
Bảng phân phối chuẩn chuẩn hoá với giá trị tới hạn (critical value Z và mức ý nghĩa / 2 cho
kiểm định hai đuôi)
Công thức tính thống kê Z không cần thiết vì Eviews đã tính cho chúng ta, chúng ta cũng
không cần tra bảng phân phối chuẩn chuẩn hoá vì trong kết quả của Eviews có cột P-Value.
3) Kiểm định ý nghĩa chung của toàn bộ mô hình
Sử dụng thống kê Khi bình phương thay vì thống kê F
LR= Likelihood ratio = 2(LLFUR - LLFR) so sánh với giá trị tới hạn thống kê khi bình
phương với mức ý nghĩa cho trước và df = số biến độc lập trong mô hình.
Tất cả các yêu cầu tính toán khi kiểm định mức ý nghĩa của mô hình đều có thể được Eviews cung
cấp.
Chương Trình Giảng Dạy Kinh Tế Fulbright
Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
Nguyễn Trọng Hoài 10
Ví dụ về mô hình probit:
Như vậy biến hồi qui Pretest không có ý nghĩa thống kê . Nhưng dù sao chúng ta cũng giữ nó lại vì
mục đích minh họa.
Giả sử chúng ta muốn tách tác động của hai biến lên xác suất thành công: GPA và tiếp cận với
phương pháp giảng dạy mới (PSI = 1). Để làm như vậy, hãy tính hai dạng khác nhau của biến PSI,
với điều kiện giữ cho biến Pretest không đổi tại giá trị trung bình của nó.
Giá trị trung bình của biến Pretest = 21,94
Khi PSI = 0
Genr Index0 = -7,45232 + 1,625810*GPA + 0,051729*21,94 + 1,426332*0
Khi PSI = 1
Genr Index1 = -7,45232 + 1,625810*GPA + 0,051729*21,94 + 1,426332*1
Nhớ rằng có hai nguyên nhân giải thích toàn bộ biến thiên cho hai biến này: các giá trị khác biệt
của PSI, và biến thiên của GPA nhân với hệ số của GPA. Nếu có các biến hồi qui bổ sung, thì
chúng ta giữ chúng không đổi giống như cách mà chúng ta đã làm với với biến pretest.
Tiếp theo, hãy tính chuỗi Pr(Grimp = 1) đối với từng chuỗi chỉ số :
Genr Prgrimp0 = @cnorm(index0)
Chương Trình Giảng Dạy Kinh Tế Fulbright
Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
Nguyễn Trọng Hoài 11
Genr Prgrimp1 = @cnorm(index1)
Cuối cùng, hãy vẽ các biểu đồ phân tán của những xác suất này theo GPA:
Bôi đen GPA, Prgrimp0, Prgrimp1
View / Graph / Simple Scatter
Ở đây chúng ta có thể thấy tác động của GPA và tác động của PSI lên xác suất để một sinh viên có
khả năng cải thiện điểm của mình.
Việc tính các tác động biên cũng đơn giản. Giả sử rằng Anh/Chị muốn tính tác động biên của GPA
ở mỗi điểm trên đồ thị. Để làm việc này, chúng ta chỉ đơn giản tính pdf của phân phối chuẩn cho
mỗi giá trị đối với chỉ số này, sau đó nhân nó với hệ số của GPA. Trên EViews, hàm pdf chuẩn là
@dnorm.
Genr MarGPA0 = @dnorm(index0)*1.625810
Genr MarGPA1 = @dnorm(index1)*1.625810
Chương Trình Giảng Dạy Kinh Tế Fulbright
Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
Nguyễn Trọng Hoài 12
Những đường này chỉ ra tác động biên cho xác suất của sự thay đổi về việc cải thiện như thế nào
khi GPA thay đổi. Nên ghi nhớ là chúng ta cần giải thích chúng bằng biểu đồ trước đây. Sự thực là
tác động biên của MARGPA1 thấp khi GPA = 4 phản ánh thực tế là xác suất cải thiện gần bằng 1,
vì vậy các cải thiện tiếp theo là rất nhỏ.