Bài giảng Dự báo bằng phân tích hồi quy (Phùng Thanh Bình)

Chúng ta vừa khảo sát một số mô hình dự báo giản đơn thuộc nhóm các mô hình dự báo chuỗi thời gian. Như chúng tôi đã đề cập ở chương 1, mô hình dự báo chuỗi thời gian sẽ giúp dự báo các giá trị tương lai về một đối tượng dự báo nào đó trên nền tảng xu hướng vận động của chính chuỗi dữ liệu đó trong quá khứ và hiện tại. Tuy nhiên, các biến kinh tế thường có các mối quan hệ với nhau, và dựa trên các mối quan hệ đó mà chúng ta có thể suy luận được hành vi của một biến số nào đó khi đã có thông tin từ các biến số khác có liên quan. Chẳng hạn, các nhà hoạch định chính sách vĩ mô có thể dự báo được tốc độ tăng trưởng kinh tế trên cơ sở dự đoán được các thông tin tương lai về cung tiền, lãi suất, hay chi tiêu công. Hoặc các nhà nghiên cứu có thể dự đoán được mức độ chi tiêu của dân cư cho một nhóm hàng hóa nào đó trên cơ sở dự đoán xu hướng gia tăng trong thu nhập và trình độ học vấn. Hoặc giám đốc kinh doanh của một doanh nghiệp có thể dự đoán được doanh số trong tương lai trên cơ sở dự trù các khoản chi tiêu cho quảng cáo và chi tiêu cho nghiên cứu thị trường. Để có thể làm được như vậy, các phương pháp phân tích hồi quy trở thành một trong những công cụ vô cùng hữu ích. Ngoài ra, phân tích hồi quy còn giúp những người nghiên cứu kiểm chứng nhiều giả thiết kinh tế quan trọng nhằm có thêm thông tin chắc chắn cho việc ra quyết định về chính sách hay giải pháp nào đó. Hơn nữa, chúng ta sẽ tiếp tục tìm hiểu một số mô hình dự báo chuỗi thời gian phức tạp ở các chương sau, và các mô hình đó sẽ không thể nào thực hiện được nếu người phân tích không được trang bị một nền tảng tương đối về phân tích hồi quy.

pdf85 trang | Chia sẻ: thanhtuan.68 | Lượt xem: 975 | Lượt tải: 2download
Bạn đang xem trước 20 trang tài liệu Bài giảng Dự báo bằng phân tích hồi quy (Phùng Thanh Bình), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
DỰ BÁO BẰNG PHÂN TÍCH HỒI QUY Phùng Thanh Bình ptbinh@ueh.edu.vn 1 Chúng ta vừa khảo sát một số mô hình dự báo giản đơn thuộc nhóm các mô hình dự báo chuỗi thời gian. Như chúng tôi đã đề cập ở chương 1, mô hình dự báo chuỗi thời gian sẽ giúp dự báo các giá trị tương lai về một đối tượng dự báo nào đó trên nền tảng xu hướng vận động của chính chuỗi dữ liệu đó trong quá khứ và hiện tại. Tuy nhiên, các biến kinh tế thường có các mối quan hệ với nhau, và dựa trên các mối quan hệ đó mà chúng ta có thể suy luận được hành vi của một biến số nào đó khi đã có thông tin từ các biến số khác có liên quan. Chẳng hạn, các nhà hoạch định chính sách vĩ mô có thể dự báo được tốc độ tăng trưởng kinh tế trên cơ sở dự đoán được các thông tin tương lai về cung tiền, lãi suất, hay chi tiêu công. Hoặc các nhà nghiên cứu có thể dự đoán được mức độ chi tiêu của dân cư cho một nhóm hàng hóa nào đó trên cơ sở dự đoán xu hướng gia tăng trong thu nhập và trình độ học vấn. Hoặc giám đốc kinh doanh của một doanh nghiệp có thể dự đoán được doanh số trong tương lai trên cơ sở dự trù các khoản chi tiêu cho quảng cáo và chi tiêu cho nghiên cứu thị trường. Để có thể làm được như vậy, các phương pháp phân tích hồi quy trở thành một trong những công cụ vô cùng hữu ích. Ngoài ra, phân tích hồi quy còn giúp những người nghiên cứu kiểm chứng nhiều giả thiết kinh tế quan trọng nhằm có thêm thông tin chắc chắn cho việc ra quyết định về chính sách hay giải pháp nào đó. Hơn nữa, chúng ta sẽ tiếp tục tìm hiểu một số mô hình dự báo chuỗi thời gian phức tạp ở các chương sau, và các mô hình đó sẽ không thể nào thực hiện được nếu người phân tích không được trang bị một nền tảng tương đối về phân tích hồi quy. MỤC TIÊU HỌC TẬP Chương này giúp chúng ta hiểu được các vấn đề cơ bản nhất về phân tích hồi quy và các ứng dụng của phân tích hồi quy trong dự báo với các nội dung sau đây: Các vấn đề cơ bản về phân tích hồi quy Giải thích ý nghĩa thống kê của các kết quả hồi quy Thực hiện các kiểm định giả thiết quan trọng Giải thích ý nghĩa kinh tế của các kết quả hồi quy Nhận biết và khắc phục một số vấn đề thường gặp trong phân tích hồi quy Một số ứng dụng của phân tích hồi quy trong việc ra quyết định về chính sách và dự báo 2 MÔ HÌNH HỒI QUY ĐƠN MỤC ĐÍCH CỦA PHÂN TÍCH HỒI QUY Theo Gujarati (2003), phân tích hồi quy có thể giúp người phân tích: Ước lượng giá trị trung bình của biến phụ thuộc khi cho trước giá trị một hoặc các biến giải thích. Kiểm định các giả thiết về bản chất của sự phụ thuộc giữa biến độc lập và biến phụ thuộc. Dự báo giá trị trung bình của biến phụ thuộc khi cho trước các giá trị của các biến giải thích. Dự báo tác động biên hoặc độ co giãn của một biến độc lập lên biến phụ thuộc thong qua hệ số hồi quy. MÔ HÌNH HỒI QUY TUYẾN TÍNH CỔ ĐIỂN Mô hình hồi quy tuyến tính cổ điển là một cách xem xét bản chất và hình thức của mối quan hệ giữa hai hay nhiều biến số. Trong phần này, chúng ta chỉ tập trung xem xét trường hợp mô hình hai biến. Trong đó Y là biến phụ thuộc và X là biến độc lập (hay còn gọi là biến giải thích). Như vậy, chúng ta muốn giải thích/dự báo giá trị của Y theo các giá trị khác nhau của X. Giả sử, X và Y có mối quan hệ tuyến tính như sau: E(Yt) = 1 + 2Xt (7.1) Trong đó, E(Yt) là giá trị trung bình có điều kiện của Yt theo Xt, và 1, 2 là các tham số chưa biết của tổng thể (t ký hiệu theo thông lệ dữ liệu chuỗi thời gian cho quan sát vào thời điểm t của biến quan sát). Phương trình (7.1) được gọi là phương trình hồi quy tổng thể. Giá trị thực Yt sẽ không phải luôn luôn bằng giá trị kỳ vọng E(Yt), vì vậy Yt có thể được thể hiện như sau: Yt = E(Yt) + ut Yt = 1 + 2Xt + ut (7.2) Trong đó, ut được gọi là hạng nhiễu ngẫu nhiên. Và ut luôn tồn tại do các nguyên nhân như bỏ sót biết giải thích, sai dạng mô hình do bỏ qua các tác động trễ, sai dạng hàm, lỗi đo lường, hoặc do đơn giản hóa mô hình bằng cách tổng hợp một số biến khác nhau thành một biến giải thích duy nhất. 3 PHƯƠNG PHÁP BÌNH PHƯƠNG BÉ NHẤT Phương pháp được sử dụng phổ biến nhất nhằm ước lượng các hệ số hồi quy là phương pháp bình phương bé nhất thông thường (OLS)1. Theo Gujarati (2003), dưới các giả định của mô hình hồi quy tuyến tính cổ điển (sẽ trình bày ở phần sau), thì phương pháp OLS có nhiều tính chất thống kê rất hấp dẫn làm cho nó trở thành một phương pháp mạnh và phổ biến nhất trong phân tích hồi quy. Phương pháp OLS được cho là của nhà toán học nổi tiếng người Đức Carl Friedrich Gauss. Nhắc lại hàm hồi quy tổng thể ở phương trình (7.2): Yt = 1 + 2Xt + ut (7.2) Do hàm hồi quy tổng thể này không thể quan sát trực tiếp được, nên ta ước lượng nó từ hàm hồi quy mẫu từ phương trình (7.3): Yt = 1 ˆ + 2 ˆ Xt + tuˆ (7.3) = tYˆ + tuˆ Trong đó, Yt là giá trị quan sát thực tế, tYˆ là giá trị ước lượng hay trung bình có điều kiện của Yt. Ta có tuˆ = Yt - tYˆ = Yt – 1 ˆ - 2 ˆ Xt (7.4) Phương trình này cho biết phần dư tuˆ là hiệu số của giá trị Y thực tế và giá trị Y ước lượng vào thời điểm t, giá trị này có từ phương trình (7.3). Xây dựng các hệ số của hàm hồi quy mẫu với điều kiện bình phương tổng phần dư )YˆY(uˆ ttt là tối thiểu nhất. Nghĩa là, nghĩa là xác định 1 ˆ và 2 ˆ sao cho tổng bình phương phần dư 2tuˆ (được gọi là RSS) là tối thiểu. RSS được định nghĩa như sau: n 1t 2 t21t n 1t 2 tt n 1t 2 t )X ˆˆY()YˆY(uˆRSS (7.5) Để tối thiểu hóa (7.5), ta lấy đạo hàm bậc một của RSS theo 1 ˆ và 2 ˆ và cho các đạo hàm này bằng không. 0)XˆˆY(2 ˆ RSS t21t 1 (7.6) 0X)XˆˆY(2 ˆ RSS tt21t 2 (7.7) 1 Ordinary least squares 4 Hai phương trình (7.6) và (7.7) có thể được viết lại như sau: t21t X ˆˆnY (7.8) 2 t2t1tt X ˆXˆYX (7.9) Trong đó n là số quan sát trong mẫu. Hệ hai phương trình (7.8) và (7.9) có thể được biểu diển dưới hình thức ma trận như sau:    2.2A 2 tt t X X X n  1,2B 2 1 ˆ ˆ =  1,2C tt t XY Y (7.10) Có thể giải nhanh hệ phương trình (7.10) theo quy tắc Cramer để có 1 ˆ và 2 ˆ như sau: 2 t 2 t tttt 2 t 1 XXn XYXYXˆ (7.11) 2 t 2 t tttt 2 XXn YXXYnˆ (7.12) Tuy nhiên, các công thức ước tính 1 ˆ và 2 ˆ như trên có vẻ hơi phức tạp nên rất dễ làm người đọc (nhất là sinh viên năm 2 và năm 3 các ngành kinh tế) ngao ngán vì tính phức tạp của nó. Từ phương trình (7.8) ta có: XˆYˆ 21 (7.13) Thế 1 ˆ ở phương trình (7.13) vào phương trình (7.9) để tìm 2 ˆ như sau: YtXt = ( XˆY 2 ) Xt + ˆ 2 X 2 t YtXt = t2t XX ˆXY + 2 ˆ X2t Do XnX t , nên ta có: YtXt = 2 2 X ˆnXYn + ˆ 2 X 2 t YtXt - XYn = 22 t2 XnX ˆ (7.14) Ta lại có, )YXYtXYXYX()YY)(XX( ttttt = YXYXXYYX ttt = YXnYXnYXnYX tt 5 = YXnYX tt (7.15) Và 2 t )XX( = )XXX2X( 2 t 2 t = 2 t 2 t XXX2X = 22 t XnXXn2X = 22 t XnX (7.16) Thế phương trình (7.15) và (7.16) vào phương trình (7.14) ta có: 2 t2tt )XX( ˆ)YY)(XX( 2 t tt 2 )XX( )YY)(XX(ˆ (7.17) = 2 t tt x yx Trong đó, xt = (Xt - X ) và yt = (Yt - Y ). Như vậy, qua một vài bước biến đối nhỏ ta có công thức ước tính 2 ˆ cực kỳ đơn giản và rất ý nghĩa. Tưởng tượng rằng, lấy cả tử và mẫu của (7.17) chia cho (n-1), ta có: )X(Var )Y,X(Covˆ t tt 2 (7.18) Ngoài ra, 2 ˆ ở phương trình (7.17) còn có thể được thể hiện một cách khác như sau: 2 ˆ = 2 t tt x yx = 22 t ttt 2 t tt XnX )xYYx )XX( )YY(x = 22 t tt 22 t ttt XnX Yx XnX )XX(YYx = 22 t tt XnX Yx = 2 t tt x Yx (7.19) Các công thức ở phương trình (7.17) và (7.19) mách cho chúng ta một điều rất thú vị rằng, 1 ˆ là một hàm tuyến tính theo 2 ˆ , 2 ˆ là một hàm tuyến tính 6 theo Yt, nên cả 1 ˆ và 2 ˆ đều là các hàm tuyến tính theo Yt. Và Yt là một hàm tuyến tính theo ut, vậy 1 ˆ và 2 ˆ là các hàm tuyến tính theo ut. Cho nên, nếu ut có phân phối chuẩn thì 1 ˆ và 2 ˆ cũng sẽ có phân phối chuẩn. CÁC GIẢ ĐỊNH CỦA HỒI QUY TUYẾN TÍNH CỔ ĐIỂN Theo Gujarati (2003), nếu mục tiêu của ta chỉ là ước lượng các hệ số 1 và 2, thì chỉ cần phương pháp OLS là đủ. Nhưng, như ta đã biết, các mục tiêu của phân tích hồi quy không chỉ dừng lại ở việc có được các giá trị ước lượng 1 ˆ và 2 ˆ , mà còn phải suy diễn (dự báo khoảng) về các giá trị thực 1 và 2 thực sự có ý nghĩa thống kê hay không. Chính vì vậy, chúng ta cần biết cụ thể về bản chất của hàm hồi quy tổng thể. Cụ thể, chúng ta không chỉ xác định dạng hàm của mô hình hồi quy, mà còn đưa ra các giả định về cách mà Yt được tạo ra như thế nào. Phương trình (7.2) cho thấy Yt phụ thuộc vào cả Xt và ut. Cho nên, nếu ta không biết Xt và ut được tạo ra như thế nào, thì ta sẽ không có cách nào suy diễn được Yt cũng như các hệ số 1 và 2. Chính vì thế, các giả định về biến giải thích Xt và số hạng nhiễu ut có ý nghĩa rất quan trọng cho việc giải thích các giá trị ước lượng của hồi quy. Ta đã biết, các hạng nhiễu ut (không thể quan sát được) là các hạng nhiễu ngẫu nhiên. Do hạng nhiễu ut cộng với một số hạng phi ngẫu nhiên Xt để tạo ra Yt, vậy Yt sẽ là một biến ngẫu nhiên. Dưới đây là tóm tắt các giả định trong mô hình hồi quy tuyến tính cổ điển.  BẢNG 7.1: Giả định của mô hình hồi quy tuyến tính cổ điển Giả định Biểu diễn dạng toán Không thỏa mãn do (1) Mô hình tuyến tính Yt = 1 + 2Xt + ut Sai dạng mô hình (2) Mô hình được xác định đúng (3) Xt có thể biến thiên Var(Xt) 0 Sai dạng mô hình (4) Xt và ut không tương quan Cov(Xt,ut) = 0 Tự hồi quy (5) Giá trị kỳ vọng của hạng nhiễu bằng không E(ut) = 0 Sai dạng mô hình (6) Không có đa cộng tuyến ,0)XX( jtjiti i j Đa cộng tuyến (7) Phương sai không đổi Var(ut) = 2 Phương sai thay đổi (8) Không có tương quan chuỗi Cov(ut,us) = 0, t s Tự tương quan (9) Hạng nhiễu phân phối chuẩn ut ~ N( , 2 ) Outliers ĐẶC ĐIỂM CỦA CÁC ƯỚC LƯỢNG OLS Các ước lượng của OLS khi tuân thủ các giả định sẽ đạt được tiêu chuẩn BLUE 2, có nghĩa là ước lượng không chệch, tuyến tính, và tốt nhất. Ước lượng là tuyến tính do giá trị ước lượng hệ số hồi được biểu diễn tuyến tính theo Y (phương trình 7.20). Giá trị các ước lượng của các hệ số hồi quy là không chệch do kỳ vọng của ước lượng hệ số hồi quy trong hàm hồi quy mẫu bằng với giá trị của hệ số hồi quy trong hàm hồi quy tổng thể (phương 2 Best linear unbiased estimator 7 trình 7.25 và 7.26), và ước lượng của các hệ số hồi quy là tốt nhất vì phương sai của các hệ số hồi quy của hàm hồi quy mẫu là nhỏ nhất (phương trình 7.29 và 7.30). Công thức ở phương trình (7.19) có thể được viết lại như sau: 2 t tt 2 x Yxˆ = ttYk (7.20) trong đó, 2 t t t x x k (7.21) Phương trình (7.20) cho thấy 2 ˆ là một ước lượng tuyến tính bởi vì nó là một hàm tuyến tính của Yt. Nói cách khác, các ước lượng OLS là một trung bình có trọng số của Yt, với kt đóng vai vai trò như các trọng số. Tương tự, 2 ˆ cũng là một ước lượng tuyến tính theo Yt. 1 ˆ = XˆY 2 = ttYkXY (7.22) Tính chất của kt 1. Do Xt được giả định là phi ngẫu nhiên (cố định), nên kt cũng phi ngẫu nhiên 2. 0k t (do 0x t ) 3. 2 t 2 t x 1 k (do 2 t 2 t 2 t2 t x 1 . x x k ) 4. 1Xkxk tttt (do ttttttttt xkkXXk)XX(kxk ) Dựa vào các tính chất của kt ta suy ra các công thức của 1 ˆ và 2 ˆ như sau. Thế công thức Yt = 1 + 2Xi + ut vào công thức (7.20), ta có 2 ˆ = )uX(k tt21t = tttt2t1 ukXkk = tt2 uk (7.23) Thế các công thức XY 21 và công thức Yt = 1 + 2Xt + ut vào công thức (7.22), ta có: tt11 ukX ˆ (7.24) 8 Như vậy, 1 ˆ và 2 ˆ là các hàm tuyến tính theo các hạng nhiễu ngẫu nhiên ut. Chính vì thế 1 ˆ và 2 ˆ sẽ có phân phối theo ut. Trung bình của các ước lượng OLS Từ hai phương trình (7.23) và (7.24), ta thấy rằng nếu lấy giá trị trung bình của các ước lượng 1 ˆ và 2 ˆ ta sẽ có: E( 1 ˆ ) = 1tt1 )ukX(E (7.25) E( 2 ˆ ) = 2tt2 )uk(E (7.26) Như vậy, các ước lượng OLS có một tính chất rất quan trọng là có giá trị trung bình đúng bằng giá trị thực của tổng thể. Chính nhờ điều này mà người ta gọi các ước lượng OLS là các ước lượng không chệch. Phương sai của các ước lượng OLS Từ định nghĩa về phương sai ta có: Var( 2 ˆ ) = E[ 2 ˆ – E( 2 ˆ )]2 = E( 2 ˆ – 2) 2 (7.27) Thế công thức (7.26) vào (7.27), ta có: Var( 2 ˆ ) = E( 2 + n 1t ttuk - 2) 2 = 2 n 1t ttukE = n1nn1n2121 2 n 2 n 2 2 2 2 2 1 2 1 uukk2...uukk2uk...ukukE Do ta giả định phương sai nhiễu không đổi, nên 22t )u(E tại mỗi giá trị t và không có tự tương quan nên E(utus) = 0, với t s, nên ta có: Var( 2 ˆ ) = 22n 22 2 22 1 k...kk = 2t 2 k (7.28) Thế tính chất số (3) của kt vào (7.28) ta có: Var( 2 ˆ ) = 2 t 2 x (7.29) Thực hiện tương tự, ta có: Var( 1 ˆ ) = 2 2 t 2 t xn X (7.30) 9 Lấy căn bậc hai các phương trình (7.29) và (7.30) ta có các sai số chuẩn của các hệ số hồi quy 1 ˆ và 2 ˆ như sau: se( 2 ˆ ) = 2 tx (7.31) se( 1 ˆ ) = 2 t 2 t xn X (7.32) Trong đó, 2 là một hằng số do ta giả định phương sai nhiễu không đổi. Với một dữ liệu mẫu nhất định thì ta có thể dễ dàng tính được 2tX và 2 tx , trừ 2 . Nếu có được một giá trị phương sai nhất định thì các sai số chuẩn của các hệ số hồi quy sẽ có một giá trị xác định. Trên thực tế, ta chỉ có ước lượng của 2 được tính theo công thức sau đây: 2n uˆ ˆ 2 t2 (7.33) Ở đây, 2ˆ cũng là một ước lượng không chệch của phương sai nhiễu 2. Ở công thức (7.33), (n-2) là bậc tự do, ký hiệu là d.f., và 2tuˆ là tổng bình phương phần dư, ký hiệu là RSS. Chắc chắn chúng ta sẽ thắc mắc tại sao bậc tự do của RSS là (n-2), hay bằng số quan sát trong mẫu trừ số hệ số ước lượng trong mô hình hồi quy. Có nhiều cách giải thích số bậc tự do, như ta có thể giải thích đơn giản như sau. Ta thấy rằng, trước khi có thể tính được RSS như ở công thức (7.5), trước tiên ta phải có các hệ số 1 ˆ và 2 ˆ vì các giá trị của Yt và Xt đã có sẵn từ dữ liệu mẫu. Để ước lượng được 1 ˆ và 2 ˆ , ta cần ít nhất hai cặp quan sát (Yt,Xt) bất kỳ (nghĩa là xác định phương trình đường thẳng qua hai điểm). Như vậy, hai giá trị ước lượng này là hai ràng buộc lên RSS. Nói cách khác, trong tập hợp tất cả các cặp quan sát (Yt,Xt) trong miền giá trị của mẫu dữ liệu sẽ có ít nhất hai cặp quan sát nào đó nằm trên (hoặc rất gần với) đường hồi quy mẫu. Chính vì thế, phần dư tương ứng sẽ bằng không hoặc rất nhỏ. Như vậy, thực sự giá trị của RSS chỉ do (n-2) giá trị 2tuˆ tạo thành. Như vậy, (n-2) chính là số nguồn thông tin để tính RSS. Lấy căn bậc hai của công thức (7.33) ta sẽ có sai số chuẩn của giá trị ước lượng hay sai số chuẩn của hồi quy ( ˆ ) như sau: 2n RSS ˆ (7.34) Đây chính là độ lệch chuẩn của các giá trị Y quanh đường hồi quy mẫu và được sử dụng như một thước đo “mức độ phù hợp” của đường hồi quy so với các giá trị thực tế từ mẫu dữ liệu. 10 HỆ SỐ XÁC ĐỊNH r 2 Cho đến đây chúng ta đã xem xét xong vấn đề ước lượng các hệ số hồi quy, các sai số chuẩn, và tính chất của các ước lượng OLS. Bây giờ chúng ta sẽ xem xét mức độ phù hợp của đường hồi quy mẫu với dữ liệu thực tế; nghĩa là, ta sẽ xem đường hồi quy mẫu phù hợp với dữ liệu mẫu như thế nào. Hệ số xác định r2 (cho trường hợp mô hình hồi quy đơn) và R2 (cho trường hợp mô hình hồi quy bội) là một thước đo chung cho biết một đường hồi quy nhất định sẽ phù hợp với dữ liệu mẫu như thế nào. Để có thước đo độ phù hợp, trước hết ta cần phân tích giá trị thực Yt theo các các trị ước lượng và phần dư như ở phương trình (7.3): Yt = tYˆ + tuˆ (7.3) Cả trừ cả hai vế của phương trình (7.3) cho Y , ta có: Yt - Y= tYˆ - Y + tuˆ (7.35) Do chúng ta cần một thước đo về tổng biến thiên của Yt quanh giá trị trung bình Y , nên phương trình (7.35) được viết lại như sau: )uˆYYˆ()YY( ttt (7.36) Lấy bình phương hai vế của (7.36), ta có: 2 tt 2 t )uˆYYˆ()YY( (7.37) Tương đương với, 2 t 2 t 2 t )uˆyˆ(y (7.38) tt 2 t 2 t uˆyˆ2uˆyˆ (7.39) Do 0uˆyˆ tt và t2t x ˆyˆ , nên phương trình (7.39) có thể được viết lại như sau: 2 t 2 t 2 t uˆyˆy 2t 2 t 2 2 uˆx ˆ (7.40) Trong đó, 2t 2 t )YY(y là tổng biến thiên của giá trị Y thực tế quanh giá trị trung bình mẫu và được gọi là tổng bình phương (TSS). 2 t 2 2 2 t 2 t 2 t x ˆ)YYˆ()YˆYˆ(yˆ là tổng biến thiên của giá trị Y ước lượng quanh giá trị ước lượng trung bình )YYˆ( và được gọi là tổng bình phương được giải thích bởi hàm hồi quy, hay đơn giản hơn là tổng bình phương phần được giải thích (ESS). 2tuˆ là tổng biến thiên phần dư hay phần không được giải thích của các giá trị Y quanh đường hồi quy, hay 11 đơn giản là tổng bình phương phần dư (RSS). Như vậy, phương trình (7.40) được viết lại như sau: TSS = ESS + RSS (7.41) Điều này có nghĩa rằng biến thiên trong các giá trị Y quan sát quanh giá trị trung bình mẫu có thể được chia thành hai phần, một đại diện cho đường hồi quy và một đại diện cho các yếu tố ngẫu nhiên bởi vì không phải tất cả các quan sát thực của Y đều nằm trên đường hồi quy. Ta có thể biểu diễn minh họa một giá trị Y quan sát bất kỳ như Hình (7.1). Chia cả hai vế của phương trình (7.41) cho TSS, ta có: TSS RSS TSS ESS 1 (7.42) Bây giờ ta định nghĩa r2 như sau: TSS ESS r 2 TSS RSS 1 (7.43)  HÌNH 7.1: Các thành phần trong biến thiên của Y Y Yi i Yˆ )YYˆ( i iii YˆYuˆ Xi )YY( i 12 Tóm lại, r2 được biết như hệ số xác định và là thước đo được sử dụng phổ biến nhất về mức độ phù hợp của hàm hồi quy mẫu với dữ liệu quan sát. Đặc điểm của hệ số xác định 1. r2 là một đại lượng không âm 2. 0 r2 1. Nếu r2 = 1, thì đường hồi quy phù hợp hoàn toàn; nghĩa là, tt YYˆ với mỗi t. Ngược lại, nếu r 2 = 0, thì không có mối quan hệ nào giữa biến giải thích và biến phụ thuộc. Hệ số xác định r2 còn được tính theo công thức sau đây: 2 t 2 t 22 t 2 t 2 2 2 t 2 t2 y xˆ y xˆ y yˆ TSS ESS r (7.44) Nếu ta chia cả tử và mẫu của phương trình (6.98) cho (n-1), thì ta có: 2 y 2 x2 2 t t2 2 2 S Sˆ )Y(Var )X(Varˆr (7.45) Với 2 x S và 2 y S là các phương sai mẫu của Xt và Yt trong mẫu dữ liệu có sẵn. Ngoài ra, ta biết rằng 2 t tt 2 x yxˆ , nên phương trình (7.45) có thể được biến đổi như sau: 2 XY 2 2 t 2 t tt 2 t 2 t 2 tt 2 t 2 t 22 t 2 tt2 )r( yx yx yx )yx( y x )x( )yx( r (7.46) Trong đó rxy là hệ số tương quan của biến phụ thuộc Y và biến độc lập X. Một số vấn đề cần lưu ý khi sử dụng hệ số xác định 1. Vấn đề hồi quy giả mạo3. Trong trường hợp hai hoặc nhiều biến thực sự không có mối tương quan gì, nhưng bản thân chúng có thể tồn tại yếu tố xu thế mạnh (thường ở dữ liệu chuỗi thời gian), nên các giá trị r2 (R2) rất cao (đôi khi cao hơn 0.9). Nếu đều này xảy ra, chúng ta có thể bị ngộ nhận về mối quan hệ thực sự giữa các biến là quan trọng. 2. Tương quan mạnh giữa các biến giải thích (hồi quy bội). Trong trường hợp hồi quy bội, nếu các biến giải thích có tương quan với nhau (được gọi là hiện tượng đa cộng tuyến), thì giá trị R2 thường rất cao. Điều này có thể dẫn đến sự nhầm lẩn trong việc cho rằng đường hồi quy rất phù hợp với dữ liệu. 3 Spurious regression 13 3. Tương quan không nhất thiết hàm ý quan hệ nhân quả. Cho dù giá trị R2 cao bao nhiêu đi nữa, thì nó cũng không thể nói lên có mối quan hệ nhân quả giữa Yt và Xt vì R 2 là một thước đo mối quan hệ giữa giá trị Yt quan sát với giá trị Yt ước lượng. 4. Phương trình dữ liệu chuỗi thời gian với phương trình dữ liệu chéo. Các phương trình dữ liệu chuỗi thời gian luôn có các giá trị R2 cao hơn so với các phương trình dữ liệu chéo. Điều này bởi vì trong dữ liệu chéo chứa đựng rất nhiều sự biến thiên ngẫu nhiên nên làm cho ESS nhỏ tương đối so với TSS. Ngược lại, thậm chí các phương trình chuỗi thời gian được xác định không phù hợp lắm vẫn có thể có R 2 rất cao (có thể 0.999) do hiện t