Bài giảng Chương 4: Dự báo bằng phương pháp hồi quy

Mô hình hồi quy: Là các mô hình thống kê được xây dựng nhằm mô tả các tình huống trong thực tế và trên cơ sở đó dự báo tương lai. Xây dựng mối quan hệ toán học giữa biến phụ thuộc (thường gọi là Y, dependent variable) và một hoặc nhiều biến độc lập (thường đặt là X, Independent variable(s)). Ví dụ: Tìm mô hình chỉ ra mối quan hệ giữa doanh thu và chi phí quảng cáo; tăng trưởng GDP và vốn đầu tư

pdf26 trang | Chia sẻ: nyanko | Lượt xem: 2835 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Bài giảng Chương 4: Dự báo bằng phương pháp hồi quy, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1CHƯƠNG 4 DỰ BÁO BẰNG PHƯƠNG PHÁP HỒI QUY 2Mô hình hồi quy: Là các mô hình thống kê được xây dựng nhằm mô tả các tình huống trong thực tế và trên cơ sở đó dự báo tương lai. Xây dựng mối quan hệ toán học giữa biến phụ thuộc (thường gọi là Y, dependent variable) và một hoặc nhiều biến độc lập (thường đặt là X, Independent variable(s)). Ví dụ: Tìm mô hình chỉ ra mối quan hệ giữa doanh thu và chi phí quảng cáo; tăng trưởng GDP và vốn đầu tư, XÂY DỰNG MÔ HÌNH HỒI QUY 3Các bước xây dựng một mô hình dự báo hồi quy: 1. Đưa ra mô hình mô tả tình huống trong thực tế (Chi tiêu và thu nhập, năng suất lúa và lượng phân bón, v.v.v) 2. Đưa ra được các biến cho mô hình (phải đo được, phân biệt vói khái niệm). Ví dụ: Chi phí tính bằng tiền Đồng VN, Doanh số có thể đo bằng Sản lượng / tiền 3. Xem xét các lỗi dự báo của mô hình các lỗi thường gặp trong dự báo) và thay đổi mô hình nếu cần. 4. Chọn mô hình phù hợp nhất (ít lỗi dự báo nhất, hoặc lỗi chấp nhận được) XÂY DỰNG MÔ HÌNH HỒI QUY (tt) 4Trong khi tiến hành thử nghiệm các phương pháp cần lưu ý 1. Khảo sát dữ liệu, không chỉ chú ý đến biến phụ thuộc, mà còn phải chú ý đến các biến độc lập. Quy chiếu dữ liệu lên biểu đồ để phát hiện tính khuynh hướng, thời vụ hay chu kỳ cũng như các biến lệch là việc cần thiết. 2. Mô hình tốt nhất sẽ được chọn thông qua quá trình kiểm định các hệ số đánh giá. Ngoài ra, phương pháp “chừa khoảng” (holdout period) cũng được áp dụng như một tiêu chí để lựa chọn mô hinhphù hợp (sẽ trình bày rõ ở phần sau) XÂY DỰNG MÔ HÌNH HỒI QUY (tt) 5KHẢO SÁT QUAN HỆ GIỮA CÁC BIẾN SỐ aseC A aseC B aseC C aseC D Y X Y X Y X Y X .8 04 10 .9 14 10 .7 46 10 .6 58 8 .6 95 8 .8 14 8 .6 77 8 .5 76 8 .7 58 13 .8 74 13 .12 74 13 .7 71 8 .8 81 9 .8 77 9 .7 11 9 .8 84 8 .8 33 11 .9 26 11 .7 81 11 .8 47 8 .9 96 14 .8 1 14 .8 84 14 .7 04 8 .7 24 6 .6 13 6 .6 08 6 .5 25 8 .4 26 4 .3 1 4 .5 39 4 .12 5 19 .10 84 12 .9 13 12 .8 15 12 .5 56 8 .4 82 7 .7 26 7 .6 42 7 .7 91 8 .5 68 5 .4 74 5 .5 73 5 .6 89 8 6Trong cả bốn trườnghợp đều có Trung bình của X = 9 Trung bình của Y = 7.5; Độ lệch chuẩn của biến X = 3.32 Độ lệch chuẩn của biến Y = 2.03. Cả bốn trường hợp khi sử dụng hồi qui đơn đều cho ra cùng kết quả:  Y = 3 + 0.5 X Nếu chỉ căn cứ và các tiêu chí này, các nhà phân tích dễ đưa ra kết luận rằng bốn bộ số liệu này trùng nhau hoặc rất giống nhau. Tuy nhiên quy chiếu lên sơ đồ ta có: KHẢO SÁT QUAN HỆ GIỮA CÁC BIẾN SỐ (tt) 7KHẢO SÁT QUAN HỆ GIỮA CÁC BIẾN SỐ (tt) y = 3+.5x 0 2 4 6 8 10 12 0 2 4 6 8 10 12 14 Trường hợp A y = 3+.5X 0 2 4 6 8 10 12 0 2 4 6 8 10 12 14 Trường hợp B 8KHẢO SÁT QUAN HỆ GIỮA CÁC BIẾN SỐ (tt) Trường hợp C Trường hợp D y = 3+.5X 0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14 y =3+.5x 0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14 16 18 9Đường hồi quy: Là đường thẳng có tổng bình phương những khoảng cách (lỗi dự báo) từ điểm số liệu đó đến đường thẳng này là nhỏ nhất (đo lường theo trục đứng Y) và đường thẳng này gọi là đường hồi qui. Mô hình hồi quy đơn: Y = 0 + 1X +  Trong đó: • Y = biến phụ thuộc (dependent variable), là biến số ta muốn dự báo ĐƯỜNG HỒI QUY 10 X = biến độc lập (independent variable), biến dự báo (predictor varibles), dùng để dự báo biến phụ thuộc. 0 = giao điểm với trục Y, giá trị của Y khi X = 0 1 = độ nghiêng của đường thẳng (slope) hay còn gọi là độ dốc, thể hiện mức độ thay đổi của Y khi X thay đổi 1 đơn vị.  = sai số (chênh lệch giữa giá trị dự báo và giá trị thực tế) Để tính toán được các 0,1 tốt nhất ta sử dụng phương pháp bình phương bé nhất (Ordinary Least Square, OLS). ĐƯỜNG HỒI QUY(tt) 11 VÍ DỤ MINH HỌA ĐƯỜNG HỒI QUY(tt) y = 3+.5x 0 2 4 6 8 10 12 0 2 4 6 8 10 12 14 12  Trong mô hình nhân quả, trình bày dưới dạng Y = f(X)  Một biến đổi ở biến X (biến độc lập) sẽ kéo theo một sự thay đổi ở Y.  Việc chọn lựa biến giải thích (độc lập) không thực hiện một cách tuỳ tiện. Thông thường phải dựa trên kinh nghiệm, những nghiên cứu hoặc các phán đoán suy luận logic hợp lý.  Các ví dụ liên quan: Các mô hình đã thực hiện có thể tham khảo ở các tạp chí chuyên ngành. MÔ HÌNH HỒI QUY NHÂN QUẢ 13 VÍ DỤ MINH HỌA MÔ HÌNH HỒI QUY NHÂN QUẢ Thôøi gian Thu nhaäp oanh thuD 31- arM - 90 ,18 035 ,418 436 30- unJ - 90 ,18 063 ,464 944 30-epS - 90 ,18 031 ,464 490 31- ecD - 90 ,17 856 ,496 741 31- arM - 98 ,19 632 ,613 448 30- unJ - 98 ,19 719 ,695 875 30-epS - 98 ,19 905 ,686 297 31- ecD - 98 ,20 194 ,749 973 Bài tập c4f5 14 VÍ DỤ MINH HỌA MÔ HÌNH HỒI QUY NHÂN QUẢ Bài tập c4f5 Doanh số và Thu nhập khả dụng 0 100,000 200,000 300,000 400,000 500,000 600,000 700,000 800,000 0 2,000 4,000 6,000 8,000 10,000 12,000 14,000 16,000 18,000 20,000 Biểu đồ trước khi điều chỉnh tỉ lệ. 15 VÍ DỤ MINH HỌA MÔ HÌNH HỒI QUY NHÂN QUẢ Bài tập c4f5 Doanh số và Thu nhập khả dụng 400,000 450,000 500,000 550,000 600,000 650,000 700,000 750,000 800,000 17,000 18,000 19,000 20,000 Biểu đồ sau khi điều chỉnh tỉ lệ (tham khảo phần hướng dẫn thực hành). 16  Quan sát sơ đồ chuyển vận, ta có thể thấy mô hình hồi quy đơn có thể áp dụng được. Theo đó,  Mô hình hồi quy cho RS có thể viết dưới dạng: RS = b0 + b1 (DPI)  Tiến hành hồi quy (chạy hồi quy) kết quả cho ra: RS = -1,690,954.06 + ( (DPI) * 120.80 ) (*) Từ phương trình (*), khi cần dự báo doanh thu ta chỉ việc thay giá trị thu nhập khả dụng (DPI) vào. Nếu DPI của tương lai, ta tiến hành dự báo DPI để có giá trị này và thay vào (*.) VÍ DỤ MINH HỌA MÔ HÌNH HỒI QUY NHÂN QUẢ 17         n x x n yx xy b 2 2 1 )( xbyb 10  xbbyˆ 10i  εxββy 10  18  1. chọn dữ liệu trong Excel  2. Khởi động ForecastX, chọn thẻ Forecast Method và chọn Multiple Regression; trong forecasting technique; chọn tiếp biến phụ thuộc (biến dự báo) trong box Dependent series.  3. chọn thẻ Report và chọn show charts và Executive  4. Chọn Finish để kết thúc.  ĐIỀU CHỈNH LẠI TỈ LỆ CỦA SƠ ĐỒ.  Trỏ chuột vào cột cần điều chỉnh, click chuột phải chọn Format Axis.  Chọn tiếp thẻ Scale  Ở ô đầu tiên Minimum, click bỏ dấu chọn ở ô này sau đó gõ giá trị thích hợp vào box bên cạnh và chọn OK. THỰC HÀNH FORECASTX MÔ HÌNH HỒI QUY NHÂN QUẢ 19  Mô hình hồi qui thường sử dụng dữ liệu dạng chuỗi (time- series). Tuy nhiên trong nhiều trường hợp chúng ta gặp dữ liệu thu thu thập tại một thời đoạn nhất định và phương pháp hồi quy vẫn áp dụng được.  Xét ví dụ:  Bạn là sales manager của một công ty cung cấp bánh mì sandwitch trong thành phố. Bạn đó có hệ thống cửa hàng tại 08 quận trong thành phố và hiện muốn mở rộng hệ thống bán hàng tại một Quận nữa, và bạn muốn dự báo doanh số ở Quận này sẽ là bao nhiêu.  Số liệu về doanh số và dân số tại các quận trong thời điểm gần đây như sau: MÔ HÌNH HỒI QUY VỚI DỮ LIỆU CHÉO 20 VÍ DỤ MINH HỌA HỒI QUY VỚI DỮ LIỆU CHÉO Quaän Daân soá ()000 ales ()S 000 a 505 372 b 351 275 c 186 214 d 175 135 e 132 81 f 115 144 g 108 90 h 79 97 21  Khi đó mô hình có thể viết dưới dạng: Sales = b0 + b1 (dân số)  Tiến hành hồi quy, ta có kết quả:  Sales (000) = 37.02 +((dân số (000)) * 0.673425 )  Nếu ở Quận mới có dân số là: 155.000 người, vậy doanh thu dự báo sẽ là:  Sales (000) = (37.02 +155*0.673425)*1000 =140.87(000) VÍ DỤ MINH HỌA HỒI QUY VỚI DỮ LIỆU CHÉO (tt) 22  A. Dấu của hệ số góc a. + Dấu của hệ số góc có phù hợp không? • Trong ví dụ thứ nhất, hệ số góc là dương (+) phù hợp vì: thu nhập khả dụng quốc dân (DPI) thường tăng theo thời gian. • Với ví dụ thứ hai, cũng hợp lý vì khi thu nhập cá nhân tăng thì sức mua sẽ tăng do đó doanh số tăng. • Trong trường hợp hệ số góc có dấu không ý nghĩa (không phù hợp), đây là dấu chỉ cho thấy mô hình có dấu hiệu bất ổn. Có thể cần có thêm biến giải thích. KIỂM ĐỊNH MÔ HÌNH 23 + Hệ số góc đó có đạt được mức ý nghĩa thống kê? Nếu không đạt được các kiểm định thống kê, không có mối quan hệ thống kê giữa các biến. B. Kiểm Định T (t-test) • Giả định: • H0 :  = 0 • H1 :  ≠ 0 • Để quyết định loại bỏ giả định H0. Ngoài cách tính các giá trị t (T-values), chúng ta sử dụng mức ý nghĩa, thường được gọi là P-Values (xác suất phạm sai lầm). Nếu muốn đạt được độ tin cậy ở mức 95%, đều này đồng nghĩa với việc muốn mức ý nghĩa là 5%. • Với cách kiểm tra này, chúng ta có thể loại bỏ giả định H0, nếu như mức ý nghĩa (p-values) nhỏ hơn 0.05. KIỂM ĐỊNH MÔ HÌNH (tt) 24 C. Mức độ giải thích của các biến độc lập  Giá trị (R2) R-squared, là hệ số xác định cho chúng ta biết phần trăm giải thích của các biến giải thích với sự biến động của biến phụ thuộc.  Vì thế, giá trị R-squared dao động trong đoạn [0:1].  R2 = 0: không có sự giải thích nào từ biến độc lập.  R2 = 1: toàn bộ sự biến động của biến phụ thuộc là do biến độc lập. Ví dụ: R-squared = 0.9549 (trong ví dụ trên) Điều này có nghĩa là 95.49% của sự biến động trên doanh số bán lẻ được giải thích bởi sự biến động thu nhập khả dụng quốc dân. KIỂM ĐỊNH MÔ HÌNH (tt) 25 D. Tự tương quan (autocorrelation)  Là hiện tượng các giá trị (quan sát) theo thứ tự của một biến có mối tương quan với nhau.  Tác động : Tự tương quan sẽ gây nên hiện tượng P-values không còn chính xác, R-squared không đáng tin cậy. Kiểm Tra: Có nhiều cách, tuy nhiên các phổ biến nhất là sử dụng kiểm định Durbin-Watson (DW).  Theo cách này, giá trị DW nằm trong đoạn [0;4]. Nếu DW thuộc khoảng [1.5;2.5] thì có thể kết luận rằng mô hình không bị tự tương quan. KIỂM ĐỊNH MÔ HÌNH (tt) 26 Lưu ý: Khi mô hình đã được xây dựng cẩn thận, tuy nhiên các klểm định T-test vẫn không đạt, ta cần quan sát kỹ lại cách chuyển vận của dự liệu để tìm mô hình toán học phù hợp nhất. Trong nhiều trường hợp, để tương thích với các mô hình, các biến giải thích phải biến đổi dạng (transforming)thành các dạng như X2, X3, LnX, . Ngoài ra, các biến giả cũng được đưa vào để giải thích. Ví dụ: tác động của giới tính đối với thu nhập; đặt biến giới tính là X, khi đó gán X=1 nếu giới tính Nam, X=0 nếu giới tính Nữ (hoặc ngược lại). Nguyên tắc đặt biến giả là nếu có m loại thứ hạng thì đặt m-1 biến giả (các ví dụ trong bài tập sẽ làm sáng tỏ hơn về biến giả). KIỂM ĐỊNH MÔ HÌNH (tt)