Bài giảng Chương 7: Dự báo với phương pháp box-Jenkins (arima) - Tài liệu, ebook, giáo trình, hướng dẫn

Khi xem xét dữ liệu dưới dạng dãy số thời gian, hai câu hỏi quan trọng nhất cần được trả lời là: • 1. Dữ liệu có thể hiện một kiểu chuyển vận nào không? • 2. Kiểu chuyển vận này có thể khai thác để dự báo được không? Phương pháp hồi quy đưa ra mối liên hệ giữa biến phụ thuộc và các biến giải thích (biến độc lập). Trong thực tế, nhiều trường hợp chúng ta không biết trước các biến giải thích. Phương pháp ARIMA (Autoregressive Integrated Moving Average) được áp dụng để dự báo

33 trang | Chia sẻ: nyanko | Lượt xem: 3167 | Lượt tải: 3

Bạn đang xem trước 20 trang tài liệu Bài giảng Chương 7: Dự báo với phương pháp box-Jenkins (arima), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

1CHƯƠNG 7 DỰ BÁO VỚI PHƯƠNG PHÁP BOX-JENKINS (ARIMA) 2Khi xem xét dữ liệu dưới dạng dãy số thời gian, hai câu hỏi quan trọng nhất cần được trả lời là: • 1. Dữ liệu có thể hiện một kiểu chuyển vận nào không? • 2. Kiểu chuyển vận này có thể khai thác để dự báo được không? Phương pháp hồi quy đưa ra mối liên hệ giữa biến phụ thuộc và các biến giải thích (biến độc lập). Trong thực tế, nhiều trường hợp chúng ta không biết trước các biến giải thích. Phương pháp ARIMA (Autoregressive Integrated Moving Average) được áp dụng để dự báo. Phương pháp ARIMA do hai ông G.B.E.Box và G.M. Jenkins đưa ra nên phương pháp này còn được gọi là Box-Jenkins. Phương pháp ARIMA dựa trên các mô hình Trung bình động và tự hồi quy để tạo ra các dự báo trên cơ sở tổng hợp các kiểu chuyển vận trong quá khứ của dữ liệu.  Phương pháp này lần lượt thử các mô hình khác nhau cho đến khi tìm được mô hình phù hợp. GIỚI THIỆU 3Để xác định được việc chọn lựa đúng mô hình trong nhóm các mô hình ARIMA (AR, MA, ARMA, ARIMA), ta cần sử dụng hai công cụ: tự tương quan (Autocorrelations) và Tự tương quan từng phần (Partial Autocorrelations). Tự tương quan (Autocorrelation) Tự tương quan là hiện tượng trong đó sự liên hệ giữa các giá trị (các quan sát khác nhau) trong cùng một biến là không ngẫu nhiên. Hệ số tương quan dao động trong khoảng [-1;1]. Nếu hệ số càng gần bằng +1, hai biến đó có độ tương quan dương càng lớn (positive correlations), và ngược lại. TỰ TƯƠNG QUAN (AUTOCORRELATION) 4VÍ DỤ MINH HỌA TỰ TƯƠNG QUAN riginal alueO V ne ime agO T L wo ime agsT T L Giaù trò goác Treã 01 QS Treã 02 QS 121 - - 123 121 - 134 123 121 133 134 123 151 133 134 141 151 133 176 141 151 187 176 141 183 187 176 214 183 187 Töông quan giöõa coät 1 vaø coät 2 laø: + . 0 867 Töông quan giöõa coät 1 vaø coät 3 laø: + . 0 898 5TỰ TƯƠNG QUAN TỪNG PHẦN (PARTIAL AUTOCORRELATION) Tự tương quan từng phần: đo lường độ liên hệ giữa quan sát Yt và Yt-k khi giữ tác động của các quan sát khác cố định. Cách tính các hệ số tự tương quan và tự tương quan từng phần được ForecastX sẽ thực hiện nhanh chóng (tham khảo hướng dẫn thực hành). Để xác định mô hình đúng trong nhóm các mô hình ARIMA, chúng ta phải chiếu các hệ số tự tương quan và tự tương quan từng phần lên biều đồ tương quan. Theo đó, tùy theo cách chuyển vận của các hệ số thuộc hai hàm này, ta chọn mô hình được kỳ vọng là phù hợp để tiến hành thử nghiệm.  Biểu đồ sẽ có các dạng phồ biến sau: 6Độ trễ Độ trễ 00 độ trễ độ trễ 0 0 MÔ HÌNH TRUNG BÌNH ĐỘNG (MOVING AVERAGE) Hàm tự tương quan Hàm tự tuơng quan từng phần Mô hình trung bình động MA(1) 7MÔ HÌNH TRUNG BÌNH ĐỘNG (MOVING AVERAGE) Hàm tự tương quan Hàm tự tuơng quan từng phần Mô hình trung bình động MA(2) Độ trễ Độ trễ 0 0 Độ trễ Độ trễ 0 0 8MÔ HÌNH TRUNG BÌNH ĐỘNG (MOVING AVERAGE) Mô hình chuyển vận lý thuyết của các hệ số tương quan tự động và tương quan tự động từng phần của các mô hình trung bình động MA(1), MA(2) như sau: Mô hình MA (1): Các hệ số tự tương quan giảm xuống 0 sau độ trễ đầu tiên, trong khi các hệ số tự tương quan từng phần giảm xuống 0 dần dần. Mô hình MA (2): Các hệ số tự tương quan giảm xuống 0 sau độ trễ thứ hai, trong khi các hệ số tự tương quan từng phần giảm xuống 0 dần dần. 9VÍ DỤ MINH HỌA Sai soá MA1 AR1 AR2 ARIMA111 1 .0 256 .0 400 .0 240 .0 160 .0 160 2 .0 230 .0 410 .0 350 .0 040 .0 570 3 .0 675 .0 836 .0 850 .0 735 .1 406 4 .0 048 .0 520 .0 473 .0 570 .1 926 . 5 .0 717 .0 750 .0 953 .1 263 .2 676 196 .0 843 .1 180 .1 421 .5 121 .155 530 197 .0 409 .0 999 .1 119 .4 941 .156 529 198 .0 582 .0 868 .1 141 .5 064 .157 396 199 .0 976 .1 383 .1 547 .5 509 .158 779 200 .0 684 .1 367 .1 457 .5 553 .160 147 Bài tập c7t2 10 VÍ DỤ MINH HỌA MÔ HÌNH TỰ HỒI QUY -.2000 -.1000 .0000 .1000 .2000 .3000 .4000 .5000 1 2 3 4 5 6 7 8 9 10 11 12 ACF Upper Limit Lower Limit Sơ đồ Tự tương quan và tự tương quan từng phần của số liệu cột 2 -.4000 -.2000 .0000 .2000 .4000 .6000 1 2 3 4 5 6 7 8 9 10 11 12 PACF Upper Limit Lower Limit 11 VÍ DỤ MINH HỌA MÔ HÌNH TRUNG BÌNH ĐỘNG Nhận xét: Chỉ có một giá trị khác 0 đáng kể nhất trong các hệ số tự tương quan (ACF) ; trong khi đó, các hệ số tự tương quan từng phần (PACF) thay đổi dấu nhưng đều tiến về 0. Cách chuyển vận này giống như trường hợp trong biều đồ tổng quát của mô hình MA(1). Điều này chỉ ra cho chúng ta việc chọn lụa mô hình ARIMA phù hợp, trong trường này đó là mô hình MA(1) 12 MÔ HÌNH TỰ HỒI QUY (AUTOREGRESSIVE) Tương tự phương trình mô hình trung bình động; tuy nhiên, biến phụ thuộc Yt ở mô hình này phụ thuộc vào chính các giá trị giá trị trễ của nó thay vì phụ thuộc vào phần sai số dự báo. Phương trình mô hình tự hồi quy có dạng: Yt =A1Yt-1 + A2Yt-1 + + ApYt-p + et Tương tự như phương pháp trung bình động, hai công cụ chính nhằm xác định đúng mô hình ARIMA nào cũng là biểu đồ các hệ số tự tương quan và tự tương quan từng phần. Xét các truờng hợp điển hình sau: 13 MÔ HÌNH TỰ HỒI QUY (AUTOREGRESSIVE) Hàm tự tương quan Hàm tự tuơng quan từng phần Mô hình tự hồi quy AR(1) độ trễ độ trễ 0 0 Độ trễ Độ trễ 0 0 14 MÔ HÌNH TỰ HỒI QUY (AUTOREGRESSIVE) Hàm tự tương quan Hàm tự tuơng quan từng phần Mô hình tự hồi quy AR(2) độ trễ độ trễ 00 Độ trễ Độ trễ 0 0 15 MÔ HÌNH TỰ HỒI QUY (AUTOREGRESSIVE) Mô hình chuyển vận lý thuyết của các hệ số tương quan tự động và tương quan tự động từng phần của các mô hình tự hồi quy AR (1), AR(2) như sau: Mô hình AR(1): Các hệ số tự tương quan giảm dần xuống 0 trong khi các hệ số tự tương quan từng phần tụt xuống 0 sau độ trễ đầu tiên. Mô hình AR(2): Các hệ số tự tương quan giảm dần xuống 0 trong khi các hệ số tự tương quan từng phần tụt xuống 0 sau độ trễ thứ hai. 16 VÍ DỤ MINH HỌA MÔ HÌNH TỰ HỒI QUY -.2000 -.1000 .0000 .1000 .2000 .3000 .4000 .5000 .6000 1 2 3 4 5 6 7 8 9 10 11 12 ACF Upper Limit Lower Limit Sơ đồ Tư tương quan và tự tương quan từng phần của số liệu cột 3 -.2000 -.1000 .0000 .1000 .2000 .3000 .4000 .5000 .6000 1 2 3 4 5 6 7 8 9 10 11 12 PACF Upper Limit Lower Limit 17 VÍ DỤ MINH HỌA MÔ HÌNH TỰ HỒI QUY Nhận xét: Hàm tự tương quan từng phần chỉ có một giá trị khác biệt 0; trong khi đó, hàm tự tương quan các giá trị dần hướng về 0. Kiểu chuyển vận này giống kiểu chuyển vận lý thuyết của trường hợp AR(1) trong sơ đồ tổng quát nêu trên. 18 MÔ HÌNH KẾT HỢP GIỮA TỰ HỒI QUY VÀ TRUNG BÌNH ĐỘNG  Khi kết hợp hai mô hình MA và AR ta có mô hình tổng hợp gọi là ARMA (p,q).  Để xác định chính xác mô hình ARMA, chúng ta lại dựa vào kiểu chuyển vận của hai công cụ: Tự tương quan và tự tương quan từng phần.  Đặc trưng chung của kiểu chuyển vận mô hình ARMA là các hệ số tự tương quan và tư tương quan từng phần dần hướng về 0, thay vì tụt đột ngột về giá trị 0. Kiểu chuyển vận lý thuyết của các hệ số tự tương tương quan và tự tương quan từng phần của mô hình ARMA (1,1) như sau: 19 MÔ HÌNH KẾT HỢP GIỮA TỰ HỒI QUY VÀ TRUNG BÌNH ĐỘNG Độ trễ 0 Độ trễ 0 Độ trễ 0 Độ trễ 0 Hàm tự tương quan Hàm tự tương quan từng phần 20 MÔ HÌNH KẾT HỢP GIỮA TỰ HỒI QUY VÀ TRUNG BÌNH ĐỘNG Hàm tự tương quan Hàm tự tương quan từng phần độ trễ độ trễ 00 Độ trễ 0 Độ trễ 0 21 DỮ LIỆU TỊNH (STATIONARY DATA)  Dãy số thời gian được gọi là tịnh khi giá trị trung bình của dãy số không lệ thuộc vào thời gian.  Nếu dãy số không tịnh, hiện tượng tự tương quan sẽ lấn át trong mô hình và xuất hiện các kiểu chuyển vận giả tạo.  Tịnh hóa (khác biệhóa) có thể thực hiện bằng nhiều cách. Cách phổ biến nhất là loại bỏ tính khuynh hướng theo cấp 1 và cấp 2. Phần mềm ForecastX sẽ hỗ trợ chúng ta thực hiện thao tác này.  Khi phải “tịnh hóa” dữ liệu, phương pháp ARMA (p,q) trở thành ARIMA(p,d,q); trong đó, I viết tắt của Integrated, d là cấp của mức độ tịnh hóa. 22 MÔ HÌNH ARIMA Nếu một mô hình kết hợp; trong đó, mô hình tự hồi quy có độ trễ là 1 và cấp tịnh hóa là 1, không có mô hình trung bình động được viết như sau: ARIMA(1,1,0). Tổng quát: Mô hình ARIMA(p,d,q) được hiểu như sau: p = độ trễ của mô hình tự hồi quy d = cấp của tịnh hóa q = độ trễ của mô hình trung bình động Ví dụ: Xét cột 5 trong bảng số liệu cho trên (chú ý tính khuynh hướng). Hệ số tự tương quan và tự tương quan từng phần được thể hiện như sau: 23 VÍ DỤ MINH HỌA MÔ HÌNH ARIMA -.2000 .0000 .2000 .4000 .6000 .8000 1.0000 1.2000 1 2 3 4 5 6 7 8 9 10 11 12 ACF Upper Limit Lower Limit -.2000 .0000 .2000 .4000 .6000 .8000 1.0000 1.2000 1 2 3 4 5 6 7 8 9 10 11 12 PACF Upper Limit Lower Limit Sơ đồ Tự tương quan và tự tương quan từng phần của số liệu cột 5 24 VÍ DỤ MINH HỌA MÔ HÌNH ARIMA Nhận xét: Hiện tượng tự tương quan lấn át trong mô hình do đó không thể xác định được mô hình ARIMA phù hợp. Tiến hành thực hiện tịnh hóa cấp một cho dãy số ta có sự chuyển vận của các hệ số tự tương quan và tư tương quan từng phần như sau: 25 VÍ DỤ MINH HỌA MÔ HÌNH ARIMA -.2000 -.1000 .0000 .1000 .2000 .3000 .4000 .5000 1 2 3 4 5 6 7 8 9 10 11 12 ACF Upper Limit Lower Limit -.4000 -.2000 .0000 .2000 .4000 .6000 1 2 3 4 5 6 7 8 9 10 11 12 PACF Upper Limit Lower Limit Sơ đồ Tự tương quan và Tự tương quan từng phần (của số liệu cột 5) sau khi đã tịnh hóa số liệu 26 VÍ DỤ MINH HỌA MÔ HÌNH ARIMA Nhận xét: Sau khi tịnh hóa dãy số, sự chuyển vận của các hệ số liên quan đã rõ ràng hơn. Quan sát biểu đồ ta thấy:  Hàm tự tương quan có một giá trị khác biệt 0 đáng kể.  Hàm tự tương quan từng phần có 03 giá trị khác 0 đáng kể. Ngoài ra, dữ liệu đã tịnh hóa cấp 1 trước khi cho ra các hệ số tự tương quan và tự tương quan từng phần. Vì vậy, mô hình phù hợp cho dãy số này là ARIMA(3,1,1) 27 QUY TRÌNH NHẬN DIỆN MÔ HÌNH BOX-JENKINS (ARIMA) Bước 1: Xem xét dữ liệu và chọn ra mô hình phù hợp, nếu dãy số không tịnh, tiến hành tịnh hóa chúng. Các nguyên tắc chính trong việc chọn lựa mô hình gồm:  Nếu hàm tự tương quan giảm mạnh tại một vài điểm, ví dụ tại q giá trị, khi đó mô hình phù hợp là MA(q).  Nếu hàm tự hồi qui từng phần giảm mạnh tại một vài điểm, ví dụ sau p giá trị, mô hình phù hợp là AR(p)  Nếu cả hai hàm tự tương quan và tự tương quan từng phần không giảm mạnh mà dần tiến về 0, ta chọn ARMA (p,q) Lưu ý: nếu không xác định được p,q, hãy để phần mềm tự chọn hệ số tốt nhất. 28 QUY TRÌNH NHẬN DIỆN MÔ HÌNH BOX-JENKINS (ARIMA) Bước 2: Ước lượng thực tế các tham số và khai báo vào phầm mềm ForecastX để đưa ra kết quả. Bước 3: kiểm tra chéo nhằm quyết định có chọn mô hình đó không. Cách kiểm tra 1: Ta làm ngược lại quy trình, có nghĩa là ta tìm sự chuyển vận của giá trị sai số dự báo của giá trị vừa tìm được. Sau đó quy chiếu hàm tự tương quan và hàm tự tương quan từng phần lên để đánh giá. Nếu kết quả cho ra hầu như không có giá trị khác biệt 0 đáng kể nào chứng tỏ mô hình chúng ta chọn là phù hợp. 29 QUY TRÌNH NHẬN DIỆN MÔ HÌNH BOX-JENKINS (ARIMA) Bước 2 (tt): Các kiểm tra 2: Dùng thống kê Q Ljung-Box-Pierce, được gọi là thống kê Ljung-Box trong phần mềm ForecastX. Cách kiểm tra này thực hiện trên kiểm định chi-square về tự tương quan của phần dư. Thống kê Q kiểm định xem mức độ tự tương quan của phần dư có khác biệt 0 đáng kể không. Nếu có, phải điều chỉnh lại mô hình. Với mô hình ARMA(p,q), thống kê Q gần như là phân phối chi-square với độ tự do là m-p-q (m là độ trễ thử nghiệm) nếu như mô hình ARMA định dạng đúng. 30 QUY TRÌNH NHẬN DIỆN MÔ HÌNH BOX-JENKINS (ARIMA) Lưu ý: Trong phần mềm ForecastX, độ trễ được mặc định là 12 nếu dữ liệu không có tính thời vụ (nonseasonal); và nếu có tính thời vụ, thì độ trễ sẽ mặc định là bằng 4 lần độ dài thời vụ (Ví dụ, số liệu tính theo quý, thì độ trễ sẽ là 4x4=16). Nếu giá trị Ljung-Box tính toán (từ phần mềm) nhỏ hơn giá trị tra bảng phân phối Chi-square thì mô hình được xem như phù hợp. Bước 4: Dự báo Phần mềm ForecastX sẽ thay mô hình được chọn để sử dụng dự báo tương tự như dự thực hiện dự báo trong hồi quy. 31 PHƯƠNG PHÁP BOX-JENKINS TRONG PHÂN TÍCH TÍNH THỜI VỤ Tính thời vụ sẽ gây ra một số vấn đề trong dự báo ARIMA bình thường. Vì vậy, khi thực hiện khai báo độ trễ phải lớn hơn hoặc bằng độ dài chu kỳ của thời vụ. Ví dụ: số liệu tính theo tháng thì độ trễ tối thiểu phải là 12. Phần mềm ForecastX sẽ hỗ trợ việc phân tích các dãy số thời gian có tính thời vụ. 32 THỰC HÀNH PHƯƠNG PHÁP BOX-JENKINS Tìm các hệ số tư tương quan và tự tương quan từng phần và biều đồ của chúng. 1. Khởi động Excel và chọn dãy số cần thực hiện dự báo (cả Label); sau đó, khởi động ForecastX 2. Trong Forecast Method chọn Box-Jenkin trong hộp forecasting technique. 3. Chọn Analyse trong hàng phím bên phải (thứ hai từ dưới lên). 4. Chọn Export (để xuất kết quả ra một file khác), sau đó chọn OK để trở về menu chính. 33 THỰC HÀNH PHƯƠNG PHÁP BOX-JENKINS Để “tịnh hóa” dãy số nào đó, chúng ta cần tiến hành: 1. Khởi động Excel và chọn dãy số đó (cả Label) sau đó khởi động ForecastX 2. Trong Forecast Method chọn Box-Jenkin trong hộp Forecasting technique. Chọn Analyse trong hàng phím bên phải (thứ hai từ dưới lên). 3. Chọn cấp (gõ số vào hoặc chọn mũi tên lên xuống để có số thứ tự cấp cần) tịnh hóa dữ liệu trong box differencing (Lưu ý: nếu dữ liệu không có tính thời vụ thì chọn cấp bên box Non-season, ngược lại chọn box seasonal). 4. Nếu muốn xuất kết quả ra một file khác (để lưu) chọn Export sau đó chọn OK để trở về menu chính.