Khi xem xét dữ liệu dưới dạng dãy số thời gian, hai câu hỏi quan trọng nhất
cần được trả lời là:
• 1. Dữ liệu có thể hiện một kiểu chuyển vận nào không?
• 2. Kiểu chuyển vận này có thể khai thác để dự báo được không?
Phương pháp hồi quy đưa ra mối liên hệ giữa biến phụ thuộc và các biến giải
thích (biến độc lập).
Trong thực tế, nhiều trường hợp chúng ta không biết trước các biến giải
thích. Phương pháp ARIMA (Autoregressive Integrated Moving Average)
được áp dụng để dự báo
33 trang |
Chia sẻ: nyanko | Lượt xem: 2706 | Lượt tải: 3
Bạn đang xem trước 20 trang tài liệu Bài giảng Chương 7: Dự báo với phương pháp box-Jenkins (arima), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1CHƯƠNG 7
DỰ BÁO VỚI PHƯƠNG PHÁP
BOX-JENKINS (ARIMA)
2Khi xem xét dữ liệu dưới dạng dãy số thời gian, hai câu hỏi quan trọng nhất
cần được trả lời là:
• 1. Dữ liệu có thể hiện một kiểu chuyển vận nào không?
• 2. Kiểu chuyển vận này có thể khai thác để dự báo được không?
Phương pháp hồi quy đưa ra mối liên hệ giữa biến phụ thuộc và các biến giải
thích (biến độc lập).
Trong thực tế, nhiều trường hợp chúng ta không biết trước các biến giải
thích. Phương pháp ARIMA (Autoregressive Integrated Moving Average)
được áp dụng để dự báo.
Phương pháp ARIMA do hai ông G.B.E.Box và G.M. Jenkins đưa ra nên
phương pháp này còn được gọi là Box-Jenkins.
Phương pháp ARIMA dựa trên các mô hình Trung bình động và tự hồi quy
để tạo ra các dự báo trên cơ sở tổng hợp các kiểu chuyển vận trong quá khứ
của dữ liệu.
Phương pháp này lần lượt thử các mô hình khác nhau cho đến khi tìm được
mô hình phù hợp.
GIỚI THIỆU
3Để xác định được việc chọn lựa đúng mô hình trong nhóm các mô
hình ARIMA (AR, MA, ARMA, ARIMA), ta cần sử dụng hai
công cụ: tự tương quan (Autocorrelations) và Tự tương quan từng
phần (Partial Autocorrelations).
Tự tương quan (Autocorrelation)
Tự tương quan là hiện tượng trong đó sự liên hệ giữa các giá trị
(các quan sát khác nhau) trong cùng một biến là không ngẫu nhiên.
Hệ số tương quan dao động trong khoảng [-1;1].
Nếu hệ số càng gần bằng +1, hai biến đó có độ tương quan dương
càng lớn (positive correlations), và ngược lại.
TỰ TƯƠNG QUAN
(AUTOCORRELATION)
4VÍ DỤ MINH HỌA
TỰ TƯƠNG QUAN
riginal alueO V ne ime agO T L wo ime agsT T L
Giaù trò goác Treã 01 QS Treã 02 QS
121 - -
123 121 -
134 123 121
133 134 123
151 133 134
141 151 133
176 141 151
187 176 141
183 187 176
214 183 187
Töông quan giöõa coät 1 vaø coät 2 laø: + . 0 867
Töông quan giöõa coät 1 vaø coät 3 laø: + . 0 898
5TỰ TƯƠNG QUAN TỪNG PHẦN
(PARTIAL AUTOCORRELATION)
Tự tương quan từng phần: đo lường độ liên hệ giữa quan sát Yt và
Yt-k khi giữ tác động của các quan sát khác cố định.
Cách tính các hệ số tự tương quan và tự tương quan từng phần được
ForecastX sẽ thực hiện nhanh chóng (tham khảo hướng dẫn thực hành).
Để xác định mô hình đúng trong nhóm các mô hình ARIMA, chúng ta
phải chiếu các hệ số tự tương quan và tự tương quan từng phần lên biều
đồ tương quan.
Theo đó, tùy theo cách chuyển vận của các hệ số thuộc hai hàm này, ta
chọn mô hình được kỳ vọng là phù hợp để tiến hành thử nghiệm.
Biểu đồ sẽ có các dạng phồ biến sau:
6Độ trễ Độ trễ
00
độ trễ độ trễ 0 0
MÔ HÌNH TRUNG BÌNH ĐỘNG
(MOVING AVERAGE)
Hàm tự tương quan Hàm tự tuơng quan từng phần
Mô hình trung bình động MA(1)
7MÔ HÌNH TRUNG BÌNH ĐỘNG
(MOVING AVERAGE)
Hàm tự tương quan Hàm tự tuơng quan từng phần
Mô hình trung bình động MA(2)
Độ trễ Độ trễ
0 0
Độ trễ Độ trễ
0 0
8MÔ HÌNH TRUNG BÌNH ĐỘNG
(MOVING AVERAGE)
Mô hình chuyển vận lý thuyết của các hệ số tương quan tự
động và tương quan tự động từng phần của các mô hình
trung bình động MA(1), MA(2) như sau:
Mô hình MA (1):
Các hệ số tự tương quan giảm xuống 0 sau độ trễ đầu tiên,
trong khi các hệ số tự tương quan từng phần giảm xuống 0
dần dần.
Mô hình MA (2):
Các hệ số tự tương quan giảm xuống 0 sau độ trễ thứ hai,
trong khi các hệ số tự tương quan từng phần giảm xuống 0
dần dần.
9VÍ DỤ MINH HỌA
Sai soá MA1 AR1 AR2 ARIMA111
1 .0 256 .0 400 .0 240 .0 160 .0 160
2 .0 230 .0 410 .0 350 .0 040 .0 570
3 .0 675 .0 836 .0 850 .0 735 .1 406
4 .0 048 .0 520 .0 473 .0 570 .1 926
.
5 .0 717 .0 750 .0 953 .1 263 .2 676
196 .0 843 .1 180 .1 421 .5 121 .155 530
197 .0 409 .0 999 .1 119 .4 941 .156 529
198 .0 582 .0 868 .1 141 .5 064 .157 396
199 .0 976 .1 383 .1 547 .5 509 .158 779
200 .0 684 .1 367 .1 457 .5 553 .160 147
Bài tập c7t2
10
VÍ DỤ MINH HỌA
MÔ HÌNH TỰ HỒI QUY
-.2000
-.1000
.0000
.1000
.2000
.3000
.4000
.5000
1 2 3 4 5 6 7 8 9 10 11 12
ACF
Upper Limit
Lower Limit
Sơ đồ Tự tương quan và tự tương quan từng phần của số liệu cột 2
-.4000
-.2000
.0000
.2000
.4000
.6000
1 2 3 4 5 6 7 8 9 10 11 12
PACF
Upper Limit
Lower Limit
11
VÍ DỤ MINH HỌA
MÔ HÌNH TRUNG BÌNH ĐỘNG
Nhận xét:
Chỉ có một giá trị khác 0 đáng kể nhất trong các hệ số tự
tương quan (ACF) ; trong khi đó, các hệ số tự tương quan
từng phần (PACF) thay đổi dấu nhưng đều tiến về 0.
Cách chuyển vận này giống như trường hợp trong biều đồ
tổng quát của mô hình MA(1). Điều này chỉ ra cho chúng ta
việc chọn lụa mô hình ARIMA phù hợp, trong trường này đó
là mô hình MA(1)
12
MÔ HÌNH TỰ HỒI QUY
(AUTOREGRESSIVE)
Tương tự phương trình mô hình trung bình động; tuy nhiên,
biến phụ thuộc Yt ở mô hình này phụ thuộc vào chính các giá
trị giá trị trễ của nó thay vì phụ thuộc vào phần sai số dự báo.
Phương trình mô hình tự hồi quy có dạng:
Yt =A1Yt-1 + A2Yt-1 + + ApYt-p + et
Tương tự như phương pháp trung bình động, hai công cụ
chính nhằm xác định đúng mô hình ARIMA nào cũng là biểu
đồ các hệ số tự tương quan và tự tương quan từng phần.
Xét các truờng hợp điển hình sau:
13
MÔ HÌNH TỰ HỒI QUY
(AUTOREGRESSIVE)
Hàm tự tương quan Hàm tự tuơng quan từng phần
Mô hình tự hồi quy AR(1)
độ trễ độ trễ 0
0
Độ trễ
Độ trễ
0 0
14
MÔ HÌNH TỰ HỒI QUY
(AUTOREGRESSIVE)
Hàm tự tương quan Hàm tự tuơng quan từng phần
Mô hình tự hồi quy AR(2)
độ trễ độ trễ 00
Độ trễ Độ trễ
0 0
15
MÔ HÌNH TỰ HỒI QUY
(AUTOREGRESSIVE)
Mô hình chuyển vận lý thuyết của các hệ số tương quan tự
động và tương quan tự động từng phần của các mô hình tự hồi
quy AR (1), AR(2) như sau:
Mô hình AR(1):
Các hệ số tự tương quan giảm dần xuống 0 trong khi các hệ số
tự tương quan từng phần tụt xuống 0 sau độ trễ đầu tiên.
Mô hình AR(2):
Các hệ số tự tương quan giảm dần xuống 0 trong khi các hệ số
tự tương quan từng phần tụt xuống 0 sau độ trễ thứ hai.
16
VÍ DỤ MINH HỌA
MÔ HÌNH TỰ HỒI QUY
-.2000
-.1000
.0000
.1000
.2000
.3000
.4000
.5000
.6000
1 2 3 4 5 6 7 8 9 10 11 12
ACF
Upper Limit
Lower Limit
Sơ đồ Tư tương quan và tự tương quan từng phần của số liệu cột 3
-.2000
-.1000
.0000
.1000
.2000
.3000
.4000
.5000
.6000
1 2 3 4 5 6 7 8 9 10 11 12
PACF
Upper Limit
Lower Limit
17
VÍ DỤ MINH HỌA
MÔ HÌNH TỰ HỒI QUY
Nhận xét:
Hàm tự tương quan từng phần chỉ có một giá trị khác biệt 0;
trong khi đó, hàm tự tương quan các giá trị dần hướng về 0.
Kiểu chuyển vận này giống kiểu chuyển vận lý thuyết của
trường hợp AR(1) trong sơ đồ tổng quát nêu trên.
18
MÔ HÌNH KẾT HỢP GIỮA
TỰ HỒI QUY VÀ TRUNG BÌNH ĐỘNG
Khi kết hợp hai mô hình MA và AR ta có mô hình tổng
hợp gọi là ARMA (p,q).
Để xác định chính xác mô hình ARMA, chúng ta lại dựa
vào kiểu chuyển vận của hai công cụ: Tự tương quan và tự
tương quan từng phần.
Đặc trưng chung của kiểu chuyển vận mô hình ARMA là
các hệ số tự tương quan và tư tương quan từng phần dần
hướng về 0, thay vì tụt đột ngột về giá trị 0.
Kiểu chuyển vận lý thuyết của các hệ số tự tương tương quan
và tự tương quan từng phần của mô hình ARMA (1,1) như
sau:
19
MÔ HÌNH KẾT HỢP GIỮA
TỰ HỒI QUY VÀ TRUNG BÌNH ĐỘNG
Độ trễ
0
Độ trễ
0
Độ trễ
0
Độ trễ
0
Hàm tự tương quan Hàm tự tương quan từng phần
20
MÔ HÌNH KẾT HỢP GIỮA
TỰ HỒI QUY VÀ TRUNG BÌNH ĐỘNG
Hàm tự tương quan Hàm tự tương quan từng phần
độ trễ độ trễ
00
Độ trễ
0
Độ trễ
0
21
DỮ LIỆU TỊNH
(STATIONARY DATA)
Dãy số thời gian được gọi là tịnh khi giá trị trung bình của
dãy số không lệ thuộc vào thời gian.
Nếu dãy số không tịnh, hiện tượng tự tương quan sẽ lấn át
trong mô hình và xuất hiện các kiểu chuyển vận giả tạo.
Tịnh hóa (khác biệhóa) có thể thực hiện bằng nhiều cách.
Cách phổ biến nhất là loại bỏ tính khuynh hướng theo cấp 1 và
cấp 2. Phần mềm ForecastX sẽ hỗ trợ chúng ta thực hiện thao
tác này.
Khi phải “tịnh hóa” dữ liệu, phương pháp ARMA (p,q) trở
thành ARIMA(p,d,q); trong đó, I viết tắt của Integrated, d là
cấp của mức độ tịnh hóa.
22
MÔ HÌNH ARIMA
Nếu một mô hình kết hợp; trong đó, mô hình tự hồi quy có độ trễ là
1 và cấp tịnh hóa là 1, không có mô hình trung bình động được viết
như sau: ARIMA(1,1,0).
Tổng quát:
Mô hình ARIMA(p,d,q) được hiểu như sau:
p = độ trễ của mô hình tự hồi quy
d = cấp của tịnh hóa
q = độ trễ của mô hình trung bình động
Ví dụ:
Xét cột 5 trong bảng số liệu cho trên (chú ý tính khuynh hướng).
Hệ số tự tương quan và tự tương quan từng phần được thể hiện như
sau:
23
VÍ DỤ MINH HỌA
MÔ HÌNH ARIMA
-.2000
.0000
.2000
.4000
.6000
.8000
1.0000
1.2000
1 2 3 4 5 6 7 8 9 10 11 12
ACF
Upper Limit
Lower Limit
-.2000
.0000
.2000
.4000
.6000
.8000
1.0000
1.2000
1 2 3 4 5 6 7 8 9 10 11 12
PACF
Upper Limit
Lower Limit
Sơ đồ Tự tương quan và tự tương quan từng phần của số liệu cột 5
24
VÍ DỤ MINH HỌA
MÔ HÌNH ARIMA
Nhận xét:
Hiện tượng tự tương quan lấn át trong mô hình do đó không thể
xác định được mô hình ARIMA phù hợp.
Tiến hành thực hiện tịnh hóa cấp một cho dãy số ta có sự chuyển
vận của các hệ số tự tương quan và tư tương quan từng phần như
sau:
25
VÍ DỤ MINH HỌA
MÔ HÌNH ARIMA
-.2000
-.1000
.0000
.1000
.2000
.3000
.4000
.5000
1 2 3 4 5 6 7 8 9 10 11 12
ACF
Upper Limit
Lower Limit
-.4000
-.2000
.0000
.2000
.4000
.6000
1 2 3 4 5 6 7 8 9 10 11 12
PACF
Upper Limit
Lower Limit
Sơ đồ Tự tương quan và Tự tương quan từng phần (của số liệu cột 5)
sau khi đã tịnh hóa số liệu
26
VÍ DỤ MINH HỌA
MÔ HÌNH ARIMA
Nhận xét:
Sau khi tịnh hóa dãy số, sự chuyển vận của các hệ số liên
quan đã rõ ràng hơn.
Quan sát biểu đồ ta thấy:
Hàm tự tương quan có một giá trị khác biệt 0 đáng kể.
Hàm tự tương quan từng phần có 03 giá trị khác 0 đáng
kể.
Ngoài ra, dữ liệu đã tịnh hóa cấp 1 trước khi cho ra các hệ số
tự tương quan và tự tương quan từng phần.
Vì vậy, mô hình phù hợp cho dãy số này là ARIMA(3,1,1)
27
QUY TRÌNH NHẬN DIỆN MÔ HÌNH
BOX-JENKINS (ARIMA)
Bước 1: Xem xét dữ liệu và chọn ra mô hình phù hợp, nếu dãy số
không tịnh, tiến hành tịnh hóa chúng. Các nguyên tắc chính trong
việc chọn lựa mô hình gồm:
Nếu hàm tự tương quan giảm mạnh tại một vài điểm, ví dụ tại
q giá trị, khi đó mô hình phù hợp là MA(q).
Nếu hàm tự hồi qui từng phần giảm mạnh tại một vài điểm, ví
dụ sau p giá trị, mô hình phù hợp là AR(p)
Nếu cả hai hàm tự tương quan và tự tương quan từng phần
không giảm mạnh mà dần tiến về 0, ta chọn ARMA (p,q)
Lưu ý: nếu không xác định được p,q, hãy để phần mềm tự chọn
hệ số tốt nhất.
28
QUY TRÌNH NHẬN DIỆN MÔ HÌNH
BOX-JENKINS (ARIMA)
Bước 2: Ước lượng thực tế các tham số và khai báo vào
phầm mềm ForecastX để đưa ra kết quả.
Bước 3: kiểm tra chéo nhằm quyết định có chọn mô hình
đó không.
Cách kiểm tra 1:
Ta làm ngược lại quy trình, có nghĩa là ta tìm sự chuyển
vận của giá trị sai số dự báo của giá trị vừa tìm được.
Sau đó quy chiếu hàm tự tương quan và hàm tự tương
quan từng phần lên để đánh giá. Nếu kết quả cho ra hầu
như không có giá trị khác biệt 0 đáng kể nào chứng tỏ
mô hình chúng ta chọn là phù hợp.
29
QUY TRÌNH NHẬN DIỆN MÔ HÌNH
BOX-JENKINS (ARIMA)
Bước 2 (tt):
Các kiểm tra 2:
Dùng thống kê Q Ljung-Box-Pierce, được gọi là thống kê
Ljung-Box trong phần mềm ForecastX. Cách kiểm tra này
thực hiện trên kiểm định chi-square về tự tương quan của
phần dư.
Thống kê Q kiểm định xem mức độ tự tương quan của phần
dư có khác biệt 0 đáng kể không. Nếu có, phải điều chỉnh
lại mô hình.
Với mô hình ARMA(p,q), thống kê Q gần như là phân phối
chi-square với độ tự do là m-p-q (m là độ trễ thử nghiệm)
nếu như mô hình ARMA định dạng đúng.
30
QUY TRÌNH NHẬN DIỆN MÔ HÌNH
BOX-JENKINS (ARIMA)
Lưu ý: Trong phần mềm ForecastX, độ trễ được mặc định là 12 nếu dữ
liệu không có tính thời vụ (nonseasonal); và nếu có tính thời vụ,
thì độ trễ sẽ mặc định là bằng 4 lần độ dài thời vụ (Ví dụ, số liệu
tính theo quý, thì độ trễ sẽ là 4x4=16).
Nếu giá trị Ljung-Box tính toán (từ phần mềm) nhỏ hơn giá trị tra bảng
phân phối Chi-square thì mô hình được xem như phù hợp.
Bước 4: Dự báo
Phần mềm ForecastX sẽ thay mô hình được chọn để sử dụng dự báo
tương tự như dự thực hiện dự báo trong hồi quy.
31
PHƯƠNG PHÁP BOX-JENKINS
TRONG PHÂN TÍCH TÍNH THỜI VỤ
Tính thời vụ sẽ gây ra một số vấn đề trong dự báo ARIMA
bình thường.
Vì vậy, khi thực hiện khai báo độ trễ phải lớn hơn hoặc
bằng độ dài chu kỳ của thời vụ.
Ví dụ: số liệu tính theo tháng thì độ trễ tối thiểu phải là 12.
Phần mềm ForecastX sẽ hỗ trợ việc phân tích các dãy số
thời gian có tính thời vụ.
32
THỰC HÀNH
PHƯƠNG PHÁP BOX-JENKINS
Tìm các hệ số tư tương quan và tự tương quan từng phần
và biều đồ của chúng.
1. Khởi động Excel và chọn dãy số cần thực hiện dự báo (cả
Label); sau đó, khởi động ForecastX
2. Trong Forecast Method chọn Box-Jenkin trong hộp
forecasting technique.
3. Chọn Analyse trong hàng phím bên phải (thứ hai từ dưới
lên).
4. Chọn Export (để xuất kết quả ra một file khác), sau đó
chọn OK để trở về menu chính.
33
THỰC HÀNH
PHƯƠNG PHÁP BOX-JENKINS
Để “tịnh hóa” dãy số nào đó, chúng ta cần tiến hành:
1. Khởi động Excel và chọn dãy số đó (cả Label) sau đó khởi động
ForecastX
2. Trong Forecast Method chọn Box-Jenkin trong hộp Forecasting
technique.
Chọn Analyse trong hàng phím bên phải (thứ hai từ dưới lên).
3. Chọn cấp (gõ số vào hoặc chọn mũi tên lên xuống để có số thứ tự
cấp cần) tịnh hóa dữ liệu trong box differencing (Lưu ý: nếu dữ
liệu không có tính thời vụ thì chọn cấp bên box Non-season,
ngược lại chọn box seasonal).
4. Nếu muốn xuất kết quả ra một file khác (để lưu) chọn Export sau
đó chọn OK để trở về menu chính.