Quy trình dự báo, khảo sát dữ liệu và lựa chọn mô hình
1. Quy trình dự báo 2. Khảo sát dữ liệu chuỗi thời gian 3. Khảo sát dữ liệu bằng phân tích tự tương quan 4. Lựa chọn mô hình dự báo 5. Ôn tập thống kê cơ bản
Bạn đang xem trước 20 trang tài liệu Quy trình dự báo, khảo sát dữ liệu và lựa chọn mô hình, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1Dự báo trong kinh doanh
(Business Forecasting)
Khoa Kinh tế Phát triển
1A Hoàng Diệu, Phú Nhuận
Website: www.fde.ueh.edu.vn
Phùng Thanh Bình
1. Quy trình dự báo
2. Khảo sát dữ liệu chuỗi thời gian
3. Khảo sát dữ liệu bằng phân tích tự tương
quan
4. Lựa chọn mô hình dự báo
5. Ôn tập thống kê cơ bản
QUY TRÌNH DỰ BÁO, KHẢO SÁT DỮ
LIỆU VÀ LỰA CHỌN MÔ HÌNH
2Phùng Thanh Bình
z Nguyễn Trọng Hoài (2001): Mô hình hóa và Dự
báo chuỗi thời gian trong kinh doanh & kinh tế,
Chương 2.
z J.Holton Wilson & Barry Keating, (2007),
Business Forecasting With Accompanying Excel-
Based ForecastXTM Software, 5th Edition,
Chapter 2.
z John E.Hanke & Dean W.Wichern, (2005),
Business Forecasting, 8th Edition, Chapter 2 & 3.
TÀI LIỆU THAM KHẢO
Phùng Thanh Bình
Bước 1: Xác định rõ các mục tiêu
Bước 2: Xác định dự báo cái gì
Bước 3: Nhận dạng các khía cạnh thời gian
Bước 4: Xem xét số liệu
Bước 5: Lựa chọn mô hình
Bước 6: Đánh giá mô hình
Bước 7: Chuẩn bị dự báo
Bước 8: Trình bày kết quả dự báo
Bước 9: Theo dõi các kết quả
QUY TRÌNH DỰ BÁO
3Phùng Thanh Bình
z Nói rõ các mục tiêu, kể cả dự báo sẽ được sử
dụng như thế nào trong việc ra quyết định
z Các mục tiêu và ứng dụng của dự báo nên được
thảo luận giữa những cá nhân liên quan trong việc
chuẩn bị dự báo và những người sẽ sử dụng các
kết quả.
QUY TRÌNH DỰ BÁO
1. Xác định rõ các mục tiêu
Phùng Thanh Bình
QUY TRÌNH DỰ BÁO
2. Xác định dự báo cái gì
z Dự báo doanh số: doanh số đơn vị hay bằng tiền;
tổng doanh số, doanh số theo sản phẩm, hay
doanh số theo vùng; doanh số nội địa hay xuất
khẩu, hay cả hai
z Dự báo số bệnh nhân: số đăng ký khám, xuất
viện, số ngày nằm viện
4Phùng Thanh Bình
z Độ dài và giai đoạn của dự báo: năm, quý, tuần,
hay ngày
z Mức độ khẩn cấp của dự báo: ảnh hưởng đến việc
chọn phương pháp dự báo.
QUY TRÌNH DỰ BÁO
3. Nhận dạng các khía cạnh thời gian
Phùng Thanh Bình
z Số lượng và loại số liệu sẵn có: nội bộ hay bên ngoài;
số liệu có ở dạng mong muốn hay không; giá trị hay
đơn vị
z Có thể có quá nhiều hoặc quá ít dữ liệu
z Có thể thiếu giá trị cần phải ước tính
z Có thể phải chuyển đổi đơn vị tính
z Có thể cần được xử lý trước
z Có thể thích hợp nhưng chỉ trong một vài giai đoạn lịch
sử nhất định
QUY TRÌNH DỰ BÁO
4. Thu thập và xử lý số liệu
5Phùng Thanh Bình
z Bản chất (pattern) số liệu (xem Bảng 2.1)
z Số lượng số liệu quá khứ sẵn có
z Độ dài dự báo
z Chọn mô hình phù hợp với dữ liệu đã được thu thập sao
cho tối thiểu hóa “sai số” dự báo
z Mô hình đơn giản hay phức tạp?
z Ý kiến đánh giá, nhận xét rất cần thiết
QUY TRÌNH DỰ BÁO
5. Lựa chọn mô hình
Phùng Thanh Bình
6Phùng Thanh Bình
z Kiểm định các mô hình trên chuỗi số liệu ta muốn dự
báo
z Phân biệt độ phù hợp và độ chính xác
z Độ phù hợp: so với giá trị quá khứ
z Độ chính xác: so với giá trị dự báo
z Nếu mô hình được chọn trong bước 6 không đạt độ
chính xác chấp nhận được, quay lại bước 5 với một mô
hình khác
QUY TRÌNH DỰ BÁO
6. Đánh giá mô hình
Phùng Thanh Bình
z Nếu có thể thì nên sử dụng hơn một phương pháp
dự báo
z Khi có nhiều phương pháp sử dụng thông tin khác
nhau, thì việc kết hợp chúng lại sẽ cho kết quả tốt
hơn so với chỉ dùng một phương pháp
QUY TRÌNH DỰ BÁO
7. Chuẩn bị dự báo
7Phùng Thanh Bình
z Cả dạng viết và thuyết trình
z Trình bày kết quả dự báo cho những ai dựa vào
đó để ra quyết định
z Cần phải có sự giao tiếp thảo luận giữa những
người có liên quan
QUY TRÌNH DỰ BÁO
8. Trình bày kết quả dự báo
Phùng Thanh Bình
z So sánh mức đô chính xác của giá trị dự báo và
giá trị thực tế trong giai đọan dự báo
z Người làm dự báo cần rút ra các bài học từ việc
so sánh này
z Tìm ra nguyên nhân của sự khác biệt
QUY TRÌNH DỰ BÁO
9. Theo dõi kết quả dự báo
8Phùng Thanh Bình
z 4 tiêu chí có thể được áp dụng để xác định xem
dữ liệu có hữu ích cho việc dự báo hay không:
o Dữ liệu phải đáng tin cậy và chính xác
o Dữ liệu phải phù hợp
o Dữ liệu phải nhất quán
o Dữ liệu phải đúng lúc
z Dữ liệu theo thời gian và dữ liệu chéo; dữ liệu sơ
cấp và dữ liệu thứ cấp
KHẢO SÁT DỮ LIỆU CHUỖI
THỜI GIAN
Phùng Thanh Bình
z Xu thế
o Thay đổi dài hạn trong chuỗi dữ liệu thời gian
• Xu thế tăng
• Xu thế giảm
• Chuỗi dừng
z Mùa vụ
o Thay đổi đều đặn trong chuỗi dữ liệu thời gian
tại cùng thời điểm mỗi năm
KHẢO SÁT DỮ LIỆU CHUỖI
THỜI GIAN
9Phùng Thanh Bình
z Chu kỳ
o Xu hướng vận động lên xuống của dữ liệu quanh
một xú thế trong dài hạn
o Dao động chu kỳ kéo dài hơn và ít đều đặn hơn
dao động mùa vụ
o Thường được đề cập đến như các chu kỳ kinh
doanh
z Ngẫu nhiên
o Thay đổi không phải do các yếu tố kể trên
KHẢO SÁT DỮ LIỆU CHUỖI
THỜI GIAN
Phùng Thanh Bình
z Tự tương quan là tương quan giữa một biến trễ
một hoặc nhiều giai đoạn và chính biến đó
với k = 0, 1, 2, ... khi độ trễ tăng, hệ số tự tương
quan giảm
Ví dụ: 3.1 (file Table 3-1)
KHẢO SÁT DỮ LIỆU BẰNG PHÂN
TÍCH TỰ TƯƠNG QUAN
∑
∑
=
+== n
1t
2
t
k-t
n
1kt
t
k
)Y - Y(
)Y - (Y)Y - (Y
r
10
Phùng Thanh Bình
z Giản đồ tự tương quan hay hàm tự tương quan là một
đồ thị biểu diễn quan hệ giữa các hệ số tự tương quan
với độ trễ của một chuỗi thời gian
z Các hệ số tự tương quan của các độ trễ khác nhau có
thể cung cấp các thông tin sau:
z Dữ liệu có ngẫu nhiên không?
z Dữ liệu có xu thế không?
z Dữ liệu có dừng không?
z Dữ liệu có yếu tố mùa vụ không?
KHẢO SÁT DỮ LIỆU BẰNG PHÂN
TÍCH TỰ TƯƠNG QUAN
Phùng Thanh Bình
z Kiểm định hệ số tự tương quan có khác 0 một cách có
ý nghĩa hay không (dữ liệu có ngẫu nhiên không)?
z SE(rk) = sai số chuẩn của tự tương quan với độ trễ k
o k = 1 =>
o k ≠ 1 =>
KHẢO SÁT DỮ LIỆU BẰNG PHÂN
TÍCH TỰ TƯƠNG QUAN
n
r2 1
)SE(r
1-k
1i
2
i
k
∑
=
+
=
n
1 )SE(r 1 =
11
Phùng Thanh Bình
z Khoảng tin cậy
0 ± t x SE(rk) với
z Kiểm định chung (một nhóm các hệ số tương
quan đầu tiên khác 0 một cách có ý nghĩa)
KHẢO SÁT DỮ LIỆU BẰNG PHÂN
TÍCH TỰ TƯƠNG QUAN
)SE(r
ρ - r t
k
kk=
∑
= −+=
m
1k
2
k
kn
r2)n(n Q
Phùng Thanh Bình
o Ví dụ 3.2 (Hanke, 65)
o Ví dụ 3.3 (Hanke, 66)
z Dữ liệu có xu thế không?
o Một chuỗi thời gian có xu thế (không dừng): các hệ
số tự tương quan của các độ trễ đầu tiên lớn và sau
đó giảm dần bằng 0 khi độ trễ tăng lên.
o Chuỗi dừng: hệ số tự tương quan giảm bằng 0 rất
nhanh (sau 2 hoặc 3 độ trễ)
o Phương pháp sai phân (ví dụ 3.4, Hanke, 68)
KHẢO SÁT DỮ LIỆU BẰNG PHÂN
TÍCH TỰ TƯƠNG QUAN
12
Phùng Thanh Bình
z Dữ liệu có yếu tố mùa vụ không?
o Nếu dữ liệu có yếu tố mùa vụ theo quý, một hệ
số tự tương quan sẽ lặp lại tại độ trễ 4
o Nếu dữ liệu có yếu tố mùa vụ theo tháng, một hệ
số tự tương quan sẽ lặp lại tại độ trễ 12, …
o Ví dụ 3.5 (file Table 3-5)
KHẢO SÁT DỮ LIỆU BẰNG PHÂN
TÍCH TỰ TƯƠNG QUAN
Phùng Thanh Bình
z Một số câu hỏi cần phải xem xét trước khi quyết định
chọn phương pháp dự báo phù hợp nhất cho một vấn
đề cụ thể:
o Tại sao cần dự báo?
o Ai sẽ sử dụng kết quả dự báo?
o Đặc điểm của dữ liệu sẵn có là gì?
o Thời đọan của dự báo là gì?
o Đòi hỏi dữ liệu tối thiểu là bao nhiêu?
o Mức độ chính xác bao nhiêu là vừa?
o Chi phí để dự báo là bao nhiêu?
LỰA CHỌN MÔ HÌNH DỰ BÁO
13
Phùng Thanh Bình
z Để chọn một phương pháp dự báo thích hợp, cần phải:
o Xác định bản chất của vấn đề dự báo
o Bản chất của dữ liệu đang xem xét
o Mô tả các khả năng và hạn chế của các phương pháp
dự báo tiềm năng
o Xây dựng các tiêu chí để ra quyết định lựa chọn
o Một nhân tố chính ảnh hưởng đến việc lựa chọn mô
hình dự báo là nhận dạng và hiểu được bản chất số
liệu lịch sử
LỰA CHỌN MÔ HÌNH DỰ BÁO
Phùng Thanh Bình
z Các phương pháp dự báo đối với dữ liệu dừng
o Được sử dụng khi:
• Môi trường của đối tượng dự báo không thay đổi
• Thiếu dữ liệu
• Thực hiện những điều chỉnh đơn giản có thể đạt
được sự ổn định
• Chuỗi dữ liệu có thể được chuyển đổi sang một dạng
ổn định
o Gồm có phương pháp dự báo thô, trung bình giản đơn,
trung bình trượt, ARMA
LỰA CHỌN MÔ HÌNH DỰ BÁO
14
Phùng Thanh Bình
z Các phương pháp dự báo đối với dữ liệu xu thế
o Được sử dụng khi:
• Tăng năng suất hay công nghệ mới làm thay đổi lối
sống
• Dân số tăng làm tăng nhu cầu hàng hóa và dịch vụ
• Lạm phát
• Mức độ chấp nhận của thị trường gia tăng
o Gồm có phương pháp trung bình trượt, san mũ bậc 1
(Holt), hồi quy đơn, đường tăng trưởng, mô hình mũ,
ARIMA
LỰA CHỌN MÔ HÌNH DỰ BÁO
Phùng Thanh Bình
z Các phương pháp dự báo đối với dữ liệu mùa vụ
o Được sử dụng khi:
• Thời tiết ảnh hưởng đến biến đang xem xét
• Niên lịch ảnh hưởng đến biến đang xem xét
o Gồm có phương pháp phân tích, san mũ
Winter, hồi quy bội, và ARIMA
LỰA CHỌN MÔ HÌNH DỰ BÁO
15
Phùng Thanh Bình
z Các phương pháp dự báo đối với dữ liệu chu kỳ
o Được sử dụng khi:
• Chu kỳ kinh doanh ảnh hưởng đến biến đang
xem xét
• Dịch chuyển trong sở thích chung
• Dịch chuyển trong dân số
• Dịch chuyển trong chu kỳ vòng đời sản phẩm
o Gồm có phương pháp phân tích, chỉ số kinh tế, mô
hình kinh tế lượng, hồi quy bội, và ARIMA
LỰA CHỌN MÔ HÌNH DỰ BÁO
Phùng Thanh Bình
16
Phùng Thanh Bình
z Mô tả dữ liệu bằng số
o Mô tả độ lớn chung của một biến sử dụng các
thước đo mức độ tập trung: Trung bình, Trung
bị, và mode
• Xem c2t2.xls
o Hai thước đo mức độ phân tán: Phương sai và
Độ lệch chuẩn (nhắc lại bậc tự do)
• Xem c2t3.xls
ÔN TẬP THỐNG KÊ CĂN BẢN
Phùng Thanh Bình
z Mô tả dữ liệu bằng đồ thị
o Đồ thị điểm (dot plot)
o Đồ thị hộp (box plot)
o Đồ thị tần suất (histogram)
o Đồ thị phân tán (scatter diagrams), …
o Đồ thị chuỗi thời gian (time series plot) thường
được sử dụng nhất, và được biểu diễn bằng:
• Hệ trục tọa độ đơn
• Hệ trục tọa độ kép
ÔN TẬP THỐNG KÊ CĂN BẢN
17
Phùng Thanh Bình
z Chỉ số
o Chỉ số đơn giản không trọng số
o Chỉ số gộp không trọng số đơn giản
ÔN TẬP THỐNG KÊ CĂN BẢN
100
0
×=
Y
YI tt
0,1
,1
i
n
i
ti
n
i
t
Y
Y
I ∑
∑
=
==
Phùng Thanh Bình
z Chỉ số
o Chỉ số gộp có trọng số (Laspreyres)
ÔN TẬP THỐNG KÊ CĂN BẢN
100
0,0,1
0,,1 ×= ∑
∑
=
=
ii
n
i
iti
n
i
t
QP
QP
I
18
Phùng Thanh Bình
z Chỉ số
o Chỉ số gộp có trọng số (Paasche)
ÔN TẬP THỐNG KÊ CĂN BẢN
100
0,1
,1 ×= ∑
∑
=
=
Ti
n
i
Tti
n
i
t
QP
QP
I
Phùng Thanh Bình
z Chuyển hóa dữ liệu
o San bằng chuỗi thời gian
• Phương pháp bình quân di động giản đơn
(SMA)
• Phương pháp bình quân di động trung tâm
(CMA)
Khoảng trượt L lẻ
Khoảng trượt L chẵn
ÔN TẬP THỐNG KÊ CĂN BẢN
19
Phùng Thanh Bình
z Chuyển hóa dữ liệu
o Chuyển dữ liệu tháng, quý, nữa năm thành dữ
liệu năm bằng cách nhân giá trị với tần suất
(tháng x 12, quý x 4, nữa năm x 2)
o Chuyển đổi tần xuất dữ liệu
• Từ tần suất cao đến tần suất thấp:
Phương pháp gộp
Phương pháp trung bình số học
Phương pháp trung bình hình học
ÔN TẬP THỐNG KÊ CĂN BẢN
Phùng Thanh Bình
z Chuyển hóa dữ liệu
o Chuyển đổi tần xuất dữ liệu
• Từ tần suất thấp đến tần suất cao:
Phương pháp lặp
Phương pháp sai phâns
- Có 3 bước:
ÔN TẬP THỐNG KÊ CĂN BẢN
( )III YY −=∆ L∆=∆' ''
2
'
3
''
1
'
2
'
1
∆+=
∆+=
=
YY
YY
YY I
20
Phùng Thanh Bình
z Chuyển hóa dữ liệu
o Phương pháp sai phân
• Ý nghĩa:
Sai phân bậc 1 Æ hằng số: dữ liệu gốc có xu
hướng đường thẳng
Sai phân bậc 2 Æ hằng số: dữ liệu gốc có xu
hướng đường cong
ÔN TẬP THỐNG KÊ CĂN BẢN
1
2
1
−
−
∆−∆=∆
−=∆
ttt
ttt
YYY
YYY
Phùng Thanh Bình
z Chuyển hóa dữ liệu
o Phương pháp ln
• Ý nghĩa:
R là tỷ lệ tăng trưởng mũ (không đổi cho mỗi
giai đoạn trong suốt thời kỳ nghiên cứu)
Tùy vào t được tính theo tháng, quý hay năm
ÔN TẬP THỐNG KÊ CĂN BẢN
rt
t eYY 0=
21
Phùng Thanh Bình
z Phân phối xác suất
o Phân phối xác suất của một biến rời rạc
• Là liệt kê tất cả các giá trị có thể có của biến
số đó, cùng với xác suất của mỗi giá trị đó
• E(X) = Σ[X × P(X)]
o Đối với một phân phối liên tục, thì xác suất để có
một giá trị nhất định gần bằng 0. Một phân phối
quan trọng trong trường hợp này là phân phối
chuẩn
ÔN TẬP THỐNG KÊ CĂN BẢN
Phùng Thanh Bình
z Phân phối xác suất
o Phân phối chuẩn của một biến ngẫu nhiên liên tục
được định nghĩa với 2 đặc điểm: Trung bình và Độ
lệch chuẩn của biến số đó
• µ ± 1σ chiếm ~ 68% diện tích
• µ ± 2σ chiếm ~ 95% diện tích
• µ ± 3σ chiếm ~ 99% diện tích
o Phân phối chuẩn chuẩn tắc
ÔN TẬP THỐNG KÊ CĂN BẢN
σ
µ - X Z =
22
Phùng Thanh Bình
z Phân phối mẫu
o Phân phối mẫu là tập hợp tất cả các giá trị có thể
có của một thống kê mẫu có thể được rút ra từ một
tổng thể với một cỡ mẫu nhất định
o Theo định lý giới hạn trung tâm, khi cỡ mẫu càng
lớn, thì phân phối mẫu của các trung bình mẫu sẽ
tiến về phân phối chuẩn, và trung bình là µ và độ
lệch chuẩn là:
ÔN TẬP THỐNG KÊ CĂN BẢN
n
n
σ
Phùng Thanh Bình
z Phân phối mẫu
o Student’s t-Distribution
• Phân phối chuẩn cung cấp nền tảng cho nhiều
lọai phân tích dữ liệu, nhưng nó không thích
hợp với dữ liệu mẫu, nên ta sử dụng t-dist
• Khi không biết σ, hoặc khi cỡ mẫu nhỏ, thì nên
sử dụng t-dist
• Vì t-dist phụ thuộc vào số bậc tự do, nên có rất
nhiều t-dist
ÔN TẬP THỐNG KÊ CĂN BẢN
nS/
µXt −=
23
Phùng Thanh Bình
z Thống kê suy luận từ mẫu
o Ước lượng điểm của một hệ số tổng thể (pop
parameter) là một giá trị riêng lẻ được tính từ số
liệu mẫu
o Ước lượng khoảng là một khoảng mà hệ số tổng
thể có thể nằm trong đó:
được gọi là sai số chuẩn của trung bình mẫu và đo lường độ phân tán
của các trung bình mẫun
s
ÔN TẬP THỐNG KÊ CĂN BẢN
n
tX µ s×±=
Phùng Thanh Bình
z Kiểm định giả thuyết, gồm các bước sau:
o Bước 1: Xây dựng giả thuyết (H0, và H1)
o Bước 2: Thu thập một mẫu ngẫu nhiên và tính
toán các thống kê kiểm định mẫu
o Bước 3: Giả định H0 là đúng và xác định phân
phối mẫu của thống kê kiểm định
o Bước 4: Tính xác suất (giá trị thống kê)
o Bước 5: So sánh xác suất (giá trị thống kê tính
toán) và quyết định chấp nhận hay bác bỏ giả
thuyết
ÔN TẬP THỐNG KÊ CĂN BẢN
24
Phùng Thanh Bình
Phùng Thanh Bình
z Phân tích tương quan
o Giản đồ phân tán (scatter diagrams): xét quan hệ
giữa 2 biến
• Tuyến tính
Dương
Âm
• Phi tuyến
• Mức độ quan hệ giữa 2 biến
ÔN TẬP THỐNG KÊ CĂN BẢN
25
Phùng Thanh Bình
z Hệ số tương quan
o Đo lường mức độ quan hệ tuyến tính giữa hai
biến số
ÔN TẬP THỐNG KÊ CĂN BẢN
∑∑
∑∑ −−
−==
22YX )Y(Y)X(X
)Y(Y)X-(X
ZZ
1-n
1 r
∑ ∑∑ ∑
∑ ∑∑
−−= 2222 Y)( YnX)( Xn
Y)(X)( - XYn