GiỚI THIỆU TƯƠNG QUAN – HỒI QUY
1. Tương quan
2. Hồi quy
3. Quy trình xây dựng mô hình trên SPSS
4. Các loại kiểm định trong mô hình
5. Ý nghĩa hệ số hồi quy
6. Dự báo với mô hình hồi quy
7. Xử lí các lỗi của hồi quy
30 trang |
Chia sẻ: thanhtuan.68 | Lượt xem: 1323 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Xử lí data với SPSS (Nguyễn Duy Tâm), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
5/12/2009
1
Nguyễn Duy Tâm -
Nguyen Duy Tam -
1
2
Con người – Tầm nhìn mới
Nguyen Duy Tam -
5/12/2009
2
Con người – Tầm nhìn mới
GiỚI THIỆU TƢƠNG QUAN – HỒI QUY
1. Tương quan
2. Hồi quy
3. Quy trình xây dựng mô hình trên SPSS
4. Các loại kiểm định trong mô hình
5. Ý nghĩa hệ số hồi quy
6. Dự báo với mô hình hồi quy
7. Xử lí các lỗi của hồi quy
Nguyen Duy Tam - 3
Con người – Tầm nhìn mới
Là mối quan hệ tuyến tính giữa hai biến (X và Y)
(rXY)
4Nguyen Duy Tam -
5/12/2009
3
Con người – Tầm nhìn mới
Hệ số tƣơng quan
“r” Hệ số tương quan
Độ mạnh của mối quan hệ (mạnh, yếu, hoặc không có quan hệ)
Các loại quan hệ
▪ Đồng biến – X và Y biến thiên cùng chiều
▪ Nghịch biến – X và Y biến thiên ngược chiều
Khoảng biến thiên của r từ –1 đến 1
Strong Negative No Rel. Strong Positive
-1.0 0.0 +1.0
•Go to website!
–playing with scatterplots
5Nguyen Duy Tam -
Con người – Tầm nhìn mới
Thực hành với đồ thị phân tán
r = .__ __
r = .__ __
r = .__ __
r = .__ __
6Nguyen Duy Tam -
5/12/2009
4
Con người – Tầm nhìn mới
Thực hành trên SPSS
Nguyen Duy Tam - 7
Click here
Con người – Tầm nhìn mới
Thực hành trên SPSS
Nguyen Duy Tam - 8
Nhận xét mối quan hệ
5/12/2009
5
Con người – Tầm nhìn mới
XÁC ĐỊNH HỆ SỐ TƢƠNG QUAN
Nguyen Duy Tam - 9
Con người – Tầm nhìn mới
XÁC ĐỊNH HỆ SỐ TƢƠNG QUAN
Nguyen Duy Tam - 10
5/12/2009
6
Con người – Tầm nhìn mới
KiỂM ĐỊNH MỐI QUAN HỆ TUYẾN TÍNH
Kiểm định mối quan hệ
tuyến tính giữa các
biến.
1. H0: rxy =0: hai biến
không có mối quan hệ
tuyến tính phụ thuộc
nhau
2. H1: rxy 0: hai biến
có mối quan hệ tuyến
tính phụ thuộc nhau
Nguyen Duy Tam - 11
Con người – Tầm nhìn mới
HỒI QUY trực tiếp
Nguyen Duy Tam - 12
Path Diagram of A Linear Regression
Analysis
YY
X1
X2
x3
error
i iY k b x b x b x e1 1 2 2 3 3
5/12/2009
7
Con người – Tầm nhìn mới
HỒI QUY tổng hợp
Nguyen Duy Tam - 13
A Path Analysis
Decomposition of Effects into Direct,
Indirect, Spurious, and Total Effects
X1
Y3
X2
Y1
Y2
Error
A
B
C
D
E F
Direct Effects:
Paths C, E, F
Indirect Effects:
Paths
AC, BE, DF
Total Effects:
Sum of Direct and
Indirect Effects
Spurious effects are due to
common (antecedent) causes
Error
Error
Error
Các loại quan hệ hồi quy
Trực tiếp Y3: C,E, F
Gián tiếp Y3: BF, BDF
Tổng tác động = Trực
tiếp + gián tiếp
Con người – Tầm nhìn mới
HỒI QUY TƢƠNG TÁC
Nguyen Duy Tam - 14
Interaction Analysis
X1
X2
Y
A
B
C
Y= K + aX1 + BX2 + CX1*X2
Hệ số tác động tương tác: C
X1 và X2 tương tác lẫn nhau cùng tác
động lên Y.
5/12/2009
8
Con người – Tầm nhìn mới
Các loại quan hệ giữa biến phụ thuộc và biến độc lập
1. Quan hệ tuyến tính (linear)
2. Quan hệ logarithmic
3. Quan hệ hàm nghịch đảo (inverse)
4. Quan hệ parapol (quadratic)
5. Quan hệ hàm bậc 3 (cubic)
6. Quan hệ hàm mũ (Power)
7. Quan hệ logistic
8. Quan hệ hàm tăng trưởng (growth)
9. Quan hệ san bằng hàm mũ (exponential)
Nguyen Duy Tam - 15
Hồi quy chỉ xét đối
với hồi quy tuyến
tinh (đối với tham
số). Những mối
quan hệ phi tuyến
đều phải chuyển về
quan hệ tuyến tính)
Con người – Tầm nhìn mới
Mối quan hệ tuyến tính (linear)
Nguyen Duy Tam - 16
5/12/2009
9
Con người – Tầm nhìn mới
Quan hệ logarithmic
Nguyen Duy Tam - 17
Con người – Tầm nhìn mới
Quan heä nghòch ñaûo (inverse – hypecpol)
Nguyen Duy Tam - 18
5/12/2009
10
Con người – Tầm nhìn mới
Quan heä haøm baäc hai (Quadratic)
Nguyen Duy Tam - 19
Con người – Tầm nhìn mới
Quan heä haøm baäc 3 (cubic)
Nguyen Duy Tam - 20
5/12/2009
11
Con người – Tầm nhìn mới
NGHIÊN CỨU CÁC NHÂN TỐ TÁC ĐỘNG ĐẾN MƢC LƢƠNG HiỆN TẠI
BÀI TẬP: EMPLOYEE DATA.SAV.
Yêu cầu: Hãy xây dựng mô hình hồi quy mô tả những nhân tố
(mối quan hệ) tác động đến mức lương hiện tại của người lao
động trong công ty theo 2 mô hình sau.
MH1: Lifeexpf = a + b1*calories + b2*gdp_gap
MH2: Lifeexpf = a + b1*calories + b2*Ln(gdp_gap)
MH3: Xây dựng mô hình hồi quy với Lifeexpf là biến phụ
thuộc và tất cả các biến còn lại là biến độc lập
Nguyen Duy Tam - 21
Con người – Tầm nhìn mới
MÔ HÌNH 1
Nguyen Duy Tam - 22
5/12/2009
12
Con người – Tầm nhìn mới
BẢNG KẾT QuẢ
KIỂM ĐỊNH TỔNG THỂ
Gỉa thiết
1. H0: Mô hình không có khả
năng giải thích giá trị thực
tế
2. Giả thiết H1: Mô hình có
thể sử dụng để giải thích
giá trị thực tế của mức
lương
KIỂM ĐỊNH TỔNG THỂ
Nguyen Duy Tam - 23
Con người – Tầm nhìn mới
BẢNG KẾT QuẢ
KIỂM ĐỊNH HỆ SỐ HỒI QUY
Giả thiết đối với hệ số hồi
quy thứ I
1. H0: bi = 0 (biến Xi
không tác động vào Y)
2. H1: bi 0 (biến Xi tác
động vào Y)
KIỂM ĐỊNH HỆ SỐ HỒI QUY
Nguyen Duy Tam - 24
5/12/2009
13
Con người – Tầm nhìn mới
Ý NGHĨA HỆ SỐ HỒI QUY
Phương trình hồi quy mô hình 1 được viết như sau:
Lifeexpf = 32,77 + 0,012*calories + 0*gdp_gap
1. B1: Trong điều kiện các nhân tố khác không đổi (2 nước
giống nhau trừ lượng calories) thì nếu nước này có lượng
calories nạp vào hàng ngày hơn hơn nước kia 1 % thì tuổi
thọ của người dân nước này cao hơn cao hơn nước kia là
0,012 tuổi.
2. B2: Nếu chọn α=5%, Ta đề xuất loại biến gdp_gap ra khỏi
mô hình
Nguyen Duy Tam - 25
Con người – Tầm nhìn mới
BẢNG KẾT QuẢ
HỆ SỐ GIẢI THÍCH R2
R2 là khả năng giải thích
của mô hình. Nếu R2 =
0,706 80,4%) thì mô
hình có khả năng giải thích
được 70,6% giá trị thực tế.
Chú ý: mô hình hồi quy đa
biến độc lập (hồi quy bội) ta
dùng R2 hiệu chỉnh để nêu
khả năng giải thích của mô
hình. (69,8%)
Nguyen Duy Tam - 26
Hệ số R2 và R2 hiệu chỉnh
5/12/2009
14
Con người – Tầm nhìn mới
DỰ BÁO BẰNG MÔ HÌNH HỒI QUY
DỰ BÁO CHO 3 NGƢỜI CÓ
ĐIỀU KIỆN SAU
Việt Nam Gdp_gap Calories
PA1 1000 2400
PA2 1200 2500
PA3 1500 2700
TẠI HỘP THOẠI LINEAR
REGRESSION - SAVE
Nguyen Duy Tam - 27
Nhập dữ liệu của 3 phương án
trên vào quan sát thứ 110-111-112
Con người – Tầm nhìn mới
KẾT QuẢ DỰ BÁO
Nguyen Duy Tam - 28
5/12/2009
15
Con người – Tầm nhìn mới
Nguyen Duy Tam - 29
Xây dựng mô hình 3 và dự báo cho 3 phương án của Việt nam và năm 2008
Con người – Tầm nhìn mới
GiẢ THIẾT CỦA MÔ HÌNH HỒI QUY BỘI
1. Các biến độc lập (giải
thích) được biết trước
2. Các biến độc lập
không tương quan với
nhau [cov(xi,xj) =0]
3. Các sai số giữa giá trị
thực tế và giá trị dự
báo (phần dư, resid,
ui) không tự tương
quan với nhau
[cov(ui,uj) =0]
4. Phần dư (resid) có
phương sai không đổi.
Var(resid) = constant
5. Phần dư (resid) giữa
giá trị dự báo và giá trị
thực tế tuân theo phân
phối chuẩn.
Nguyen Duy Tam - 30
5/12/2009
16
Con người – Tầm nhìn mới
KiỂM ĐỊNH CÁC LỖI CỦA MÔ HÌNH
1. Giả định về sự liên hệ tuyến tính giữa hai
biến (đồ thị scatter)
2. Khả năng tuân theo phân phối chuẩn của
phần dư (residual)
3. Hiện tượng tự tương quan
4. Hiện tượng đa cộng tuyến
5. Hiện tượng phương sai thay đổi
Nguyen Duy Tam - 31
Con người – Tầm nhìn mới
Giả định về sự liên hệ tuyến tính (đồ thị scatter)
Biến độc lập X có thể giải thích cho biến phụ thuộc Y
khi X có mối liên hệ tuyến tính với X.
1. Đồ thị Scatter giữa X và Y có mối liên hệ nào đó với nhau
2. Đồ thị phần dư (resid) giữa phần dư và giá trị dự báo biến
thiên ngẫu nhiên
Nguyen Duy Tam - 32
5/12/2009
17
Con người – Tầm nhìn mới
Giả định về sự liên hệ tuyến tính (đồ thị scatter)
Mối liên
hệ tuyến
tính
Nguyen Duy Tam - 33
Con người – Tầm nhìn mới
Kieåm tra ñoà thò phaân taùn phaàn dö (scatter)
B1: Tính chỉ tiêu
phần dư và giá trị dự
báo chuẩn hoá.
B2: Vẽ đồ thị phân
tán với trục hoành là
Zpr và trục tung là
ZRE. (Có thể thêm
vào đường xu hướng
để kiểm tra mối liên
hệ tuyến tính)
Nguyen Duy Tam - 34
5/12/2009
18
Con người – Tầm nhìn mới
Kieåm ñònh phaàn dö coù phaân phoái chuaån (quy trình)
KHÔNG CÓ MỐI LIÊN HỆ CÓ MỐI LIÊN HỆ (CUBIC)
Nguyen Duy Tam - 35
Con người – Tầm nhìn mới
Kieåm ñònh hieän töôïng phöông sai khoâng ñoåi
Là hiện tượng các
sai số (resid) có
mối tương quan
với giá trị dự báo
(Y^).
Nguyen Duy Tam - 36
5/12/2009
19
Con người – Tầm nhìn mới
Kiểm định phần dƣ có phân phối chuẩn
Ta có thể kiểm tra khả năng tuân theo phân phối
chuẩn của resid thông qua hai đồ thị
1. Đồ thị tần số Histogram
2. Đồ thị Q-Q plot
Nguyen Duy Tam - 37
Con người – Tầm nhìn mới
Kiểm định phần dƣ có phân phối chuẩn
ĐỒ THỊ HISTOGRAM ĐỒ THỊ HISTOGRAM
Nguyen Duy Tam - 38
5/12/2009
20
Con người – Tầm nhìn mới
Kiểm định phần dƣ có phân phối chuẩn
ĐỒ THỊ Q-Q PLOT ĐỒ THỊ Q-Q PLOT
Nguyen Duy Tam - 39
Con người – Tầm nhìn mới
Kieåm ñònh hieän töôïng phöông sai khoâng ñoåi
QUY TRÌNH
B1: Chạy hồi quy, lấy phần dư
(resid)
B2: Tạo biến trị tuyệt đối của
resid (ABS_resid).
B3. Kiểm định hệ số tương
quan giữa biến ABS_resid
với từng biến độc lập
H0: Không có hiện tượng phương
sai thay đổi
H1: Ngược lại
KIỂM ĐỊNH HỆ SỐ TƢƠNG
QUAN
Nguyen Duy Tam - 40
5/12/2009
21
Con người – Tầm nhìn mới
Kieåm ñònh hieän töôïng töï töông quan (autocorrelation)
Là hiện tượng các thành phần trong phần dư
có mối tương quan với nhau [cov(εi ,εj) 0]
Tương quan bậc 1:
Tương quan bậc p:
Nguyen Duy Tam - 41
eiii 1
eipi
p
iii
...
2
2
1
-1
0
1
Tương quan
nghịch
Tương quan
nghịch
Con người – Tầm nhìn mới
Kieåm ñònh hieän töôïng töï töông quan (autocorrelation)
Nguyen Duy Tam - 42
n
t t
i t
Durbin Watson d
tests first order
autocorrelationof residuals
e e
d
e
1
1
2
12d
5/12/2009
22
Con người – Tầm nhìn mới
Kieåm ñònh hieän töôïng töï töông quan (auto)
Nguyen Duy Tam - 43
Con người – Tầm nhìn mới
Kieåm ñònh hieän töôïng töï töông quan (auto)
CÁCH PHÁT HIỆN CÁCH PHÁT HIỆN
Nguyen Duy Tam - 44
5/12/2009
23
Con người – Tầm nhìn mới
Kieåm ñònh hieän töôïng ña coäng tuyeán (collinear)
Nguyen Duy Tam - 45
Có thể phát hiện hiện tượng đa cộng tuyến dựa vào
các cách sau
1. Độ chấp nhận Tolerance = 1-R2k
2. Hệ số phóng đại phương sai
3. Ma trận hệ số tương quan giữa các biến
RkTolerance
VIF
2
1
11
Con người – Tầm nhìn mới
Kieåm ñònh hieän töôïng ña coäng tuyeán (collinear)
Nguyen Duy Tam - 46
5/12/2009
24
Con người – Tầm nhìn mới
Thủ tục chọn biến nhanh (dành cho ngƣời lƣời biến )
1. Thủ tục đưa vào dần (forward sellection)
2. Thủ tục loại trừ dần (Backward elimination)
3. Thủ tục chọn từng bước (stepwise sellection)
Nguyen Duy Tam - 47
Con người – Tầm nhìn mới
Thủ tục đƣa vào dần
Nguyên tắt: Dựa trên hệ số tương quan thuận (nghịch) lớn
giữa biến phụ thuộc với từng biến độc lập. Biến nào lớn nhất
được đưa vào trước.
Điều kiện được đưa vào:
1. Thỏa mãn điều kiện thống kê F (FIN: thống đê đưa vào)
2. Thỏa mãn điều kiện xác suất đưa vào (PIN: xác suất để đưa
vào)
Nguyen Duy Tam - 48
5/12/2009
25
Con người – Tầm nhìn mới
Thủ tục đƣa vào dần
Nguyen Duy Tam - 49
Con người – Tầm nhìn mới
Thủ tục đƣa vào dần
Nguyen Duy Tam - 50
5/12/2009
26
Con người – Tầm nhìn mới
Thủ tục loại trừ dần
Nguyên tắt: Tất cả các biến vào mô hình. Và căn cứ vào biến
nào có mối tương quan thấp nhất loại ra dần
Điều kiện được loại trừ:
1. Không thoả mãn điều kiện ở lại mô hình (FOUT: thống đê
đưa vào)
2. Không thoả mãn điều kiện ở lại mô hình (POUT: xác suất để
đưa vào)
Nguyen Duy Tam - 51
Con người – Tầm nhìn mới
Thủ tục loại trừ dần
Nguyen Duy Tam - 52
5/12/2009
27
Con người – Tầm nhìn mới
Thủ tục loại trừ dần
Nguyen Duy Tam - 53
Con người – Tầm nhìn mới
Thủ tục lựa chọn từng bƣớc
Nguyên tắt: Theo trình tự, đưa dần vào một biến theo nguyên
tắt forward sellection, sau đó, xét biến này có thể tồn tại hay
không theo nguyên tắt backward elimination.
Chú ý: để tránh trường hợp thực hiện liên tục (đưa vào rùi
đưa ra, cần thiết lập FIN>FOUT hoặc PIN < POUT
Nguyen Duy Tam - 54
5/12/2009
28
Con người – Tầm nhìn mới
Thủ tục lựa chọn từng bƣớc
Nguyen Duy Tam - 55
Con người – Tầm nhìn mới
Thủ tục lựa chọn từng bƣớc
Nguyen Duy Tam - 56
5/12/2009
29
Con người – Tầm nhìn mới
Sử dụng biến giả trong mô hình
Sử dụng bài tập Employee data.sav xây dựng mô hình hồi
quy với dự báo mức lương theo số năm kinh nghiệm và giới
tính. Salary = a + b1*gender + b2*prevexp (*)
1. B1: Mã hóa biến giới tính thành những giá trị số
2. B2: Xây dựng mô hình hồi quy (*), và giải thích ý nghĩa của
các hệ số hồi quy
Hãy cho biết vấn đề nào diễn ra đối với mô hình này???
What’s problem???
Nguyen Duy Tam - 57
Con người – Tầm nhìn mới
Sử dụng biến giả trong mô hình
Nguyen Duy Tam - 58
5/12/2009
30
Con người – Tầm nhìn mới
Sử dụng biến giả trong mô hình
Quy tắt sử dụng biến giả:
1. Đối với biến norminal, luôn sử dụng biến giả để đưa vào mô
hình hồi quy
2. Đối với biến ordinal có thang đo dưới 5, luôn sử dụng biến
giả để đưa vào mô hình hồi quy. Trong trường hợp thang đo
từ 5 trở lên, ta có thể xem biến ordinal như biến định lượng
để đưa vào mô hình hồi quy.
Sử dụng bài tập trinh do hoc van.sav để dự báo mức lương
(salary) theo trình độ học vấn (edu) và số năm kinh nghiệm
(exp).
Nguyen Duy Tam - 59