Xử lí data với SPSS (Nguyễn Duy Tâm)

GiỚI THIỆU TƯƠNG QUAN – HỒI QUY 1. Tương quan 2. Hồi quy 3. Quy trình xây dựng mô hình trên SPSS 4. Các loại kiểm định trong mô hình 5. Ý nghĩa hệ số hồi quy 6. Dự báo với mô hình hồi quy 7. Xử lí các lỗi của hồi quy

pdf30 trang | Chia sẻ: thanhtuan.68 | Lượt xem: 1323 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Xử lí data với SPSS (Nguyễn Duy Tâm), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
5/12/2009 1 Nguyễn Duy Tâm - Nguyen Duy Tam - 1 2 Con người – Tầm nhìn mới Nguyen Duy Tam - 5/12/2009 2 Con người – Tầm nhìn mới GiỚI THIỆU TƢƠNG QUAN – HỒI QUY 1. Tương quan 2. Hồi quy 3. Quy trình xây dựng mô hình trên SPSS 4. Các loại kiểm định trong mô hình 5. Ý nghĩa hệ số hồi quy 6. Dự báo với mô hình hồi quy 7. Xử lí các lỗi của hồi quy Nguyen Duy Tam - 3 Con người – Tầm nhìn mới  Là mối quan hệ tuyến tính giữa hai biến (X và Y) (rXY) 4Nguyen Duy Tam - 5/12/2009 3 Con người – Tầm nhìn mới Hệ số tƣơng quan  “r” Hệ số tương quan  Độ mạnh của mối quan hệ (mạnh, yếu, hoặc không có quan hệ)  Các loại quan hệ ▪ Đồng biến – X và Y biến thiên cùng chiều ▪ Nghịch biến – X và Y biến thiên ngược chiều  Khoảng biến thiên của r từ –1 đến 1 Strong Negative No Rel. Strong Positive -1.0 0.0 +1.0 •Go to website! –playing with scatterplots 5Nguyen Duy Tam - Con người – Tầm nhìn mới Thực hành với đồ thị phân tán r = .__ __ r = .__ __ r = .__ __ r = .__ __ 6Nguyen Duy Tam - 5/12/2009 4 Con người – Tầm nhìn mới Thực hành trên SPSS Nguyen Duy Tam - 7 Click here Con người – Tầm nhìn mới Thực hành trên SPSS Nguyen Duy Tam - 8 Nhận xét mối quan hệ 5/12/2009 5 Con người – Tầm nhìn mới XÁC ĐỊNH HỆ SỐ TƢƠNG QUAN Nguyen Duy Tam - 9 Con người – Tầm nhìn mới XÁC ĐỊNH HỆ SỐ TƢƠNG QUAN Nguyen Duy Tam - 10 5/12/2009 6 Con người – Tầm nhìn mới KiỂM ĐỊNH MỐI QUAN HỆ TUYẾN TÍNH  Kiểm định mối quan hệ tuyến tính giữa các biến. 1. H0: rxy =0: hai biến không có mối quan hệ tuyến tính phụ thuộc nhau 2. H1: rxy 0: hai biến có mối quan hệ tuyến tính phụ thuộc nhau Nguyen Duy Tam - 11 Con người – Tầm nhìn mới HỒI QUY trực tiếp Nguyen Duy Tam - 12 Path Diagram of A Linear Regression Analysis YY X1 X2 x3 error i iY k b x b x b x e1 1 2 2 3 3 5/12/2009 7 Con người – Tầm nhìn mới HỒI QUY tổng hợp Nguyen Duy Tam - 13 A Path Analysis Decomposition of Effects into Direct, Indirect, Spurious, and Total Effects X1 Y3 X2 Y1 Y2 Error A B C D E F Direct Effects: Paths C, E, F Indirect Effects: Paths AC, BE, DF Total Effects: Sum of Direct and Indirect Effects Spurious effects are due to common (antecedent) causes Error Error Error Các loại quan hệ hồi quy Trực tiếp Y3: C,E, F Gián tiếp Y3: BF, BDF Tổng tác động = Trực tiếp + gián tiếp Con người – Tầm nhìn mới HỒI QUY TƢƠNG TÁC Nguyen Duy Tam - 14 Interaction Analysis X1 X2 Y A B C Y= K + aX1 + BX2 + CX1*X2 Hệ số tác động tương tác: C X1 và X2 tương tác lẫn nhau cùng tác động lên Y. 5/12/2009 8 Con người – Tầm nhìn mới Các loại quan hệ giữa biến phụ thuộc và biến độc lập 1. Quan hệ tuyến tính (linear) 2. Quan hệ logarithmic 3. Quan hệ hàm nghịch đảo (inverse) 4. Quan hệ parapol (quadratic) 5. Quan hệ hàm bậc 3 (cubic) 6. Quan hệ hàm mũ (Power) 7. Quan hệ logistic 8. Quan hệ hàm tăng trưởng (growth) 9. Quan hệ san bằng hàm mũ (exponential) Nguyen Duy Tam - 15 Hồi quy chỉ xét đối với hồi quy tuyến tinh (đối với tham số). Những mối quan hệ phi tuyến đều phải chuyển về quan hệ tuyến tính) Con người – Tầm nhìn mới Mối quan hệ tuyến tính (linear) Nguyen Duy Tam - 16 5/12/2009 9 Con người – Tầm nhìn mới Quan hệ logarithmic Nguyen Duy Tam - 17 Con người – Tầm nhìn mới Quan heä nghòch ñaûo (inverse – hypecpol) Nguyen Duy Tam - 18 5/12/2009 10 Con người – Tầm nhìn mới Quan heä haøm baäc hai (Quadratic) Nguyen Duy Tam - 19 Con người – Tầm nhìn mới Quan heä haøm baäc 3 (cubic) Nguyen Duy Tam - 20 5/12/2009 11 Con người – Tầm nhìn mới NGHIÊN CỨU CÁC NHÂN TỐ TÁC ĐỘNG ĐẾN MƢC LƢƠNG HiỆN TẠI  BÀI TẬP: EMPLOYEE DATA.SAV.  Yêu cầu: Hãy xây dựng mô hình hồi quy mô tả những nhân tố (mối quan hệ) tác động đến mức lương hiện tại của người lao động trong công ty theo 2 mô hình sau.  MH1: Lifeexpf = a + b1*calories + b2*gdp_gap  MH2: Lifeexpf = a + b1*calories + b2*Ln(gdp_gap)  MH3: Xây dựng mô hình hồi quy với Lifeexpf là biến phụ thuộc và tất cả các biến còn lại là biến độc lập Nguyen Duy Tam - 21 Con người – Tầm nhìn mới MÔ HÌNH 1 Nguyen Duy Tam - 22 5/12/2009 12 Con người – Tầm nhìn mới BẢNG KẾT QuẢ KIỂM ĐỊNH TỔNG THỂ  Gỉa thiết 1. H0: Mô hình không có khả năng giải thích giá trị thực tế 2. Giả thiết H1: Mô hình có thể sử dụng để giải thích giá trị thực tế của mức lương KIỂM ĐỊNH TỔNG THỂ Nguyen Duy Tam - 23 Con người – Tầm nhìn mới BẢNG KẾT QuẢ KIỂM ĐỊNH HỆ SỐ HỒI QUY  Giả thiết đối với hệ số hồi quy thứ I 1. H0: bi = 0 (biến Xi không tác động vào Y) 2. H1: bi 0 (biến Xi tác động vào Y) KIỂM ĐỊNH HỆ SỐ HỒI QUY Nguyen Duy Tam - 24 5/12/2009 13 Con người – Tầm nhìn mới Ý NGHĨA HỆ SỐ HỒI QUY  Phương trình hồi quy mô hình 1 được viết như sau:  Lifeexpf = 32,77 + 0,012*calories + 0*gdp_gap 1. B1: Trong điều kiện các nhân tố khác không đổi (2 nước giống nhau trừ lượng calories) thì nếu nước này có lượng calories nạp vào hàng ngày hơn hơn nước kia 1 % thì tuổi thọ của người dân nước này cao hơn cao hơn nước kia là 0,012 tuổi. 2. B2: Nếu chọn α=5%, Ta đề xuất loại biến gdp_gap ra khỏi mô hình Nguyen Duy Tam - 25 Con người – Tầm nhìn mới BẢNG KẾT QuẢ HỆ SỐ GIẢI THÍCH R2  R2 là khả năng giải thích của mô hình. Nếu R2 = 0,706  80,4%) thì mô hình có khả năng giải thích được 70,6% giá trị thực tế.  Chú ý: mô hình hồi quy đa biến độc lập (hồi quy bội) ta dùng R2 hiệu chỉnh để nêu khả năng giải thích của mô hình. (69,8%) Nguyen Duy Tam - 26 Hệ số R2 và R2 hiệu chỉnh 5/12/2009 14 Con người – Tầm nhìn mới DỰ BÁO BẰNG MÔ HÌNH HỒI QUY DỰ BÁO CHO 3 NGƢỜI CÓ ĐIỀU KIỆN SAU Việt Nam Gdp_gap Calories PA1 1000 2400 PA2 1200 2500 PA3 1500 2700 TẠI HỘP THOẠI LINEAR REGRESSION - SAVE Nguyen Duy Tam - 27 Nhập dữ liệu của 3 phương án trên vào quan sát thứ 110-111-112 Con người – Tầm nhìn mới KẾT QuẢ DỰ BÁO Nguyen Duy Tam - 28 5/12/2009 15 Con người – Tầm nhìn mới Nguyen Duy Tam - 29 Xây dựng mô hình 3 và dự báo cho 3 phương án của Việt nam và năm 2008 Con người – Tầm nhìn mới GiẢ THIẾT CỦA MÔ HÌNH HỒI QUY BỘI 1. Các biến độc lập (giải thích) được biết trước 2. Các biến độc lập không tương quan với nhau [cov(xi,xj) =0] 3. Các sai số giữa giá trị thực tế và giá trị dự báo (phần dư, resid, ui) không tự tương quan với nhau [cov(ui,uj) =0] 4. Phần dư (resid) có phương sai không đổi. Var(resid) = constant 5. Phần dư (resid) giữa giá trị dự báo và giá trị thực tế tuân theo phân phối chuẩn. Nguyen Duy Tam - 30 5/12/2009 16 Con người – Tầm nhìn mới KiỂM ĐỊNH CÁC LỖI CỦA MÔ HÌNH 1. Giả định về sự liên hệ tuyến tính giữa hai biến (đồ thị scatter) 2. Khả năng tuân theo phân phối chuẩn của phần dư (residual) 3. Hiện tượng tự tương quan 4. Hiện tượng đa cộng tuyến 5. Hiện tượng phương sai thay đổi Nguyen Duy Tam - 31 Con người – Tầm nhìn mới Giả định về sự liên hệ tuyến tính (đồ thị scatter)  Biến độc lập X có thể giải thích cho biến phụ thuộc Y khi X có mối liên hệ tuyến tính với X. 1. Đồ thị Scatter giữa X và Y có mối liên hệ nào đó với nhau 2. Đồ thị phần dư (resid) giữa phần dư và giá trị dự báo biến thiên ngẫu nhiên Nguyen Duy Tam - 32 5/12/2009 17 Con người – Tầm nhìn mới Giả định về sự liên hệ tuyến tính (đồ thị scatter)  Mối liên hệ tuyến tính Nguyen Duy Tam - 33 Con người – Tầm nhìn mới Kieåm tra ñoà thò phaân taùn phaàn dö (scatter)  B1: Tính chỉ tiêu phần dư và giá trị dự báo chuẩn hoá.  B2: Vẽ đồ thị phân tán với trục hoành là Zpr và trục tung là ZRE. (Có thể thêm vào đường xu hướng để kiểm tra mối liên hệ tuyến tính) Nguyen Duy Tam - 34 5/12/2009 18 Con người – Tầm nhìn mới Kieåm ñònh phaàn dö coù phaân phoái chuaån (quy trình) KHÔNG CÓ MỐI LIÊN HỆ CÓ MỐI LIÊN HỆ (CUBIC) Nguyen Duy Tam - 35 Con người – Tầm nhìn mới Kieåm ñònh hieän töôïng phöông sai khoâng ñoåi  Là hiện tượng các sai số (resid) có mối tương quan với giá trị dự báo (Y^). Nguyen Duy Tam - 36 5/12/2009 19 Con người – Tầm nhìn mới Kiểm định phần dƣ có phân phối chuẩn  Ta có thể kiểm tra khả năng tuân theo phân phối chuẩn của resid thông qua hai đồ thị 1. Đồ thị tần số Histogram 2. Đồ thị Q-Q plot Nguyen Duy Tam - 37 Con người – Tầm nhìn mới Kiểm định phần dƣ có phân phối chuẩn ĐỒ THỊ HISTOGRAM ĐỒ THỊ HISTOGRAM Nguyen Duy Tam - 38 5/12/2009 20 Con người – Tầm nhìn mới Kiểm định phần dƣ có phân phối chuẩn ĐỒ THỊ Q-Q PLOT ĐỒ THỊ Q-Q PLOT Nguyen Duy Tam - 39 Con người – Tầm nhìn mới Kieåm ñònh hieän töôïng phöông sai khoâng ñoåi QUY TRÌNH B1: Chạy hồi quy, lấy phần dư (resid) B2: Tạo biến trị tuyệt đối của resid (ABS_resid). B3. Kiểm định hệ số tương quan giữa biến ABS_resid với từng biến độc lập H0: Không có hiện tượng phương sai thay đổi H1: Ngược lại KIỂM ĐỊNH HỆ SỐ TƢƠNG QUAN Nguyen Duy Tam - 40 5/12/2009 21 Con người – Tầm nhìn mới Kieåm ñònh hieän töôïng töï töông quan (autocorrelation)  Là hiện tượng các thành phần trong phần dư có mối tương quan với nhau [cov(εi ,εj) 0] Tương quan bậc 1: Tương quan bậc p: Nguyen Duy Tam - 41 eiii 1 eipi p iii ... 2 2 1 -1 0 1 Tương quan nghịch Tương quan nghịch Con người – Tầm nhìn mới Kieåm ñònh hieän töôïng töï töông quan (autocorrelation) Nguyen Duy Tam - 42 n t t i t Durbin Watson d tests first order autocorrelationof residuals e e d e 1 1 2 12d 5/12/2009 22 Con người – Tầm nhìn mới Kieåm ñònh hieän töôïng töï töông quan (auto) Nguyen Duy Tam - 43 Con người – Tầm nhìn mới Kieåm ñònh hieän töôïng töï töông quan (auto) CÁCH PHÁT HIỆN CÁCH PHÁT HIỆN Nguyen Duy Tam - 44 5/12/2009 23 Con người – Tầm nhìn mới Kieåm ñònh hieän töôïng ña coäng tuyeán (collinear) Nguyen Duy Tam - 45  Có thể phát hiện hiện tượng đa cộng tuyến dựa vào các cách sau 1. Độ chấp nhận Tolerance = 1-R2k 2. Hệ số phóng đại phương sai 3. Ma trận hệ số tương quan giữa các biến RkTolerance VIF 2 1 11 Con người – Tầm nhìn mới Kieåm ñònh hieän töôïng ña coäng tuyeán (collinear) Nguyen Duy Tam - 46 5/12/2009 24 Con người – Tầm nhìn mới Thủ tục chọn biến nhanh (dành cho ngƣời lƣời biến ) 1. Thủ tục đưa vào dần (forward sellection) 2. Thủ tục loại trừ dần (Backward elimination) 3. Thủ tục chọn từng bước (stepwise sellection) Nguyen Duy Tam - 47 Con người – Tầm nhìn mới Thủ tục đƣa vào dần  Nguyên tắt: Dựa trên hệ số tương quan thuận (nghịch) lớn giữa biến phụ thuộc với từng biến độc lập. Biến nào lớn nhất được đưa vào trước.  Điều kiện được đưa vào: 1. Thỏa mãn điều kiện thống kê F (FIN: thống đê đưa vào) 2. Thỏa mãn điều kiện xác suất đưa vào (PIN: xác suất để đưa vào) Nguyen Duy Tam - 48 5/12/2009 25 Con người – Tầm nhìn mới Thủ tục đƣa vào dần Nguyen Duy Tam - 49 Con người – Tầm nhìn mới Thủ tục đƣa vào dần Nguyen Duy Tam - 50 5/12/2009 26 Con người – Tầm nhìn mới Thủ tục loại trừ dần  Nguyên tắt: Tất cả các biến vào mô hình. Và căn cứ vào biến nào có mối tương quan thấp nhất loại ra dần  Điều kiện được loại trừ: 1. Không thoả mãn điều kiện ở lại mô hình (FOUT: thống đê đưa vào) 2. Không thoả mãn điều kiện ở lại mô hình (POUT: xác suất để đưa vào) Nguyen Duy Tam - 51 Con người – Tầm nhìn mới Thủ tục loại trừ dần Nguyen Duy Tam - 52 5/12/2009 27 Con người – Tầm nhìn mới Thủ tục loại trừ dần Nguyen Duy Tam - 53 Con người – Tầm nhìn mới Thủ tục lựa chọn từng bƣớc  Nguyên tắt: Theo trình tự, đưa dần vào một biến theo nguyên tắt forward sellection, sau đó, xét biến này có thể tồn tại hay không theo nguyên tắt backward elimination.  Chú ý: để tránh trường hợp thực hiện liên tục (đưa vào rùi đưa ra, cần thiết lập FIN>FOUT hoặc PIN < POUT Nguyen Duy Tam - 54 5/12/2009 28 Con người – Tầm nhìn mới Thủ tục lựa chọn từng bƣớc Nguyen Duy Tam - 55 Con người – Tầm nhìn mới Thủ tục lựa chọn từng bƣớc Nguyen Duy Tam - 56 5/12/2009 29 Con người – Tầm nhìn mới Sử dụng biến giả trong mô hình  Sử dụng bài tập Employee data.sav xây dựng mô hình hồi quy với dự báo mức lương theo số năm kinh nghiệm và giới tính. Salary = a + b1*gender + b2*prevexp (*) 1. B1: Mã hóa biến giới tính thành những giá trị số 2. B2: Xây dựng mô hình hồi quy (*), và giải thích ý nghĩa của các hệ số hồi quy  Hãy cho biết vấn đề nào diễn ra đối với mô hình này??? What’s problem??? Nguyen Duy Tam - 57 Con người – Tầm nhìn mới Sử dụng biến giả trong mô hình Nguyen Duy Tam - 58 5/12/2009 30 Con người – Tầm nhìn mới Sử dụng biến giả trong mô hình  Quy tắt sử dụng biến giả: 1. Đối với biến norminal, luôn sử dụng biến giả để đưa vào mô hình hồi quy 2. Đối với biến ordinal có thang đo dưới 5, luôn sử dụng biến giả để đưa vào mô hình hồi quy. Trong trường hợp thang đo từ 5 trở lên, ta có thể xem biến ordinal như biến định lượng để đưa vào mô hình hồi quy.  Sử dụng bài tập trinh do hoc van.sav để dự báo mức lương (salary) theo trình độ học vấn (edu) và số năm kinh nghiệm (exp). Nguyen Duy Tam - 59
Tài liệu liên quan