Bài giảng Thống kê cho khoa học xã hội - Bài 5: Phân tích hồi qui và tương quan - Nguyễn Thị Xuân Mai

5.1.1. MỘT SỐ KHÁI NIỆM LIÊN QUAN • Hồi qui tương quan là phương pháp phân tích dựa trên mối liên hệ phụ thuộc của một biến phụ thuộc (biến kết quả) vào một hay nhiều biến độc lập (biến nguyên nhân). Ví dụ: Chiều cao và tuổi của một người, Số giờ tự học và điểm số • Mối liên hệ phụ thuộc này có thể được biểu hiện ở 2 dạng.  Liên hệ hàm số: là mối liên hệ hoàn toàn chặt chẽ, sự thay đổi của hiện tượng này có tác dụng quyết định đến sự thay đổi của hiện tượng liên quan theo một tỷ lệ xác định.  Có dạng Y=f(X)  không những được biểu hiện ở tổng thể mà còn được biểu hiện cụ thể trên từng đơn vị cá biệt.  Liên hệ tương quan: là mối liên hệ không hoàn toàn chặt chẽ. Sự thay đổi của hiện tượng này có thể làm hiện tượng liên quan thay đổi theo nhưng không có ảnh hưởng hoàn toàn quyết định.  không được biểu hiện trên từng đơn vị cá biệt mà phải thông qua hiện tượng số lớn (là tổng thể). • Mối liên hệ phụ thuộc này được xây dựng bằng một phương trình hồi qui có thể là tuyến tính hay phi tuyến

pdf31 trang | Chia sẻ: thanhle95 | Lượt xem: 24 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Bài giảng Thống kê cho khoa học xã hội - Bài 5: Phân tích hồi qui và tương quan - Nguyễn Thị Xuân Mai, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
v1.0016104219 GIỚI THIỆU MÔN HỌC 1 THỐNG KÊ CHO KHOA HỌC XÃ HỘI Giảng viên: ThS. Nguyễn Thị Xuân Mai v1.0016104219 2 BÀI 5 PHÂN TÍCH HỒI QUI VÀ TƯƠNG QUAN Giảng viên: ThS. Nguyễn Thị Xuân Mai v1.0016104219 MỤC TIÊU BÀI HỌC • Giới thiệu về mối liên hệ giữa các hiện tượng kinh tế xã hội. • Trình bày một số khái niệm liên quan trong phân tích hồi qui tương quan. • Trình bày trình tự các bước ước lượng mô hình hồi qui. • Trình bày phương pháp đánh giá mối liên hệ tương quan trong mô hình, gồm có: đánh giá mức độ phù hợp của mô hình, đánh giá cường độ chặt chẽ và chiều hướng của mối liên hệ. • Trình bày phương pháp tính sai số chuẩn của mô hình và xác định khoảng tin cậy ước lượng. • Trình bày các kiểm định thống kê nhằm khẳng định mô hình ước lượng được là tốt, có thể dùng để suy diễn thống kê, gồm có: kiểm định hệ số hồi qui, kiểm định ý nghĩa của hệ số tương quan, kiểm định sự phù hợp của mô hình. 3 v1.0016104219 CÁC KIẾN THỨC CẦN CÓ Kiến thức chung về kinh tế - xã hội. 4 v1.0016104219 HƯỚNG DẪN HỌC • Đọc tài liệu tham khảo. • Thảo luận với giáo viên và các sinh viên khác về những vấn đề chưa hiểu rõ. • Trả lời các câu hỏi của bài học. • Đọc và tìm hiểu thêm về phương pháp phân tích hồi qui và tương quan. 5 v1.0016104219 CẤU TRÚC NỘI DUNG 6 Ước lượng mô hình hồi qui tuyến tính5.1 Đánh giá mối liên hệ tương quan5.2 Kiểm định các hệ số của mô hình hồi qui5.3 v1.0016104219 5.1. ƯỚC LƯỢNG MÔ HÌNH HỒI QUI TUYẾN TÍNH 7 5.1.1. Một số khái niệm liên quan 5.1.2. Trình tự ước lượng mô hình hồi qui v1.0016104219 5.1.1. MỘT SỐ KHÁI NIỆM LIÊN QUAN • Hồi qui tương quan là phương pháp phân tích dựa trên mối liên hệ phụ thuộc của một biến phụ thuộc (biến kết quả) vào một hay nhiều biến độc lập (biến nguyên nhân). Ví dụ: Chiều cao và tuổi của một người, Số giờ tự học và điểm số • Mối liên hệ phụ thuộc này có thể được biểu hiện ở 2 dạng.  Liên hệ hàm số: là mối liên hệ hoàn toàn chặt chẽ, sự thay đổi của hiện tượng này có tác dụng quyết định đến sự thay đổi của hiện tượng liên quan theo một tỷ lệ xác định.  Có dạng Y=f(X)  không những được biểu hiện ở tổng thể mà còn được biểu hiện cụ thể trên từng đơn vị cá biệt.  Liên hệ tương quan: là mối liên hệ không hoàn toàn chặt chẽ. Sự thay đổi của hiện tượng này có thể làm hiện tượng liên quan thay đổi theo nhưng không có ảnh hưởng hoàn toàn quyết định.  không được biểu hiện trên từng đơn vị cá biệt mà phải thông qua hiện tượng số lớn (là tổng thể). • Mối liên hệ phụ thuộc này được xây dựng bằng một phương trình hồi qui có thể là tuyến tính hay phi tuyến. 8 v1.0016104219 5.1.2. TRÌNH TỰ ƯỚC LƯỢNG MÔ HÌNH HỒI QUI • Phân tích bản chất của mối liên hệ giữa biến độc lập và các biến phụ thuộc. • Vẽ đồ thị phân tán scatterplot. • Xây dựng mô hình toán học mô tả mối liên hệ giữa biến độc lập và các biến phụ thuộc. • Ước lượng các hệ số của mô hình. • Giải thích ý nghĩa của các hệ số. • Bước 1. Phân tích bản chất của mối liên hệ giữa biến độc lập và các biến phụ thuộc  Mối quan hệ hệ nhân - quả, biến phụ thuộc thay đổi do biến độc lập thay đổi. Ví dụ: sự thay đổi của chi phí quảng cáo dẫn đến sự thay đổi lượng hàng bán.  Mối quan hệ liên kết, một số nhân tố khác gây ra sự thay đổi trong cả hai biến. Ví dụ: doanh số bán kính mát và kem tăng do thời tiết nóng. 9 v1.0016104219 5.1.2. TRÌNH TỰ ƯỚC LƯỢNG MÔ HÌNH HỒI QUI 10 • Bước 2: Vẽ đồ thị phân tán scatterplot  X được gọi là biến độc lập (biến nguyên nhân) được biểu diễn ở trục hoành.  Y được gọi là biến phụ thuộc (biến kết quả) được biểu diễn ở trục tung. → Scatterplot có thể cho biết cường độ và chiều hướng của mối liên hệ tuyến tính giữa hai biến. v1.0016104219 Thành phần sai số ngẫu nhiên ii10i εXββY  Thành phần tuyến tính Hệ số tự do tổng thể Hệ số hồi qui tổng thể Sai số ngẫu nhiênBiến phụ thuộc Biến độc lập 5.1.2. TRÌNH TỰ ƯỚC LƯỢNG MÔ HÌNH HỒI QUI (tiếp theo) • Bước 3: Xây dựng mô hình hồi qui tổng thể chung  Mối quan hệ giữa X và Y được mô tả bằng một hàm tuyến tính.  Sự thay đổi của Y được giả định là do sự thay đổi của X gây ra.  Mô hình hồi qui tuyến tính tổng thể chung là: 11 v1.0016104219 5.1.2. TRÌNH TỰ ƯỚC LƯỢNG MÔ HÌNH HỒI QUI (tiếp theo) 12 Sai số ngẫu nhiên cho giá trị Xi Y X Giá trị quan sát của Y cho Xi Giá trị dự đoán của Y cho Xi ii10i εXββY  Xi Hệ số hồi qui = β1 Hệ số tự do = β0 εi v1.0016104219 i10i xbby ˆ Ước lượng của hệ số tự do Ước lượng của hệ số hồi qui Giá trị ước lượng (hay dự đoán) của y cho quan sát i Giá trị của x cho quan sát i Sai số ngẫu nhiên cá nhân ei có trung bình bằng 0 ))ˆ( i10iiii xb(b-yy-ye  5.1.2. TRÌNH TỰ ƯỚC LƯỢNG MÔ HÌNH HỒI QUI (tiếp theo) • Bước 4: Ước lượng các hệ số của mô hình  Có n quan sát.  Xi là giá trị của biến độc lập thứ i.  Yi là giá trị của biến phụ thuộc thứ i.  là giá trị trung bình của biến độc lập.  là giá trị trung bình của biến phụ thuộc. X Y 13 v1.0016104219 5.1.2. TRÌNH TỰ ƯỚC LƯỢNG MÔ HÌNH HỒI QUI (tiếp theo) 14 • Phương pháp bình phương nhỏ nhất (OLS) • Xác định giá trị nhỏ nhất của chênh lệch giữa giá trị thực tế và giá trị từ phương trình hồi qui lý thuyết (phần dư ei). • Hệ phương trình chuẩn xác định các hệ số: • Hay 2 i10i 2 ii 2 i )]xb(b[y min )y(y min e minSSE min       ˆ 0 1 2 0 1 y nb b x xy b x b x           1 0 122 2 . . . . . x y x y x y x yb b y b x x x       v1.0016104219 5.1.2. TRÌNH TỰ ƯỚC LƯỢNG MÔ HÌNH HỒI QUI (tiếp theo) 15 • Bước 5: Giải thích ý nghĩa của các hệ số  b0 là hệ số tự do (hệ số chặn) cho biết giá trị của y khi x bằng 0 (nếu trong tổng thể x có nhận giá trị 0). Hoặc coi đó là ảnh hưởng trung bình của tất cả biến nguyên nhân khác ngoài biến nguyên nhân x tới biến kết quả y.  b1 là hệ số hồi qui (hệ số góc) cho biết ảnh hưởng trực tiếp của biến nguyên nhân x tới biến kết quả y. Cụ thể, khi x thay đổi 1 đơn vị thì y thay đổi trung bình b1 đơn vị. Ngoài ra, nó còn cho biết chiều hướng của mối liên hệ giữa x và y.  Khi b1 > 0, mối liên hệ thuận (x tăng, y tăng).  b1 < 0, mối liên hệ nghịch (x tăng, y giảm). v1.0016104219 STT Số nhân khẩu/hộ (người) x Thu nhập bình quân/1 nhân khẩu (Triệu đồng) y 1 5 8.5 2 4 10.3 3 6 7.0 4 5 8.2 5 5 8.9 6 5 9.8 7 6 6.6 8 6 9.5 9 2 16.9 10 7 7.0 11 7 4.8 Tổng 58 97.5 Trung bình 5.273 8.864 x.y x2 y2 42.5 25.0 72.25 41.2 16.0 106.09 42.0 36.0 49.00 41.0 25.0 67.24 44.5 25.0 79.21 49.0 25.0 96.04 39.6 36.0 43.56 57.0 36.0 90.25 33.8 4.0 285.61 49.0 49.0 49.00 33.6 49.0 23.04 473.2 326.0 961.29 43.018 29.636 87.390 5.1.2. TRÌNH TỰ ƯỚC LƯỢNG MÔ HÌNH HỒI QUI (tiếp theo) Ví dụ: Xây dựng mô hình hồi quy tuyến tính biểu diễn mối liên hệ giữa số nhân khẩu trong một hộ và thu nhập bình quân 1 nhân khẩu. 16 v1.0016104219 5.1.2. TRÌNH TỰ ƯỚC LƯỢNG MÔ HÌNH HỒI QUI (tiếp theo) 17 • Xác định các tham số: • Mô hình hồi quy có dạng • Ý nghĩa các tham số:  b0 = 19,57 nêu lên ảnh hưởng của các nhân tố khác ngoài số nhân khẩu trong 1 hộ tới sự thay đổi của thu nhập bình quân 1 nhân khẩu.  b1 = -2,03 nêu lên ảnh hưởng trực tiếp của số nhân khẩu trong 1 hộ tới sự thay đổi của thu nhập bình quân 1 nhân khẩu. Khi số nhân khẩu tăng thêm 1 người thì thu nhập bình quân 1 nhân khẩu sẽ giảm đi trung bình 2,03 triệu đồng.     2 2 2 2 1 2 0 1 29,636 5,273 1,831 . 43,018 5,273 8,864 2,03 1,831 8,864 2,03 5,273 19,57 x x x x xy x yb b y b x                    xyˆ 19,57 2,03x  v1.0016104219 5.2. ĐÁNH GIÁ MỐI LIÊN HỆ TƯƠNG QUAN 5.2.1. Đánh giá mức độ phù hợp của mô hình 5.2.2. Đánh giá cường độ chặt chẽ của mối liên hệ 5.2.3. Sai số chuẩn của mô hình và khoảng tin cậy ước lượng 18 v1.0016104219 5.2.1. ĐÁNH GIÁ MỨC ĐỘ PHÙ HỢP CỦA MÔ HÌNH y Tổng biến thiên (variation) được chia thành hai phần: SSE SSR SST  Biến thiên của biến phụ thuộc (Total Sum of Squares) Biến thiên của hồi qui (Regression Sum of Squares) Biến thiên của phần dư (Error Sum of Squares)   2i )y(ySST   2ii )y(ySSE ˆ  2i )yyˆ(SSR Sự biến thiên do mối quan hệ tuyến tính giữa x và y Sự biến thiên do các nhân tố khác ngoài mối quan hệ tuyến tính giữa x và y Đo lường sự biến thiên của các giá trị yi quanh giá trị trung bình của nó 19 v1.0016104219 5.2.1. ĐÁNH GIÁ MỨC ĐỘ PHÙ HỢP CỦA MÔ HÌNH 20 • Hệ số xác định là tỷ lệ (lần, %) thay đổi của biến phụ thuộc được giải thích bởi sự thay đổi của biến độc lập, ký hiệu là R2. • Công thức: • Tính chất: 0  R2  1 hay 100%. Xi X Y yi 2 SSRR SST   2iSST y y   2ˆiSSE y y   2ˆiSSR y y  0 1yˆ b b x  yˆ y v1.0016104219 5.2.1. ĐÁNH GIÁ MỨC ĐỘ PHÙ HỢP CỦA MÔ HÌNH (tiếp theo) Y Y r2 = 1 X Y X Liên hệ tuyến tính hoàn hảo giữa X và Y: 100% sự thay đổi của Y được giải thích bởi sự thay đổi của X. X Y 0 < r2 < 1 X Y Xr2 = 0 Không có mối liên hệ tuyến tính giữa X và Y. Giá trị của Y không phụ thuộc vào X. Liên hệ tuyến tính yếu giữa X và Y: Một phần sự thay đổi của Y được giải thích bởi sự thay đổi của X. 21 v1.0016104219 5.2.2. ĐÁNH GIÁ CƯỜNG ĐỘ CHẶT CHẼ CỦA MỐI LIÊN HỆ • Hệ số tương quan là số tương đối dùng để đánh giá chiều hướng và cường độ của mối liên hệ tương quan tuyến tính. • Công thức: • Tính chất:  -1  R  1  R =  1: giữa x và y có mối liên hệ hàm số  R = 0: giữa x và y không có mối liên hệ tương quan tuyến tính  R > 0: liên hệ thuận; R < 0: liên hệ nghịch  R→ 1: mối liên hệ giữa x và y càng chặt chẽ. 2 1 . . x x y y xy x yR R b      22 v1.0016104219 5.2.2. ĐÁNH GIÁ CƯỜNG ĐỘ CHẶT CHẼ CỦA MỐI LIÊN HỆ 23 • Ví dụ: Đánh giá mức độ chặt chẽ của mối liên hệ tuyến tính giữa số nhân khẩu trong 1 hộ và thu nhập bình quân 1 nhân khẩu • Kết luận: mối liên hệ giữa số nhân khẩu trong 1 hộ và thu nhập bình quân 1 nhân khẩu là mối liên hệ tương quan tuyến tính nghịch và rất chặt chẽ. • R2 = 0,8556 • Kết luận: 85,56% sự thay đổi của thu nhập bình quân 1 nhân khẩu được giải thích bởi sự thay đổi của số nhân khẩu trong 1 hộ.   22 2 2 2 1 87,390 8,864 2,97 . 1,353 2,03 0,925 . 2,97 y y x x y y y y xy x yR R b                   v1.0016104219 5.2.3. SAI SỐ CHUẨN CỦA MÔ HÌNH • Sai số chuẩn của ước lượng đo lường biến thiên của các giá trị thực tế y xunh quanh đường hồi qui. • Công thức: → Sai số càng lớn, biến thiên càng nhiều, đường hồi qui càng xa các điểm thực tế. Đây là cơ sở để xác định đường hồi qui phù hợp nhất. YY X X es small es large  2ˆE 2 2 i iy ySSSe n n     24 v1.0016104219 5.2.3. SAI SỐ CHUẨN CỦA MÔ HÌNH 25 TT x y 1 5 8.5 9.42 0.846 0.075 2 4 10.3 11.45 1.323 1.621 3 6 7.0 7.39 0.152 0.529 4 5 8.2 9.42 1.488 0.075 5 5 8.9 9.42 0.270 0.075 6 5 9.8 9.42 0.144 0.075 7 6 6.6 7.39 0.624 0.529 8 6 9.5 7.39 4.452 0.529 9 2 16.9 15.51 1.932 10.713 10 7 7.0 5.36 2.690 2.983 11 7 4.8 5.36 0.314 2.983 Tổng 58 97.5 97.53 14.236 20.182 Trung bình 8.864 • Sai số chuẩn của hệ số hồi qui • Công thức: 5.273x          22 1 2 2 ˆ 2 i i b i i y ySeS x x n x x         ˆ 19,57 2,03y x   2ˆy y  2x x v1.0016104219 5.3. KIỂM ĐỊNH CÁC HỆ SỐ CỦA MÔ HÌNH HỒI QUI 5.3.1. Kiểm định hệ số hồi qui 5.3.2. Kiểm định ý nghĩa của hệ số tương quan 5.3.3. Kiểm định sự phù hợp của mô hình 26 v1.0016104219 5.3.1. KIỂM ĐỊNH HỆ SỐ HỒI QUI • Kiểm định hệ số hồi quy Trả lời câu hỏi: giữa X và Y thực sự có mối liên hệ với nhau?  Bước 1: Phát biểu giả thiết không và giả thiết đối của nó  H0: 1 = 0 (x không có mối liên hệ với y)  H1: 1  0 (x có mối liên hệ tuyến tính với y)  Bước 2: Xác định mức ý nghĩa  (với 1- là hệ số tin cậy).  Bước 3: Chọn tiêu chuẩn kiểm định và tính giá trị của tiêu chuẩn kiểm định từ mẫu quan sát. Tiêu chuẩn kiểm định:  Bước 4: Xác định miền bác bỏ và kết luận t > t/2,n-2: bác bỏ H0 và ngược lại. • Khoảng tin cậy ước lượng hệ số hồi qui Khoảng tin cậy (1-) cho hệ số hồi qui được xác định như sau: 1 1 1b bt S  1 1 1 1 1 ; 2 ; 2 2 2 . .b bn n b t S b t S       27 v1.0016104219 5.3.1. KIỂM ĐỊNH HỆ SỐ HỒI QUI 28 Ví dụ: với mức ý nghĩa 0,05, có thực sự là số nhân khẩu của hộ (x) có mối liên hệ với thu nhập bình quân 1 nhân khẩu (y) không? • Cặp giả thuyết:  H0: 1 = 0 (x không có mối liên hệ với y)  H1: 1  0 (x có mối liên hệ tuyến tính với y) • Tiêu chuẩn kiểm định: • Tra bảng tìm giá trị tới hạn t/2,n-2 = t0,025;9 = 2,262 Như vậy, t > t/2,n-2: bác bỏ H0 • Kết luận: Số nhân khẩu của hộ và thu nhập bình quân 1 nhân khẩu thực sự có mối liên hệ với nhau. 1 1 1 2,03 0 7,25 0,28b bt S       v1.0016104219 5.3.2. KIỂM ĐỊNH Ý NGHĨA CỦA HỆ SỐ TƯƠNG QUAN • Kiểm định hệ số xác định Trả lời câu hỏi: liệu R2 có ý nghĩa thống kê hay không?  Bước 1: Phát biểu giả thiết không.  H0: R2 = 0  H1: R2 > 0  Bước 2: Xác định mức ý nghĩa   Bước 3: Tiêu chuẩn kiểm định là thống kê F  Bước 4: So sánh thống kê F với giá trị tra bảng ở mức ý nghĩa , với hai bậc tự do là 1 và n-2.  2 2 2 1 2 SSR R nkF SSE R n     29 v1.0016104219 5.3.2. KIỂM ĐỊNH Ý NGHĨA CỦA HỆ SỐ TƯƠNG QUAN 30 • Kiểm định hệ số tương quan Trả lời câu hỏi: liệu giữa X và Y thực sự có mối liên hệ tương quan tuyến tính?  Bước 1: Phát biểu giả thiết không. H0:  = 0 (không có mối liên hệ tương quan tuyến tính giữa x và y).  Bước 2: Xác định mức ý nghĩa   Bước 3: Tiêu chuẩn kiểm định có phân phối T-student với bậc tự do n-2  Bước 4: tùy thuộc dạng của giả thuyết đối mà xây dựng miền bác bỏ. H0:  > 0 (có mối liên hệ tương quan tuyến tính dương giữa x và y). t > t/2,n-2 : Bác bỏ H0. 21 2 rt r n    v1.0016104219 TÓM LƯỢC CUỐI BÀI 31 Trong bài học này, chúng ta đã nghiên cứu các nội dung chính sau: • Các dạng biểu hiện mối liên hệ giữa các hiện tượng kinh tế xã hội; • Qui trình xây dựng mô hình hồi qui tuyến tính biểu diễn mối liên hệ giữa hai tiêu thức số lượng; cách xác định và giải thích ý nghĩa các hệ số trong mô hình. • Đánh giá mối liên hệ tương quan tuyến tính trong mô hình hồi qui. • Kiểm định ý nghĩa của các hệ số trong mô hình hồi qui.
Tài liệu liên quan