Bài giảng Thống kê ứng dụng - Chương 11 Hồi quy và tương quan đơn biến

MỤC TIÊU CỦA CHƯƠNG ● Sau khi học xong chương này, người học sẽ ● Nói được phạm vi ứng dụng của phương pháp phân tích hồi quy và tương quan đơn biến ● Biết cách thực hiện một phân tích hồi quy dựa trên dữ liệu mẫu ● Nói được những điều kiện và giả định cần thiết khi phân tích hồi quy ● Biết được cách tính và ý nghĩa của hệ số tương quan Pearson và hệ số tương quan hạng Spearman

pdf35 trang | Chia sẻ: thanhtuan.68 | Lượt xem: 1136 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Bài giảng Thống kê ứng dụng - Chương 11 Hồi quy và tương quan đơn biến, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Chương 11 HỒI QUY VÀ TƯƠNG QUAN ĐƠN BIẾN Ths. Nguyễn Tiến Dũng Viện Kinh tế và Quản lý, Trường ĐH Bách khoa Hà Nội Email: dung.nguyentien3@hust.edu.vn MỤC TIÊU CỦA CHƯƠNG ● Sau khi học xong chương này, người học sẽ ● Nói được phạm vi ứng dụng của phương pháp phân tích hồi quy và tương quan đơn biến ● Biết cách thực hiện một phân tích hồi quy dựa trên dữ liệu mẫu ● Nói được những điều kiện và giả định cần thiết khi phân tích hồi quy ● Biết được cách tính và ý nghĩa của hệ số tương quan Pearson và hệ số tương quan hạng Spearman © 2013 Nguyễn Tiến Dũng 2 CÁC NỘI DUNG CHÍNH ● 11.1 LÀM QUEN VỚI HỒI QUY ● 11.2 MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN ● 11.3 TƯƠNG QUAN TUYẾN TÍNH ● 11.4 TƯƠNG QUAN GIỮA CÁC BIẾN ĐỊNH TÍNH © 2013 Nguyễn Tiến Dũng 3 11.1 Làm quen với hồi quy ● 11.1.1 Khái niệm hồi quy ● Regression, Regression to mediority: quy các điểm DL đã biết về một đường lý thuyết ● Đ/nghĩa của TK: ● NC mối liên hệ phụ thuộc giữa một biến phụ thuộc (biến đầu ra) và một hay nhiều biến độc lập (biến đầu vào), ● nhằm ước tính hoặc dự báo giá trị trung bình tổng thể của biến phụ thuộc dựa trên các giá trị biết trước của biến độc lập ● Hồi quy đơn biến (simple regression): 1 biến PT và 1 biến ĐL, DL định lượng ● TD: ● KQ học tập = f(thời gian tự học) ● KQ học tập = f(thời gian tự học, yêu thích chuyên ngành) ● Lượng tiêu thụ = f(P1, P2, P3, P4) ● Chất lượng sản phẩm = f(NVL, thiết bị, công nghệ, con người, quản lý) © 2013 Nguyễn Tiến Dũng 4 11.1.2 Phân biệt liên hệ TK và liên hệ hàm số khi phân tích hồi quy ● Liên hệ hàm số: Y = b0 + b1X ● Với 1 giá trị của X, có 1 giá trị xác định và duy nhất của Y ● Liên hệ TK: Y = b0 + b1.X ● X = thời gian tự học; Y = điểm GPA ● DL về X: dữ liệu mẫu ● Một X, có thể có nhiều Y ● DL mẫu  xác định đường HQ mẫu  dự đoán đường HQ tổng thể © 2013 Nguyễn Tiến Dũng 5 © 2013 Nguyễn Tiến Dũng 6 11.1.3 Quy ước về ký hiệu và tên gọi ● Biến số: Y = b0 + b1.X1 + b2X2 ● Biến độc lập, biến đầu vào, biến giải thích: X1, X2 ● Biến phụ thuộc, biến đầu ra, biến được giải thích: Y ● Xki: giá trị của quan sát thứ i của biến Xk. ● b0, b1, b2: các hệ số của phương trình hồi quy ● Hồi quy đơn biến và hồi quy đa biến (HQ bội) ● HQ đơn biến (simple regression): 1 biến ĐL ● HQ đa biến (multiple regression): nhiều biến ĐL © 2013 Nguyễn Tiến Dũng 7 11.1.4 Các dạng liên hệ giữa biến độc lập và biến phụ thuộc © 2013 Nguyễn Tiến Dũng 8 11.2 Mô hình hồi quy tuyến tính đơn ● 11.2.1 Mở đầu ● NC mối liên hệ giữa thu nhập (X) và chi tiêu (Y) ● Lấy mẫu n hộ gia đình ● Đường hồi quy lý thuyết ● E(Y|Xi) = b0 + b1.Xi ● Yi = b0 + b1Xi + ei ● b0: hệ số tung độ gốc (hệ số chặn) ● b1: hệ số dốc (hệ số góc) ● ei: sai số, thể hiện yếu tố nhiễu © 2013 Nguyễn Tiến Dũng 9 11.2.2 Các giả định liên quan đến yếu tố nhiễu ● Các ei tại mỗi Xi có phân phối bình thường ● Không có sự tương quan giữa các nhiễu, hay các ei độc lập với nhau © 2013 Nguyễn Tiến Dũng 10 11.2.3 Ý nghĩa và cách xác định các hệ số hồi quy ● b1: hệ số độ dốc, đo lường lượng thay đổi TB trong biến phụ thuộc Y khi X thay đổi 1 đơn vị. ● b0: hệ số tung độ gốc cho biết giá trị của Y khi X = 0, có thể coi là ảnh hưởng TB của các yếu tố khác mà không có mặt trong mô hình © 2013 Nguyễn Tiến Dũng 11 Dữ liệu mẫu Bảng 11.1 Stt Số năm Doanh số 1 3 487 2 5 445 3 2 272 4 8 641 5 2 187 6 6 440 7 7 346 8 1 238 9 4 312 10 2 269 11 9 655 12 6 563 © 2013 Nguyễn Tiến Dũng 12 Xác định các hệ số hồi quy ● Phương pháp Cực tiểu hoá tổng bình phương của các phần dư © 2013 Nguyễn Tiến Dũng 13 2 2 0 1 1 1 min min ( )X n n i i i i i e Y b b       1 1 2 1 0 1 ( )( ) ( ) n i i i n i i X X Y Y b X X b Y b X           11.2.4 Tính toán các kết quả hồi quy bằng Excel ● Vẽ đồ thị Scatter Chart © 2013 Nguyễn Tiến Dũng 14 y = 49,91x + 175,83 R² = 0,6931 0 100 200 300 400 500 600 700 0 2 4 6 8 10 D o a n h s ố b á n h à n g ( tr iệ u đ ồ n g ) Số năm kinh nghiệm ● Sử dụng Data Analysis © 2013 Nguyễn Tiến Dũng 15 11.2.6 Đo lường biến thiên bằng Hệ số xác định ● Hệ số xác định (Coefficient of Determination) © 2013 Nguyễn Tiến Dũng 16 2 1 2 1 2 1 2 ( ) ˆ( ) ˆ( ) n i i n i i n i i i SST SSR SSE SST Y Y SSR Y Y SSE Y Y SSR R SST                © 2013 Nguyễn Tiến Dũng 17 11.2.5 Vấn đề cần chú ý khi dự đoán với mô hình hồi quy ● Chỉ nên dự đoán 𝑌𝑖 với những giá trị Xi nằm giữa Xmin và Xmax, hoặc không quá xa Xmin và Xmax ● Lý do: với những giá trị Xi nằm càng xa Xtb, thì sai số khi ước lượng Yi càng lớn. © 2013 Nguyễn Tiến Dũng 18 11.2.8 Suy diễn TK về hệ số độ dốc ● 11.2.8.1 Định lý Gauss-Markov ● Giả định: PP của Y là bình thường thì PP của b0 và b1 cũng là PP bình thường ● Đ/lý Gauss-Markov ● Trong các ƯL tuyến tính không chệch cho hệ số hồi quy tổng thể, ƯL tìm được bằng PP bình phương bé nhất có PS cực tiểu. © 2013 Nguyễn Tiến Dũng 19 11.2.8.2 Khoảng tin cậy cho hệ số độ dốc © 2013 Nguyễn Tiến Dũng 20 11.2.8.3 KĐ ý nghĩa của hệ số độ dốc ● Cặp giả thuyết KĐ ● Chỉ tiêu KĐ tính: t = b1/sb1 ● Quy tắc bác bỏ H0: ● TD: ● b1 = 49,91 ● sb1 = 10,5021 ● t = 4,7524 ● t tra bảng: tn-2;α/2 = t10; 0,025=2,228 ● Bác bỏ H0. © 2013 Nguyễn Tiến Dũng 21 0 1 1 1 2; /2 2; /2 : 0 : 0 0 Baùc boû H neáu n n H H t t t t              © 2013 Nguyễn Tiến Dũng 22 11.2.9 Phân tích phần dư ● 11.2.9.1 Kiểm tra tính đúng đắn của mô hình HQTT ● KT mối liên hệ tuyến tính: ● Vẽ đồ thị phần dư theo biến độc lập X: e = f(X) ● Nếu các điểm không tạo thành một hình mẫu cụ thể nào thì quan hệ HQTT là đúng đắn © 2013 Nguyễn Tiến Dũng 23 11.2.9.2 KT sự vi phạm giả định PS bằng nhau ● Phương pháp đồ thị phần dư (e) theo X ● Nếu phần dư tăng dần khi X tăng lên thì có nghĩa là phương sai của phần dư đã thay đổi  vi phạm ● Phương pháp Kiểm định Park © 2013 Nguyễn Tiến Dũng 24 11.2.9.3 KT giả định PP bình thường của phần dư ● Vẽ đồ thị xác suất bình thường (Normal Probability Plot): e = e(z) ● Sử dụng Excel © 2013 Nguyễn Tiến Dũng 25 © 2013 Nguyễn Tiến Dũng 26 11.2.9.4 KT tính độc lập của phần dư ● P.pháp đồ thị: vẽ đồ thị phần dư theo trật tự các giá trị thu được theo thời gian. Nếu không xuất hiện một hình mẫu xác định nào  có thể KL là các phần dư độc lập với nhau. ● KĐ Durbin-Watson: Chỉ tiêu KĐ D © 2013 Nguyễn Tiến Dũng 27 2 1 2 2 1 ( ) : phaàn dö taïi quan saùt i : soá quan saùt Giaù trò cuûa D: 0 D 4 n i i i n i i i e e D e e n          © 2013 Nguyễn Tiến Dũng 28 Durbin-Watson Table © 2013 Nguyễn Tiến Dũng 29 11.2.10 Sử dụng PT hồi quy để dự đoán giá trị TB và giá trị cá biệt của Y ● Giá trị TB © 2013 Nguyễn Tiến Dũng 30 ● Giá trị cá biệt 0 0 0 0 1 0 2 0 2; /2 | 2 1 ˆ( | ) ˆ 1 ( ) ( ) Y n Y X nY i i E Y X Y e Y b b X X X e t s n X X             0 0 0 0 1 0 2 0 2; /2 | 2 1 ˆ ˆ 1 ( ) 1 ( ) Y Y n Y X n i i Y Y e Y b b X X X e t s n X X              11.3 Tương quan tuyến tính ● 11.3.1 Hệ số tương quan tổng thể rho ● 11.3.2 Hệ số tương quan mẫu rXY © 2013 Nguyễn Tiến Dũng 31 cov( , ) var( ) var( ) . XY XY XY X Y X Y X Y        1 2 2 1 1 ( )( ) . ( ) ( ) n i i XY i XY n n X Y i i i i x x y y s r s s x x y y              Giá trị và ý nghĩa của hệ số tương quan: ● r < 0: có mối liên hệ tỷ lệ nghịch ● r > 0: có mối liên hệ tỷ lệ thuận ● |r| > 0,8 : TQTT rất mạnh ● |r| = 0,6 – 0,8: TQTT mạnh ● |r| = 0,4 – 0,6: TQTT vừa phải ● |r| = 0,2 – 0,4: TQTT yếu ● |r| < 0,2 : TQTT rất yếu © 2013 Nguyễn Tiến Dũng 32 KĐ ý nghĩa của hệ số tương quan tuyến tính ● Cặp giả thuyết KĐ ● Chỉ tiêu KĐ ● Quy tắc bác bỏ H0 ● Bác bỏ H0 nếu |t| > tn-2;α/2 ● TD: Trang 345 © 2013 Nguyễn Tiến Dũng 33 0 1 : 0 : 0 H H      22 2 11 2 r n t r rr n       11.4 Tương quan giữa các biến định tính ● 11.4.1 Hệ số TQ hạng Spearman ● 11.4.2 Hệ số Kendall Tau ● 11.4.3 Hệ số tq đối với DL thứ bậc trong DL đã phân nhóm (tau c, gamma, dyx và dxy) © 2013 Nguyễn Tiến Dũng 34 KĐ theo hệ số tương quan hạng Spearman rS ● Biến X1 và X2 có dữ liệu thứ bậc (hoặc DL khoảng, nhưng đã biến thành DL thứ bậc bằng cách xếp hạng trong từng mẫu), mẫu n cặp quan sát ● Tính chênh lệch hạng di = x1i – x2i (i = 1, 2, n) ● Tính hệ số tương quan hạng rS ● H0: Không có liên hệ giữa 2 biến (Hệ số tương quan hạng của tổng thể = 0) ● Nếu số trường hợp có di = 0 nhiều, thì cần thêm một hệ số hiệu chỉnh ● Nếu n > 10, PP của hệ số TQ hạng trên mẫu xấp xỉ PP bình thường với độ lệch chuẩn là 1/(n – 1). Chỉ tiêu KĐ sẽ là z © 2013 Nguyễn Tiến Dũng 35 1 1 / 1 S S r z r n n      2 1 6 1 ( 1) S n i i d r n n    
Tài liệu liên quan