MỤC TIÊU CỦA CHƯƠNG
● Sau khi học xong chương này, người học sẽ
● Nói được phạm vi ứng dụng của phương pháp phân tích hồi quy và tương quan đơn biến
● Biết cách thực hiện một phân tích hồi quy dựa trên dữ liệu mẫu
● Nói được những điều kiện và giả định cần thiết khi phân tích hồi quy
● Biết được cách tính và ý nghĩa của hệ số tương quan Pearson và hệ số tương quan hạng Spearman
35 trang |
Chia sẻ: thanhtuan.68 | Lượt xem: 1136 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Bài giảng Thống kê ứng dụng - Chương 11 Hồi quy và tương quan đơn biến, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Chương 11
HỒI QUY VÀ TƯƠNG QUAN ĐƠN BIẾN
Ths. Nguyễn Tiến Dũng
Viện Kinh tế và Quản lý, Trường ĐH Bách khoa Hà Nội
Email: dung.nguyentien3@hust.edu.vn
MỤC TIÊU CỦA CHƯƠNG
● Sau khi học xong chương này, người học sẽ
● Nói được phạm vi ứng dụng của phương pháp phân
tích hồi quy và tương quan đơn biến
● Biết cách thực hiện một phân tích hồi quy dựa trên
dữ liệu mẫu
● Nói được những điều kiện và giả định cần thiết khi
phân tích hồi quy
● Biết được cách tính và ý nghĩa của hệ số tương quan
Pearson và hệ số tương quan hạng Spearman
© 2013 Nguyễn Tiến Dũng 2
CÁC NỘI DUNG CHÍNH
● 11.1 LÀM QUEN VỚI HỒI QUY
● 11.2 MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN
● 11.3 TƯƠNG QUAN TUYẾN TÍNH
● 11.4 TƯƠNG QUAN GIỮA CÁC BIẾN ĐỊNH TÍNH
© 2013 Nguyễn Tiến Dũng 3
11.1 Làm quen với hồi quy
● 11.1.1 Khái niệm hồi quy
● Regression, Regression to mediority: quy các điểm DL đã biết về một đường
lý thuyết
● Đ/nghĩa của TK:
● NC mối liên hệ phụ thuộc giữa một biến phụ thuộc (biến đầu ra) và một hay
nhiều biến độc lập (biến đầu vào),
● nhằm ước tính hoặc dự báo giá trị trung bình tổng thể của biến phụ thuộc dựa
trên các giá trị biết trước của biến độc lập
● Hồi quy đơn biến (simple regression): 1 biến PT và 1 biến ĐL, DL định lượng
● TD:
● KQ học tập = f(thời gian tự học)
● KQ học tập = f(thời gian tự học, yêu thích chuyên ngành)
● Lượng tiêu thụ = f(P1, P2, P3, P4)
● Chất lượng sản phẩm = f(NVL, thiết bị, công nghệ, con người, quản lý)
© 2013 Nguyễn Tiến Dũng 4
11.1.2 Phân biệt liên hệ TK và liên hệ hàm số khi
phân tích hồi quy
● Liên hệ hàm số: Y = b0 + b1X
● Với 1 giá trị của X, có 1 giá trị xác định và duy nhất
của Y
● Liên hệ TK: Y = b0 + b1.X
● X = thời gian tự học; Y = điểm GPA
● DL về X: dữ liệu mẫu
● Một X, có thể có nhiều Y
● DL mẫu xác định đường HQ mẫu dự đoán
đường HQ tổng thể
© 2013 Nguyễn Tiến Dũng 5
© 2013 Nguyễn Tiến Dũng 6
11.1.3 Quy ước về ký hiệu và tên gọi
● Biến số: Y = b0 + b1.X1 + b2X2
● Biến độc lập, biến đầu vào, biến giải thích: X1, X2
● Biến phụ thuộc, biến đầu ra, biến được giải thích: Y
● Xki: giá trị của quan sát thứ i của biến Xk.
● b0, b1, b2: các hệ số của phương trình hồi quy
● Hồi quy đơn biến và hồi quy đa biến (HQ bội)
● HQ đơn biến (simple regression): 1 biến ĐL
● HQ đa biến (multiple regression): nhiều biến ĐL
© 2013 Nguyễn Tiến Dũng 7
11.1.4 Các dạng liên hệ giữa biến độc lập và biến
phụ thuộc
© 2013 Nguyễn Tiến Dũng 8
11.2 Mô hình hồi quy tuyến tính đơn
● 11.2.1 Mở đầu
● NC mối liên hệ giữa thu nhập
(X) và chi tiêu (Y)
● Lấy mẫu n hộ gia đình
● Đường hồi quy lý thuyết
● E(Y|Xi) = b0 + b1.Xi
● Yi = b0 + b1Xi + ei
● b0: hệ số tung độ gốc (hệ số
chặn)
● b1: hệ số dốc (hệ số góc)
● ei: sai số, thể hiện yếu tố nhiễu
© 2013 Nguyễn Tiến Dũng 9
11.2.2 Các giả định liên quan đến yếu tố nhiễu
● Các ei tại mỗi Xi có phân
phối bình thường
● Không có sự tương quan
giữa các nhiễu, hay các ei
độc lập với nhau
© 2013 Nguyễn Tiến Dũng 10
11.2.3 Ý nghĩa và cách xác định các hệ số hồi quy
● b1: hệ số độ dốc, đo lường lượng thay đổi TB trong
biến phụ thuộc Y khi X thay đổi 1 đơn vị.
● b0: hệ số tung độ gốc cho biết giá trị của Y khi X =
0, có thể coi là ảnh hưởng TB của các yếu tố khác
mà không có mặt trong mô hình
© 2013 Nguyễn Tiến Dũng 11
Dữ liệu mẫu Bảng 11.1
Stt Số năm Doanh số
1 3 487
2 5 445
3 2 272
4 8 641
5 2 187
6 6 440
7 7 346
8 1 238
9 4 312
10 2 269
11 9 655
12 6 563
© 2013 Nguyễn Tiến Dũng 12
Xác định các hệ số hồi quy
● Phương pháp Cực tiểu hoá
tổng bình phương của các
phần dư
© 2013 Nguyễn Tiến Dũng 13
2 2
0 1
1 1
min min ( )X
n n
i i i
i i
e Y b b
1
1
2
1
0 1
( )( )
( )
n
i i
i
n
i
i
X X Y Y
b
X X
b Y b X
11.2.4 Tính toán các kết quả hồi quy bằng Excel
● Vẽ đồ thị Scatter Chart
© 2013 Nguyễn Tiến Dũng 14
y = 49,91x + 175,83
R² = 0,6931
0
100
200
300
400
500
600
700
0 2 4 6 8 10
D
o
a
n
h
s
ố
b
á
n
h
à
n
g
(
tr
iệ
u
đ
ồ
n
g
)
Số năm kinh nghiệm
● Sử dụng Data Analysis
© 2013 Nguyễn Tiến Dũng 15
11.2.6 Đo lường biến thiên bằng Hệ số xác định
● Hệ số xác định (Coefficient of Determination)
© 2013 Nguyễn Tiến Dũng 16
2
1
2
1
2
1
2
( )
ˆ( )
ˆ( )
n
i
i
n
i
i
n
i i
i
SST SSR SSE
SST Y Y
SSR Y Y
SSE Y Y
SSR
R
SST
© 2013 Nguyễn Tiến Dũng 17
11.2.5 Vấn đề cần chú ý khi dự đoán với mô hình
hồi quy
● Chỉ nên dự đoán 𝑌𝑖 với những giá trị Xi nằm giữa
Xmin và Xmax, hoặc không quá xa Xmin và Xmax
● Lý do: với những giá trị Xi nằm càng xa Xtb, thì sai
số khi ước lượng Yi càng lớn.
© 2013 Nguyễn Tiến Dũng 18
11.2.8 Suy diễn TK về hệ số độ dốc
● 11.2.8.1 Định lý Gauss-Markov
● Giả định: PP của Y là bình thường thì PP của b0
và b1 cũng là PP bình thường
● Đ/lý Gauss-Markov
● Trong các ƯL tuyến tính không chệch cho hệ số hồi
quy tổng thể, ƯL tìm được bằng PP bình phương bé
nhất có PS cực tiểu.
© 2013 Nguyễn Tiến Dũng 19
11.2.8.2 Khoảng tin cậy cho hệ số độ dốc
© 2013 Nguyễn Tiến Dũng 20
11.2.8.3 KĐ ý nghĩa của hệ số độ dốc
● Cặp giả thuyết KĐ
● Chỉ tiêu KĐ tính: t = b1/sb1
● Quy tắc bác bỏ H0:
● TD:
● b1 = 49,91
● sb1 = 10,5021
● t = 4,7524
● t tra bảng: tn-2;α/2 = t10; 0,025=2,228
● Bác bỏ H0.
© 2013 Nguyễn Tiến Dũng 21
0 1
1 1
2; /2
2; /2
: 0
: 0
0
Baùc boû H neáu
n
n
H
H
t t
t t
© 2013 Nguyễn Tiến Dũng 22
11.2.9 Phân tích phần dư
● 11.2.9.1 Kiểm tra tính đúng đắn của mô hình HQTT
● KT mối liên hệ tuyến tính:
● Vẽ đồ thị phần dư theo biến độc lập X: e = f(X)
● Nếu các điểm không tạo thành một hình mẫu cụ thể
nào thì quan hệ HQTT là đúng đắn
© 2013 Nguyễn Tiến Dũng 23
11.2.9.2 KT sự vi phạm giả định PS bằng nhau
● Phương pháp đồ thị phần dư (e) theo X
● Nếu phần dư tăng dần khi X tăng lên thì có nghĩa là
phương sai của phần dư đã thay đổi vi phạm
● Phương pháp Kiểm định Park
© 2013 Nguyễn Tiến Dũng 24
11.2.9.3 KT giả định PP bình thường của phần dư
● Vẽ đồ thị xác suất bình thường (Normal Probability Plot): e = e(z)
● Sử dụng Excel
© 2013 Nguyễn Tiến Dũng 25
© 2013 Nguyễn Tiến Dũng 26
11.2.9.4 KT tính độc lập của phần dư
● P.pháp đồ thị: vẽ đồ thị phần dư
theo trật tự các giá trị thu được theo
thời gian. Nếu không xuất hiện một
hình mẫu xác định nào có thể KL
là các phần dư độc lập với nhau.
● KĐ Durbin-Watson: Chỉ tiêu KĐ D
© 2013 Nguyễn Tiến Dũng 27
2
1
2
2
1
( )
: phaàn dö taïi quan saùt i
: soá quan saùt
Giaù trò cuûa D: 0 D 4
n
i i
i
n
i
i
i
e e
D
e
e
n
© 2013 Nguyễn Tiến Dũng 28
Durbin-Watson Table
© 2013 Nguyễn Tiến Dũng 29
11.2.10 Sử dụng PT hồi quy để dự đoán giá trị TB
và giá trị cá biệt của Y
● Giá trị TB
© 2013 Nguyễn Tiến Dũng 30
● Giá trị cá biệt
0 0
0 0 1 0
2
0
2; /2 |
2
1
ˆ( | )
ˆ
1 ( )
( )
Y
n Y X nY
i
i
E Y X Y e
Y b b X
X X
e t s
n
X X
0 0
0 0 1 0
2
0
2; /2 |
2
1
ˆ
ˆ
1 ( )
1
( )
Y
Y n Y X n
i
i
Y Y e
Y b b X
X X
e t s
n
X X
11.3 Tương quan tuyến tính
● 11.3.1 Hệ số tương quan tổng thể rho
● 11.3.2 Hệ số tương quan mẫu rXY
© 2013 Nguyễn Tiến Dũng 31
cov( , )
var( ) var( )
.
XY
XY
XY
X Y
X Y
X Y
1
2 2
1 1
( )( )
.
( ) ( )
n
i i
XY i
XY
n n
X Y
i i
i i
x x y y
s
r
s s
x x y y
Giá trị và ý nghĩa của hệ số tương quan:
● r < 0: có mối liên hệ tỷ lệ nghịch
● r > 0: có mối liên hệ tỷ lệ thuận
● |r| > 0,8 : TQTT rất mạnh
● |r| = 0,6 – 0,8: TQTT mạnh
● |r| = 0,4 – 0,6: TQTT vừa phải
● |r| = 0,2 – 0,4: TQTT yếu
● |r| < 0,2 : TQTT rất yếu
© 2013 Nguyễn Tiến Dũng 32
KĐ ý nghĩa của hệ số tương quan tuyến tính
● Cặp giả thuyết KĐ
● Chỉ tiêu KĐ
● Quy tắc bác bỏ H0
● Bác bỏ H0 nếu |t| > tn-2;α/2
● TD: Trang 345
© 2013 Nguyễn Tiến Dũng 33
0
1
: 0
: 0
H
H
22
2
11
2
r n
t r
rr
n
11.4 Tương quan giữa các biến định tính
● 11.4.1 Hệ số TQ hạng Spearman
● 11.4.2 Hệ số Kendall Tau
● 11.4.3 Hệ số tq đối với DL thứ bậc trong DL đã
phân nhóm (tau c, gamma, dyx và dxy)
© 2013 Nguyễn Tiến Dũng 34
KĐ theo hệ số tương quan hạng Spearman rS
● Biến X1 và X2 có dữ liệu thứ bậc (hoặc DL khoảng,
nhưng đã biến thành DL thứ bậc bằng cách xếp
hạng trong từng mẫu), mẫu n cặp quan sát
● Tính chênh lệch hạng di = x1i – x2i (i = 1, 2, n)
● Tính hệ số tương quan hạng rS
● H0: Không có liên hệ giữa 2 biến (Hệ số tương
quan hạng của tổng thể = 0)
● Nếu số trường hợp có di = 0 nhiều, thì cần thêm
một hệ số hiệu chỉnh
● Nếu n > 10, PP của hệ số TQ hạng trên mẫu xấp xỉ
PP bình thường với độ lệch chuẩn là 1/(n – 1).
Chỉ tiêu KĐ sẽ là z
© 2013 Nguyễn Tiến Dũng 35
1
1 / 1
S
S
r
z r n
n
2
1
6
1
( 1)
S
n
i
i
d
r
n n