Phân tích hồi quy
• Phân tích hồi quy được sử dụng để xác định
mối liên hệ giữa:
– Một biến phụ thuộc Y (biến được giải thích)
– Một hay nhiều biến độc lập X1, X2, ,Xn (còn được
gọi là biến giải thích)
• Biến phụ thuộc Y phải là biến liên tục
• Các biến độc lập X1, X2, , Xn có thể là biến liên
tục, rời rạc hay phân loại.
15 trang |
Chia sẻ: thanhle95 | Lượt xem: 366 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Bài giảng Toán cao cấp 1 - Chương 5c: Hồi qui và tương quan - Nguyễn Văn Tiến, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
19/10/2017
1
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
HỒI QUI VÀ TƯƠNG
QUAN
CHƯƠNG 5C
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Tương quan
• Hai biến được nói là có tương quan nếu chúng
có quan hệ với nhau, chính xác hơn, sự thay đổi
của biến này có ảnh hưởng đến thay đổi của
biến còn lại.
• Ký hiệu (x,y) là cặp giá trị quan sát được của hai
biến X, Y.
• Ta có thể vẽ đồ thị của các quan sát thông qua
biểu đồ phân tán (scatter diagram)
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Ví dụ
• Một công ty nghiên cứu ảnh hưởng của quảng cáo tới
doanh số bán hàng. Dữ liệu quảng cáo và doanh thu
từng tháng được thu thập như sau:
• Hãy vẽ biểu đồ phân tán.
Chi phí quảng cáo 1,3 0,9 1,8 2,1 1,5
Tổng doanh số
tháng tới
151,6 100,1 199,3 221,2 170,0
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Biểu đồ phân tán
• Biến độc lập:
chi phí quảng
cáo
• Biến phụ thuộc:
doanh số bán
hàng
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Hệ số tương quan Pearson
• Ký hiệu: r hay rX,Y
• Công thức:
• Trong đó n là số lượng quan sát
1
2 2
2 21 1
, ; cov ,
cov ,
. 1
;
1 1
n
i i
i
n n
i i
i
X Y
X Y
X
i
Y
x x y y
x y
n
x y
r
x x y y
n n
1
,
2 2
1 1
.
n
i i
i
X Y n n
i i
i i
x x y y
r
x x y y
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Hệ số tương quan Pearson
• Ký hiệu: r hay rX,Y
• Công thức:
• Trong đó n là số lượng quan sát
,
2 2 2 22 2 2 2
. .
. .
X Y
n xy x y xy x y
r
n x x n y y x x y y
1
,
2 2
1 1
.
n
i i
i
X Y n n
i i
i i
x x y y
r
x x y y
19/10/2017
2
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Trung bình; phương sai và hiệp phương sai
• Đối với quan sát mẫu
• Ta có:
1 2 1 1 2 1
2 2
2 2 2 2 2 2
2 21 2 1 1 2 1
1 1 1
... ...
;
... ...
;
...
n n
i i
n i n i
n n
i i
n i n i
n
i i
n n i
x y
x x x y y y
x y
n n n n
x y
x x x y y y
x y
n n n n
x y
x y x y
xy
n n
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Đánh giá hệ số tương quan
• Miền giá trị:
• Nếu thì tương quan âm. rXY càng
gần -1 thì mối liên hệ tuyến tính nghịch giữa X,
Y càng mạnh
• Nếu thì tương quan dương. rXY càng
gần -1 thì mối liên hệ tuyến tính thuận giữa X, Y
càng mạnh
• rXY càng gần 0 thì quan hệ tuyến tính càng yếu.
,1 1X Yr
,1 0X Yr
,0 1X Yr
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Đánh giá hệ số tương quan
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Ví dụ
• Hãy tính hệ số tương quan Pearson giữa chi phí
quảng cáo và doanh số trong ví dụ sau.
Chi phí quảng cáo 1,3 0,9 1,8 2,1 1,5
Tổng doanh số
tháng tới
151,6 100,1 199,3 221,2 170,0
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Ví dụ
X Y X2 Y2 XY
1,3 151,6 1,69 22.982,56 197,08
0,9 100,1 0,81 10.020,01 90,09
1,8 199,3 3,24 39.720,49 358,74
2,1 221,2 4,41 48.929,44 464,52
1,5 170,0 2,25 28.900,00 255,00
7,6 842,2 12,40 150.552,50 1.365,43
Σ Σ Σ 2 Σ 2 Σ
5 5
1 1
5 5 5
2 2
1 1 1
5 7,6 842,2
12,40 150.552,50 1365,43
i i
i i
i i i i
i i i
n x y
x y x y
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Ví dụ
• Ta có:
• Hệ số tương quan:
• Hoặc:
2
2
1,52 2,48 168,44
30110,5 273,086
x x y
y xy
2 2
273,086 1,52.168,44
2,48 1,52 30110,5 168
0
,44
,993371434XYr
1 1 1
2 2
1 1 1 1
2 2 2 2
5.1365, 43 7,6*842, 2
0,993371434
5.12,4 7,6 5.150552,5 842,2
.
.
n n n
i i i i
i i i
XY
n n n n
i i i i
i i i i
n x y x y
r
x x y yn n
19/10/2017
3
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Ví dụ
• Các giá trị trung bình
• Độ lệch chuẩn:
• Hệ số tương quan
2 212, 4 150552,5 1365,432,48; 30110,5; 273,086
5 5 5
x y xy
2 212,4 150552,5 1365,432,48; 30110,5; 273,086
5 5 5
0,460435 46,61634X Y
x y xy
0,993371r
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Ví dụ
• Số liệu về thời gian quảng cáo trên truyền hình
và lượng sản phẩm tiêu thụ ở một công ty sản
xuất đồ chơi trẻ em như sau:
• Thời gian: phút/tuần
• Lượng tiêu thụ: 1000sp/tuần
• Hãy tính hệ số tương quan mẫu và cho kết luận
Thời gian 28 37 44 36 47 35 26 29 33 32 31 28
Lượng tiêu thụ 41 32 49 42 38 33 27 24 35 30 34 25
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Ví dụ
• Đáp số: r=0,63882
• Kết luận: mối liên hệ tương quan giữa thời gian
quảng cáo và số sản phẩm tiêu thụ được là
tương quan thuận, ở mức trung bình.
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Hệ số tương quan Spearman
• Hệ số tương quan hạng
• Ký hiệu R
• Công thức:
• Trong đó n là cỡ mẫu và d là hiệu số của các
hạng.
2
2
6
1
1
d
R
n n
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Hệ số tương quan Spearman
• Khi tuyển dụng, một công ty đánh giá các ứng viên thông
qua phỏng vấn và bài kiểm tra. Khi phỏng vấn, các ứng viên
được đánh giá từ A (xuất sắc) đến E (không phù hợp) và
bài kiểm tra được tính theo thang điểm 100. Kết quả của 5
ứng viên như sau:
• Tính hệ số tương quan hạng Spearman và cho nhận xét
Ứng viên 1 2 3 4 5
Điểm phỏng vấn A B A C D
Điểm bài thi 60 61 50 72 70
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Ví dụ
• Ta lập bảng sau:
Ứng viên
Hạng
phỏng vấn
Hạng
kiểm tra
Hiệu
số
Hiệu số bình
phương
1 1,5 4 -2,5 6,25
2 3 3 0 0
3 1,5 5 -3,5 12,25
4 4 1 3 9
5 5 2 3 9
0 36,50
2
2
6 6 * 36, 50
1 1 0, 825
5. 25 11
d
R
n n
19/10/2017
4
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Ví dụ
• Một chuyên gia được
yêu cầu nếm thử 8
loại rượu có giá dưới
4 $. Hương vị các loại
rượu được xếp hạng
từ 1 (dở nhất) đến 8
(ngon nhất). Bảng
tổng hợp xếp hạng và
giá cả các loại rượu
như sau:
Loại rượu Hương vị Giá tiền
A 1 2,49
B 2 2,99
C 3 3,49
D 4 2,99
E 5 3,59
F 6 3,99
G 7 3,99
H 8 2,99
• Hãy tính hệ số tương quan hạng Spearman và cho
kết luận
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Ví dụ
• Ta lập bảng sau:
Loại rượu
Hạng
hương vị
Hạng
giá tiền
Hiệu
số
Hiệu số bình
phương
A
B
C
D
E
F
G
H
0 36,50
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Phân tích hồi quy
• Phân tích hồi quy được sử dụng để xác định
mối liên hệ giữa:
– Một biến phụ thuộc Y (biến được giải thích)
– Một hay nhiều biến độc lập X1, X2, ,Xn (còn được
gọi là biến giải thích)
• Biến phụ thuộc Y phải là biến liên tục
• Các biến độc lập X1, X2, , Xn có thể là biến liên
tục, rời rạc hay phân loại.
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Liên hệ hàm số và liên hệ thống kê
• Liên hệ hàm số: Y=aX+b
• Với một giá trị của X, có 1 giá trị duy nhất của Y
• Liên hệ thống kê: Y=aX+b
• Ví dụ: X: thời gian tự học; Y: điểm cuối kỳ
• Một giá trị của X có thể có nhiều giá trị của Y
• Dữ liệu X: dữ liệu mẫu
• Dữ liệu mẫu tìm đường hồi quy mẫu dự
đoán cho đường hồi quy tổng thể.
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Ví dụ
• Một công ty muốn ước lượng hàm chi phí cho một sản
phẩm. Giá trị của hàm chi phí được xác định tại một
vài mức sản xuất như sau.
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Ví dụ
• Mặc dù những điểm quan sát
không cùng nằm trên một
đường thẳng nhưng tương
quan tuyến tính rất mạnh
• Công ty muốn xấp xỉ hàm chi
phí bằng một hàm tuyến tính:
.y a x b
• Ta cần xác định các hệ số a, b sao cho đường thẳng
trên xấp xỉ tốt nhất cho hàm chi phí.
19/10/2017
5
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Thặng dư (residual)
• Ta cần xác định a, b sao cho tổng bình phương
thặng dư nhỏ nhất.
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Tổng bình phương thặng dư
• Ta có:
• Điểm dừng: M(0,58; 3,06)
• Hàm số F(a,b) đạt cực tiểu tại M.
2 2 2 2
, 4 2 6 5 7 6 8 9F a b a b a b a b a b
2 2
304 292 44 50 44 8
292 44 8
292 * 8 44 0
a b
aa ab bb
F a b F a b
A F B F C F
AC B
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Phương trình hồi quy
• Vậy phương trình cần tìm là:
• Dự đoán:
• Chi phí khi sản xuất 2000 sản
phẩm?
• Hàm chi phí biên?
• Hàm chi phí trung bình?
0, 58 3, 06y x
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Ví dụ
• Số liệu về doanh số và số lượng nhân viên kinh doanh
trong các khu vực của công ty X như sau:
• Hãy tìm mô hình tuyến tính dự đoán doanh số theo số
nhân viên kinh doanh
Khu vực Doanh số Số nhân viên kinh doanh
A 236 11
B 234 12
C 298 18
D 250 15
E 246 13
F 202 10
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Tổng quát
• Giả sử có n quan sát (x1,y1), (x2,y2),,(xn,yn)
• Ta cần xác định đường thẳng y=a.x+b sao cho tổng
bình phương của các thặng dư là nhỏ nhất.
• Hay cần cực tiểu hóa hàm số sau:
• Chú ý:
• a, b: là hai ẩn cần tìm
• xk; yk là các giá trị đã biết.
2
1
, .
n
k k
i
F a b y a x b
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Tổng quát
• Ta có:
• Tìm điểm dừng:
1
1
. .2
. .2 1
n
k k k
i
n
k k
i
F
y a x b x
a
F
y a x b
b
1 1 1
2 2
22
1 1
.
0
.
0
n n n
k k k k
k k k
n n
k k
k k
a y b x
F
n x y x ya xy x y
bF
x xb n x x
2
1 1 1
2 2 2
n n n
aa k ab k bb
i i i
A F x B F x C F
19/10/2017
6
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Tổng quát
• Ta có:
• Đường hồi quy luôn đi qua điểm ( ; )
1
22
2
1
.
.
n
k k
k
n
k
k
a y b x
x x y y
xy x y
b
x xx x
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Ví dụ
• Số liệu về doanh số và số lượng nhân viên kinh doanh
trong các khu vực của công ty X như sau:
• Hãy tìm mô hình tuyến tính dự đoán doanh số theo số
nhân viên kinh doanh
Khu vực Doanh số Số nhân viên kinh doanh
A 236 11
B 234 12
C 298 18
D 250 15
E 246 13
F 202 10
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Ví dụ
• Hệ số tương quan Pearson: r=0,948
• Giữa doanh số và số nhận viên kinh doanh có
tương quan tuyến tính mạnh; có thể giả sử
doanh số phụ thuộc tuyến tính theo số lượng
nhân viên kinh doanh
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Ý nghĩa các hệ số hồi quy
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Chú ý
• Phương pháp trên gọi là hồi quy tuyến tính
• Phương pháp bình phương thặng dư nhỏ nhất
có thể áp dụng đối với các dạng hàm khác như:
hàm bậc 2; bậc 3; bậc 4; logarit; hàm mũ và
hàm lũy thừa
• Trong trường hợp đó ta có các tên gọi hồi quy
tương ứng
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Ứng dụng kinh tế
• Nhu cầu sử dụng dầu nhiên liệu để sưởi ấm nhà ở Hoa
Kỳ đã giảm đều đặn trong nhiều thập kỷ. Bảng sau liệt
kê tỷ lệ hộ gia đình ở Hoa Kỳ sưởi ấm bằng dầu nhiên
liệu từ 1960 đến 2009. Sử dụng hồi quy tuyến tính để
ước lượng tỷ lệ hộ gia đình sử dụng dầu nhiên liệu vào
năm 1995
• Đáp số: 12,44%
19/10/2017
7
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Thực hành Excel
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Hồi quy tuyến tính
• Vấn đề: có hai biến quan sát X và Y
• Ta cần tìm phương trình thể hiện mối liên hệ
giá trị giữa Y và X
• Y: biến phụ thuộc; X: biến độc lập
• Dùng mô hình hồi quy đơn giản nhất: hồi quy
tuyến tính
• Có thể sử dụng các mô hình khác: phi tuyến;
bậc 2; bậc 3; mũ; logarit
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Hồi quy tuyến tính
• X và Y có tương quan tuyến tính mạnh
• Ta giả sử X và Y có mối quan hệ tuyến tính với
nhau.
• Mô hình như sau:
• β1 ∶ hệ số chặn (intercept)
• β2: hệ số góc (slope)
• u: sai số ngẫu nhiên (nhiễu ngẫu nhiên, nhiễu
trắng)
1 2y x ub b
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Hồi quy tuyến tính
• Với giá trị quan sát được ta có:
• yi : giá trị quan sát được của Y khi X nhận giá trị
là xi.
• xi: giá trị quan sát thứ i của X.
• ui: sai số ngẫu nhiên khi X nhận giá trị xi.
1 2i i iy x ub b
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Giả định về mô hình
• Giả thiết 1: Các giá trị Xi được xác định trước và
không phải là đại lượng ngẫu nhiên.
• Giả thiết 2: Kỳ vọng hoặc trung bình số học của
các sai số là bằng 0 (zero conditional mean),
nghĩa là E = 0
• Giả thiết 3: Các sai số có phương sai bằng nhau
(homoscedasticity).
V = σ
2
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Giả định về mô hình
• Minh họa giả định 3
19/10/2017
8
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Giả định về mô hình
• Giả thiết 4: Các sai số không có sự tương
quan, nghĩa là
Cov( , ) = E( ) = 0, nếu i j
• Giả thiết 5: Các sai số độc lập với biến giải
thích. Cov( , Xi) = 0
• Giả thiết 6: Đại lượng sai số ngẫu nhiên có phân
phối chuẩn ~ N(0, σ
2 )
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Hàm hồi quy tổng thể
• Hàm hồi quy tổng thể
• Đối với một quan sát cụ thể ta có:
• Mô hình chỉ có một biến phụ thuộc Y và một biến giải
thích X.
• và gọi là hệ số chặn (intercept) và hệ số góc
(slope) của đường thẳng hồi quy.
1 2
1 2
|
i
E Y X X X
Y X
1 2i i i
Y X u
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Hàm hồi quy mẫu SRF
• Ta ít khi có số liệu của cả tổng thể mà chỉ có số
liệu của mẫu (số liệu quan sát được)
• Ta dùng số liệu mẫu để ước lượng tổng thể
• Hàm hồi quy mẫu:
• Đối với quan sát thứ i:
1 2i i
Y X
1 2i i i
Y X u
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Y
X
46
1b
2bˆ
1bˆ
PRF
2b
SRF
Hệ số hồi quy trong hàm hồi quy PRF và SRF
PRF và SRF
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
PRF và SRF
Trong đó
• là ước lượng cho b1.
• là ước lượng cho b2.
• là ước lượng cho Y hay E(Y|Xi)
• Ta sử dụng phương pháp bình phương nhỏ
nhất thông thường (OLS) để tìm ;
47 Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Hồi quy tổng thể và hồi quy mẫu
Dạng tổng quát Đối với quan sát
thứ i
Mô hình hồi
quy tổng thể
Đường hồi
quy tổng thể
Mô hình hồi
quy mẫu
Đường hồi
quy mẫu
1 2y x ub b
1 2y x ub b
1 2y xb b
1 2y x b b
1 2i iy xb b
1 2iy i
x b b
1 2i i iy x ub b
1 2i i iy x ub b
19/10/2017
9
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Chú ý
Tình trạng Biện pháp
Hệ số β1 Tham số
Không xác định được
chính xác giá trị
Ước lượng
Kiểm địnhHệ số β
Phương sai sai số 2
Hệ số Biến ngẫu nhiên
Có thể tính được giá trị trên mẫu đã
chọn
Dùng để ước lượng cho các tham số
tổng thể
Hệ số
Phương sai thặng dư
mẫu 2
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Ước lượng OLS
• Tìm giá trị của β1; β2 sao cho:
• Đạt giá trị nhỏ nhất (pp bình phương tối thiểu)
• Dễ thấy:
2
2
1 2
1 1
n n
i i i
i i
u y x
1
2
2
1 22 2
2 2
1 2
2
1
. . .
;
n
i i
i
n
i
i
x y x xy xy x y
x x x x
x x y y
y x
x x
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Hệ số hồi quy mẫu
• Là các ước lượng của β1; β2
• Dạng biểu diễn khác:
1
2
2 2
1
1 1
1 2
;
n
ni i
ii
i i in n
i
i i
i i
x x y x x
c y c
x x x x
y x
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Một số tính chất
• Giá trị trung bình các hệ số hồi quy mẫu:
• Phương sai các hệ số hồi quy mẫu:
• Ta dùng các kết quả trên để ước lượng giá trị
của các hệ số hồi quy tổng thể β1; β2
• Nhưng giá trị của 2 chưa xác định.
1 21 2;E E
2
2
2
1 22 2
1 1
1
n n
i i
i i
x
V V
n
x x x x
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Một vài tính chất
• Kỳ vọng và phương sai của giá trị hồi quy
2
02
0 0 0 0 2
1
2
02
0 0 2
1
1
1
1
n
i
i
n
i
i
x x
E y x y V y
n
x x
x x
V y y
n
x x
Chú ý số 1
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Một vài tính chất
• Ta có:
1 2
1 1
0
n n
i i i
i i
u y xb b
1 1 1 1
0
n n n n
i i i ii i i
i i i i
u y y y y y y
19/10/2017
10
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Ký hiệu
• Để thuận tiện ta ký hiệu như sau:
• Ta có:
1 1
??? ??? ???
n n
xx i xy i i
i i
xu yy uy
S x x S x x y y
S S S
2 1 2 1 21 2
2
2
2
1 2
; ; ;
1
xy
xx
xx xx
S
y x E E
S
x
V V
n S S
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Ký hiệu
• Ta có:
2 2
0 02 2
0 0 0
1 1
; 1
xx xx
x x x x
V y V y y
n S n S
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Tách nhóm biến thiên: khái niệm
• TSS = tổng của các mức độ khác biệt bình
phương giữa từng giá trị yi và trị số trung bình
của y.
• ESS = tổng của các mức độ khác biệt bình
phương giữa các giá trị quan sát và giá trị dự
đoán của y.
• RSS = tổng của các mức độ khác biệt bình
phương giữa giá trị dự đoán của y và trị số
trung bình của y.
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Đo sự biến thiên của dữ liệu
• Tổng bình phương toàn phần (Total Sum of Squares)
• Tổng bình phương hồi quy (Regression Sum of
Squares)
• Tổng bình phương sai số (Residual Sum of Squares)
2
1
n
i
i
RSS y y
2
1
n
i
i
TSS y y
2
1
n
ii
i
ESS y y
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
RSS
Tổng chênh lệch
59
ESS
SRF
Y
X
yi
Xi
iy
Ý nghĩa hình học của TSS, RSS và ESS
Các tổng bình phương độ lệch
2
1
n
i
i
RSS y y
2
1
n
i
i
TSS y y
2
1
n
ii
i
ESS y y
y y
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Các tổng bình phương độ lệch
• Khi điểm quan sát càng gần đường thẳng ước
lượng thì “độ thích hợp” càng cao, có nghĩa là ESS
càng nhỏ và RSS càng lớn.
• Tham số đo độ thích hợp:
• R2 càng lớn càng tốt
• ESS: biến thiên không giải thích được
• RSS: biến thiên giải thích được
• R2 nhỏ nghĩa là nhiều biến thiên của Y không giải
thích được bằng X. Cần phải thêm nhiều biến khác
vào mô hình.
20 1R =
19/10/2017
11
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Hệ số xác định
• Coefficient of determination
• Là tỷ lệ của tổng sự biến thiên trong biến phụ
thuộc gây ra bởi sự biến thiên của các biến độc
lập (biến giải thích) so với tổng sự biến thiên
toàn phần.
• Tên gọi: R_bình phương (R squared)
• Ký hiệu:
• Dễ thấy:
2 RSSR
TSS
20 1R
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Hệ số xác định
• Đánh giá mô hình tìm được có giải thích tốt cho
mối liên hệ giữa biến phụ thuộc Y và biến độc
lập X hay không.
• Là bình phương của hệ số tương quan mẫu
2 2
2
2 2
2
2 22 2
2
2
2
i
i
XY
x x x xRSS
R
TSS
y y y y
R r
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Tính chất của hệ số xác định R2
63
• 0≤ R2≤1
• Cho biết % sự biến động của Y được giải thích bởi
các biến số X trong mô hình.
• R2 =1: đường hồi quy phù hợp hoàn hảo
• R2 =0: X và Y không có quan hệ
• R2 càng lớn càng tốt
• Đối với dữ liệu chuỗi thời gian thì R2 thường lớn hơn
0,9. Nếu thấp hơn 0,6 hay 0,7 thì xem là thấp
• Với dữ liệu chéo thì R2 khoảng 0,6 hay 0,7 cũng
chưa hẳn thấp
Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến
Ước lượng cho phương sai sai số 2
• Ta có:
• Đặt
• Ta dùng đại lượng này để xấp xỉ cho phương sai
sai số 2
2
2 2
2 21
1 1
2
2
n
in n
i
ii i
i i
u
E y y E u n E
n