Residuals – độ dao động dư
• Mô hình cho dữ liệu
y = a + bx + e
Giá trị trung bình: E(y) = yhat = a + bx
Phần dư : e = y – E(y)
• Phát biểu "thường dân"
Dữ liện quan sát = Mô hình tiên lượng + Phần dư (nhiễu)
Phần dư = giá trị quan sát – giá trị tiên lượngPhân tích phương sai
• Mô hình
pcfat = a + b*age+ e
• Giá trị quan sát = model (mô hình) + random (ngẫu nhiên)
SS
total = SSreg + SSerror
SStotal = total sum of squares
SS
reg = sum of squares due to the regression model
SS
error = sum of squares due to random component
Hai thước đo đánh giá mô hình HQTT
• RMSE – residual mean squared error
– có thể xem là 'phương sai' của biến Y sau khi đã hiệu chỉnh
cho X
• Hệ số xác định (coefficient of determination), R2
– Phản ảnh bao nhiêu phần trăm dao động của biến Y có thể
giải thích bởi biến X (còn gọi là "explained variation")
14 trang |
Chia sẻ: thanhle95 | Lượt xem: 679 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Bài giảng Phân tích dữ liệu và ứng dụng - Bài 7b: Thước đo đánh giá mô hình hồi quy tuyến tính, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Tuan V. Nguyen
Senior Principal Research Fellow, Garvan Institute of Medical Research
Professor, UNSW School of Public Health and Community Medicine
Professor of Predictive Medicine, University of Technology Sydney
Adj. Professor of Epidemiology and Biostatistics,
School of Medicine Sydney, University of Notre Dame Australia
Phân tích dữ liệu và ứng dụng | Đại học Dược Hà Nội | 12/6 to 17/6/2019 © Tuan V. Nguyen
Đánh giá mô hình hồi qui tuyến tính
• Khái niệm 'residual' và phương sai
• RMSE – residual mean squared error
• Hệ số xác định (coefficient of determination)
Mô hình hồi qui tuyến tính
• Mô hình
Y = a + bX + e
• Chúng ta không biết α và β
• Nhưng có thể dùng dữ liệu thí nghiệm / thực tế để ước tính 2
tham số đó
• Ước số (estimate) của α và β là a và b
Phương pháp "Least square"
Y
X
ii bxay +=ˆ
iii yyd ˆ-=
yi
Tìm công thức (estimator) để tính a và b sao cho tổng d2 là nhỏ nhất à Least
square method = Bình phương nhỏ nhất
Residuals – độ dao động dư
• Mô hình cho dữ liệu
y = a + bx + e
Giá trị trung bình: E(y) = yhat = a + bx
Phần dư : e = y – E(y)
• Phát biểu "thường dân"
Dữ liện quan sát = Mô hình tiên lượng + Phần dư (nhiễu)
Phần dư = giá trị quan sát – giá trị tiên lượng
Phân tích phương sai
• Mô hình
pcfat = a + b*age+ e
• Giá trị quan sát = model (mô hình) + random (ngẫu nhiên)
SStotal = SSreg + SSerror
SStotal = total sum of squares
SSreg = sum of squares due to the regression model
SSerror = sum of squares due to random component
pcfat
age
trung bình -- mean
SSreg
SSerror
SStotal
SStotal = SSreg + SSerror
R-square = SSreg / SStotal
Hai thước đo đánh giá mô hình HQTT
• RMSE – residual mean squared error
– có thể xem là 'phương sai' của biến Y sau khi đã hiệu chỉnh
cho X
• Hệ số xác định (coefficient of determination), R2
– Phản ảnh bao nhiêu phần trăm dao động của biến Y có thể
giải thích bởi biến X (còn gọi là "explained variation")
Hệ số xác định (R2)
m1 = lm(pcfat ~ age, data=ob)
anova(m1)
Analysis of Variance Table
Response: pcfat
Df Sum Sq Mean Sq F value Pr(>F)
age 1 5917 5916.8 126.52 < 2.2e-16 ***
Residuals 1215 56821 46.8
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
R2 = 5917 / (5917 + 56821) = 0.094
RMSE = 46.8
Diễn giải hệ số xác định
Residual standard error: 6.839 on 1215 degrees of freedom
Multiple R-squared: 0.09431, Adjusted R-squared: 0.09357
F-statistic: 126.5 on 1 and 1215 DF, p-value: < 2.2e-16
Coefficient of determination R2 = 0.094
Diễn giải: Những khác biệt về độ tuổi giải thích khoảng 9.5% tổng phương
sai của tỉ trọng mỡ.
Diễn giải RMSE
• RMSE = 46.8 là phương sai của biến Y sau khi đã hiệu chỉnh cho biến X
• Phương sai của pcfat khi chưa có X là
> var(ob$pcfat)
[1] 51.5935
Khác biệt gvề pcfat giữa nam và nữ: diễn giải
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 34.6724 0.1826 189.9 <2e-16 ***
genderM -10.5163 0.3381 -31.1 <2e-16 ***
Mô hình (giả thuyết)
pcfat = α + β(gender) + ε
Phương trình
pcfat = 34.7 – 10.5*gender(M)
Diễn giải: Nam có tỉ trọng mỡ thấp hơn nữ 10.5% (SE 0.34%), và sự khác
biệt này có ý nghĩa thống kê (P < 0.0001)
Khác biệt gvề pcfat giữa nam và nữ: diễn giải
Residual standard error: 5.362 on 1215 degrees of freedom
Multiple R-squared: 0.4432, Adjusted R-squared: 0.4428
F-statistic: 967.3 on 1 and 1215 DF, p-value: < 2.2e-16
Diễn giải: Khác biệt giữa nam và nữ giải thích 44% những khác biệt về
phương sai của tỉ trọng mỡ.
Tóm tắt
Hai thước đo đánh giá mô hình hồi qui tuyến tính
• RMSE (phương sai của Y sau khi đã điều chỉnh cho X)
• Hệ số xác định R2