Đồ thị phân tán (scatter-plots) là biểu thị phổ biến và hiểu quả cho dữ liệu.
Đồ thị phân tán là cách tốt nhất để bắt đầu quan sát mối liên hệ và cách lý tưởng để xem sự liên hợp
của hai biến định lượng.
30 trang |
Chia sẻ: nguyenlinh90 | Lượt xem: 781 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Phần 3: Khám phá mối quan hệ giữa các biến, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
9/7/2010
1
Phần 03
Nguyễn Duy Long, Tiến Sỹ
Bộ môn Thi Công và QLXD
©2010, Nguyễn Duy Long, Tiến Sỹ 1
Biểu đồ phân tán, sự liên hợp và sự tương
quan
Phân tích hồi qui tuyến tính
©2010, Nguyễn Duy Long, Tiến Sỹ 2
9/7/2010
2
3©2010, Nguyễn Duy Long, Tiến Sỹ
Đồ thị phân tán (scatter-plots) là biểu thị phổ biến
và hiểu quả cho dữ liệu.
Đồ thị phân tán là cách tốt nhất để bắt đầu quan
sát mối liên hệ và cách lý tưởng để xem sự liên hợp
của hai biến định lượng.
4©2010, Nguyễn Duy Long, Tiến Sỹ
9/7/2010
3
Với đồ thị phân tán, xem hướng (direction), dạng
(form), độ chặt (strength), và các đặc điểm bất
thường (unusual features).
(1) Hướng:
◦ Hướng âm: giá trị dữ liệu đi theo chiều từ trái qua phải và
từ trên xuống dưới.
◦ Hướng dương: theo chiều ngược lại.
©2010, Nguyễn Duy Long, Tiến Sỹ 5
Mối liện hợp dương
( i i i i )pos t ve assoc at on
giữa năm (từ 1900) và
% số người sẵn sàng
bầu phụ nữ làm tổng
thổng ở Mỹ.
h é
%
trả
lời
“C
ó”
N ận x t...
Năm (từ 1900)
©2010, Nguyễn Duy Long, Tiến Sỹ 6
9/7/2010
4
Mối liện hợp âm
(negative association)
giữa tốc độ lúc cao
điểm ở xa lộ và chi phí
trên đầu người do
chậm trễ giao thông.
Nhận xéthi p
hí
trê
n
đầ
u
ng
ườ
i
($
/n
gư
ời/
nă
m
)
...Ch Tốc độ lúc cao điểm ở xa lộ
(dặm/giờ)
©2010, Nguyễn Duy Long, Tiến Sỹ 7
(2) Dạng:
◦ Nếu liên hệ đường
thẳng (tuyến tính):
như đám mây hay
một đám chấm phân
tán có dạng thẳng.
hi
p
hí
trê
n
đầ
u
ng
ườ
i
($
/n
gư
ời/
nă
m
)
Ch Tốc độ lúc cao điểm ở xa lộ
(dặm/giờ)
©2010, Nguyễn Duy Long, Tiến Sỹ 8
9/7/2010
5
Dạng:
◦ Nếu mối liên hệ không thẳng, nhưng cong cong,
trong khi vẫn tăng hay giảm dần
chúng ta có cách để làm nó thẳng hơn.
©2010, Nguyễn Duy Long, Tiến Sỹ 9
Dạng:
◦ Nếu mối liên hệ là rất cong,
chúng ta nói nó là liên hợp không tuyến tính
©2010, Nguyễn Duy Long, Tiến Sỹ 10
9/7/2010
6
(3) Độ chặt:
◦ Các điểm có vẻ như theo một dòng thẳng
(dù thẳng, cong, hay uốn).
©2010, Nguyễn Duy Long, Tiến Sỹ 11
Độ chặt:
◦ Các điểm trông như một đám mây mờ mà không
có một hướng xác định nào:
◦ Ghi chú: chúng ta sẽ định lượng sự phân tán
“scatter” sau.
©2010, Nguyễn Duy Long, Tiến Sỹ 12
9/7/2010
7
(4) Các đặc điểm bất thường:
◦ Tìm các điều không kỳ vọng.
◦ Điều thú vị nhất là khi quan sát đồ thị phân tán là
thấy những điều không mong đợi sẽ tìm thấy.
◦ Ví dụ: các giá trị ngoại lệ đứng tách ra.
◦ Nên nghi vấn với các cụm (clusters) hay các nhóm
phụ (subgroups).
©2010, Nguyễn Duy Long, Tiến Sỹ 13
Xác định biến nào là trục x, biến nào trục y.
Việc xác định dựa trên các vai trò của các
biến.
Khi vai trò là rõ ràng
◦ Biến khám phá hay dự đoán (explanatory hay
predictor variable) là trục x,
◦ Biến hưởng ứng (response variable) là trục y.
©2010, Nguyễn Duy Long, Tiến Sỹ 14
9/7/2010
8
Chọn vai trò cho các biến phần nhiều về
việc chúng ta suy nghĩ như thế nào về các
ế ề ếbi n hơn là v chính các bi n đó.
Chỉ đặt một biến ở trục hoành không nhất
thiết có nghĩa là nó giả thích hay dự báo cái
gì đó.
Biến ở trục tung có thể không hưởng ứng
nó trong bất cứ cách nào.
©2010, Nguyễn Duy Long, Tiến Sỹ 15
Dữ liệu thu thập từ sinh viên các lớp thống kê
học gồm chiều cao (in.) và cân nặng (lb):
Mối liên hợp dương
(positive association)
và khá thẳng, mặc dù
có một trị ngoại lệ.
Câ
n
nặ
ng
(lb
)
©2010, Nguyễn Duy Long, Tiến Sỹ
Chiều cao (in.)
16
9/7/2010
9
Sự liên hợp giữa chiều cao và cân nặng của sinh
viên các lớp thống kê học chặt (strong) ra sao?
Nếu đinh lượng độ chặt, chúng ta muốn nó không
phụ thuộc vào loại đơn vị.
Biểu đồ phân tán giữa
chiều cao (cm) và cân
nặng (kg) không thay
đổi dạng phân tán. ặng
(k
g)
©2010, Nguyễn Duy Long, Tiến Sỹ
Chiều cao (in.)
Câ
n
nặ
17
Vì đơn vị không quan
trọng, tại sao không
bỏ nó?
Có thể chuẩn hóa
các biến và viết tọa
độ của một điểm là
(zx, zy).
Biểu đồ phân tán của
chiều cao và cân
nặng được chuẩn
hóa.
©2010, Nguyễn Duy Long, Tiến Sỹ
Zcân nặng
Zchiều cao
18
9/7/2010
10
Dạng tuyến tính của biều đồ chuẩn hóa có vẻ dốc
hơn biểu đồ phân tán ban đầu.
Vì cả hai trục có tỷ lệ giống nhau.
Tỷ lệ bằng nhau tạo khách quan cho biểu đồ phân
tán và độ chặt của sự liện hợp.
Giá trị chuẩn hóa được xác định như sau:
)()( yyxxzz
©2010, Nguyễn Duy Long, Tiến Sỹ
,,
yx ssyx
19
Các điểm màu xanh lá cây
làm mạnh sự liên hợp
dương giữa chiều cao và
cân nặng.
Các điểm màu nâu có
khuynh hướng làm yếu sự
liên hợp dương.
Các điểm màu xanh
dương có điểm z bằng
không không theo cách
liên hợp nào.
©2010, Nguyễn Duy Long, Tiến Sỹ
Zcân nặng
Zchiều cao
20
9/7/2010
11
Hệ số tương quan (r, correlation coefficient) đo
lường độ chặt giữa biến khám phá và biến hưởng
ứng
1
x yz zr
n
.
©2010, Nguyễn Duy Long, Tiến Sỹ 21
Sự tương quan đo độ chặt của sự liên hợp tuyến
tính giữa các biến định lượng.
Kiểm tra các điều kiện sau trước khi dùng sự
tương quan:
1. Điều kiện các biến định lượng
2. Điều kiện khá thẳng (“Straight Enough”)
3. Điều kiện trị ngoại lệ
©2010, Nguyễn Duy Long, Tiến Sỹ 22
9/7/2010
12
1. Điều kiện biến định lượng:
◦ Sự tương quan chỉ áp dụng cho các biến định
lượng.
◦ Không dùng sự tương quan cho biến định tính.
◦ Kiểm tra đơn vị của các biến và chúng đo lường
cái gì.
©2010, Nguyễn Duy Long, Tiến Sỹ 23
2. Điều kiện khá thẳng:
◦ Có thể tính (calculate) hệ số tương quan cho
bất cứ cặp biến nào.
◦ Nhưng sự tương quan chỉ đo lường độ chặt của
sự liên hợp tuyến tính và sẽ gây sai lệch
(misleading) nếu mối quan hệ không tuyến tính.
©2010, Nguyễn Duy Long, Tiến Sỹ 24
9/7/2010
13
3. Điều kiện trị ngoại lệ:
◦ Các trị ngoại lệ có thể gây lệch (distort) sự
tương quan rất lớn.
◦ Một trị ngoại lệ có thể gây sự tương quan nhỏ
thành lớn hay dấu sự tương quan lớn.
◦ Khi gặp trị ngoại lệ, nên trình bày sự tương
quan khi có và không có trị ngoại lệ đó.
©2010, Nguyễn Duy Long, Tiến Sỹ 25
Dấu của hệ số tương quan chỉ hướng của sự liên
hợp.
Hệ số tương quan luôn trong khoảng [-1, +1].
Sự tương quan đối xử x và y giống nhau
Không có đơn vị.
©2010, Nguyễn Duy Long, Tiến Sỹ 26
9/7/2010
14
Sự tương quan không bị ảnh hưởng bởi các thay
đổi trung tâm hay tỷ lệ của biến.
Sự tương quan đo độ chặt của sự liên hợp tuyến
tính giữa hai biến.
◦ Các biến có thể có sự liên hợp mạnh nhưng vẫn có sự
tương quan nhỏ nếu sự liên hợp là không tuyến tính.
Sự tương quan là rất nhạy với trị ngoại lệ.
©2010, Nguyễn Duy Long, Tiến Sỹ 27
Không đo tương quan các biến định tính.
Không nói sự tương quan khi có ý là sự liên hợp
Đi
ểm
©2010, Nguyễn Duy Long, Tiến Sỹ
Nhiệt độ nướng (oF)
28
9/7/2010
15
Chú ý các trị ngoại lệ.
Hệ
số
IQ
©2010, Nguyễn Duy Long, Tiến Sỹ
Cở giày
29
Đừng nhầm sự tương quan (correlation) với
quan hệ nhân quả (causation).
hô h l ê h là h hâ◦ K ng p ải mọi sự i n ệ quan ệ n n quả.
Chứng minh: Cò
mang trẻ thơ đến
cho làng số
củ
a
là
ng
©2010, Nguyễn Duy Long, Tiến Sỹ
Dâ
n
Số cò
30
9/7/2010
16
Chú ý các biến ẩn (lurking variables).
◦ Biến ẩn có thể đứng sau sự liên hệ và xác định nó bằng
cách tác động đồng thời hai biến.
Ví dụ- Bài tập 26 (tr.163): Điều tra năm 2004 về
các quốc gia trên thế giới thấy rằng có độ tương
quan dương giữa phần trăm dân số dùng điện
thoại di động và tuổi thọ trung bình của quốc gia.
◦ Điều này có nghĩa là dùng điện thoại di động tốt cho sức
khỏe?
◦ Hay ngược lại, bạn càng sống lâu thì khả năng gọi di động
nhiều hơn?
◦ Cái gì có thể giải thích độ tương quan dương này?
©2010, Nguyễn Duy Long, Tiến Sỹ 31
Linear Regression
©2010, Nguyễn Duy Long, Tiến Sỹ 32
9/7/2010
17
Từ biểu đồ phân tán bên dưới:
◦ Có sự liên hợp chặt (mạnh)?
ế◦ Sự liên hợp có vẽ tuy n tính?
Dữ liệu từ 30 món trên
menu của Burger King
Lượng chất béo và đạm cho thức ăn của Burger King
bé
o
(g
)
©2010, Nguyễn Duy Long, Tiến Sỹ
Ch
ất
b
Đạm (g)
33
Sự tương quan lớn (âm hay dương) cho biết “có vẻ
có sự liên hợp tuyến tính giữa hai biến,” nhưng
không cho biết chính xác sự liên hợp đó là gì.
Chúng ta có thể biết nhiều hơn về sự liên hợp tuyến
tính giữa hai biến định lượng với một mô hình.
Mô hình tuyến tính (linear model) chỉ là một phương
trình đường thẳng qua dữ liệu.
©2010, Nguyễn Duy Long, Tiến Sỹ 34
9/7/2010
18
• Bằng mắt thường, có thể vẽ đường thẳng qua dữ liệu?
• Phương pháp để xác định mô hình phù hợp nhất (“best fit”)
Ch
ất
bé
o
(g
)
C
Đạm (g)
©2010, Nguyễn Duy Long, Tiến Sỹ 35
Mô hình sẽ không bao
giờ hoàn hảo bất kể vẽ
đường nào.
Một số điểm nằm trên
và một số nằm dưới
đường thẳng.
Sự ước lượng từ mô
hình gọi là giá trị dự
Ch
ất
bé
o
(g
)
(số dư)
báo (predicted value)
(ký hiệu là ŷ)
©2010, Nguyễn Duy Long, Tiến Sỹ
Đạm (g)
36
9/7/2010
19
Sự khác nhau giữa giá trị quan sát (observed value)
và giá trị dự báo tương ứng (predicted value) gọi là
ố ầs (ph n) dư (residual).
Tìm số dư:
Số dư = quan sát – dự báo = y – ŷ
©2010, Nguyễn Duy Long, Tiến Sỹ 37
Một số số dư dương, một số âm nên chung qui thì
có thể triệt tiêu lẫn nhau.
Vì thế khô thể đá h iá đườ thẳ ừ h ng n g ng ng v a ợp
thế nào bằng cách cộng các số dư lại.
Tương tự như độ lệch chuẩn, chúng ta bình
phương số dư rồi cộng lại.
Tổng càng nhỏ thì các vừa hợp.
Đường phù hợp nhất là đường có tổng các bình
phương số dư nhỏ nhất.
©2010, Nguyễn Duy Long, Tiến Sỹ 38
9/7/2010
20
Thông số thứ nhất của mô hình, b1, là độnghiêng (slope):
ysb r
Thông số thứ hai của mô hình, b0, là điểm chặn(intercept):
Với ví dụ về Burger King ở trên
1
xs
0 1b y b x
©2010, Nguyễn Duy Long, Tiến Sỹ 39
Đường hồi qui cho dữ liệu của Burger King:
)(97.08.6)(ˆ damxchatbeoy
Ch
ất
bé
o
(g
)
©2010, Nguyễn Duy Long, Tiến Sỹ
C
Đạm (g)
40
9/7/2010
21
Dịch một độ lệch chuẩn từ trị trung bình của x sẽ dịch
r lần độ lệch chuẩn từ trị trung bình của y.
Biể đồ hâ tá th điể◦ u p n n eo m z
cho chất béo và đạm:
©2010, Nguyễn Duy Long, Tiến Sỹ 41
r không thể lớn hơn1, vì thế mỗi giá trị dự báo y có
khuynh hướng tiến gần trị trung bình hơn là giá trị
ốtương đ i của x.
Đặc điểm này của mô hình tuyến tính gọi là hồi qui
đến trị trung bình (regression to the mean); đường
thẳng gọi là đường hồi qui (regression line).
©2010, Nguyễn Duy Long, Tiến Sỹ 42
9/7/2010
22
Mô hình tuyến tính giả định sự liên hệ giữa hai biến
là đường thẳng hoàn hảo. Các số dư là một phần
của dữ liệu mà không được mô hình.
Dữ liệu = Mô hình + Số dư
hay
Số dư = Dữ liệu – Mô hình
hay
ˆe y y
©2010, Nguyễn Duy Long, Tiến Sỹ 43
Số dư giúp chúng ta xem mô hình có hợp lý
không.
Khi mô hình hồi qui hợp lý, không có điều lý thú
nào còn lại.
Sau khi có mô hình hồi qui, thường biểu diển
các số dư với hy vọng không tìm thấy gì.
◦ Không có đường cong hay các đường thẳng
◦ Không có sự biến thiên tăng hay giảm khi di chuyển dọc
trục x
©2010, Nguyễn Duy Long, Tiến Sỹ 44
9/7/2010
23
Các số dư cho hồi qui menu của Burger King trong
“chán”– không có dạng gì
dư
(g
c
hấ
tb
éo
)
©2010, Nguyễn Duy Long, Tiến Sỹ
Số
Đạm (g)
45
Sự biến đổi của các số dư là chìa khóa để
đánh giá mô hình phù hợp ra sao.
Trong menu của Burger King,
chất béo có độ lệch chuẩn
là 16.4 gam. Độ lệch chuẩn
của các số dư từ sự dự báo
chất béo của mô hình là
9.2 gam.
Cái nào chỉ biến đổi nhiều hơn?
©2010, Nguyễn Duy Long, Tiến Sỹ
Chất béo Số dư
46
9/7/2010
24
Nếu độ tương quan là1.0 và mô hình dự báo giá trị
chất béo hoàn hảo, tất cả các số dư sẽ băng không
và không có sự biến đổi
Với menu của Burger King, độ tương quan là 0.83 –
không hoàn hảo.
Tuy nhiên, chúng ta đã thấy các số dư của mô hình
ít biến đổi hơn so với chất béo.
Chúng ta có thể xác định sự biến đổi bao nhiêu
trong mô hình và bao nhiêu còn lại trong các số
dư.
©2010, Nguyễn Duy Long, Tiến Sỹ 47
Bình phương độ tương quan, R2, (“R-squared”) cho
biết phần biến đổi được xét trong mô hình.
1 R2 là phần biến đổi còn lại trong các số dư– .
Khi diễn tả mô hình hồi qui, cần cho biết ý nghĩa
của R2.
◦ Với mô hình về Burger King, R2 = 0.832 = 0.69,
◦ 69% của sự biến đổi của chất béo được xác định trong mô
hình.
◦ 31% (100% - 69%) sự biến đổi của chất béo còn lại trong các
số dư.
©2010, Nguyễn Duy Long, Tiến Sỹ 48
9/7/2010
25
R2 luôn giữa 0% và 100%.
Giá trị R2 tốt phụ thuộc vào loại dữ liệu đang phân
í à ố à ì ết ch v mu n l m g với k t quả.
©2010, Nguyễn Duy Long, Tiến Sỹ 49
Điều kiện các biến định lượng:
◦ Các thống kê học cao hơn sẽ cho ta biết kết hợp
các dữ liệu định tính.
Điều kiện khá thẳng:
◦ Mô hình tuyến tính giả định sự liên hệ giữa hai
biến là tuyến tính.
◦ Biểu đồ phân tán sẽ giúp kiểm tra giả định này
hợp lý không.
©2010, Nguyễn Duy Long, Tiến Sỹ 50
9/7/2010
26
Điều kiện giá trị ngoại lệ:
◦ Để ý đến các giá trị ngoại lệ.
Cá điể i lệ ó hể h đổi ô hì h◦ c m ngoạ c t t ay m n .
◦ Các trị ngoại lệ thậm chí có thể thay đổi dấu của
góc nghiêng, làm sai lệch về sự liên hệ giữa hai
biến.
©2010, Nguyễn Duy Long, Tiến Sỹ 51
Không dùng đường thẳng cho liên hệ không tuyến
tính.
Chú ý á điể i lệ c c m ngoạ .
Đừng ngoại suy ngoài dữ liệu – mô hình phi tuyến
có thể không còn giá trị ngoài khoảng giá trị có
trong dữ liệu.
Đừng suy x gây ra y mặc dù có mô hình tuyến tính
tốt cho mối quan hệ của chúng – sư liên hợp không
phải là quan hệ nhân quả.
Đừng chọn mô hình chỉ dựa trên R2.
©2010, Nguyễn Duy Long, Tiến Sỹ 52
9/7/2010
27
Hồi qui về tuổi trung bình kết hôn đầu tiên của đàn
ông và năm phù hợp cho các thập niên đầu của thế
kỷ 20 nhưng không đúng cho giai đoạn sau:
kế
th
ôn
lần
đầ
u
©2010, Nguyễn Duy Long, Tiến Sỹ
NămTu
ổi
đà
n
ôn
g
lú
c
53
Mô hình tuyến tính không làm tốt với các điểm với
số dư lớn.
Bởi vì có vẻ chúng khác với trường hợp khác, đặc
biệt chú ý đến các điểm có số dư lớn .
Một điểm dữ liệu có thể bất thường nếu giá trị x
của nó xa so với trị trung bình. Các điểm đó là có
đòn bẩy lớn (high leverage).
©2010, Nguyễn Duy Long, Tiến Sỹ 54
9/7/2010
28
‣ Mộ điểm có đòn bẩy lớn có khả năng thay đổi đường
hồi qui.
‣ Điểm đó gọi là ảnh hưởng nếu loại bỏ nó khỏi dữ liệu
ồ ẳsẽ cho mô hình h i qui khác h n.
‣ Ảnh hưởng Bozo (Bozo’s effect) vào mô hình “Chỉ số IQ
và cỡ giày”
ỉs
ốI
Q
số
IQ
©2010, Nguyễn Duy Long, Tiến Sỹ
Cở giày
Ch
ỉ
Cở giày
Ch
ỉs
55
Sự liên hợp chặt đến đâu, R2 lớn đến đâu, quan hệ
thẳng đến đâu đi nữa, không thể kết luận chỉ từ phân
tích hồi qui là biến này gây ra biến kia.
Với dữ liệu quan sát (observational), khác với dữ liệu
từ thí nghiệm được thiết kế (designed experiment),
không có cách gì để chắc chắn rằng biến ẩn (lurking
variable) không phải là nguyên nhân của một sự liên
hợp.
©2010, Nguyễn Duy Long, Tiến Sỹ 56
9/7/2010
29
Biểu đồ phân tán chỉ tuổi thọ trung bình của một
quốc gia có liên hệ với số bác sỹ trên đầu người ở
ố i đóqu c g a .
un
g
bì
nh
(n
ăm
)
©2010, Nguyễn Duy Long, Tiến Sỹ
Tu
ổi
th
ọt
ru
daunguoiBacsy /
57
Biểu đồ phân tán mới còn cho biết liên hệ giữa tuổi
thọ và số ti vi trên đầu người của quốc gia.
◦ Sự liên hệ thậm chí chặt hơn: R2 of 72% thay vì 62%
Vì ti vi rẻ hơn bác sỹ, tại sao không gởi ti vi tới các
nước có tuổi thọ thấp để có tuổi thọ cao hơn?
ng
bì
nh
(n
ăm
)
©2010, Nguyễn Duy Long, Tiến Sỹ
Tu
ổi
th
ọt
ru
n
daunguoiTivi /
58
9/7/2010
30
©2010, Nguyễn Duy Long, Tiến Sỹ 59