Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Phần 3: Khám phá mối quan hệ giữa các biến

 Đồ thị phân tán (scatter-plots) là biểu thị phổ biến và hiểu quả cho dữ liệu.  Đồ thị phân tán là cách tốt nhất để bắt đầu quan sát mối liên hệ và cách lý tưởng để xem sự liên hợp của hai biến định lượng.

pdf30 trang | Chia sẻ: nguyenlinh90 | Lượt xem: 680 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Bài giảng Thống kê học ứng dụng trong quản lý xây dựng - Phần 3: Khám phá mối quan hệ giữa các biến, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
9/7/2010 1 Phần 03 Nguyễn Duy Long, Tiến Sỹ Bộ môn Thi Công và QLXD ©2010, Nguyễn Duy Long, Tiến Sỹ 1  Biểu đồ phân tán, sự liên hợp và sự tương quan  Phân tích hồi qui tuyến tính ©2010, Nguyễn Duy Long, Tiến Sỹ 2 9/7/2010 2 3©2010, Nguyễn Duy Long, Tiến Sỹ  Đồ thị phân tán (scatter-plots) là biểu thị phổ biến và hiểu quả cho dữ liệu.  Đồ thị phân tán là cách tốt nhất để bắt đầu quan sát mối liên hệ và cách lý tưởng để xem sự liên hợp của hai biến định lượng. 4©2010, Nguyễn Duy Long, Tiến Sỹ 9/7/2010 3  Với đồ thị phân tán, xem hướng (direction), dạng (form), độ chặt (strength), và các đặc điểm bất thường (unusual features).  (1) Hướng: ◦ Hướng âm: giá trị dữ liệu đi theo chiều từ trái qua phải và từ trên xuống dưới. ◦ Hướng dương: theo chiều ngược lại. ©2010, Nguyễn Duy Long, Tiến Sỹ 5  Mối liện hợp dương ( i i i i )pos t ve assoc at on giữa năm (từ 1900) và % số người sẵn sàng bầu phụ nữ làm tổng thổng ở Mỹ. h é % trả lời “C ó”  N ận x t... Năm (từ 1900) ©2010, Nguyễn Duy Long, Tiến Sỹ 6 9/7/2010 4  Mối liện hợp âm (negative association) giữa tốc độ lúc cao điểm ở xa lộ và chi phí trên đầu người do chậm trễ giao thông. Nhận xéthi p hí trê n đầ u ng ườ i ($ /n gư ời/ nă m )  ...Ch Tốc độ lúc cao điểm ở xa lộ (dặm/giờ) ©2010, Nguyễn Duy Long, Tiến Sỹ 7  (2) Dạng: ◦ Nếu liên hệ đường thẳng (tuyến tính): như đám mây hay một đám chấm phân tán có dạng thẳng. hi p hí trê n đầ u ng ườ i ($ /n gư ời/ nă m ) Ch Tốc độ lúc cao điểm ở xa lộ (dặm/giờ) ©2010, Nguyễn Duy Long, Tiến Sỹ 8 9/7/2010 5  Dạng: ◦ Nếu mối liên hệ không thẳng, nhưng cong cong, trong khi vẫn tăng hay giảm dần chúng ta có cách để làm nó thẳng hơn. ©2010, Nguyễn Duy Long, Tiến Sỹ 9  Dạng: ◦ Nếu mối liên hệ là rất cong, chúng ta nói nó là liên hợp không tuyến tính ©2010, Nguyễn Duy Long, Tiến Sỹ 10 9/7/2010 6  (3) Độ chặt: ◦ Các điểm có vẻ như theo một dòng thẳng (dù thẳng, cong, hay uốn). ©2010, Nguyễn Duy Long, Tiến Sỹ 11  Độ chặt: ◦ Các điểm trông như một đám mây mờ mà không có một hướng xác định nào: ◦ Ghi chú: chúng ta sẽ định lượng sự phân tán “scatter” sau. ©2010, Nguyễn Duy Long, Tiến Sỹ 12 9/7/2010 7  (4) Các đặc điểm bất thường: ◦ Tìm các điều không kỳ vọng. ◦ Điều thú vị nhất là khi quan sát đồ thị phân tán là thấy những điều không mong đợi sẽ tìm thấy. ◦ Ví dụ: các giá trị ngoại lệ đứng tách ra. ◦ Nên nghi vấn với các cụm (clusters) hay các nhóm phụ (subgroups). ©2010, Nguyễn Duy Long, Tiến Sỹ 13  Xác định biến nào là trục x, biến nào trục y.  Việc xác định dựa trên các vai trò của các biến.  Khi vai trò là rõ ràng ◦ Biến khám phá hay dự đoán (explanatory hay predictor variable) là trục x, ◦ Biến hưởng ứng (response variable) là trục y. ©2010, Nguyễn Duy Long, Tiến Sỹ 14 9/7/2010 8  Chọn vai trò cho các biến phần nhiều về việc chúng ta suy nghĩ như thế nào về các ế ề ếbi n hơn là v chính các bi n đó.  Chỉ đặt một biến ở trục hoành không nhất thiết có nghĩa là nó giả thích hay dự báo cái gì đó.  Biến ở trục tung có thể không hưởng ứng nó trong bất cứ cách nào. ©2010, Nguyễn Duy Long, Tiến Sỹ 15  Dữ liệu thu thập từ sinh viên các lớp thống kê học gồm chiều cao (in.) và cân nặng (lb):  Mối liên hợp dương (positive association) và khá thẳng, mặc dù có một trị ngoại lệ. Câ n nặ ng (lb ) ©2010, Nguyễn Duy Long, Tiến Sỹ Chiều cao (in.) 16 9/7/2010 9  Sự liên hợp giữa chiều cao và cân nặng của sinh viên các lớp thống kê học chặt (strong) ra sao?  Nếu đinh lượng độ chặt, chúng ta muốn nó không phụ thuộc vào loại đơn vị.  Biểu đồ phân tán giữa chiều cao (cm) và cân nặng (kg) không thay đổi dạng phân tán. ặng (k g) ©2010, Nguyễn Duy Long, Tiến Sỹ Chiều cao (in.) Câ n nặ 17  Vì đơn vị không quan trọng, tại sao không bỏ nó?  Có thể chuẩn hóa các biến và viết tọa độ của một điểm là (zx, zy).  Biểu đồ phân tán của chiều cao và cân nặng được chuẩn hóa. ©2010, Nguyễn Duy Long, Tiến Sỹ Zcân nặng Zchiều cao 18 9/7/2010 10  Dạng tuyến tính của biều đồ chuẩn hóa có vẻ dốc hơn biểu đồ phân tán ban đầu.  Vì cả hai trục có tỷ lệ giống nhau.  Tỷ lệ bằng nhau tạo khách quan cho biểu đồ phân tán và độ chặt của sự liện hợp.  Giá trị chuẩn hóa được xác định như sau: )()( yyxxzz  ©2010, Nguyễn Duy Long, Tiến Sỹ ,, yx ssyx  19  Các điểm màu xanh lá cây làm mạnh sự liên hợp dương giữa chiều cao và cân nặng.  Các điểm màu nâu có khuynh hướng làm yếu sự liên hợp dương.  Các điểm màu xanh dương có điểm z bằng không không theo cách liên hợp nào. ©2010, Nguyễn Duy Long, Tiến Sỹ Zcân nặng Zchiều cao 20 9/7/2010 11  Hệ số tương quan (r, correlation coefficient) đo lường độ chặt giữa biến khám phá và biến hưởng ứng 1 x yz zr n    . ©2010, Nguyễn Duy Long, Tiến Sỹ 21  Sự tương quan đo độ chặt của sự liên hợp tuyến tính giữa các biến định lượng.  Kiểm tra các điều kiện sau trước khi dùng sự tương quan: 1. Điều kiện các biến định lượng 2. Điều kiện khá thẳng (“Straight Enough”) 3. Điều kiện trị ngoại lệ ©2010, Nguyễn Duy Long, Tiến Sỹ 22 9/7/2010 12 1. Điều kiện biến định lượng: ◦ Sự tương quan chỉ áp dụng cho các biến định lượng. ◦ Không dùng sự tương quan cho biến định tính. ◦ Kiểm tra đơn vị của các biến và chúng đo lường cái gì. ©2010, Nguyễn Duy Long, Tiến Sỹ 23 2. Điều kiện khá thẳng: ◦ Có thể tính (calculate) hệ số tương quan cho bất cứ cặp biến nào. ◦ Nhưng sự tương quan chỉ đo lường độ chặt của sự liên hợp tuyến tính và sẽ gây sai lệch (misleading) nếu mối quan hệ không tuyến tính. ©2010, Nguyễn Duy Long, Tiến Sỹ 24 9/7/2010 13 3. Điều kiện trị ngoại lệ: ◦ Các trị ngoại lệ có thể gây lệch (distort) sự tương quan rất lớn. ◦ Một trị ngoại lệ có thể gây sự tương quan nhỏ thành lớn hay dấu sự tương quan lớn. ◦ Khi gặp trị ngoại lệ, nên trình bày sự tương quan khi có và không có trị ngoại lệ đó. ©2010, Nguyễn Duy Long, Tiến Sỹ 25  Dấu của hệ số tương quan chỉ hướng của sự liên hợp.  Hệ số tương quan luôn trong khoảng [-1, +1].  Sự tương quan đối xử x và y giống nhau  Không có đơn vị. ©2010, Nguyễn Duy Long, Tiến Sỹ 26 9/7/2010 14  Sự tương quan không bị ảnh hưởng bởi các thay đổi trung tâm hay tỷ lệ của biến.  Sự tương quan đo độ chặt của sự liên hợp tuyến tính giữa hai biến. ◦ Các biến có thể có sự liên hợp mạnh nhưng vẫn có sự tương quan nhỏ nếu sự liên hợp là không tuyến tính.  Sự tương quan là rất nhạy với trị ngoại lệ. ©2010, Nguyễn Duy Long, Tiến Sỹ 27  Không đo tương quan các biến định tính.  Không nói sự tương quan khi có ý là sự liên hợp Đi ểm ©2010, Nguyễn Duy Long, Tiến Sỹ Nhiệt độ nướng (oF) 28 9/7/2010 15  Chú ý các trị ngoại lệ. Hệ số IQ ©2010, Nguyễn Duy Long, Tiến Sỹ Cở giày 29  Đừng nhầm sự tương quan (correlation) với quan hệ nhân quả (causation). hô h l ê h là h hâ◦ K ng p ải mọi sự i n ệ quan ệ n n quả. Chứng minh: Cò mang trẻ thơ đến cho làng số củ a là ng ©2010, Nguyễn Duy Long, Tiến Sỹ Dâ n Số cò 30 9/7/2010 16  Chú ý các biến ẩn (lurking variables). ◦ Biến ẩn có thể đứng sau sự liên hệ và xác định nó bằng cách tác động đồng thời hai biến.  Ví dụ- Bài tập 26 (tr.163): Điều tra năm 2004 về các quốc gia trên thế giới thấy rằng có độ tương quan dương giữa phần trăm dân số dùng điện thoại di động và tuổi thọ trung bình của quốc gia. ◦ Điều này có nghĩa là dùng điện thoại di động tốt cho sức khỏe? ◦ Hay ngược lại, bạn càng sống lâu thì khả năng gọi di động nhiều hơn? ◦ Cái gì có thể giải thích độ tương quan dương này? ©2010, Nguyễn Duy Long, Tiến Sỹ 31 Linear Regression ©2010, Nguyễn Duy Long, Tiến Sỹ 32 9/7/2010 17  Từ biểu đồ phân tán bên dưới: ◦ Có sự liên hợp chặt (mạnh)? ế◦ Sự liên hợp có vẽ tuy n tính? Dữ liệu từ 30 món trên menu của Burger King Lượng chất béo và đạm cho thức ăn của Burger King bé o (g ) ©2010, Nguyễn Duy Long, Tiến Sỹ Ch ất b Đạm (g) 33  Sự tương quan lớn (âm hay dương) cho biết “có vẻ có sự liên hợp tuyến tính giữa hai biến,” nhưng không cho biết chính xác sự liên hợp đó là gì.  Chúng ta có thể biết nhiều hơn về sự liên hợp tuyến tính giữa hai biến định lượng với một mô hình.  Mô hình tuyến tính (linear model) chỉ là một phương trình đường thẳng qua dữ liệu. ©2010, Nguyễn Duy Long, Tiến Sỹ 34 9/7/2010 18 • Bằng mắt thường, có thể vẽ đường thẳng qua dữ liệu? • Phương pháp để xác định mô hình phù hợp nhất (“best fit”) Ch ất bé o (g ) C Đạm (g) ©2010, Nguyễn Duy Long, Tiến Sỹ 35  Mô hình sẽ không bao giờ hoàn hảo bất kể vẽ đường nào.  Một số điểm nằm trên và một số nằm dưới đường thẳng.  Sự ước lượng từ mô hình gọi là giá trị dự Ch ất bé o (g ) (số dư) báo (predicted value) (ký hiệu là ŷ) ©2010, Nguyễn Duy Long, Tiến Sỹ Đạm (g) 36 9/7/2010 19  Sự khác nhau giữa giá trị quan sát (observed value) và giá trị dự báo tương ứng (predicted value) gọi là ố ầs (ph n) dư (residual).  Tìm số dư: Số dư = quan sát – dự báo = y – ŷ ©2010, Nguyễn Duy Long, Tiến Sỹ 37  Một số số dư dương, một số âm nên chung qui thì có thể triệt tiêu lẫn nhau. Vì thế khô thể đá h iá đườ thẳ ừ h ng n g ng ng v a ợp thế nào bằng cách cộng các số dư lại.  Tương tự như độ lệch chuẩn, chúng ta bình phương số dư rồi cộng lại.  Tổng càng nhỏ thì các vừa hợp.  Đường phù hợp nhất là đường có tổng các bình phương số dư nhỏ nhất. ©2010, Nguyễn Duy Long, Tiến Sỹ 38 9/7/2010 20  Thông số thứ nhất của mô hình, b1, là độnghiêng (slope): ysb r  Thông số thứ hai của mô hình, b0, là điểm chặn(intercept):  Với ví dụ về Burger King ở trên 1 xs 0 1b y b x  ©2010, Nguyễn Duy Long, Tiến Sỹ 39  Đường hồi qui cho dữ liệu của Burger King: )(97.08.6)(ˆ damxchatbeoy  Ch ất bé o (g ) ©2010, Nguyễn Duy Long, Tiến Sỹ C Đạm (g) 40 9/7/2010 21  Dịch một độ lệch chuẩn từ trị trung bình của x sẽ dịch r lần độ lệch chuẩn từ trị trung bình của y. Biể đồ hâ tá th điể◦ u p n n eo m z cho chất béo và đạm: ©2010, Nguyễn Duy Long, Tiến Sỹ 41  r không thể lớn hơn1, vì thế mỗi giá trị dự báo y có khuynh hướng tiến gần trị trung bình hơn là giá trị ốtương đ i của x.  Đặc điểm này của mô hình tuyến tính gọi là hồi qui đến trị trung bình (regression to the mean); đường thẳng gọi là đường hồi qui (regression line). ©2010, Nguyễn Duy Long, Tiến Sỹ 42 9/7/2010 22  Mô hình tuyến tính giả định sự liên hệ giữa hai biến là đường thẳng hoàn hảo. Các số dư là một phần của dữ liệu mà không được mô hình. Dữ liệu = Mô hình + Số dư hay Số dư = Dữ liệu – Mô hình hay ˆe y y  ©2010, Nguyễn Duy Long, Tiến Sỹ 43  Số dư giúp chúng ta xem mô hình có hợp lý không.  Khi mô hình hồi qui hợp lý, không có điều lý thú nào còn lại.  Sau khi có mô hình hồi qui, thường biểu diển các số dư với hy vọng không tìm thấy gì. ◦ Không có đường cong hay các đường thẳng ◦ Không có sự biến thiên tăng hay giảm khi di chuyển dọc trục x ©2010, Nguyễn Duy Long, Tiến Sỹ 44 9/7/2010 23  Các số dư cho hồi qui menu của Burger King trong “chán”– không có dạng gì dư (g c hấ tb éo ) ©2010, Nguyễn Duy Long, Tiến Sỹ Số Đạm (g) 45  Sự biến đổi của các số dư là chìa khóa để đánh giá mô hình phù hợp ra sao.  Trong menu của Burger King, chất béo có độ lệch chuẩn là 16.4 gam. Độ lệch chuẩn của các số dư từ sự dự báo chất béo của mô hình là 9.2 gam.  Cái nào chỉ biến đổi nhiều hơn? ©2010, Nguyễn Duy Long, Tiến Sỹ Chất béo Số dư 46 9/7/2010 24  Nếu độ tương quan là1.0 và mô hình dự báo giá trị chất béo hoàn hảo, tất cả các số dư sẽ băng không và không có sự biến đổi  Với menu của Burger King, độ tương quan là 0.83 – không hoàn hảo.  Tuy nhiên, chúng ta đã thấy các số dư của mô hình ít biến đổi hơn so với chất béo.  Chúng ta có thể xác định sự biến đổi bao nhiêu trong mô hình và bao nhiêu còn lại trong các số dư. ©2010, Nguyễn Duy Long, Tiến Sỹ 47  Bình phương độ tương quan, R2, (“R-squared”) cho biết phần biến đổi được xét trong mô hình.  1 R2 là phần biến đổi còn lại trong các số dư– .  Khi diễn tả mô hình hồi qui, cần cho biết ý nghĩa của R2. ◦ Với mô hình về Burger King, R2 = 0.832 = 0.69, ◦ 69% của sự biến đổi của chất béo được xác định trong mô hình. ◦ 31% (100% - 69%) sự biến đổi của chất béo còn lại trong các số dư. ©2010, Nguyễn Duy Long, Tiến Sỹ 48 9/7/2010 25  R2 luôn giữa 0% và 100%.  Giá trị R2 tốt phụ thuộc vào loại dữ liệu đang phân í à ố à ì ết ch v mu n l m g với k t quả. ©2010, Nguyễn Duy Long, Tiến Sỹ 49  Điều kiện các biến định lượng: ◦ Các thống kê học cao hơn sẽ cho ta biết kết hợp các dữ liệu định tính.  Điều kiện khá thẳng: ◦ Mô hình tuyến tính giả định sự liên hệ giữa hai biến là tuyến tính. ◦ Biểu đồ phân tán sẽ giúp kiểm tra giả định này hợp lý không. ©2010, Nguyễn Duy Long, Tiến Sỹ 50 9/7/2010 26  Điều kiện giá trị ngoại lệ: ◦ Để ý đến các giá trị ngoại lệ. Cá điể i lệ ó hể h đổi ô hì h◦ c m ngoạ c t t ay m n . ◦ Các trị ngoại lệ thậm chí có thể thay đổi dấu của góc nghiêng, làm sai lệch về sự liên hệ giữa hai biến. ©2010, Nguyễn Duy Long, Tiến Sỹ 51  Không dùng đường thẳng cho liên hệ không tuyến tính. Chú ý á điể i lệ c c m ngoạ .  Đừng ngoại suy ngoài dữ liệu – mô hình phi tuyến có thể không còn giá trị ngoài khoảng giá trị có trong dữ liệu.  Đừng suy x gây ra y mặc dù có mô hình tuyến tính tốt cho mối quan hệ của chúng – sư liên hợp không phải là quan hệ nhân quả.  Đừng chọn mô hình chỉ dựa trên R2. ©2010, Nguyễn Duy Long, Tiến Sỹ 52 9/7/2010 27  Hồi qui về tuổi trung bình kết hôn đầu tiên của đàn ông và năm phù hợp cho các thập niên đầu của thế kỷ 20 nhưng không đúng cho giai đoạn sau: kế th ôn lần đầ u ©2010, Nguyễn Duy Long, Tiến Sỹ NămTu ổi đà n ôn g lú c 53  Mô hình tuyến tính không làm tốt với các điểm với số dư lớn.  Bởi vì có vẻ chúng khác với trường hợp khác, đặc biệt chú ý đến các điểm có số dư lớn .  Một điểm dữ liệu có thể bất thường nếu giá trị x của nó xa so với trị trung bình. Các điểm đó là có đòn bẩy lớn (high leverage). ©2010, Nguyễn Duy Long, Tiến Sỹ 54 9/7/2010 28 ‣ Mộ điểm có đòn bẩy lớn có khả năng thay đổi đường hồi qui. ‣ Điểm đó gọi là ảnh hưởng nếu loại bỏ nó khỏi dữ liệu ồ ẳsẽ cho mô hình h i qui khác h n. ‣ Ảnh hưởng Bozo (Bozo’s effect) vào mô hình “Chỉ số IQ và cỡ giày” ỉs ốI Q số IQ ©2010, Nguyễn Duy Long, Tiến Sỹ Cở giày Ch ỉ Cở giày Ch ỉs 55  Sự liên hợp chặt đến đâu, R2 lớn đến đâu, quan hệ thẳng đến đâu đi nữa, không thể kết luận chỉ từ phân tích hồi qui là biến này gây ra biến kia.  Với dữ liệu quan sát (observational), khác với dữ liệu từ thí nghiệm được thiết kế (designed experiment), không có cách gì để chắc chắn rằng biến ẩn (lurking variable) không phải là nguyên nhân của một sự liên hợp. ©2010, Nguyễn Duy Long, Tiến Sỹ 56 9/7/2010 29  Biểu đồ phân tán chỉ tuổi thọ trung bình của một quốc gia có liên hệ với số bác sỹ trên đầu người ở ố i đóqu c g a . un g bì nh (n ăm ) ©2010, Nguyễn Duy Long, Tiến Sỹ Tu ổi th ọt ru daunguoiBacsy / 57  Biểu đồ phân tán mới còn cho biết liên hệ giữa tuổi thọ và số ti vi trên đầu người của quốc gia. ◦ Sự liên hệ thậm chí chặt hơn: R2 of 72% thay vì 62%  Vì ti vi rẻ hơn bác sỹ, tại sao không gởi ti vi tới các nước có tuổi thọ thấp để có tuổi thọ cao hơn? ng bì nh (n ăm ) ©2010, Nguyễn Duy Long, Tiến Sỹ Tu ổi th ọt ru n daunguoiTivi / 58 9/7/2010 30 ©2010, Nguyễn Duy Long, Tiến Sỹ 59