Chương 8
TƯƠNG QUAN VÀ HỒI QUI TUYẾN TÍNH
I- Tương quan tuyến tính:
Khi phân tích mối liên hệ giữa 2 biến định lượng ngoài các phương pháp như dùng đồ thị, mã hóa
thành biến định tính thì chúng ta có thể dùng phân tích tương quan; trong phạm vi môn học chúng ta chỉ
phân tích tương quan tuyến tính.
Mục tiêu của phân tích tương quan là đo lường cường độ của mối quan hệ giữa hai biến và .
Trong phân tích tương quan, X và Y được xem là hai biến ngẫu nhiên “ngang nhau” – không phân biệt
biến độc lập và biến phụ thuộc. Tương quan tuyến tính giữa hai biến và là khái niệm thể hiện mức độ
của mối liên hệ tuyến tính giữa 2 biến.
15 trang |
Chia sẻ: thanhtuan.68 | Lượt xem: 2540 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Bài giảng SPSS - Chương 8: Tương quan và hồi qui tuyến tính, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Chương 8
TƯƠNG QUAN VÀ HỒI QUI TUYẾN TÍNH
I- Tương quan tuyến tính:
Khi phân tích mối liên hệ giữa 2 biến định lượng
ngoài các phương pháp như dùng đồ thị, mã hóa
thành biến định tính thì chúng ta có thể dùng phân
tích tương quan; trong phạm vi môn học chúng ta chỉ
phân tích tương quan tuyến tính.
Mục tiêu của phân tích tương quan là đo lường
cường độ của mối quan hệ giữa hai biến và .
Trong phân tích tương quan, X và Y được xem là hai
biến ngẫu nhiên “ngang nhau” – không phân biệt
biến độc lập và biến phụ thuộc. Tương quan tuyến
tính giữa hai biến và là khái niệm thể hiện mức độ
của mối liên hệ tuyến tính giữa 2 biến.
Ví dụ: Một công trình nghiên cứu cho thấy giữa tuổi của
người mẹ và lượng sữa có một mối liên quan theo chiều
hướng nghịch, nghĩa là người mẹ nhiều tuổi sẽ ít sữa
hơn người mẹ còn trẻ. Số liệu thu thập như sau:
)(xyTuổiSữa
STT 1 2 3 4 5 6 7 8
Tuổi
(X)
21 24 27 30 33 36 39 42
Sữa
( Y)
105 110 105 90 95 90 85 80
Hệ số tương quan đơn (r)
• Hệ số tương quan tích mômen chéo Pearson ký hiệu là
r:
• Dùng để lượng hóa mức độ chặt chẽ mối liên hệ tuyến
tính của 2 biến định lượng ( tức là 2 biến cùng biến
động theo một cách nào đó, dùng thang đo Scale)
• Hệ số tương quan hạng chạy từ: -1 <= r <= 1
• Nếu r = 0 là 2 biến không có liên hệ tuyến tính, trường
hợp đó không thể kết luận 2 biến không có tương quan
mà chỉ là không có tương quan tuyến tính.
• Khi 2 biến có hệ số tương quan cao chúng ta chưa vội
kết luận nếu chưa có sự kiểm định độ phù hợp tập mẫu
với tổng thể.
Hệ số tương quang hạng (Spearman):
Hệ số tương quan đơn chỉ phù hợp dữ liệu thu thập
ở thang đo Scale, khi giá trị cụ thể của 2 biến X, Y
không đo lường chính xác mà chỉ xếp theo hạng, khi
đo ta dùng hệ số tương quan hạng để đo lương mối
tương quan
ví dụ:
Ứng viên Xếp hạng của
Chuyên gia 1 Chuyên gia 2
A 1 3
B 2 1
C 3 4
1.2 Kiểm định giả thuyết về hệ số tương quan
• Có thể hệ số tương quan tính được ở tập mẫu rất cao,
nhưng chưa chắc đã tồn tại mối tương quan đó trong tổng
thể, vì vậy ta phải kiểm định hệ số tương quan trước khi
dùng để xem xét tương quan tổng thể.
• Chúng ta phát biểu giả thuyết H0 là: không có mối tương
quan giữa 2 biến trong tổng thể.
• Trong SPSS, bạn có thể yêu cầu kiểm định hai phía các
hệ số ở mức ý nghĩa nhỏ hơn 0.05 (phân biệt bằng một
dấu sao *) và ở mức ý nghĩa nhỏ hơn 0.01 (phân biệt
bằng hai dấu sao **). Từ bảng tính hệ số tương quan, ta
có thể thấy xác suất hệ số tương quan tính được ít nhất là
; trong khi không có mối liên hệ tuyến tính nào trong tổng
thể giữa tuổi người mẹ và lượng sữa lớn hơn 0.01. Như
vậy nếu sử dụng mức ý nghĩa 5% hay 1% (xác suất chấp
nhận giả thuyết sai là 5% hay 1%) thì giả thuyết hệ số
tương quan của tổng thể bằng 0 được chấp nhận.
Thực hiện đo lường tương quan tuyến tính
trên SPSS
Hệ số tương quan
Chọn hai hay nhiều biến để
phân tích
Kiểm định mức ý nghĩa
Các tùy chọn tương quan hai
biến
Giải thích từ
Correlation Coefficients (hệ số tương quan): bạn phải
chọn ít nhất là một loại hệ số trong các loại hệ số sau:
• Pearson: hệ số này là mặc định. Bảng kết quả sẽ thể
hiện một ma trận vuông gồm các hệ số tương quan.
Tương quan của một biến nào đó với chính nó sẽ có
hệ số tương quan là 1 và bạn có thể thấy chúng trên
đường chéo của ma trận. Mỗi biến sẽ xuất hiện hai
lần trong ma trận với hệ số tương quan y hệt nhau
trong hai tam giác trên và dưới đối xứng nhau qua
đường chéo của ma trận.
• Kendall’s tau-b: là một loại hệ số tương quan hạng.
Khi chọn loại tương quan này SPSS sẽ thể hiện tương
quan giữa mỗi biến với tất cả các biến khác trong tam
giác phía dưới đường chéo của ma trận hệ số tương
quan.
• Spearman: Spearman là một loại hệ số tương quan
hạng và nó sẽ được thể hiện trong phần tam giác phía
dưới của ma trận hệ số.
• Test of significance (kiểm định mức ý nghĩa). Có hai
lựa chọn sau:
• Two-tail (kiểm định hai phía). Loại kiểm định này
được sử dụng trong trường hợp chiều hướng của mối
liên hệ không thể xác định trước được.
• One-tail (kiểm định một phía). Loại kiểm định này
được sử dụng khi xác định chiều hướng của mối liên
hệ giữa hai biến.
II- Hồi qui tuyến tính
• Mục tiêu của phân tích hồi quy là mô hình hóa mối liên
hệ, nghĩa là từ các dữ liệu mẫu thu thập được, cố gắng
xây dựng mô hình toán học nhằm thể hiện một cách tốt
nhất mối liên hệ giữa hai biến và .
• Ví dụ: Bởi vì lượng sữa có xu hướng giảm tuyến tính so
với tuổi của người mẹ, ta có thể sử dụng phương trình
đường thẳng để mô tả mối liên hệ. Phương trình của
đường thẳng là:
• lượng sữa của người mẹ =B0 + B1 *(tuổi của người mẹ)
• Độ dốc B1là tăng giảm của lượng sữa điều chỉnh (còn lại
là dự đoán hay lý thuyết theo mô hình) do lượng tăng
giảm của tuổi người mẹ. Hằng số B0 (tung độ của điểm tại
đó đường thẳng cắt trục tung - the intercept) là lượng sữa
lý thuyết khi tuổi người mẹ bằng 0.
• Tuy nhiên, tất cả các điểm dữ liệu được quan sát
không nằm trên cùng một đường thẳng, chúng chỉ tập
trung quanh một đường thẳng. Chúng ta có thể kẻ
nhiều đường thẳng xuyên qua các điểm dữ liệu này,
và vấn đề là: phải chọn ra một đường thẳng mô tả sát
nhất xu hướng này. Phương pháp dùng để xác định
đường thẳng này là phương pháp bình phương tối
thiểu (least squares). Phương pháp này sẽ tìm ra một
đường thẳng sao cho tổng các độ lệch bình phương
giữa tung độ của các điềm dữ liệu quan sát và đường
thẳng là cực tiểu. Hình sau minh họa đường thẳng tìm
được bằng phương pháp bình phương tối thiểu được
kẻ ngay trên đồ thị phân tán.
Cách xây dựng hồi qui tuyến tính đơn trên SPSS
Vào Analyze -> Regression -> Linear
Biến phụ thuộc
Biến độc lập
Các thống kê
liên quan Vẽ đồ thị hồi quy
Sao lưu biến trong phân
tích hồi quy
Các thông số
liên quan
Ví dụ khi chạy hồi qui tuyến tính số giờ dạy
trong năm và số CTNC ta có
Variables Entered/Removed b
Toång soá giôø
daïy trong
naêm
a
. Enter
Model
1
Variables
Entered
Variables
Removed Method
All requested variables entered.a.
Dependent Variable: Toång soá coâng trình NCKH caùc caápb.
Model Summaryb
.091a .008 -.001 3.220
Model
1
R R Square
Adjusted R
Square
Std. Error of
the Estimate
Predictors: (Constant), Toång soá giôø daïy trong naêma.
Dependent Variable: Toång soá coâng trình NCKH caùc caápb.
Coefficientsa
2.084 .594 3.509 .001
-.001 .001 -.091 -.923 .358
(Constant)
Toång soá giôø daïy trong naêm
Model
1
B Std. Error
Unstandardized Coefficients
Beta
Standardized
Coefficients
t Sig.
Dependent Variable: Toång soá coâng trình NCKH caùc caápa.
ANOVAb
8.827 1 8.827 .851 .358a
1067.935 103 10.368
1076.762 104
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Toång soá giôø daïy trong naêma.
Dependent Variable: Toång soá coâng trình NCKH caùc caápb.
Lập phương trình hồi qui đơn tuyến
tính:
• Tại bảng Coefficients(a) ta có thông tin về hệ
số hồi qui mà phương pháp OLS ước lượng
được như sau:
• Tại ô B * (Constant) cho ta B0
• Tại ô B * (Số giờ dạy trong năm) cho ta B1
• Phương trình hồi qui cụ thể là:
Số CTNC dự đoán = 2.084 – 0.001* Số giờ dạy
( Ở đây tương quan nghịch)