Bài giảng SPSS - Chương 8: Tương quan và hồi qui tuyến tính - Tài liệu, ebook, giáo trình, hướng dẫn

15 trang | Chia sẻ: thanhtuan.68 | Lượt xem: 2957 | Lượt tải: 1

Bạn đang xem nội dung tài liệu Bài giảng SPSS - Chương 8: Tương quan và hồi qui tuyến tính, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Chương 8 TƯƠNG QUAN VÀ HỒI QUI TUYẾN TÍNH I- Tương quan tuyến tính: Khi phân tích mối liên hệ giữa 2 biến định lượng ngoài các phương pháp như dùng đồ thị, mã hóa thành biến định tính thì chúng ta có thể dùng phân tích tương quan; trong phạm vi môn học chúng ta chỉ phân tích tương quan tuyến tính. Mục tiêu của phân tích tương quan là đo lường cường độ của mối quan hệ giữa hai biến và . Trong phân tích tương quan, X và Y được xem là hai biến ngẫu nhiên “ngang nhau” – không phân biệt biến độc lập và biến phụ thuộc. Tương quan tuyến tính giữa hai biến và là khái niệm thể hiện mức độ của mối liên hệ tuyến tính giữa 2 biến. Ví dụ: Một công trình nghiên cứu cho thấy giữa tuổi của người mẹ và lượng sữa có một mối liên quan theo chiều hướng nghịch, nghĩa là người mẹ nhiều tuổi sẽ ít sữa hơn người mẹ còn trẻ. Số liệu thu thập như sau: )(xyTuổiSữa STT 1 2 3 4 5 6 7 8 Tuổi (X) 21 24 27 30 33 36 39 42 Sữa ( Y) 105 110 105 90 95 90 85 80 Hệ số tương quan đơn (r) • Hệ số tương quan tích mômen chéo Pearson ký hiệu là r: • Dùng để lượng hóa mức độ chặt chẽ mối liên hệ tuyến tính của 2 biến định lượng ( tức là 2 biến cùng biến động theo một cách nào đó, dùng thang đo Scale) • Hệ số tương quan hạng chạy từ: -1 <= r <= 1 • Nếu r = 0 là 2 biến không có liên hệ tuyến tính, trường hợp đó không thể kết luận 2 biến không có tương quan mà chỉ là không có tương quan tuyến tính. • Khi 2 biến có hệ số tương quan cao chúng ta chưa vội kết luận nếu chưa có sự kiểm định độ phù hợp tập mẫu với tổng thể. Hệ số tương quang hạng (Spearman): Hệ số tương quan đơn chỉ phù hợp dữ liệu thu thập ở thang đo Scale, khi giá trị cụ thể của 2 biến X, Y không đo lường chính xác mà chỉ xếp theo hạng, khi đo ta dùng hệ số tương quan hạng để đo lương mối tương quan ví dụ: Ứng viên Xếp hạng của Chuyên gia 1 Chuyên gia 2 A 1 3 B 2 1 C 3 4 1.2 Kiểm định giả thuyết về hệ số tương quan • Có thể hệ số tương quan tính được ở tập mẫu rất cao, nhưng chưa chắc đã tồn tại mối tương quan đó trong tổng thể, vì vậy ta phải kiểm định hệ số tương quan trước khi dùng để xem xét tương quan tổng thể. • Chúng ta phát biểu giả thuyết H0 là: không có mối tương quan giữa 2 biến trong tổng thể. • Trong SPSS, bạn có thể yêu cầu kiểm định hai phía các hệ số ở mức ý nghĩa nhỏ hơn 0.05 (phân biệt bằng một dấu sao *) và ở mức ý nghĩa nhỏ hơn 0.01 (phân biệt bằng hai dấu sao **). Từ bảng tính hệ số tương quan, ta có thể thấy xác suất hệ số tương quan tính được ít nhất là ; trong khi không có mối liên hệ tuyến tính nào trong tổng thể giữa tuổi người mẹ và lượng sữa lớn hơn 0.01. Như vậy nếu sử dụng mức ý nghĩa 5% hay 1% (xác suất chấp nhận giả thuyết sai là 5% hay 1%) thì giả thuyết hệ số tương quan của tổng thể bằng 0 được chấp nhận. Thực hiện đo lường tương quan tuyến tính trên SPSS Hệ số tương quan Chọn hai hay nhiều biến để phân tích Kiểm định mức ý nghĩa Các tùy chọn tương quan hai biến Giải thích từ Correlation Coefficients (hệ số tương quan): bạn phải chọn ít nhất là một loại hệ số trong các loại hệ số sau: • Pearson: hệ số này là mặc định. Bảng kết quả sẽ thể hiện một ma trận vuông gồm các hệ số tương quan. Tương quan của một biến nào đó với chính nó sẽ có hệ số tương quan là 1 và bạn có thể thấy chúng trên đường chéo của ma trận. Mỗi biến sẽ xuất hiện hai lần trong ma trận với hệ số tương quan y hệt nhau trong hai tam giác trên và dưới đối xứng nhau qua đường chéo của ma trận. • Kendall’s tau-b: là một loại hệ số tương quan hạng. Khi chọn loại tương quan này SPSS sẽ thể hiện tương quan giữa mỗi biến với tất cả các biến khác trong tam giác phía dưới đường chéo của ma trận hệ số tương quan. • Spearman: Spearman là một loại hệ số tương quan hạng và nó sẽ được thể hiện trong phần tam giác phía dưới của ma trận hệ số. • Test of significance (kiểm định mức ý nghĩa). Có hai lựa chọn sau: • Two-tail (kiểm định hai phía). Loại kiểm định này được sử dụng trong trường hợp chiều hướng của mối liên hệ không thể xác định trước được. • One-tail (kiểm định một phía). Loại kiểm định này được sử dụng khi xác định chiều hướng của mối liên hệ giữa hai biến. II- Hồi qui tuyến tính • Mục tiêu của phân tích hồi quy là mô hình hóa mối liên hệ, nghĩa là từ các dữ liệu mẫu thu thập được, cố gắng xây dựng mô hình toán học nhằm thể hiện một cách tốt nhất mối liên hệ giữa hai biến và . • Ví dụ: Bởi vì lượng sữa có xu hướng giảm tuyến tính so với tuổi của người mẹ, ta có thể sử dụng phương trình đường thẳng để mô tả mối liên hệ. Phương trình của đường thẳng là: • lượng sữa của người mẹ =B0 + B1 *(tuổi của người mẹ) • Độ dốc B1là tăng giảm của lượng sữa điều chỉnh (còn lại là dự đoán hay lý thuyết theo mô hình) do lượng tăng giảm của tuổi người mẹ. Hằng số B0 (tung độ của điểm tại đó đường thẳng cắt trục tung - the intercept) là lượng sữa lý thuyết khi tuổi người mẹ bằng 0. • Tuy nhiên, tất cả các điểm dữ liệu được quan sát không nằm trên cùng một đường thẳng, chúng chỉ tập trung quanh một đường thẳng. Chúng ta có thể kẻ nhiều đường thẳng xuyên qua các điểm dữ liệu này, và vấn đề là: phải chọn ra một đường thẳng mô tả sát nhất xu hướng này. Phương pháp dùng để xác định đường thẳng này là phương pháp bình phương tối thiểu (least squares). Phương pháp này sẽ tìm ra một đường thẳng sao cho tổng các độ lệch bình phương giữa tung độ của các điềm dữ liệu quan sát và đường thẳng là cực tiểu. Hình sau minh họa đường thẳng tìm được bằng phương pháp bình phương tối thiểu được kẻ ngay trên đồ thị phân tán. Cách xây dựng hồi qui tuyến tính đơn trên SPSS Vào Analyze -> Regression -> Linear Biến phụ thuộc Biến độc lập Các thống kê liên quan Vẽ đồ thị hồi quy Sao lưu biến trong phân tích hồi quy Các thông số liên quan Ví dụ khi chạy hồi qui tuyến tính số giờ dạy trong năm và số CTNC ta có Variables Entered/Removed b Toång soá giôø daïy trong naêm a . Enter Model 1 Variables Entered Variables Removed Method All requested variables entered.a. Dependent Variable: Toång soá coâng trình NCKH caùc caápb. Model Summaryb .091a .008 -.001 3.220 Model 1 R R Square Adjusted R Square Std. Error of the Estimate Predictors: (Constant), Toång soá giôø daïy trong naêma. Dependent Variable: Toång soá coâng trình NCKH caùc caápb. Coefficientsa 2.084 .594 3.509 .001 -.001 .001 -.091 -.923 .358 (Constant) Toång soá giôø daïy trong naêm Model 1 B Std. Error Unstandardized Coefficients Beta Standardized Coefficients t Sig. Dependent Variable: Toång soá coâng trình NCKH caùc caápa. ANOVAb 8.827 1 8.827 .851 .358a 1067.935 103 10.368 1076.762 104 Regression Residual Total Model 1 Sum of Squares df Mean Square F Sig. Predictors: (Constant), Toång soá giôø daïy trong naêma. Dependent Variable: Toång soá coâng trình NCKH caùc caápb. Lập phương trình hồi qui đơn tuyến tính: • Tại bảng Coefficients(a) ta có thông tin về hệ số hồi qui mà phương pháp OLS ước lượng được như sau: • Tại ô B * (Constant) cho ta B0 • Tại ô B * (Số giờ dạy trong năm) cho ta B1 • Phương trình hồi qui cụ thể là: Số CTNC dự đoán = 2.084 – 0.001* Số giờ dạy ( Ở đây tương quan nghịch)