Phân tích dữ liệu - Kiểm định giả thuyết, hồi quy

Phân tích tương quan - 2 biến định lượng - Mối liên quan giữa hai biến định lượng có thể được biểu thị dưới dạng biểu đồ chấm và hệ số tương quan - Nếu cả hai biến đều có phân bố chuẩn, thì hệ số tương quan Pearson’s là có giá trị - Nếu không, cần phải sử dụng hệ số tương quan Spearman’s - Từ thực đơn dọc chọn: Analyse/Correlate/Bivariate

pdf31 trang | Chia sẻ: thanhtuan.68 | Lượt xem: 1746 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Phân tích dữ liệu - Kiểm định giả thuyết, hồi quy, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
PHÂN TÍCH DỮ LIỆU KIỂM ĐỊNH GIẢ THUYẾT, HỒI QUY # Phân tích tương quan - 2 biến định lượng - Mối liên quan giữa hai biến định lượng có thể được biểu thị dưới dạng biểu đồ chấm và hệ số tương quan - Nếu cả hai biến đều có phân bố chuẩn, thì hệ số tương quan Pearson’s là có giá trị - Nếu không, cần phải sử dụng hệ số tương quan Spearman’s - Từ thực đơn dọc chọn: Analyse/Correlate/Bivariate # Hệ số tương quan Kiểm định trung bình tổng thể # Kiểm định giả thuyết về trung bình của một tổng thể: Nếu muốn so sánh giá trị trung bình của một tổng thể với một giá trị cụ thể nào đó, sử dụng One-sample T-test - Vào menu, chọn Analyze/Compare Means/ One-sample T-test - Chọn biến đưa vào khung Test Variable - Khai báo Test Value # Ví dụ: Kiểm định One-sample T-test One-sample T-test - Điều kiện áp dụng: Mẫu phải được chọn ngẫu nhiên hoặc tương đương Mẫu phải có phân phối xấp xỉ chuẩn hoặc chuẩn Kiểm định trung bình tổng thể # Kiểm định giả thuyết về sự bằng nhau giữa hai trung bình tổng thể: Nếu muốn so sánh hai giá trị trung bình của hai tổng thể dựa trên hai mẫu độc lập, sử dụng Independent-Samples T-test - Vào menu, chọn Analyze/Compare Means/ Independent-Samples T-test Independent-Samples T-test - Chọn biến định lượng đưa vào khung Test Variable - Chọn biến định tính (chia số quan sát thành 2 nhóm mẫu độc lập) đưa vào Grouping Variable - Nhấn nút Define Groups để chỉ định hai nhóm cần so sánh với nhau - Nhấn nút Continue Independent-Samples T-test - Dựa vào kết quả kiểm định sự bằng nhau của hai phương sai (Levene’s Test) + Nếu giá trị Sig. <0,05: sử dụng kết quả kiểm định t ở cột Equal variances not assumed + Nếu giá trị Sig. >0,05: sử dụng kết quả kiểm định t ở cột Equal variances assumed Independent-samples T-test - Điều kiện áp dụng: 2 mẫu phải được chọn ngẫu nhiên, có phân phối chuẩn hoặc xấp xỉ phân phối chuẩn; không có các giá trị bất thường (outliers) - Ví dụ Kiểm định trung bình tổng thể # Kiểm định giả thuyết về sự bằng nhau giữa hai trung bình tổng thể: Nếu muốn so sánh hai giá trị trung bình của hai tổng thể dựa trên hai mẫu phụ thuộc hay mẫu phối hợp từng cặp, sử dụng Paired- samples T-test - Vào menu, chọn Analyze/Compare Means/ Paired-Samples T-test Paired-samples T-test - Điều kiện áp dụng: Kích cỡ 2 mẫu so sánh bằng nhau hoặc tương đương Chênh lệch giữa các giá trị trung bình của 2 mẫu phải có phân phối chuẩn hoặc xấp xỉ phân phối chuẩn Kiểm định trung bình tổng thể # Kiểm định giả thuyết về sự bằng nhau giữa các trung bình tổng thể: Nếu muốn so sánh giá trị trung bình của nhiều nhóm tổng thể độc lập, sử dụng phân tích phương sai ANOVA - Phân tích phương sai 1 yếu tố (One-way ANOVA): trường hợp sử dụng 1 biến yếu tố để phân loại các quan sát thành các nhóm khác nhau Phân tích phương sai một yếu tố - One-way ANOVA - Điều kiện áp dụng: + Các nhóm so sánh phải độc lập và được chọn một cách ngẫu nhiên + Các nhóm so sánh phải có phân phối chuẩn hoặc cỡ mẫu phải đủ lớn để xem như xấp xỉ phân phối chuẩn + Phương sai của các nhóm so sánh phải đồng nhất (bằng nhau) One-way ANOVA (tt) - Cách tiến hành: Từ menu, chọn Analyze/ Compare Means/ One-way ANOVA Chọn biến định lượng đưa vào khung Dependent List Chọn biến phân loại xác định các nhóm cần so sánh đưa vào khung Factor Chọn Options; đánh dấu vào Descriptive và Homogeneity-of-variance - Ví dụ - Phân tích sâu ANOVA Kiểm định tỷ lệ tổng thể - Sử dụng Chi-bình phương hoặc/và Binomial Test - Điều kiện: + Mẫu được chọn ngẫu nhiên + Biến nhị phân (chỉ có 2 tình huống). Nếu có nhiều hơn, nên dùng lệnh Recode để chuyển thành biến có 2 lựa chọn Ví dụ: Sử dụng Binomial Test • Ho: Tỷ lệ đánh giá hài lòng trở lên đối với chuyến tham quan Đại Nội của toàn bộ khách nội địa là 80% • H1: Tỷ lệ này nhỏ hơn 80% - Chọn Analyze/ Nonparametric tests/Binomial - Ví dụ Hồi quy tuyến tính - Dùng để suy rộng cho mối quan hệ giữa các biến trong tổng thể - Dùng để dự báo được mức độ của biến phụ thuộc (Y) (với độ chính xác trong một phạm vi giới hạn) khi biết trước giá trị của biến độc lập (X) Hồi quy đơn tuyến tính • Mô hình xây dựng từ dữ liệu mẫu có dạng: Y = Bo + B1 * X Trong đó: X: biến độc lập Y: biến phụ thuộc Bo & B1: Hệ số hồi quy - Ví dụ: Doanh số = Bo + B1* Chi phí chào hàng Hồi quy đơn tuyến tính • Cách xây dựng trong SPSS: - Vào menu, chọn Analyze/ Regression/Linear - Chọn biến phụ thuộc, đưa vào ô Dependent - Chọn biến độc lập, đưa vào ô Independents - Bấm OK Ví dụ Đánh giá độ phù hợp của mô hình • Để biết mô hình hồi quy tuyến tính đã xây dựng trên dữ liệu mẫu phù hợp đến mức độ nào với dữ liệu: sử dụng hệ số xác định R2 • Hệ số này càng gần 1: mô hình càng thích hợp; càng gần 0: mô hình càng kém phù hợp với tập dữ liệu mẫu Đánh giá độ phù hợp của mô hình • Hệ số xác định R2 còn đo lường mối tương quan giữa X và Y • Ví dụ: R2 = 0,818: mô hình hồi quy tuyến tính đã xây dựng phù hợp với tập dữ liệu đến mức 81,8%. Hay 81,8% khác biệt của các giá trị Y quan sát được có thể được giải thích bởi sự khác biệt giữa các giá trị X Kiểm định giả thuyết • Để kiểm định độ phù hợp của mô hình hồi quy tổng thể, sử dụng đại lượng F từ bảng phân tích phương sai ANOVA • Giả thuyết Ho: Hệ số R2 của tổng thể = 0 Đọc kết quả: nếu p < mức ý nghĩa: bác bỏ Ho và kết luận mô hình hồi quy tuyến tính xây dựng phù hợp với tổng thể Kiểm định giả thuyết • Để kiểm định ý nghĩa của hệ số hồi quy: • Ho: độ dốc của mô hình tổng thể B1 =0 • Cách đọc kết quả: sử dụng giá trị p- value (Sig.) của kiểm định t • Nếu p-value < mức ý nghĩa: bác bỏ Ho, kết luận giữa hai biến trong tổng thể có liên hệ tuyến tính Ví dụ Các giả định cần tuân thủ • Các giá trị quan sát của X & Y có liên hệ tuyến tính • Phương sai của sai số không đổi • Phần dư phân phối chuẩn • Tính độc lập của sai số (không có tương quan giữa các phần dư)