Bài giảng Chương 9 Nhập và xử lý số liệu - Tài liệu, ebook, giáo trình, hướng dẫn

I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU 1. Các loại dữ liệu: - Dữ liệu phân loại - Dữ liệu mô tả/ dữ liệu định danh - Dữ liệu xếp hạng hay thứ tự - Dữ liệu có thể định lượng - Dữ liệu khoảng cách

9 trang | Chia sẻ: thanhtuan.68 | Lượt xem: 1307 | Lượt tải: 0Free

Bạn đang xem nội dung tài liệu Bài giảng Chương 9 Nhập và xử lý số liệu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

3/13/2011 1 CHƯƠNG 9 NHẬP VÀ XỬ LÝ SỐ LIỆU TS. NGUYỄN MINH HÀ TRƯỜNG ĐH MỞ TPHCM 1 NỘI DUNG 1. CHUẨN BỊ, NHẬP VÀ KIỂM TRA DỮ LIỆU 2. KHÁM PHÁ VÀ TRÌNH BÀY DỮ LIỆU 3. PHÂN TÍCH THỐNG KÊ MÔ TẢ 4. PHÂN TÍCH DỮ LIỆU 2 3/13/2011 2 I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU 1. Các loại dữ liệu: - Dữ liệu phân loại - Dữ liệu mô tả/ dữ liệu định danh - Dữ liệu xếp hạng hay thứ tự - Dữ liệu có thể định lượng - Dữ liệu khoảng cách 3 I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU 2. Trình bày dữ liệu: - Trình bày dữ liệu ở dạng bảng. Gọi là ma trận dữ liệu - Đặt tên biến ngắn gọn, nên viết tắt (tiếng Anh/tiếng Việt không dấu) - Đặt tên biến nên theo quy luật và trình tự của bảng câu hỏi hay trình tự khảo sát. - Có thể lưu trữ ở phần mềm Excel hay SPSS Số nhận dạng (ID) Biến 1 Biến 2 Biến 3 Biến 4 1 15 1 3 0,4 2 27 0 1 1,2 3 18 0 2 0,9 ... 4 3/13/2011 3 I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU 3. Mã hóa dữ liệu: Ghi dữ liệu bằng mã số học a. Mã hóa dữ liệu có thể định lượng: Các con số thực tế được sử dụng như mã số cho dữ liệu có thể định lượng. VD ở bảng trên b. Mã hóa dữ liệu phân loại: Các câu hỏi, các biến trả lời nên được mã hóa thành các con số. Việc mã hóa sẽ tiết kiệm thời gian khi nhập, có thể sử dụng để phân tích, kiểm định và đối chiếu. Để tạo ra bộ mã hóa cho mỗi biến, cần phải: - Xem xét dữ liệu và xác lập các nhóm tổng quát - Chia nhóm tổng quát thành những nhóm nhỏ tùy vào phân tích dự định thực hiện - Phân bổ mã số cho tất cả các phân loại - Ghi chú những câu trả lời thực tế được phân bổ vào mỗi loại và bộ mã - Đảm bảo những phân loại có thể hợp nhất với nhau được mã hóa liền nhau để thuận tiện cho việc mã hóa lại. 5 I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU 4. Nhập dữ liệu: - Cần tạo 1 file để chứa tên và giải thích ý nghĩa của các biến trong dữ liệu để thuận tiện phân tích và kế thừa nghiên cứu. - Các dữ liệu định lượng, nhập đúng giá trị trong bảng phỏng vấn. - Đối với các câu trả lời đóng: • Khi câu có 1 câu trả lời/chọn 1 trong 2 (có/không; Nam/nữ): sử dụng giá trị 0 và 1 để lưu thông tin. Vd: có là 1, không là 0; Nam là 1, Nữ là 0 hoặc ngược lại. Tình trạng gia đình (0: độc thân, 1: lập gia đình hoặc ngược lại) • Khi có từ 3 lựa chọn trở lên nhưng chỉ có 1 câu trả lời (không thích/thích/không ý kiến): Sử dụng 1, 2, 3 tương ứng theo câu trả lời. Trường hợp này hay gặp với với câu hỏi phân loại/ danh nghĩa/định danh. Vd: Màu tóc (đen, đỏ, hung): 1,2,3 tương ứng hoặc có thể đổi thứ tự. Ngành kinh doanh: 1 là Nông nghiệp, 2 là công nghiệp và 3 là dịch vụ. Từ các mã hóa 1, 2, 3, ... Chúng ta có thể chuyển thành các biến dummy khác nhau dễ dàng. 6 3/13/2011 4 I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU 4. Nhập dữ liệu: • Đối với câu trả lời thứ bậc và xếp hạng: nhập theo số thứ bậc/xếp hạng mà được trả lời. Vd: thang đo likert (1-5) • Khi có từ 3 lựa chọn trở lên và có ít nhất 2 câu trả lời (vd: sở thích xem tivi, đọc báo, và nghe radio): Tạo 3 biến, mỗi biến là 1 sự lựa chọn và sử dụng giá trị 0 và 1 để lưu thông tin. Lựa chọn nào được đánh dấu trong bảng câu hỏi thì biến tương ứng sẽ có giá trị là 1, nếu không được chọn thì đánh số 0. - Câu trả lời mở: Nhập chính xác câu trả lời ghi trong bảng câu hỏi, sau đó đọc và phân nhóm câu trả lời rồi mã hóa. 7 I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU 5. Kiểm tra sai soát và thanh lọc dữ liệu: - Kiểm tra sai soát: - Kiểm tra các mã không hợp lệ: số 0 hay o, 1 hay I, ... Sử dụng 1 số công dụng trong Excel, SPSS hay các chương trình khác để kiểm tra. - Tìm kiếm những quan hệ không logic: Coi chừng nhập lộn giữa số 1 (thấp nhất hay cao nhất) và số 5 (cao nhất hay thấp nhất) - Phát hiện các dị biệt trong dữ liệu (outliers): Sử dụng Excel: hàm min, hàm max, công cụ Auto Filter, đồ thị scatter, đồ thị plot để xác định Trong SPSS: đồ thị scatter, công cụ Frequency, ... để phát hiện. - Phát hiện và xử lý dữ liệu bị khuyết tật (missing data): Sử dụng Exel: Công cụ Auto Filter Sử dụng SPSS: Công cụ Frequency và Select Cases 8 3/13/2011 5 II. KHÁM PHÁ VÀ TRÌNH BÀY DỮ LIỆU Sử dụng các biểu đồ, đồ thị, hình vẽ, số liệu thống kê để trình bày dữ liệu. Phần này như là phần trình bày kết quả NC thống kê dữ liệu (khác với mô tả thống kê: Descriptive Statistics) - Trình bày 1 biến sao cho có thể dễ dàng đọc được 1 giá trị cụ thể bất kỳ. - Thấy giá trị cao nhất, thấp nhất - Thể hiện xu hướng: dùng đường thẳng - Tỷ lệ xảy ra (tỷ lệ %) - Thể hiện sự phân bố của các giá trị cho 1 biến (vd: đa số tập trung ở mức 25% trên) - Thể hiện mối quan hệ: Đồ thị/biểu đồ phân tán hoặc thống kê. Vd: trình độ học vấn theo tuổi, Thu nhập theo trình độ học vấn, ... - So sánh các biến hay so sánh biến theo các đặc tính, .. 9 III. PHÂN TÍCH THỐNG KÊ MÔ TẢ 1. Phân tích thống kê mô tả định lượng: - Sử dụng Excel: Công cụ Descriptive Statistics trong chức năng Data Analysis - Sử dụng SPSS: Công cụ Frequency, Descriptives, Explore chức năng Descriptive Statistics. a. Ôn lại 1 số chỉ tiên thống kê: - Đo lường xu hướng trung tâm: Mode, Trung vị (Median), giá trị trung bình (Mean), Khoảng cách (Range) - Đo lường sự biến thiên: Phương sai (Variance; σ2) là trung bình tổng các sai số bình phương giữa các giá trị của các quan sát và giá trị trung bình. Độ lệch chuẩn (Standard Deviation; SD, σ) đo lường mức độ phân tán của số liệu xung quanh giá trị trung bình. 10 3/13/2011 6 III. PHÂN TÍCH THỐNG KÊ MÔ TẢ 1. Phân tích thống kê mô tả định lượng: b. Thống kê mô tả - Yêu cầu bảng thống kê mô tả tối thiểu gồm : Variable Obs Mean Std. Dev. Min Max Growth 21,217 -0.04 0.84 -1 15.27 Assetgrowth 21,205 0.08 1.03 -1 19.00 Lnage 32,766 1.91 0.62 0 3.43 Capital 32,766 48.79 115.86 0 1,344.65 AgriSector 32,766 0.01 0.09 0 1 InduSector 32,766 0.32 0.47 0 1 ServSector 32,766 0.67 0.47 0 1 11 III. PHÂN TÍCH THỐNG KÊ MÔ TẢ 2. Phân tích thống kê mô tả định tính: - Sử dụng các bảng đơn giản: Trong SPSS, sử dụng công cụ Basic Table Trong Excel, sử dụng Pivote table trong ... Ví dụ: Số mẫu Tỷ lệ (%) Nam 140 53,8 Nữ 120 46,2 Tổng 260 100 Số mẫu Tỷ lệ (%) Nông nghiệp 22 7,2 Công nghiệp 155 50,8 Dịch vụ 128 42 Tổng 305 100 12 3/13/2011 7 III. PHÂN TÍCH THỐNG KÊ MÔ TẢ 2. Phân tích thống kê mô tả định tính: - Sử dụng các bảng so sánh 2 chiều hay còn gọi Bảng chéo (Cross- Tabulation) Trong SPSS, sử dụng công cụ Basic Table Trong Excel, sử dụng Pivote table trong ... Ví dụ: 2001 2002 % % Total 530 100 880 100 Sector 1 0 0.0 4 0.5 Sector 2 164 30.9 292 33.2 Sector 3 366 69.1 584 66.4 Level of education Current salary (unit: dong) Sum Under 1,500,000 1500,000- 3,000,000 2,000,000 - 3,000,000 Over 3,000,000 Professional degree Intermediate ,Colleges 8 9 15 1 33 count % 24.24 27.27 45.45 3.03 100.00 University 144 81 93 58 376 count % 38.30 21.54 24.73 15.43 100.00 Post- graduation university 1 3 8 14 26 count % 3.85 11.54 30.77 53.85 100.00 13 IV. PHÂN TÍCH DỮ LIỆU - Phân tích tương quan và đa cộng tuyến (correlation matrix) - Phân tích hồi quy (Regression): có mối quan hệ, có quan hệ nhân quả, cường độ tác động, dự báo các giá trị, dự báo xu hướng (chuổi theo thời gian) - Phân tích khám phá EFA - Phân tích Anova (test sự khác nhau giữa 2 nhóm) sử dụng t-test Trong excel sử dụng: Correlation, Anova và regression trong chức năng Data Analysis Trong SPSS: các công cụ Compare Means, Nonparametric Tests, Regression Lưu ý: cách chọn các biến phụ thuộc và biến độc lập trong hồi quy (các biến phải tương ứng với nhau). Trình bày 1 bảng kết quả hồi quy 14 3/13/2011 8 15 Biến Coefficients Std.Errors Constant 0.6178 0.4400 Biến 1 -0.0762* 0.3441 Biến 2 0.0142 0.1031 Biến 3 -0.0399*** 0.0122 ... -0.0001 0.0001 -0.0154 0.2615 Số quan sát 11,057 R R2 R2 điều chỉnh Chi- Wald test Ghi chú: (nếu có) *** Ý nghĩa tại mức 1%, ** Ý nghĩa tại mức 5%, và * Ý nghĩa tại mức 10%. Bảng: Kết quả hồi quy .... Biến Hệ số Constant 0.6178 (0.4400) Biến 1 -0.0762* (0.3441) Biến 2 0.0142 (0.1031) Biến 3 -0.0399*** (0.0122) ... Số quan sát R R2 R2 điều chỉnh Chi- Wald test Ghi chú: Trong ngoặc là Std Errors *** Ý nghĩa tại mức 1%, ** Ý nghĩa tại mức 5%, và * Ý nghĩa tại mức 10%. Bảng: Kết quả hồi quy .... Ví dụ: IV. PHÂN TÍCH DỮ LIỆU Sau khi phân tích thống kê, mô tả thống kê, trong phân tích có thể kết hợp (tùy theo yêu cầu của nghiên cứu) 1 trong những phần sau: - Test correlation, sau đó chạy hồi quy và thực hiện 1 số tests - Chỉ phân tích EFA - Phân tích khám phá EFA, sau đó chạy hồi quy - Phân tích EFA và test Anova - Phân tích hồi quy và test Anova - Chỉ thực hiện test Anova - Chỉ thực hiện mô tả thống kê và phân tích thống kê, - .... 16 3/13/2011 9 Kết thúc Thanks 17