I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU
1. Các loại dữ liệu:
- Dữ liệu phân loại
- Dữ liệu mô tả/ dữ liệu định danh
- Dữ liệu xếp hạng hay thứ tự
- Dữ liệu có thể định lượng
- Dữ liệu khoảng cách
9 trang |
Chia sẻ: thanhtuan.68 | Lượt xem: 997 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Bài giảng Chương 9 Nhập và xử lý số liệu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
3/13/2011
1
CHƯƠNG 9
NHẬP VÀ XỬ LÝ SỐ LIỆU
TS. NGUYỄN MINH HÀ
TRƯỜNG ĐH MỞ TPHCM
1
NỘI DUNG
1. CHUẨN BỊ, NHẬP VÀ KIỂM TRA DỮ LIỆU
2. KHÁM PHÁ VÀ TRÌNH BÀY DỮ LIỆU
3. PHÂN TÍCH THỐNG KÊ MÔ TẢ
4. PHÂN TÍCH DỮ LIỆU
2
3/13/2011
2
I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU
1. Các loại dữ liệu:
- Dữ liệu phân loại
- Dữ liệu mô tả/ dữ liệu định danh
- Dữ liệu xếp hạng hay thứ tự
- Dữ liệu có thể định lượng
- Dữ liệu khoảng cách
3
I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU
2. Trình bày dữ liệu:
- Trình bày dữ liệu ở dạng bảng. Gọi là ma trận dữ liệu
- Đặt tên biến ngắn gọn, nên viết tắt (tiếng Anh/tiếng Việt không dấu)
- Đặt tên biến nên theo quy luật và trình tự của bảng câu hỏi hay trình
tự khảo sát.
- Có thể lưu trữ ở phần mềm Excel hay SPSS
Số nhận dạng
(ID)
Biến 1 Biến 2 Biến 3 Biến 4
1 15 1 3 0,4
2 27 0 1 1,2
3 18 0 2 0,9
...
4
3/13/2011
3
I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU
3. Mã hóa dữ liệu:
Ghi dữ liệu bằng mã số học
a. Mã hóa dữ liệu có thể định lượng: Các con số thực tế được sử dụng như mã số
cho dữ liệu có thể định lượng.
VD ở bảng trên
b. Mã hóa dữ liệu phân loại:
Các câu hỏi, các biến trả lời nên được mã hóa thành các con số. Việc mã hóa sẽ tiết
kiệm thời gian khi nhập, có thể sử dụng để phân tích, kiểm định và đối chiếu.
Để tạo ra bộ mã hóa cho mỗi biến, cần phải:
- Xem xét dữ liệu và xác lập các nhóm tổng quát
- Chia nhóm tổng quát thành những nhóm nhỏ tùy vào phân tích dự định thực
hiện
- Phân bổ mã số cho tất cả các phân loại
- Ghi chú những câu trả lời thực tế được phân bổ vào mỗi loại và bộ mã
- Đảm bảo những phân loại có thể hợp nhất với nhau được mã hóa liền nhau để
thuận tiện cho việc mã hóa lại.
5
I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU
4. Nhập dữ liệu:
- Cần tạo 1 file để chứa tên và giải thích ý nghĩa của các biến trong
dữ liệu để thuận tiện phân tích và kế thừa nghiên cứu.
- Các dữ liệu định lượng, nhập đúng giá trị trong bảng phỏng vấn.
- Đối với các câu trả lời đóng:
• Khi câu có 1 câu trả lời/chọn 1 trong 2 (có/không; Nam/nữ): sử dụng giá
trị 0 và 1 để lưu thông tin. Vd: có là 1, không là 0; Nam là 1, Nữ là 0 hoặc
ngược lại. Tình trạng gia đình (0: độc thân, 1: lập gia đình hoặc ngược
lại)
• Khi có từ 3 lựa chọn trở lên nhưng chỉ có 1 câu trả lời (không
thích/thích/không ý kiến): Sử dụng 1, 2, 3 tương ứng theo câu trả lời.
Trường hợp này hay gặp với với câu hỏi phân loại/ danh nghĩa/định danh.
Vd: Màu tóc (đen, đỏ, hung): 1,2,3 tương ứng hoặc có thể đổi thứ tự.
Ngành kinh doanh: 1 là Nông nghiệp, 2 là công nghiệp và 3 là dịch vụ.
Từ các mã hóa 1, 2, 3, ... Chúng ta có thể chuyển thành các biến dummy
khác nhau dễ dàng.
6
3/13/2011
4
I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU
4. Nhập dữ liệu:
• Đối với câu trả lời thứ bậc và xếp hạng: nhập theo số thứ bậc/xếp hạng
mà được trả lời. Vd: thang đo likert (1-5)
• Khi có từ 3 lựa chọn trở lên và có ít nhất 2 câu trả lời (vd: sở thích xem
tivi, đọc báo, và nghe radio): Tạo 3 biến, mỗi biến là 1 sự lựa chọn và sử
dụng giá trị 0 và 1 để lưu thông tin. Lựa chọn nào được đánh dấu trong
bảng câu hỏi thì biến tương ứng sẽ có giá trị là 1, nếu không được chọn
thì đánh số 0.
- Câu trả lời mở: Nhập chính xác câu trả lời ghi trong bảng câu hỏi,
sau đó đọc và phân nhóm câu trả lời rồi mã hóa.
7
I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU
5. Kiểm tra sai soát và thanh lọc dữ liệu:
- Kiểm tra sai soát:
- Kiểm tra các mã không hợp lệ: số 0 hay o, 1 hay I, ... Sử dụng 1 số công
dụng trong Excel, SPSS hay các chương trình khác để kiểm tra.
- Tìm kiếm những quan hệ không logic: Coi chừng nhập lộn giữa số 1
(thấp nhất hay cao nhất) và số 5 (cao nhất hay thấp nhất)
- Phát hiện các dị biệt trong dữ liệu (outliers):
Sử dụng Excel: hàm min, hàm max, công cụ Auto Filter, đồ thị scatter, đồ thị plot
để xác định
Trong SPSS: đồ thị scatter, công cụ Frequency, ... để phát hiện.
- Phát hiện và xử lý dữ liệu bị khuyết tật (missing data):
Sử dụng Exel: Công cụ Auto Filter
Sử dụng SPSS: Công cụ Frequency và Select Cases
8
3/13/2011
5
II. KHÁM PHÁ VÀ TRÌNH BÀY DỮ LIỆU
Sử dụng các biểu đồ, đồ thị, hình vẽ, số liệu thống kê để trình bày dữ
liệu. Phần này như là phần trình bày kết quả NC thống kê dữ liệu
(khác với mô tả thống kê: Descriptive Statistics)
- Trình bày 1 biến sao cho có thể dễ dàng đọc được 1 giá trị cụ thể
bất kỳ.
- Thấy giá trị cao nhất, thấp nhất
- Thể hiện xu hướng: dùng đường thẳng
- Tỷ lệ xảy ra (tỷ lệ %)
- Thể hiện sự phân bố của các giá trị cho 1 biến (vd: đa số tập
trung ở mức 25% trên)
- Thể hiện mối quan hệ: Đồ thị/biểu đồ phân tán hoặc thống kê.
Vd: trình độ học vấn theo tuổi, Thu nhập theo trình độ học vấn,
...
- So sánh các biến hay so sánh biến theo các đặc tính, ..
9
III. PHÂN TÍCH THỐNG KÊ MÔ TẢ
1. Phân tích thống kê mô tả định lượng:
- Sử dụng Excel: Công cụ Descriptive Statistics trong chức năng
Data Analysis
- Sử dụng SPSS: Công cụ Frequency, Descriptives, Explore chức
năng Descriptive Statistics.
a. Ôn lại 1 số chỉ tiên thống kê:
- Đo lường xu hướng trung tâm: Mode, Trung vị (Median), giá trị
trung bình (Mean), Khoảng cách (Range)
- Đo lường sự biến thiên: Phương sai (Variance; σ2) là trung bình
tổng các sai số bình phương giữa các giá trị của các quan sát và
giá trị trung bình. Độ lệch chuẩn (Standard Deviation; SD, σ) đo
lường mức độ phân tán của số liệu xung quanh giá trị trung bình.
10
3/13/2011
6
III. PHÂN TÍCH THỐNG KÊ MÔ TẢ
1. Phân tích thống kê mô tả định lượng:
b. Thống kê mô tả
- Yêu cầu bảng thống kê mô tả tối thiểu gồm :
Variable Obs Mean Std. Dev. Min Max
Growth 21,217 -0.04 0.84 -1 15.27
Assetgrowth 21,205 0.08 1.03 -1 19.00
Lnage 32,766 1.91 0.62 0 3.43
Capital 32,766 48.79 115.86 0 1,344.65
AgriSector 32,766 0.01 0.09 0 1
InduSector 32,766 0.32 0.47 0 1
ServSector 32,766 0.67 0.47 0 1
11
III. PHÂN TÍCH THỐNG KÊ MÔ TẢ
2. Phân tích thống kê mô tả định tính:
- Sử dụng các bảng đơn giản:
Trong SPSS, sử dụng công cụ Basic Table
Trong Excel, sử dụng Pivote table trong ...
Ví dụ:
Số mẫu Tỷ lệ (%)
Nam 140 53,8
Nữ 120 46,2
Tổng 260 100
Số mẫu Tỷ lệ (%)
Nông nghiệp 22 7,2
Công nghiệp 155 50,8
Dịch vụ 128 42
Tổng 305 100
12
3/13/2011
7
III. PHÂN TÍCH THỐNG KÊ MÔ TẢ
2. Phân tích thống kê mô tả định tính:
- Sử dụng các bảng so sánh 2 chiều hay còn gọi Bảng chéo (Cross-
Tabulation)
Trong SPSS, sử dụng công cụ Basic Table
Trong Excel, sử dụng Pivote table trong ...
Ví dụ:
2001 2002
% %
Total 530 100 880 100
Sector 1 0 0.0 4 0.5
Sector 2 164 30.9 292 33.2
Sector 3 366 69.1 584 66.4
Level of education
Current salary (unit: dong)
Sum
Under
1,500,000
1500,000-
3,000,000
2,000,000
-
3,000,000
Over
3,000,000
Professional
degree
Intermediate
,Colleges
8 9 15 1 33
count % 24.24 27.27 45.45 3.03 100.00
University 144 81 93 58 376
count % 38.30 21.54 24.73 15.43 100.00
Post-
graduation
university
1 3 8 14 26
count % 3.85 11.54 30.77 53.85 100.00
13
IV. PHÂN TÍCH DỮ LIỆU
- Phân tích tương quan và đa cộng tuyến (correlation matrix)
- Phân tích hồi quy (Regression): có mối quan hệ, có quan hệ nhân
quả, cường độ tác động, dự báo các giá trị, dự báo xu hướng
(chuổi theo thời gian)
- Phân tích khám phá EFA
- Phân tích Anova (test sự khác nhau giữa 2 nhóm) sử dụng t-test
Trong excel sử dụng: Correlation, Anova và regression trong chức
năng Data Analysis
Trong SPSS: các công cụ Compare Means, Nonparametric Tests,
Regression
Lưu ý: cách chọn các biến phụ thuộc và biến độc lập trong hồi quy
(các biến phải tương ứng với nhau).
Trình bày 1 bảng kết quả hồi quy
14
3/13/2011
8
15
Biến Coefficients Std.Errors
Constant 0.6178 0.4400
Biến 1 -0.0762* 0.3441
Biến 2 0.0142 0.1031
Biến 3 -0.0399*** 0.0122
... -0.0001 0.0001
-0.0154 0.2615
Số quan sát 11,057
R
R2
R2 điều chỉnh
Chi-
Wald test
Ghi chú: (nếu có)
*** Ý nghĩa tại mức 1%, ** Ý nghĩa tại mức 5%, và *
Ý nghĩa tại mức 10%.
Bảng: Kết quả hồi quy ....
Biến Hệ số
Constant 0.6178
(0.4400)
Biến 1 -0.0762*
(0.3441)
Biến 2 0.0142
(0.1031)
Biến 3 -0.0399***
(0.0122)
...
Số quan sát
R
R2
R2 điều chỉnh
Chi-
Wald test
Ghi chú: Trong ngoặc là Std Errors
*** Ý nghĩa tại mức 1%, ** Ý nghĩa tại mức 5%, và *
Ý nghĩa tại mức 10%.
Bảng: Kết quả hồi quy ....
Ví dụ:
IV. PHÂN TÍCH DỮ LIỆU
Sau khi phân tích thống kê, mô tả thống kê, trong phân tích có thể kết
hợp (tùy theo yêu cầu của nghiên cứu) 1 trong những phần sau:
- Test correlation, sau đó chạy hồi quy và thực hiện 1 số tests
- Chỉ phân tích EFA
- Phân tích khám phá EFA, sau đó chạy hồi quy
- Phân tích EFA và test Anova
- Phân tích hồi quy và test Anova
- Chỉ thực hiện test Anova
- Chỉ thực hiện mô tả thống kê và phân tích thống kê,
- ....
16
3/13/2011
9
Kết thúc
Thanks
17