PHƯƠNG PHÁP PHÂN TÍCH DỮ LIỆU
Xuất phát từ cách nhìn của một nhà nghiên cứu muốn xác định các phương pháp phân tích đưa vào ứng
dụng cho dữ liệu, chứ không phải từ cách nhìn của một kỹ thuật viên thống kê (có thể thấu hiểu đầy đủ hơn
bản chất các phương pháp thống kê),
                
              
                                            
                                
            
                       
            
                 63 trang
63 trang | 
Chia sẻ: thanhtuan.68 | Lượt xem: 1535 | Lượt tải: 1 
              
            Bạn đang xem trước 20 trang tài liệu Bài giảng SPSS - Chương 4, 5, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
PHƯƠNG PHÁP PHÂN TÍCH DỮ 
LIỆU 
Xuất phát từ cách nhìn của một 
nhà nghiên cứu muốn xác định các 
phương pháp phân tích đưa vào ứng 
dụng cho dữ liệu, chứ không phải từ 
cách nhìn của một kỹ thuật viên 
thống kê (có thể thấu hiểu đầy đủ hơn 
bản chất các phương pháp thống kê), 
3.1 Bản chất và chức năng của phân tích thống kê 
 Phân tích thống kê có thể được hiểu là các 
phương pháp chắt lọc dữ liệu để rút ra các suy 
luận logic. 
 Các giai đoạn chủ yếu của phân tích thống kê 
gồm có:
 Sắp xếp dữ liệu thô vào các thứ bậc đã được đo 
lường.
 Tóm tắt dữ liệu.
 Áp dụng các phương pháp phân tích để làm rõ 
các mối quan hệ tương hỗ và các ý nghĩa định 
lượng giữa các dữ liệu.
3.2 Quá trình phân tích dữ liệu
 Xếp dữ liệu theo thứ tự 
 (lập dãy, lập bảng, xếp loại, tính %)Tóm tắt 
dữ liệu thống kêChọn phương pháp phân 
tích thích hợp (chọn các tiêu chuẩn)Phân 
tích các sai biệtNghiên cứu các mối liên 
hệPhân tích dữ liệu thực nghiệm
a/ Xếp dữ liệu theo thứ tự
 Dữ liệu thô được thu thập từ thực địa và mã 
hóa vẫn chưa đủ điều kiện để cho phép phân 
tích, diễn giải. Chúng cần được trải qua giai 
đoạn sắp xếp theo thứ tự và bước thống kê 
(lập bảng). Phân làm 3 loại như sau:
b/ Lập dãy (array)
 Đây là hình thức đơn giản nhất để sắp 
xếp dữ liệu. Cách này sẽ xếp dữ liệu 
thành chuỗi số theo hướng tăng dần, 
hoặc giảm dần. Phương pháp này chỉ 
thích hợp với những dãy dữ liệu nhỏ, nó 
cho thấy sự phân bố của dãy số, giá trị 
max và min của dãy số, sự tập trung của 
dãy số đó
c/ Lập bảng đơn giản (một chiều hoặc một 
biến)
 Ta đếm tần suất xuất hiện của dữ liệu 
trong chuỗi dữ liệu và lập thành bảng 
phân phối tần suất (frequency 
distribution) như sau
Bảng phân bố tuổi của các thí sinh
Tuoåi Taàn soá tuyeät
ñoái
Taàn soá töông ñoái (%) Taàn soá tích luõy (%)
17 1 .6 3 .6 3
18 3 .18 8 .25 0
19 2 .12 5 .37 5
20 5 .31 5 .68 8
21 2 .12 5 .81 3
22 3 .18 8 .100 0
Toång
coäng
16 .100 0
Dạng bảng này thể hiện khá rõ ràng về phân bố dãy 
dữ liệu theo các mức dữ liệu khác nhau
 Tần số quan sát tuyệt đối ứng với từng mức dữ 
liệu khác nhau.
 Tần số quan sát tương đối tính theo tỷ lệ % của 
từng mức dữ liệu so với toàn bộ mẫu quan sát.
 Tần số tích lũy chỉ rõ tỷ lệ % của tất cả quan sát có 
giá trị nhỏ hơn hay bằng giá trị mức dữ liệu đang 
xem xét.
 Các giá trị dữ liệu bất thường (quá lớn hay quá 
nhỏ) để kiểm chứng lại vì những giá trị dữ liệu 
sau có thể làm lệch kết quả phân tích thống kê, 
hoặc những giá trị đúng nhưng bất thường đôi 
khi cần một cách xử lý đặc biệt khác.
 Các giá trị mã hóa bất thường sẽ chỉ ra sai sót do 
việc nhập liệu hay mã hóa.
d/ Lập bảng so sánh toàn diện (Cross-tabulation)
 Nhiều vấn đề nghiên cứu có thể được giải quyết 
bằng việc lập những bảng đơn giản. Tuy nhiên, 
bảng đơn giản chỉ cho biết sự phân bố của một biến 
số tại một thời điểm nào đó, và có thể không đem lại 
đầy đủ thông tin cho dữ liệu. Hầu hết các dữ liệu 
đều có thể được tổ chức ở hình thức cao hơn để cho 
ra những thông tin phụ thêm. Bảng so sách toàn 
diện chính là hình thức mở rộng của bảng một 
chiều để nhà nghiên cứu có thể nghiên cứu mối liên 
hệ giữa hai hay nhiều biến bằng cách đồng thời đếm 
tần số xuất hiện ở từng bảng một chiều.
Ví dụ: Liên hệ giữa mức lợi tức và 
trình độ giáo dục
Giaùo duïc
treân moãi
ñaàu
ngöôøi
Möùc lôïi töùc (dollar)
Döôù
i 5000
5000- 7999 8000- 9999 10000
-
12499
12500
-
14999
15000
-
19999
20000
-
24999
Treân
25000
Toå
ng
soá
Giaùo duïc
phoå
thoâng
trôû
xuoáng
232 136 61 48 40 46 16 13 592
Coù töø 1- 3 
naêm
trung hoïc
145 99 46 80 51 61 26 33 541
Toát
nghieäp
trung hoïc
196 217 137 187 217 220 164 139 1477
4- Đo lường khuynh hướng hội tụ 
của dữ liệu
 Ba cách đơn giản nhất để đo lường khuynh 
hướng hội tụ của dãy dữ liệu là tính các giá 
trị mode, giá trị trung vị (median) và giá trị 
trung bình (mean).
 Giá trị mode
Giá trị mode là giá trị dữ liệu có tần số quan sát lớn 
nhất, hoặc thuộc lớp có tần suất xuất hiện lớn 
nhất. 
 Giá trị trung vị
Giá trị trung vị của một dãy phân phối là giá trị mà 
50% giá trị quan sát được của dãy nhỏ hơn nó và 
50% giá trị còn lại của dãy lớn hơn nó. 
Trước khi tính giá trị trung vị, ta phải sắp xếp dữ liệu 
theo thứ tự.
 Giá trị trung bình
Giá trị trung bình được hiểu là trung bình số học, 
được tính bằng tổng các giá trị của các quan 
sát chia cho số lần quan sát.
5- Đo lường độ phân tán của dữ 
liệu
 Hai dãy phân phối có thể có cùng giá trị về 
đo lường khuynh hướng hội tụ, nhưng rất 
khác nhau về tính chất phân bố của các 
quan sát, gọi là độ phân tán của dữ liệu. Các 
giá trị đo lường độ phân tán này rất cần 
thiết, chúng bổ sung cho các giá trị đo 
lường độ hội tụ để làm rõ đặc trưng của dãy 
dữ liệu đang được nghiên cứu.
 Khoảng biến thiên (range)
 Khoảng biến thiên là sai biệt giữa giá trị 
lớn nhất và nhỏ nhất trong dãy phân phối. 
Giá trị này chỉ nêu bật các cực trị của dữ 
liệu mà không so sánh với giá trị trung 
bình nên có thể làm lệch hình ảnh dãy 
phân phối. 
 Hệ số biến thiên (Coefficient of Variation)
 Nếu cần so sánh độ phân tán của hai hay 
nhiều dãy phân phối có giá trị trung bình 
khác nhau hay có các đơn 
6- Lựa chọn phương pháp phân tích dữ liệu 
thích hợp
 Khi cân nhắc lựa chọn phương pháp 
phân tích dữ liệu thích hợp, chúng ta 
phải dựa trên những cơ sở sau đây:
 6.1 Kỹ thuật phân tích muốn chứng minh 
điều gì ?
 Nhà nghiên cứu thường phải trả lời các 
câu hỏi: “Những kết quả có ý nghĩa gì về 
mặt thống kê ?”, hoặc “Liệu các kết quả 
có xuất hiện một cách ngẫu nhiên do 
việc chỉ sử dụng một mẫu duy nhất 
không ?”.
 Dữ liệu tham số và dữ liệu phi tham số 
 Dữ liệu gọi là thuộc loại tham số (parametric) 
khi chúng được phân phối xung quanh giá trị 
trung bình hoặc giá trị trung tâm của chúng 
một cách đối xứng tương tự đường cong xác 
suất chuẩn tắc. Khi đó, chúng ta có thể dùng 
những kiểm định xác suất để xác định ý nghĩa 
thống kê đối với bất kỳ mẫu nghiên cứu nào 
lấy ra từ tổng thể.
 Dữ liệu phi tham số (non parametric) không 
được phân phối theo đường cong xác suất 
chuẩn tắc nên ý nghĩa thống kê học của chúng 
phải được xem xét bằng những kiểm định khác 
với loại kiểm định căn cứ trên xác suất.
 Phương pháp đơn biến : chỉ phân tích 1 biến 
số duy nhất.
 Phương pháp hai biến : phân tích sự liên hệ 
giữa 2 biến số.
 Phương pháp đa biến : phân tích sự liên hệ 
giữa 3 hay nhiều biến số với nhau.
 Tính phụ thuộc và phụ thuộc lẫn nhau 
 Phương pháp phân tích sự liên hệ giữa các 
biến số được chia làm 2 nhóm:
 Một biến số phụ thuộc được kiểm định về tính 
phụ thuộc của nó với những biến số độc lập 
khác.
 Tất cả các biến số được nghiên cứu về mối 
liên hệ lẫn nhau, tính phụ thuộc lẫn nhau 
giữa chúng.
 Số lượng mẫu nghiên cứu cần đến
 Các kiểm định thống kê được dùng tùy theo mục 
đích:
 Kiểm tra những sai biệt đáng kể giữa một mẫu 
đơn thuần với tổng thể đặc biệt nào đó.
 Kiểm tra những sai biệt đáng kể giữa hai mẫu độc 
lập hay có liên quan với nhau.
 Kiểm định ý nghĩa của những sai biệt giữa ba hay 
nhiều mẫu độc lập hay có liên quan với nhau.
 Sự đo lường mối tương quan và những kết quả 
kiểm định về ý nghĩa của chúng.
7- Kiểm định thống kê để đánh giá 
các giả thuyết 
Nguyên tắc kiểm định giả thuyết
 Trong mục III, ta đã dùng kết quả của mẫu để 
ước lượng một số trị số thực còn chưa biết của 
tổng thể và dựa vào đó làm cơ sở mô tả tổng thể. 
Ngoài ra, để nhận biết các tham số của thị 
trường (tổng thể) một cách đầy đủ và chi tiết 
hơn, ta có thể đưa ra một số giả thuyết về các 
thông số đó và sử dụng các thông tin thu thập 
trên mẫu để chứng minh. Công cụ chủ yếu cho 
quá trình đó là các kiểm định thống kê.
Các bước tổng quát cần thực hiện khi kiểm 
định giả thuyết
Phát biểu giả thuyết “không” và giả
thuyết thay thế Chọn mức ý nghĩa mongmuốn
Chọn kiểm định
thống kê thích
hợp
Rút ra kết luận
thống kê về giả
thuyết “không”
Tính trị số
thống kê của
kiểm định
thích hợp cho
phân phối lấy
mẫu
Xác định vùng
bác bỏ hay các
vùng tới hạn
4
1 2 3
6 5
 Bước 1:
 Giả thuyết về một giá trị tổng thể nào đó cần phải 
được kiểm định gọi là giả thuyết “không” (null 
hypothesis), ký hiệu là. Một kết luận khác mà việc 
chấp nhận nó phụ thuộc vào việc bác bỏ giả thuyết 
“không” thì được gọi là giả thuyết thay thế 
(alternative hypothesis), ký hiệu là . Việc thiết lập 
tùy thuộc vào bản chất và tính định hướng sai biệt 
của tình huống. Nếu tình huống không có định 
hướng sai biệt, giả thuyết sẽ được kiểm định 2 
đuôi (two-tailed test). Nếu tình huống có định 
hướng sai biệt, sẽ được kiểm định 1 đuôi (one-
tailed test). Tính định hướng của giả thiết sẽ ảnh 
hưởng đến kiểm định thống kê được thực hiện và 
việc ra quyết định.
 Bước 2:
 Vì ảnh hưởng của sai số lấy mẫu nên thật khó 
đánh giá việc quyết định chấp nhận hay bác bỏ 
một giả thuyết là đúng. Khi một giả thuyết 
“không” bị bác bỏ mà lẽ ra nó phải được chấp 
nhận thì sẽ dẫn đến sai lầm loại I. Khả năng 
phạm sai lầm như vậy được gọi là mức ý nghĩa 
và ký hiệu là . Thường dùng  = 0.1,  = 0.05 
và  = 0.01. Mức  càng nhỏ thì rủi ro bác bỏ lý 
thuyết “không” khi nó đúng sẽ giảm xuống. 
Nhưng ngược lại, rủi ro chấp nhận giả thuyết 
“không” khi nó sai lại tăng lên, dẫn đến sai lầm 
loại II, và ký hiệu là . Trong thực tế khó đạt 
được sự cân bằng giữa 2 loại sai số này.
 Bước 3:
 Việc chọn kiểm định thống kê thích hợp phụ 
thuộc vào :
 Bản chất vấn đề: phân tích sai biệt, hoặc 
nghiên cứu các mối liên hệ.
 Cấp độ đo lường.
 Số mẫu : 1, 2 hay nhiều hơn.
 Các mẫu độc lập hay có liên hệ với nhau.
 Và nhà nghiên cứu phải biết phân phối xác 
suất mà số thống kê của kiểm định được 
tính toán sẽ có liên quan đến.
 Bước 4:
 Khi đã chọn kiểm định thống kê và mức 
thích hợp, ta sẽ xác định được các trị số tới 
hạn tương ứng từ phân phối lấy mẫu của 
một kiểm định thống kê đó. Phân phối lấy 
mẫu của một kiểm định thống kê bao gồm 
mọi giá trị có thể có mà một số thống kê của 
kiểm định có thể lấy theo giả thuyết 
“không”. Trị số tới hạn là ranh giới của các 
vùng chấp nhận và vùng bác bỏ giả thuyết 
“không”.
 Bước 5:
 Phân tích các số liệu thật sự bằng công 
thức thích hợp để tính ra trị số thống kê 
của kiểm định.
 Bước 6:
 Nếu trị số thống kê của kiểm định được 
tính ở bước 5 vượt quá trị số tới hạn ở 
bước 4, ta bác bỏ giả thuyết “không”. 
Ngược lại, sẽ không có các bằng chứng 
thống kê để bác bỏ giả thuyết này.
8- Phân tích đơn biến (univariable 
data analysis)
 Phân tích đơn biến liên quan tới việc nghiên cứu một số 
biến số mà ta đã đo lường trên một mẫu phần tử.
 Có hai vấn đề cần xem xét trong phân tích đơn biến :
 Mô tả dữ liệu: được thể hiện dưới 2 góc độ xu hướng hội 
tụ và xu hướng phân tán của dữ liệu cũng như dạng phân 
phối các quan sát.
 Diễn giải: bao gồm việc so sánh các giá trị quan sát với 
một hoặc nhiều giá trị đã định tương ứng với mục tiêu 
mong muốn hoặc một kết quả nghiên cứu trước đó.
 Các phương pháp phân tích được sử dụng tùy thuộc vào 
loại của biến số: định danh, thứ tự, hay metric (khoảng 
cách và tỷ lệ).
8.1 Phân tích một biến định danh
 Biến định danh chứa đựng các giá trị toán học ít nhất trong các 
biến. Ta có thể tính số lượng quan sát tương ứng với mỗi hạng 
(category) hay mỗi dạng thức (modality) của biến, nghĩa là lập các 
bảng diễn giải đơn giản hoặc so sánh toàn diện.
 Xu hướng hội tụ thể hiện thông qua giá trị mode phản ánh sự tập 
trung nhiều nhất của các quan sát vào một dạng thức nào đó.
 Độ phân tán biểu hiện ở tần suất, nghĩa là tỷ lệ % số các quan sát 
xuất hiện tương ứng ở mỗi dạng thức.
 Thống kê diễn giải tương ứng với biến định danh là kiểm định Chi-
bình phương dùng để so sánh phân phối quan sát trong mẫu với một 
phân phối đã định trước. Ngoài ra, trường hợp biến định danh có 
dạng lưỡng phân, ta có thể sử dụng kiểm định nhị thức để kiểm tra 
giả thuyết. Kiểm định Chi-bình phương sẽ được trình bày chi tiết 
hơn ở phần sau.
 Kiểm định nhị thức có thể tóm tắt như sau: 
 KIỂM ĐỊNH NHỊ THỨC
 Giả sử ta có một mẫu n phần tử lấy ra từ tổng 
thể nào đó bao gồm 2 hạng (category). Phân 
phối nhị thức là phân phối của các tỷ lệ của 2 
hạng đó trong mẫu. Vì vậy, giả thuyết H0 là 
không có sự khác nhau giữa các tỷ lệ trong 
mẫu và trong tổng thể mà nó đại diện.Kiểm 
định nhị thức bao gồm việc tính toán các xác 
suất Ptt nhận được các giá trị quan sát trong 
mẫu. So sánh các xác suất này với giá trị 
ngưỡng của độ tin cậy đã xác định ta có thể :
 Bác bỏ giả thuyết H0 khi Ptt < ε .
 Chấp nhận giả thuyết H0 khi Ptt => ε . 
 Ví dụ : Nghiên cứu sự hiểu biết của một tập hợp khách 
hàng trong một tổng thể xác định về các sản phẩm không 
có nhãn hiệu, giả thuyết H0 là trong số đối tượng nghiên 
cứu, tỷ lệ những người biết các sản phẩm này là 50% 
(không có sự khác nhau giữa số người biết và không biết 
các sản phẩm).
 Xác suất nhận được k đối tượng trong 1 hạng (“có biết 
các sản phẩm không nhãn”) và ( n-k ) đối tượng trong 
hạng kia (“không biết các sản phẩm không nhãn”) được 
trình bày như sau :
 Với Pk = n! Pk qn-k
 k!(n-k) )
 Với P(k) = xác suất nhận được k đối tượng
 P = tỷ lệ đối tượng trong 1 hạng của tổng thể
 Q = tỷ lệ đối tượng trong hạng kia của tổng thể
 Xác suất nhận được k đối tượng hay ít hơn sẽ là tổng số 
các xác suất nhận được 0 đối tượng, 1 đối tượng, ... tới k 
đối tượng.
 Giả sử mẫu nghiên cứu có 16 phần tử. Giả 
thuyết H0 sẽ là: p = q = ½ Trong mẫu chỉ 
có 2 phần tử không biết các sản phẩm 
không nhãn ( k = 2).
Như vậy :Ptt ( k <= 2) =P(0)+P(1)+p(2)=0.002
 So sánh P(k <= 2)=0,002 với giá trị ngưỡng ε
= 0,05 và ε = 0,01 ta thấy P(k <= 2) <. = ε = 
0,01. Do đó, có thể bác bỏ giả thuyết tại 
H0 tại P <= 0,01 .
 Phân tích một biến thứ tự
 Đây là biến chất lượng trong đó các giá trị được 
sắp xếp theo thứ tự.
 Xu hướng hội tụ được thể hiện thông qua giá trị 
trung vị, là giá trị phân chia tổng thể nghiên cứu 
ra làm hai phần đều nhau.
 Độ phân tán được biểu diễn bởi các phân nhánh 
(fractiles) phân chia tổng thể ra làm các phần 
đều nhau theo thứ hạng. Thường sử dụng nhất là 
phân nhánh 4 (quartile chia tổng thể ra làm 4 
hạng bằng nhau), sau đó người ta so sánh giá trị 
đầu tiên với giá trị cuối cùng của các phân 
nhánh.
 Kiểm định sử dụng để chứng minh giả thuyết đối 
với 1 biến thứ tự là kiểm định Kolmogorov-
Smirnov.
 KIỂM ĐỊNH KOLMOGOROV-SMIRNOV
 Đây là 1 kiểm định phi tham số nhằm so sánh sự 
phân chia các quan sát trong mẫu với một phân 
chia chuẩn đã xác định.Ví dụ : Giả thuyết rằng 
một mẫu có 100 người tiêu dùng đã cho ý kiến về 
một loại mỹ phẩm mới theo thang đo có 4 thứ 
hạng từ “rất đậm” đến “rất nhạt”. Mục tiêu của 
kiểm định là so sánh sự phân phối các câu trả lời 
với sự phân phối lý thuyết tương ứng với giả 
thuyết H0 (không có sự khác nhau giữa tỷ lệ các 
câu trả lời ở các thứ hạng). Nếu quy mô mẫu 
n>35 giải thuyết H0 bị bác bỏ khi mức sai số ε
=0.01
 Phân tích một biến metric
 Trong trường hợp một biến metric (gồm biến khoảng 
cách và biến tỷ lệ), xu hướng hội tụ là giá trị trung bình. 
Độ phân tán được thể hiện thông qua giá trị phương sai 
và độ lệch chuẩn. Hai chỉ tiêu này được dùng để so sánh 
phân phối quan sát được với phân phối chuẩn là hệ số 
đối xứng (hay “skewness”) và hệ số tập trung (hay 
“kurtosis”).
 Kiểm định sử dụng là kiểm định trung bình: So sánh 
phân phối quan sát với phân phối chuẩn.
 Hai chỉ tiêu đánh giá độ phân tán được sử dụng để so 
sánh phân phối quan sát với phân phối chuẩn (hay gọi là 
đường cong Gauss hoặc đường cong hình chuông) là hệ 
số đối xứng (symmetric coefficient) và hệ số tập trung 
(concentrated coefficient).
 Phân tích hai biến thứ tự – thứ tự
 Đo lường tương quan giữa 2 biến thứ tự được 
thực hiện chủ yếu thông qua 2 hen số tương 
quan theo thứ bậc Spearman (rho ) và Kendal
(tau ). Hai hệ số này dao động từ –1 đến +1.
 p = +1 tương ứng với một tương quan thuận 
chiều hoàn toàn (2 sự xếp hạng đồng nhất).
 P =-1 tương ứng với một tương quan ngược 
chiều hoàn toàn (2 sự xếp hạng trái ngược 
nhau).
 P =0 không có quan hệ gì giữa 2 sự xếp hạng.
 Phân tích hai biến định danh - định danh
 Trường hợp này rất thường gặp trong nghiên cứu. Nội 
dung phân tích chủ yếu bao gồm:
 Lập các bảng ngẫu nhiên.
 Áp dụng kiểm định Chi – bình phương
 Đo lường các tương quan.
 Lập các bảng ngẫu nhiên
 Các bảng ngẫu nhiên (bảng chéo) nhằm so sánh các câu 
trả lòi của 1 câu hỏi theo câu trả lời cho trước của 1 câu 
hỏi khác. Ví dụ ta so sánh câu trả lời có-không (câu hỏi 
về tiêu thụ sản phẩm P với câu hỏi về giới tính của đối 
tượng nghiên cứu: nam –nữ). Ma trận thông tin trong 
trường hợp này bao gồm 2 cột 2 hàng với 4 khả năng kết 
hợp có thể xảy ra (nam+có, nam+không, nữ+có, 
nữ+không). 
Phân tích hồi quy
 Phương pháp phân tích hồi quy là phương 
pháp lập một hàm quan hệ giữa các biến 
khi biết được giá trị tương ứng của chúng.
 Hồi quy tuyến tính: Khi quan hệ giữa các 
biến là tuyến tính.
 Hồi quy phi tuyến: Khi quan hệ giữa các 
biến là phi tuyến. Phân tích hồi quy phi 
tuyến phức tạp hơn nhiều so với hồi quy 
tuyến tính nên ít được dùng.
 Hồi quy đơn giản: Khi ta xem xét quan hệ 
chỉ của 2 biến.
Chương 5
THỐNG KÊ MÔ TẢ
 Thống kê mô tả là bước cơ bản và cũng là 
bước khởi đầu của nhiều công trình toán 
thống kê. Các thuật toán và đồ thị dùng 
trong thống kê mô tả khá phong phú và tùy 
thuộc vào mẫu nghiên cứu (định lượng, 
định tính hay bán định lượng).
I-Thống kê mô tả
Baûng phaân phoái taàn soá
 Thöïc hieän moâ taû phaân phoái
taàn soá treân SPSS: (taäp
iem_thi.savD )
Hoäp thoaïi phaân phoái taàn soá:
Chọn loại biểu đồ cần 
vẽ
Chọn biến lập bảng phân phối tần số
Tính các đại lượng thống kê 
mô tả
Bảng phân phối tần số:
Thoáng keâ ngoân ngöõ hoïc
2 8.7 8.7 8.7
5 21.7 21.7 30.4
1 4.3 4.3 34.8
5 21.7 21.7 56.5
3 13.0 13.0 69.6
1 4.3 4.3 73.9
3 13.0 13.0 87.0
1 4.3 4.3 91.3
1 4.3 4.3 95.7
1 4.3 4.3 100.0
23 100.0 100.0
1.0
2.5
3.0
4.0
4.5
5.0
5.5
6.0
6.5
7.0
Total
Valid
Frequency Percent Valid Percent Cumulative Percent
Xaõ hoäi ngoân ngöõ hoïc
1 4.3 4.3 4.3
2 8.7 8.7 13.0
1 4.3 4.3 17.4
1 4.3 4.3 21.7
6 26.1 26.1 47.8
3 13.0 13.0 60.9
2 8.7 8.7 69.6
2 8.7 8.7 78.3
1 4.3 4.3 82.6
1 4.3 4.3 87.0
2 8.7 8.7 95.7
1 4.3 4.3 100.0
23 100.0 100.0
.0
1.5
2.5
3.0
3.5
4.0
4.5
5.0
5.5
6.5
7.0
8.0
Total
Valid
Frequency Percent Valid Percent Cumulative Percent
Statistics
23 23
0 0
Valid
Missing
N
Thoáng keâ
ngoân ngöõ hoïc
Xaõ hoäi ngoân
ngöõ hoïc
Số quan sát hợp lệ
Số quan sát bị thiếu dữ liệu
30
Giải thích từ ngữ dùng trong thống kê mô tả
 Sum: Tổng Cộng,
 Maximum: Giá trị lớn nhất,
 Minimun: Giá trị nhỏ nhất,
 Mode: Giá trị xuất hiện nhiều nhất,
 Mean: Giá trị trung bình,
 Median: Giá trị trung vị,
 Frequencies: Tân xuất,
 Std. deviation: Độ lệnh chuẩn,
 S.E.Mean: Sai số chuẩn khi ước lượng trị trung bình,
 Std. Error: Sai số chuẩn khi dùng tị trung bình của 
mẫu để ước lượng trị trung bình của tổng thể,
 Range: Khoảng biến thiên.
 Các đại lượng thống kê mô tả
 Chỉ tính trên các biến định lượng, ngược 
lại sẽ không có ý nghĩa.
Thực hiện trên SPSS:
Thöïc hieän treân SPSS:
 Lập bảng tổng hợp nhiều biến
 Bảng hai biến định tính
 Có thể dùng Basic Tables và General 
Tables.(tập Ho_gia_dinh.sav)
Thực hiện lập bảng Basic Tables trên 
SPSS:
Thöïc hieän laäp baûng asic ablesB T
treân SPSS:
Chọn hàm thống kê
Thay đổi nhãn thống kê
Các lập bảng thống kê
Sắp xếp số liệu trong bảng
Hiện tổng dòng và cột
Chỉnh dạng số liệu
 Sắp xếp các đại lượng tính toán trong bảng 
số liệu:
* Ô Across: Chứa biến cột, tạo lên cột của 
bản, phù hợp khi chọn hàm Col%.
* Ô Down: Chứa biến dòng, tạo lên dòng của 
bảng, phù hợ