Bài giảng Phương pháp chọn mẫu
NỘI DUNG TRÌNH BÀY 1. GIỚI THIỆU 2. CÁC BƯỚC THIẾT KẾ MẪU 3. KỸ THUẬT LẤY MẪU THEO XÁC SUẤT 4. KỸ THUẬT LẤY MẪU PHI XÁC SUẤT 5. XÁC ĐỊNH CỞ MẪU
Bạn đang xem nội dung tài liệu Bài giảng Phương pháp chọn mẫu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
2/28/2011
1
PHƯƠNG PHÁP CHỌN MẪU
TS. NGUYỄN MINH HÀ
TRƯỜNG ĐH MỞ TPHCM
NỘI DUNG TRÌNH BÀY
1. GIỚI THIỆU
2. CÁC BƯỚC THIẾT KẾ MẪU
3. KỸ THUẬT LẤY MẪU THEO XÁC SUẤT
4. KỸ THUẬT LẤY MẪU PHI XÁC SUẤT
5. XÁC ĐỊNH CỞ MẪU
2/28/2011
2
GIỚI THIỆU
1. Khái niệm:
Chọn mẫu (sampling) là chọn lấy 1 số thành phần trong tổng thể
(population), để rút ra các kết luận về tổng thể đó.
Đơn vị NC: 1 thành phần của tổng thể (population element) là 1 cá thể/cá
nhân mà người NC sẽ tiến hành các đo lường.
Một tổng thể: gồm tất cả các thành phần của tổng thể mà ta muốn NC
Khung mẫu: Danh sách tất cả các thành phần của tổng thể mà dựa vào đó
chúng ta rút ra mẫu.
2. Tại sao phải lấy mẫu:
- Tốn kém thời gian và chi phí khi NC tổng thể
- Lợi thế của điều tra mẫu:
- Chi phí thấp
- Vẫn đạt được tốt hơn độ chính xác cần có của kết quả.
- Tốc độ thu thập dữ liệu cao hơn
- Tính sẳn có của các thành phần tổng thể.
GIỚI THIỆU
Lợi thế của điều tra mẫu so với điều tra tổng thể sẽ mất đi nếu tổng
thể nhỏ và có tính biến động cao.
Điều kiện để NC tổng thể phù hợp:
- Tổng thể nhỏ
- Khi mỗi cá thể đều rất khác biệt nhau.
3. Thế nào là 1 mẫu tốt:
Phải có tính hợp lệ (Validity), tùy thuộc vào tính đúng đắn và tính
chính xác
4. Tổng quan về các kỹ thuật lấy mẫu
2/28/2011
3
GIỚI THIỆU
Lấy mẫu
Xác suất Phi Xác suất
Ngẫu
nhiên
đơn
giản
Hệ
thống
Ngẫu
nhiên
phân
tầng
Theo
cụm
Nhiều
giai
đoạn
Hạn
ngạch
(quota)
Có
mục
đích
Lan
dần
Tự lựa
chọn
Thuận
tiện
II. CÁC BƯỚC THIẾT KẾ MẪU
Để thực hiện các bước và các nguyên tắc, phải trả lời các câu hỏi
theo trình tự như sau:
1. Tổng thể mục tiêu là gì?
Khi xác định vấn đề NC và đặt câu hỏi NC, ta phải đã biết tổng thể
mục tiêu là gì.
Đối tượng và phạm vi NC. Vd: Hộ gia đình, DN hoặc cá nhân.
2. Các tham số (parameters) cần quan tâm là gì?
- Các chỉ số thể hiện cho tổng thể: là các chỉ số tổng hợp các biến
của tổng mà chúng ta quan tâm: giá trị trung bình, phương sai,...
- Các chỉ số thống kê mẫu: cũng mô tả các biến trên nhưng của mẫu.
Các chỉ số thống kê mẫu ước lượng và tham chiếu các chỉ
số thống kê của tổng.
2/28/2011
4
II. CÁC BƯỚC THIẾT KẾ MẪU
3. Khung mẫu là gì?
- Danh sách tất cả các thành phần trong tổng mà sẽ được rút mẫu ra.
- Một khung mẫu lý tưởng: 1 danh sách hoàn thiện, đầy đủ và đúng tất cả
các thành viên của tổng.
4. Phương pháp chọn mẫu phù hợp:
Người NC phải quyết định chọn mẫu xác suất hay phi xác suất?
Việc chọn mẫu xác suất sẽ cho người NC có thể đạt được các ước lượng
cho nhiều chỉ tiêu NC khác nhau dựa trên sự tin cậy của xác suất.
Chọn mẫu phi xác suất không có được điều này.
Tuy nhiên, chọn mẫu xác suất có nhược vì người NC phải theo quy trình
phù hợp mà:
- Không thể điều chỉnh sự lựa chọn đã có
- Chỉ có các thành phần được chọn từ khung mẫu mới được tính
- Không được thay thế thành phần này bằng thành phần khác, trừ khi có
chỉ dẫn cụ thể theo các nguyên tắc định trước.
II. CÁC BƯỚC THIẾT KẾ MẪU
5. Cần cỡ mẫu bao nhiêu là vừa?
- Cỡ mẫu là số đơn vị NC mà ta cần có trong 1 mẫu khi rút ra từ tổng thể
mục tiêu.
Có 2 quan điểm về cở mẫu: (i) Cỡ mẫu phải đủ lớn để đại diện cho tổng
thể. (ii) Cỡ mẫu phải tương ứng với 1 tỷ lệ nào đó so với kích cỡ của
tổng mà nó được rút ra. Cả 2 quan điểm cũng chưa chính xác
- Với mẫu phi xác suất: Số lượng nhóm phụ, các nguyên tắc lựa chọn và
hạn chế về ngân sách là yếu tố quyết định cỡ mẫu.
- Với mẫu xác suất: cỡ mẫu phụ thuộc vào sự biến thiên của các chỉ số
thống kê của tổng và mức độ chính xác của kết quả mà ta muốn có.
Một số nguyên tắc ảnh hưởng đến xác định cỡ mẫu:
- Tổng thể biến thiên càng nhiều thì cỡ mẫu phải lớn để đạt tính chính
xác.
- Độ chính xác mong muốn càng tăng thì cỡ mẫu phải càng lớn
- Phạm vi sai số càng nhỏ thì cỡ mẫu phải càng lớn
2/28/2011
5
II. CÁC BƯỚC THIẾT KẾ MẪU
5. Cần cỡ mẫu bao nhiêu là vừa?
Một số nguyên tắc ảnh hưởng đến xác định cỡ mẫu (tt):
- Mức độ tin cậy của ước lượng càng cao thì cỡ mẫu phải càng lớn.
- Khi tổng thể có nhiều nhóm phụ, thì cỡ mẫu phải càng lớn để cỡ mẫu
của từng nhóm phụ phải đạt yêu cầu tối thiểu.
- Hạn chế về ngân sách cũng ảnh hưởng đến cỡ mẫu, cách chọn mẫu và
phương pháp thu thập dữ liệu. Hạn chế ngân sách làm các nhà NC áp
dụng các phương pháp chọn mẫu phi xác suất.
III. CHỌN MẪU XÁC SUẤT
1. Chọn mẫu xác suất ngẫu nhiên đơn giản (simple Random
Sampling): Hay còn gọi lấy mẫu ngẫu nhiên
Chọn mẫu 1 cách ngẫu nhiên từ khung mẫu bằng các bảng số ngẫu nhiên,
hoặc bằng máy tính. Thực hiện:
- Đánh số mỗi phần tử trong khung mẫu với 1 con số duy nhất, từ 0, 1, 2,...
- Lựa chọn các phần tử bằng con số ngẫu nhiên cho đến khi đạt được cỡ
mẫu mong muốn (mỗi phần tử đều có xác suất được chọn như nhau).
Loại Khi nào sử dụng Ưu Nhược
Chi phí cao
Áp dụng
trung bình
Mỗi phần tử của
tổng đều có cơ hội
được lựa chọn
ngang nhau
- Đảm bảo mức đại diện cao
- Dễ áp dụng, nhất là với
cách phỏng vấn qua điện
thoại do máy quay số ngẫu
nhiên. Có thể áp dụng hệ
thống trả lời tự động
Đòi hỏi danh sách
khung mẫu.
Tốn nhiều thời gian
Cần cỡ mẫu lớn
Tạo ra nhiều sai số
2/28/2011
6
III. CHỌN MẪU XÁC SUẤT
2. Chọn mẫu hệ thống (Systematic Sampling):
Đòi hỏi bạn lựa chọn mẫu theo khoản (interval) đều đặn từ khung lấy mẫu.
Ta chọn lấy thành phần thứ kth trong tổng thể, bắt đầu 1 con số ngẫu nhiên
trong phạm vi từ 1 đến k.
Thành phần thứ kth gọi là bước nhảy (skip interval), K = Tổng thể/cỡ mẫu
Các bước thực hiện:
- Xác định, lập danh sách và đánh số các phần tử của tổng thể (sắp xếp
ngẫu nhiên tổng trước khi chọn mẫu nếu tổng thể được sắp xếp theo
trật tự sẵn có)
- Xác định bước nhảy K
- Xác định con số khởi đầu cách ngẫu nhiên
- Rút mẫu bằng cách chọn tất cả các phần tử theo các bước nhảy Kth
III. CHỌN MẪU XÁC SUẤT
2. Chọn mẫu hệ thống (Systematic Sampling):
Loại Khi nào sử dụng Ưu Nhược
Chi phí trung
bình
Áp dụng
trung bình
Mỗi phần tử của
tổng đều có cơ hội
được lựa chọn
ngang nhau
- Đảm bảo mức đại diện cao
- Thiết kế đơn giản, dễ áp
dụng hơn ngẫu nhiên đơn
giản
Ít ngẫu nhiên hơn
lấy mẫu Xác suất
đơn giản
Tính chu kỳ của tổng
thể có thể làm méo,
sai lệch mẫu và kết
quả.
2/28/2011
7
III. CHỌN MẪU XÁC SUẤT
3. Chọn mẫu phân tầng (Stratified Sampling):
Là 1 biến thể của chọn mẫu ngẫu nhiên, trong đó ta chia tổng thể thành 2
hay nhiều tầng (nhóm) quan trọng và có ý nghĩa, dựa vào 1 hay 1 số
thuộc tính. Sau đó rút ra từ mỗi tầng này.
Phương pháp này có ưu nhược giống với chọn mẫu ngẫu nhiên đơn giản,
nhưng hệ quả thống kê cao hơn.
Cần chú ý khi phân tầng:
- Chi phí: phân tầng càng nhiều -> chi phí càng lớn
- Kích cỡ tổng mẫu cần có và mẫu phân bổ như thế nào giữa các tầng. Vd:
tổng mẫu là 200, chia cho 4 tầng hay 10 tầng?
Đối với phân mẫu theo tầng khác nhau: theo tỷ lệ hoặc không theo tỷ lệ.
Chọn mẫu phân tầng theo tỷ lệ thì cỡ mẫu của mỗi tầng đúng theo tỷ lệ
của các thành phần có trong từng tầng so với tổng số.
Để có đủ dữ liệu phân tích, cần phải tăng tỷ lệ chọn mẫu cho các tầng có
tổng thể nhỏ hơn.
III. CHỌN MẪU XÁC SUẤT
3. Chọn mẫu phân tầng (Stratified Sampling):
Quy trình chọn mẫu phân tầng:
- Quyết định các đặc tính để phân tầng: Tuổi, giới tính, nghề nghiệp, ...
- Xác định tỷ lệ của từng nhóm tổng số phụ so với tổng thể chung
- Chọn cách phân tầng theo tỷ lệ hay không theo tỷ lệ
- Thiết lập các khung mẫu của các tổng thể phụ: Mỗi tầng có 1 khung mẫu
- Trộn ngẫu nhiên các thành phần trong từng khung mẫu của từng tầng.
- Rút mẫu cho từng tầng: ngẫu nhiên hoặc hệ thống
Loại Khi nào sử dụng Ưu Nhược
Chi phí cao
Áp dụng
trung bình
Khi tổng lệ là
không đồng nhất
và chứa nhiều
nhóm khác nhau,
trong đó có vài
nhóm liên quan
đến chủ để NC
- Đảm bảo mức đại diện cao cho
từng nhóm NC
- Kiểm soát cỡ mẫu trong các tầng.
Tăng hiệu quả thống kê. Cung cấp dữ
liệu đại diện cho từng nhóm. Cho
phép sử dụng nhiều phương pháp
phân [ch khác nhau cho từng tầng
Tăng sai số nếu
các tầng được
chọn ở tỷ lệ
khác nhau.
Chi phí cao nếu
tách nhiều tầng
2/28/2011
8
III. CHỌN MẪU XÁC SUẤT
4. Chọn mẫu theo nhóm (Cluster Sampling):
Lấy mẫu theo cụm nhìn bề ngoài giống lấy mẫu phân tầng. Các nhóm căn
cứ trên dạng ghép nhóm tự nhiên. Hay còn gọi Chọn mẫu theo vùng
Vd: Có thể ghép nhóm dữ liệu theo loại hình công ty hoặc khu vực địa lý
Phân tầng Theo nhóm
x x x x x
x x x x x
x x x x x
x x x x x
0 0 0 0 0
0 0 0 0 0
0 0 0 0 0
0 0 0 0 0
x x x x x
0 0 0 0 0
x x x x x
0 0 0 0 0
0 0 0 0 0
x x x x x
0 0 0 0 0
x x x x x
Loại Khi nào sử dụng Ưu Nhược
Chi phí TB
Áp dụng
cao
Khi tổng lệ chứa
các chủ thể lớn
hơn là chứa
chứa từng chủ
thể riêng lẽ.
-Dễ và thuận bện, chi phí thấp
- Cung cấp các ước lượng không
thiên lệch nếu được thực hiện đúng
- Hiệu quả kinh tế cao hơn chọn
mẫu ngẫu nhiên đơn giản
Thường có hiệu
quả thống kê thấp
do các nhóm phụ
có xu hướng đồng
nhất hơn là dị biệt
III. CHỌN MẪU XÁC SUẤT
5. Chọn mẫu nhiều giai đoạn (Double sampling – Sequential
sampling - Multi-stageSampling):
Cho phép ta sử dụng các thông tin có được từ các cuộc nghiên cứu ban đầu
để làm cơ sở cho việc chọn mẫu tiếp theo.
Trong NC kinh tế – xã hội:
- Giai đoạn đầu tiên là NC khám phá, tìm hiểu các thông tin cơ bản của
tổng thể (thông tin rộng). Áp dụng các phương pháp lấy mẫu trên
- Giai đoạn sau, dựa vào kết quả NC giai đoạn trước, NC chuyên sâu,
tìm hiểu chi tiết và chuyên sâu. Áp dụng các phương pháp lấy mẫu
trên.
Loại Khi nào sử dụng Ưu Nhược
Chi phí TB
Áp dụng
trung bình
Khi chưa biết các
đặc [nh của tổng
thể, theo yêu
cầu NC
- Có thể giảm chi phí nếu kết quả
giai đoạn đầu cho đầy đủ dữ liệu để
phân tầng hoặc chia nhóm tổng thể
Tăng chi phí nếu
được áp dụng
không phân biệt
2/28/2011
9
IV. CHỌN MẪU PHI XÁC SUẤT
1. Lựa chọn kỹ thuật chọn mẫu và mẫu phù hợp nhất:
Lựa chọn người cần phỏng vấn -> thiên lệch và méo mó kết quả. Tuy
nhiên, một số lý do để chọn phương pháp này.
- Thỏa yêu cầu chọn mẫu theo mục tiêu
- Khi không cần phải tổng quát hóa các kết quả NC cho tổng thể thì không
quan tâm tính đại diện cho tổng. Điều này phù hợp với NC khám phá
và lấy ý kiến chuyên gia.
- Do chi phí và thời gian ít
- Khi không biết tổng thể nghiên cứu, không có khung mẫu và không có cơ
sở để chọn mẫu xác suất -> Phải chọn mẫu phi xác suất.
- Khi người tham gia NC (đối tượng) không có sự ngang bằng về cơ hội
chọn lựa giống nhau.
IV. CHỌN MẪU PHI XÁC SUẤT
2. Chọn mẫu thuận tiên (Convenience Sampling):
Việc lựa chọn 1 cách tình cờ những phần tử dễ lấy nhất cho mẫu của bạn.
Quy trình chọn mẫu được tiếp tục cho đến khi đạt cỡ mẫu cần thiết.
Vd: Vào lớp cao học phỏng vấn 1 vấn đề gì đó.
Mặc dù kỹ thuật này được sử dụng rộng rãi nhất nhưng dễ có xu hướng sai
lệch. Mức tin cậy ít nhất, rẽ, dễ tiến hành vì các nhà NC có quyền tự
do lựa chọn bất kỳ ai họ muốn để phỏng vấn.
Trong giai đoạn NC khám phá có thể áp dụng phương pháp này. NC thị
trường hay thăm dò ý kiến khách hàng được tiến hành bằng cách này.
Loại Khi nào sử dụng Ưu Nhược
Chi phí thấp
Áp dụng thấp
Khi các thành viên của
tổng thể là thuận bện
cho mẫu NC
- Thuận bện và
rẽ
Mức độ tổng quát hóa/khái
quát hóa cho tổng thể
thấp/đáng nghi ngờ
2/28/2011
10
IV. CHỌN MẪU PHI XÁC SUẤT
3. Chọn mẫu theo mục đích (Purposive Sampling) hay phán
đoán (Judgemental Sampling):
Sử dụng phán đoán để lựa chọn các phần tử nhằm trả lời các câu hỏi NC và
đạt được các mục tiêu 1 cách tốt nhất.
Dạng này được sử dụng khi làm việc với mẫu rất nhỏ như NC tình huống
hay lựa chọn các phần tử đặc biệt chứa nhiều thông tin, hoặc phù
hợp khi sử dụng vào các giai đoạn đầu của NC khám phá.
VD: NC về những người có học thức cao, ta chọn những lớp sau đai học.
NC đầu tư chứng khoán cá nhân, ta chọn các nhà đầu tư chứng khoán cá
nhân.
IV. CHỌN MẪU PHI XÁC SUẤT
4. Chọn mẫu theo hạn ngạch (Quota Sampling)
Là 1 kiểu của lấy mẫu phân tầng nhưng sự lựa chọn những phần tử trong
mỗi tầng hoàn toàn phi ngẫu nhiên.
Thưởng được sử dụng trong các cuộc khảo sát phỏng vấn. Dựa trên tiền đề
là mẫu sẽ đại diện cho tổng thể vì sự biến động trong mẫu đối với các
biến số cũng giống như biến động trong mẫu.
Các bước thực hiện:
- Chia tổng thể thành những nhóm cụ thể
- Tính toán hạn mức cho mỗi nhóm dựa vào dữ liệu liên quan có sẵn
- Giao một nhiệm vụ cho mỗi người phỏng vấn, nói rõ số lượng các phần
tử trong mỗi hạn mức mà họ phải thu thập dữ liệu.
- Tổng hợp dữ liệu của những người phỏng vấn để cung cấp 1 mẫu đầy đủ.
2/28/2011
11
IV. CHỌN MẪU PHI XÁC SUẤT
4. Chọn mẫu theo hạn ngạch (Quota Sampling)
Loại Khi nào sử dụng Ưu Nhược
Chi phí thấp
Áp dụng TB
Khi tầng xuất hiện và
không thể chọn mẫu
phân tầng
- Đảm bảo mức
độ đại diện của
các tầng trong
mẫu
Mức độ tổng quát hóacho
tổng thể thấp/đáng nghi ngờ
Phụ thuộc vào điều tra viên
Giới
/nh
Nhóm
tuổi
Vị trí công tác Dân số
(10% mẫu)
Hạn
mức
Nam 20-29 - Chuyên viên
- Quản lý/giám đốc
- Cấp trung gian & hành chánh
- Làm việc phổ thông có kỹ năng
- Làm việc phổ thông không có kỹ năng
11210
7983
9107
16116
5039
56
40
43
79
25
Nữ 20-29 - Chuyên viên
- Quản lý/giám đốc
- Cấp trung gian & hành chánh
- Làm việc phổ thông có kỹ năng
-Làm việc phổ thông không có kỹ năng
8811
6789
21585
1754
3570
44
34
108
9
18
IV. CHỌN MẪU PHI XÁC SUẤT
5. Chọn mẫu mở rộng dần (Snowball Sampling)
Thường được sử dụng khi khó xác định/khó tiếp cận các thành viên
của tổng thể mong muốn. Phù hợp cho các NC định tính.
Do đó, ta cần:
- Liên lạc với 1 hay 2 phần tử
- Đề nghị các phần tử này xác định các phần tử tiếp theo.
- Đề nghị các phần tử mới này xác định các phần tử tiếp theo (và cứ
thế)
- Dừng lại khi không tìm thêm phần tử mới hay cỡ mẫu đủ lớn để
NC.
Do việc xác định tiếp theo như thế nên vấn đề sai lệch là lớn và vì
những người được hỏi có xu hướng tìm những người tương tự,
nên mẫu đồng nhất.
2/28/2011
12
V. XÁC ĐỊNH CỠ MẪU
Mẫu tối thiểu là 30 cho mỗi nhóm
Nói chung, 1 mẫu lớn hơn để đại diện cho tổng thể khi:
- Số biến động trong (within groups) các nhóm là lớn hơn
- Sự khác nhau giữa 2 nhóm (between two groups) là nhỏ hơn
Theo Saunders, Lewis and Thornhill (2008), kích cở mẫu tối thiểu
đối với kích cở tổng thể khác nhau và mức ý nghĩa khác nhau
như sau (bảng kế bên):
Theo 1 cách tính khác: Kích cở mẫu tối thiểu = số biến x 5
Ví dụ: số biến là 20, thì kích cỡ mẫu tối thiểu là 20x5 = 100
Tổng thể Biên sai số (Margin of error)
5% 3% 2% 1%
50 44 48 49 50
100 79 91 96 99
150 108 132 141 148
200 132 168 185 196
250 151 203 226 244
300 168 234 267 291
400 196 291 343 384
500 217 340 414 475
750 254 440 571 696
1.000 278 516 706 906
2.000 322 696 1.091 1.655
5.000 357 879 1.622 3.288
10.000 370 964 1.936 4.899
100.000 383 1.056 2.345 8.762
1.000.000 384 1.066 2.395 9.513
10.000.000 384 1.067 2.400 9.595
2/28/2011
13
V. XÁC ĐỊNH CỠ MẪU
1. Xác định cở mẫu trung bình:
2. Xác định cỡ mẫu theo tỷ lệ
(Tham khảo trong tài liệu Trần Tiến Khai và các tác giả, trang 79-83;
và Kothari (2004): C8)
Kết thúc chương
Thanks