Bài giảng Phương pháp chọn mẫu

NỘI DUNG TRÌNH BÀY 1. GIỚI THIỆU 2. CÁC BƯỚC THIẾT KẾ MẪU 3. KỸ THUẬT LẤY MẪU THEO XÁC SUẤT 4. KỸ THUẬT LẤY MẪU PHI XÁC SUẤT 5. XÁC ĐỊNH CỞ MẪU

pdf13 trang | Chia sẻ: thanhtuan.68 | Lượt xem: 1437 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Bài giảng Phương pháp chọn mẫu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
2/28/2011 1 PHƯƠNG PHÁP CHỌN MẪU TS. NGUYỄN MINH HÀ TRƯỜNG ĐH MỞ TPHCM NỘI DUNG TRÌNH BÀY 1. GIỚI THIỆU 2. CÁC BƯỚC THIẾT KẾ MẪU 3. KỸ THUẬT LẤY MẪU THEO XÁC SUẤT 4. KỸ THUẬT LẤY MẪU PHI XÁC SUẤT 5. XÁC ĐỊNH CỞ MẪU 2/28/2011 2 GIỚI THIỆU 1. Khái niệm: Chọn mẫu (sampling) là chọn lấy 1 số thành phần trong tổng thể (population), để rút ra các kết luận về tổng thể đó. Đơn vị NC: 1 thành phần của tổng thể (population element) là 1 cá thể/cá nhân mà người NC sẽ tiến hành các đo lường. Một tổng thể: gồm tất cả các thành phần của tổng thể mà ta muốn NC Khung mẫu: Danh sách tất cả các thành phần của tổng thể mà dựa vào đó chúng ta rút ra mẫu. 2. Tại sao phải lấy mẫu: - Tốn kém thời gian và chi phí khi NC tổng thể - Lợi thế của điều tra mẫu: - Chi phí thấp - Vẫn đạt được tốt hơn độ chính xác cần có của kết quả. - Tốc độ thu thập dữ liệu cao hơn - Tính sẳn có của các thành phần tổng thể. GIỚI THIỆU Lợi thế của điều tra mẫu so với điều tra tổng thể sẽ mất đi nếu tổng thể nhỏ và có tính biến động cao. Điều kiện để NC tổng thể phù hợp: - Tổng thể nhỏ - Khi mỗi cá thể đều rất khác biệt nhau. 3. Thế nào là 1 mẫu tốt: Phải có tính hợp lệ (Validity), tùy thuộc vào tính đúng đắn và tính chính xác 4. Tổng quan về các kỹ thuật lấy mẫu 2/28/2011 3 GIỚI THIỆU Lấy mẫu Xác suất Phi Xác suất Ngẫu nhiên đơn giản Hệ thống Ngẫu nhiên phân tầng Theo cụm Nhiều giai đoạn Hạn ngạch (quota) Có mục đích Lan dần Tự lựa chọn Thuận tiện II. CÁC BƯỚC THIẾT KẾ MẪU Để thực hiện các bước và các nguyên tắc, phải trả lời các câu hỏi theo trình tự như sau: 1. Tổng thể mục tiêu là gì? Khi xác định vấn đề NC và đặt câu hỏi NC, ta phải đã biết tổng thể mục tiêu là gì. Đối tượng và phạm vi NC. Vd: Hộ gia đình, DN hoặc cá nhân. 2. Các tham số (parameters) cần quan tâm là gì? - Các chỉ số thể hiện cho tổng thể: là các chỉ số tổng hợp các biến của tổng mà chúng ta quan tâm: giá trị trung bình, phương sai,... - Các chỉ số thống kê mẫu: cũng mô tả các biến trên nhưng của mẫu. Các chỉ số thống kê mẫu  ước lượng và tham chiếu  các chỉ số thống kê của tổng. 2/28/2011 4 II. CÁC BƯỚC THIẾT KẾ MẪU 3. Khung mẫu là gì? - Danh sách tất cả các thành phần trong tổng mà sẽ được rút mẫu ra. - Một khung mẫu lý tưởng: 1 danh sách hoàn thiện, đầy đủ và đúng tất cả các thành viên của tổng. 4. Phương pháp chọn mẫu phù hợp: Người NC phải quyết định chọn mẫu xác suất hay phi xác suất? Việc chọn mẫu xác suất sẽ cho người NC có thể đạt được các ước lượng cho nhiều chỉ tiêu NC khác nhau dựa trên sự tin cậy của xác suất. Chọn mẫu phi xác suất không có được điều này. Tuy nhiên, chọn mẫu xác suất có nhược vì người NC phải theo quy trình phù hợp mà: - Không thể điều chỉnh sự lựa chọn đã có - Chỉ có các thành phần được chọn từ khung mẫu mới được tính - Không được thay thế thành phần này bằng thành phần khác, trừ khi có chỉ dẫn cụ thể theo các nguyên tắc định trước. II. CÁC BƯỚC THIẾT KẾ MẪU 5. Cần cỡ mẫu bao nhiêu là vừa? - Cỡ mẫu là số đơn vị NC mà ta cần có trong 1 mẫu khi rút ra từ tổng thể mục tiêu. Có 2 quan điểm về cở mẫu: (i) Cỡ mẫu phải đủ lớn để đại diện cho tổng thể. (ii) Cỡ mẫu phải tương ứng với 1 tỷ lệ nào đó so với kích cỡ của tổng mà nó được rút ra. Cả 2 quan điểm cũng chưa chính xác - Với mẫu phi xác suất: Số lượng nhóm phụ, các nguyên tắc lựa chọn và hạn chế về ngân sách là yếu tố quyết định cỡ mẫu. - Với mẫu xác suất: cỡ mẫu phụ thuộc vào sự biến thiên của các chỉ số thống kê của tổng và mức độ chính xác của kết quả mà ta muốn có. Một số nguyên tắc ảnh hưởng đến xác định cỡ mẫu: - Tổng thể biến thiên càng nhiều thì cỡ mẫu phải lớn để đạt tính chính xác. - Độ chính xác mong muốn càng tăng thì cỡ mẫu phải càng lớn - Phạm vi sai số càng nhỏ thì cỡ mẫu phải càng lớn 2/28/2011 5 II. CÁC BƯỚC THIẾT KẾ MẪU 5. Cần cỡ mẫu bao nhiêu là vừa? Một số nguyên tắc ảnh hưởng đến xác định cỡ mẫu (tt): - Mức độ tin cậy của ước lượng càng cao thì cỡ mẫu phải càng lớn. - Khi tổng thể có nhiều nhóm phụ, thì cỡ mẫu phải càng lớn để cỡ mẫu của từng nhóm phụ phải đạt yêu cầu tối thiểu. - Hạn chế về ngân sách cũng ảnh hưởng đến cỡ mẫu, cách chọn mẫu và phương pháp thu thập dữ liệu. Hạn chế ngân sách làm các nhà NC áp dụng các phương pháp chọn mẫu phi xác suất. III. CHỌN MẪU XÁC SUẤT 1. Chọn mẫu xác suất ngẫu nhiên đơn giản (simple Random Sampling): Hay còn gọi lấy mẫu ngẫu nhiên Chọn mẫu 1 cách ngẫu nhiên từ khung mẫu bằng các bảng số ngẫu nhiên, hoặc bằng máy tính. Thực hiện: - Đánh số mỗi phần tử trong khung mẫu với 1 con số duy nhất, từ 0, 1, 2,... - Lựa chọn các phần tử bằng con số ngẫu nhiên cho đến khi đạt được cỡ mẫu mong muốn (mỗi phần tử đều có xác suất được chọn như nhau). Loại Khi nào sử dụng Ưu Nhược Chi phí cao Áp dụng trung bình Mỗi phần tử của tổng đều có cơ hội được lựa chọn ngang nhau - Đảm bảo mức đại diện cao - Dễ áp dụng, nhất là với cách phỏng vấn qua điện thoại do máy quay số ngẫu nhiên. Có thể áp dụng hệ thống trả lời tự động Đòi hỏi danh sách khung mẫu. Tốn nhiều thời gian Cần cỡ mẫu lớn Tạo ra nhiều sai số 2/28/2011 6 III. CHỌN MẪU XÁC SUẤT 2. Chọn mẫu hệ thống (Systematic Sampling): Đòi hỏi bạn lựa chọn mẫu theo khoản (interval) đều đặn từ khung lấy mẫu. Ta chọn lấy thành phần thứ kth trong tổng thể, bắt đầu 1 con số ngẫu nhiên trong phạm vi từ 1 đến k. Thành phần thứ kth gọi là bước nhảy (skip interval), K = Tổng thể/cỡ mẫu Các bước thực hiện: - Xác định, lập danh sách và đánh số các phần tử của tổng thể (sắp xếp ngẫu nhiên tổng trước khi chọn mẫu nếu tổng thể được sắp xếp theo trật tự sẵn có) - Xác định bước nhảy K - Xác định con số khởi đầu cách ngẫu nhiên - Rút mẫu bằng cách chọn tất cả các phần tử theo các bước nhảy Kth III. CHỌN MẪU XÁC SUẤT 2. Chọn mẫu hệ thống (Systematic Sampling): Loại Khi nào sử dụng Ưu Nhược Chi phí trung bình Áp dụng trung bình Mỗi phần tử của tổng đều có cơ hội được lựa chọn ngang nhau - Đảm bảo mức đại diện cao - Thiết kế đơn giản, dễ áp dụng hơn ngẫu nhiên đơn giản Ít ngẫu nhiên hơn lấy mẫu Xác suất đơn giản Tính chu kỳ của tổng thể có thể làm méo, sai lệch mẫu và kết quả. 2/28/2011 7 III. CHỌN MẪU XÁC SUẤT 3. Chọn mẫu phân tầng (Stratified Sampling): Là 1 biến thể của chọn mẫu ngẫu nhiên, trong đó ta chia tổng thể thành 2 hay nhiều tầng (nhóm) quan trọng và có ý nghĩa, dựa vào 1 hay 1 số thuộc tính. Sau đó rút ra từ mỗi tầng này. Phương pháp này có ưu nhược giống với chọn mẫu ngẫu nhiên đơn giản, nhưng hệ quả thống kê cao hơn. Cần chú ý khi phân tầng: - Chi phí: phân tầng càng nhiều -> chi phí càng lớn - Kích cỡ tổng mẫu cần có và mẫu phân bổ như thế nào giữa các tầng. Vd: tổng mẫu là 200, chia cho 4 tầng hay 10 tầng? Đối với phân mẫu theo tầng khác nhau: theo tỷ lệ hoặc không theo tỷ lệ. Chọn mẫu phân tầng theo tỷ lệ thì cỡ mẫu của mỗi tầng đúng theo tỷ lệ của các thành phần có trong từng tầng so với tổng số. Để có đủ dữ liệu phân tích, cần phải tăng tỷ lệ chọn mẫu cho các tầng có tổng thể nhỏ hơn. III. CHỌN MẪU XÁC SUẤT 3. Chọn mẫu phân tầng (Stratified Sampling): Quy trình chọn mẫu phân tầng: - Quyết định các đặc tính để phân tầng: Tuổi, giới tính, nghề nghiệp, ... - Xác định tỷ lệ của từng nhóm tổng số phụ so với tổng thể chung - Chọn cách phân tầng theo tỷ lệ hay không theo tỷ lệ - Thiết lập các khung mẫu của các tổng thể phụ: Mỗi tầng có 1 khung mẫu - Trộn ngẫu nhiên các thành phần trong từng khung mẫu của từng tầng. - Rút mẫu cho từng tầng: ngẫu nhiên hoặc hệ thống Loại Khi nào sử dụng Ưu Nhược Chi phí cao Áp dụng trung bình Khi tổng lệ là không đồng nhất và chứa nhiều nhóm khác nhau, trong đó có vài nhóm liên quan đến chủ để NC - Đảm bảo mức đại diện cao cho từng nhóm NC - Kiểm soát cỡ mẫu trong các tầng. Tăng hiệu quả thống kê. Cung cấp dữ liệu đại diện cho từng nhóm. Cho phép sử dụng nhiều phương pháp phân [ch khác nhau cho từng tầng Tăng sai số nếu các tầng được chọn ở tỷ lệ khác nhau. Chi phí cao nếu tách nhiều tầng 2/28/2011 8 III. CHỌN MẪU XÁC SUẤT 4. Chọn mẫu theo nhóm (Cluster Sampling): Lấy mẫu theo cụm nhìn bề ngoài giống lấy mẫu phân tầng. Các nhóm căn cứ trên dạng ghép nhóm tự nhiên. Hay còn gọi Chọn mẫu theo vùng Vd: Có thể ghép nhóm dữ liệu theo loại hình công ty hoặc khu vực địa lý Phân tầng Theo nhóm x x x x x x x x x x x x x x x x x x x x 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 x x x x x 0 0 0 0 0 x x x x x 0 0 0 0 0 0 0 0 0 0 x x x x x 0 0 0 0 0 x x x x x Loại Khi nào sử dụng Ưu Nhược Chi phí TB Áp dụng cao Khi tổng lệ chứa các chủ thể lớn hơn là chứa chứa từng chủ thể riêng lẽ. -Dễ và thuận bện, chi phí thấp - Cung cấp các ước lượng không thiên lệch nếu được thực hiện đúng - Hiệu quả kinh tế cao hơn chọn mẫu ngẫu nhiên đơn giản Thường có hiệu quả thống kê thấp do các nhóm phụ có xu hướng đồng nhất hơn là dị biệt III. CHỌN MẪU XÁC SUẤT 5. Chọn mẫu nhiều giai đoạn (Double sampling – Sequential sampling - Multi-stageSampling): Cho phép ta sử dụng các thông tin có được từ các cuộc nghiên cứu ban đầu để làm cơ sở cho việc chọn mẫu tiếp theo. Trong NC kinh tế – xã hội: - Giai đoạn đầu tiên là NC khám phá, tìm hiểu các thông tin cơ bản của tổng thể (thông tin rộng). Áp dụng các phương pháp lấy mẫu trên - Giai đoạn sau, dựa vào kết quả NC giai đoạn trước, NC chuyên sâu, tìm hiểu chi tiết và chuyên sâu. Áp dụng các phương pháp lấy mẫu trên. Loại Khi nào sử dụng Ưu Nhược Chi phí TB Áp dụng trung bình Khi chưa biết các đặc [nh của tổng thể, theo yêu cầu NC - Có thể giảm chi phí nếu kết quả giai đoạn đầu cho đầy đủ dữ liệu để phân tầng hoặc chia nhóm tổng thể Tăng chi phí nếu được áp dụng không phân biệt 2/28/2011 9 IV. CHỌN MẪU PHI XÁC SUẤT 1. Lựa chọn kỹ thuật chọn mẫu và mẫu phù hợp nhất: Lựa chọn người cần phỏng vấn -> thiên lệch và méo mó kết quả. Tuy nhiên, một số lý do để chọn phương pháp này. - Thỏa yêu cầu chọn mẫu theo mục tiêu - Khi không cần phải tổng quát hóa các kết quả NC cho tổng thể thì không quan tâm tính đại diện cho tổng. Điều này phù hợp với NC khám phá và lấy ý kiến chuyên gia. - Do chi phí và thời gian ít - Khi không biết tổng thể nghiên cứu, không có khung mẫu và không có cơ sở để chọn mẫu xác suất -> Phải chọn mẫu phi xác suất. - Khi người tham gia NC (đối tượng) không có sự ngang bằng về cơ hội chọn lựa giống nhau. IV. CHỌN MẪU PHI XÁC SUẤT 2. Chọn mẫu thuận tiên (Convenience Sampling): Việc lựa chọn 1 cách tình cờ những phần tử dễ lấy nhất cho mẫu của bạn. Quy trình chọn mẫu được tiếp tục cho đến khi đạt cỡ mẫu cần thiết. Vd: Vào lớp cao học phỏng vấn 1 vấn đề gì đó. Mặc dù kỹ thuật này được sử dụng rộng rãi nhất nhưng dễ có xu hướng sai lệch. Mức tin cậy ít nhất, rẽ, dễ tiến hành vì các nhà NC có quyền tự do lựa chọn bất kỳ ai họ muốn để phỏng vấn. Trong giai đoạn NC khám phá có thể áp dụng phương pháp này. NC thị trường hay thăm dò ý kiến khách hàng được tiến hành bằng cách này. Loại Khi nào sử dụng Ưu Nhược Chi phí thấp Áp dụng thấp Khi các thành viên của tổng thể là thuận bện cho mẫu NC - Thuận bện và rẽ Mức độ tổng quát hóa/khái quát hóa cho tổng thể thấp/đáng nghi ngờ 2/28/2011 10 IV. CHỌN MẪU PHI XÁC SUẤT 3. Chọn mẫu theo mục đích (Purposive Sampling) hay phán đoán (Judgemental Sampling): Sử dụng phán đoán để lựa chọn các phần tử nhằm trả lời các câu hỏi NC và đạt được các mục tiêu 1 cách tốt nhất. Dạng này được sử dụng khi làm việc với mẫu rất nhỏ như NC tình huống hay lựa chọn các phần tử đặc biệt chứa nhiều thông tin, hoặc phù hợp khi sử dụng vào các giai đoạn đầu của NC khám phá. VD: NC về những người có học thức cao, ta chọn những lớp sau đai học. NC đầu tư chứng khoán cá nhân, ta chọn các nhà đầu tư chứng khoán cá nhân. IV. CHỌN MẪU PHI XÁC SUẤT 4. Chọn mẫu theo hạn ngạch (Quota Sampling) Là 1 kiểu của lấy mẫu phân tầng nhưng sự lựa chọn những phần tử trong mỗi tầng hoàn toàn phi ngẫu nhiên. Thưởng được sử dụng trong các cuộc khảo sát phỏng vấn. Dựa trên tiền đề là mẫu sẽ đại diện cho tổng thể vì sự biến động trong mẫu đối với các biến số cũng giống như biến động trong mẫu. Các bước thực hiện: - Chia tổng thể thành những nhóm cụ thể - Tính toán hạn mức cho mỗi nhóm dựa vào dữ liệu liên quan có sẵn - Giao một nhiệm vụ cho mỗi người phỏng vấn, nói rõ số lượng các phần tử trong mỗi hạn mức mà họ phải thu thập dữ liệu. - Tổng hợp dữ liệu của những người phỏng vấn để cung cấp 1 mẫu đầy đủ. 2/28/2011 11 IV. CHỌN MẪU PHI XÁC SUẤT 4. Chọn mẫu theo hạn ngạch (Quota Sampling) Loại Khi nào sử dụng Ưu Nhược Chi phí thấp Áp dụng TB Khi tầng xuất hiện và không thể chọn mẫu phân tầng - Đảm bảo mức độ đại diện của các tầng trong mẫu Mức độ tổng quát hóacho tổng thể thấp/đáng nghi ngờ Phụ thuộc vào điều tra viên Giới /nh Nhóm tuổi Vị trí công tác Dân số (10% mẫu) Hạn mức Nam 20-29 - Chuyên viên - Quản lý/giám đốc - Cấp trung gian & hành chánh - Làm việc phổ thông có kỹ năng - Làm việc phổ thông không có kỹ năng 11210 7983 9107 16116 5039 56 40 43 79 25 Nữ 20-29 - Chuyên viên - Quản lý/giám đốc - Cấp trung gian & hành chánh - Làm việc phổ thông có kỹ năng -Làm việc phổ thông không có kỹ năng 8811 6789 21585 1754 3570 44 34 108 9 18 IV. CHỌN MẪU PHI XÁC SUẤT 5. Chọn mẫu mở rộng dần (Snowball Sampling) Thường được sử dụng khi khó xác định/khó tiếp cận các thành viên của tổng thể mong muốn. Phù hợp cho các NC định tính. Do đó, ta cần: - Liên lạc với 1 hay 2 phần tử - Đề nghị các phần tử này xác định các phần tử tiếp theo. - Đề nghị các phần tử mới này xác định các phần tử tiếp theo (và cứ thế) - Dừng lại khi không tìm thêm phần tử mới hay cỡ mẫu đủ lớn để NC. Do việc xác định tiếp theo như thế nên vấn đề sai lệch là lớn và vì những người được hỏi có xu hướng tìm những người tương tự, nên mẫu đồng nhất. 2/28/2011 12 V. XÁC ĐỊNH CỠ MẪU Mẫu tối thiểu là 30 cho mỗi nhóm Nói chung, 1 mẫu lớn hơn để đại diện cho tổng thể khi: - Số biến động trong (within groups) các nhóm là lớn hơn - Sự khác nhau giữa 2 nhóm (between two groups) là nhỏ hơn Theo Saunders, Lewis and Thornhill (2008), kích cở mẫu tối thiểu đối với kích cở tổng thể khác nhau và mức ý nghĩa khác nhau như sau (bảng kế bên): Theo 1 cách tính khác: Kích cở mẫu tối thiểu = số biến x 5 Ví dụ: số biến là 20, thì kích cỡ mẫu tối thiểu là 20x5 = 100 Tổng thể Biên sai số (Margin of error) 5% 3% 2% 1% 50 44 48 49 50 100 79 91 96 99 150 108 132 141 148 200 132 168 185 196 250 151 203 226 244 300 168 234 267 291 400 196 291 343 384 500 217 340 414 475 750 254 440 571 696 1.000 278 516 706 906 2.000 322 696 1.091 1.655 5.000 357 879 1.622 3.288 10.000 370 964 1.936 4.899 100.000 383 1.056 2.345 8.762 1.000.000 384 1.066 2.395 9.513 10.000.000 384 1.067 2.400 9.595 2/28/2011 13 V. XÁC ĐỊNH CỠ MẪU 1. Xác định cở mẫu trung bình: 2. Xác định cỡ mẫu theo tỷ lệ (Tham khảo trong tài liệu Trần Tiến Khai và các tác giả, trang 79-83; và Kothari (2004): C8) Kết thúc chương Thanks