Cơ sở lý thuyết cho thống kê suy diễn - Tài liệu, ebook, giáo trình, hướng dẫn

17 trang | Chia sẻ: haohao89 | Lượt xem: 4167 | Lượt tải: 4

Bạn đang xem nội dung tài liệu Cơ sở lý thuyết cho thống kê suy diễn, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Bài viết này trích ra và sửa chữa từ bản thảo Giáo Trình Kinh Tế Lượng của tôi viết cho Đại Học Ngân Hàng. Mục đích giúp các bạn đang học môn Lý Thuyết Thống Kê và Kinh Tế Lượng hiểu bản chất của Thống Kê Suy Diễn được sử dụng trong hai môn học này. Tài liệu này được dùng kèm với các giáo trình, không thay thế cho nội dung tương ứng của các giáo trình. Bài viết gồm bốn: (1) Các phân phối xác suất thông dụng, (2) Ước lượng khoảng, (3) Kiểm dịnh giả thuyết thống kê, (4) Ví dụ bằng số với phần mềm MegaStat. Nó đang là bản thảo, mong thầy cô và các bạn góp ý. Chân thành cảm ơn. 1. Các phân phối xác suất thông dụng 1.1. Phân phối thường Hàm mật độ xác suất của phân phối thường: Các tính chất của phân phối thường Hàm mật độ xác suất đối xứng quanh giá trị trung bình. Xấp xỉ 68% quan sát nằm trong khoảng (m ± s), xấp xỉ 95% quan sát nằm trong khoảng (m ± 2s), và xấp xỉ 99,7% quan sát nằm trong khoảng (m ± 3s). Định lý giới hạn trung tâm 1: Một kết hợp tuyến tính các biến có phân phối thường, trong một số điều kiện xác định cũng là một phân phối thường. Ví dụ và thì Y =aX1+bX2 với a và b là hằng số có phân phối Y~N[(am1+bm2),(]. Định lý giới hạn trung tâm 2: Dưới một số điều kiện xác định, giá trị trung bình mẫu của các một biến ngẫu nhiên sẽ tuân theo phân phối thường, với Mô men của phân phối thường Mô men bậc ba: E[(X-m)3]=0 Mô men bậc bốn : E[(X-m)4]=3s4 Đối với một phân phối chuẩn Độ méo (skewness): Độ nhọn (kurtosis): Dựa vào tính chất trên, người có thể kiểm định xem một biến ngẫu nhiên có tuân theo phân phối thường hay không bằng cách kiểm định xem S có gần 0 và K có gần 3 hay không. Đây là nguyên tắc xây dựng kiểm định Jarque-Bera. JB tuân theo phân phối c2 với hai bậc tự do (df =2). Nếu đặt thì ta có Z~N(0,1). Z được gọi là biến chuẩn hoá và N(0,1) được gọi là phân phối chuẩn. 1.2. Phân phối Chi-square Nếu X1, X2,…, Xk là các biến ngẫu nhiên độc lập có phân phối chuẩn hoá thì tuân theo phân phối Chi-bình phương với k bậc tự do. Tính chất của phân phối Phân phối c2 là phân phối lệch về bên trái, khi bậc tự do tăng dần thì phân phối c2 tiến gần đến phân phối chuẩn. m = k và s2 = 2k , hay tổng của hai biến có phân phối c2 cũng có phân phối c2 với số bậc tự do bằng tổng các bậc tự do. 1.3. Phân phối t Nếu Z~N(0,1) và là độc lập thống kê thì tuân theo phân phối t-Student hay nói gọn là phân phối t với k bậc tự do. Tính chất của phân phối t Phân phối t cũng đối xứng quanh 0 như phân phối chuẩn hoá nhưng phân tán hơn. Khi bậc tự do càng lớn thì phân phối t tiệm cận đến phân phối chuẩn hoá. Trong thực hành. Khi bậc tự do lớn hơn 30 người ta thay phân phối t bằng phân phối chuẩn hoá. m = 0 và s = k/(k-2) 1.4. Phân phối F Nếu và độc lập thống kê thì theo phân phối F với (k1, k2) bậc tự do. Tính chất của phân phối F Phân phối F lệch về bên trái, khi bậc tự do k1 và k2 đủ lớn, phân phối F tiến đến phân phối thường. m = k2/(k2-2) với điều kiện k2>2 và với điều kiện k2>4. Bình phương của một phân phối t với k bậc tự do là một phân phối F với 1 và k bậc tự do Nếu bậc tự do mẫu k2 khá lớn thì . 1.5. Phân phối nhị thức X là số lần thành công với n là số lần thử và p là tỷ lệ “thành công” của một lần thử. Các tính chất của phân phối nhị thức mX = E(X) = np s2 = np(1-p) 2. Ước lượng khoảng tin cậy 1-a 2.1. Ước lượng khoảng cho trung bình khi biết độ lệch chuẩn của tổng thể Giả sử biến ngẫu nhiên X tuân theo phân phối thường và chúng ta biết độ lệch chuẩn Xuất phát từ định lý giới hạn trung tâm 2: và công thức chuẩn hoá một phân phối thường ~N(0,1). Chúng ta chuẩn hoá biến . Nếu chọn a = 5% thì Za/2 = -1.96 và Z1-a/2=1.96 Giá trị tới hạn của Z ứng với a = 5% (hai đuôi) Nguồn: Excel/MegaStat/ Probability/ Normal Distribution/… Vậy khoảng tin cậy (1-a) cho m là Ứng với a = 5% thì khoảng tin cậy 95% cho m là 2.2. Ước lượng khoảng cho giá trị trung bình khi không biết độ lệch chuẩn của tổng thể Chúng ta chỉ có độ lệch chuẩn của mẫu điều tra s thay vì có độ lệch chuẩn của tổng thể s. Nhắc lại Vậy không thể tuân theo N(0,1) Chúng ta bổ sung một định lý Tạm thời chúng ta chưa cần chứng minh định lý này. Và thực hiện một vài phép biến đổi (theo định nghĩa phân phối t) Tóm lại tuân theo t-Student với (n-1) bậc tự do. Nếu chọn a = 5%, ứng với n = 20 thì t19,a/2 = -2.093 và t19,1-a/2= 2.093 Giá trị tới hạn của t ứng với a = 5% và df = 19 (hai đuôi) Nguồn: Excel/MegaStat/ Probability/ t Distribution/… Vậy khoảng tin cậy (1-a) cho m là Ứng với a = 5% và n = 20 thì khoảng tin cậy 95% cho m là Đặc điểm của phân phối t là nó tiệm cận với phân phối chuẩn khi n đủ lớn, vậy khi n đủ lớn (n>30) thì có thể thay t bằng Z. * Quy tắc kinh nghiệm (Rule of Thumb): Khi n đủ lớn 2.3. Ước lượng khoảng tin cậy cho tỷ lệ Tỷ lệ ước lượng với X là số lần “thành công” và n là số lần thử. Từ s2X = np(1-p) Phương sai của ước lượng tỷ lệ Khi n đủ lớn thì Vậy khoảng tin cậy 1-a của p có Khoảng tin cậy (1-a) cho ước lượng tỷ lệ 2.4. Ước lượng khoảng tin cậy cho phương sai Nhắc lại định lý Vậy khoảng tin cậy 1-a của phương sai có Khoảng tin cậy 1-a cho phương sai là Với n = 20, a =5% thì các giá trị tới hạn của như sau Nguồn: Excel/MegaStat/ Probability/ Chi-Square Distribution/… 3. Kiểm định giả thuyết thống kê Nói chung có 3 cách kiểm định một giả thuyết thống kê Ước lượng khoảng tin cậy 1-a (phương pháp truyền thống) Dùng trị thống kê kiểm định Dùng giá trị p 3.1. Kiểm định giả thuyết thống kê cho giá trị trung bình (2 đuôi) 3.1.1. Kiểm định giả thuyết thống kê cho giá trị trung bình khi biết phưng sai của tổng thể Ước lượng khoảng tin cậy 1-a (phương pháp truyền thống) Quy tắc quyết định Nếu khoảng tin cậy nêu trên chứa mo thì không thể bác bỏ Ho với mức ý nghĩa a. Nếu khoảng tin cậy nêu trên chứa mo thì có thể bác bỏ Ho với mức ý nghĩa a. Dùng trị thống kê kiểm định Nếu Ho đúng thì Za/2 Z1-a/2 Miền bác bỏ Miền chấp nhận Miền bác bỏ Quy tắc quyết định đối với trường hợp a = 5% Quy tắc quyết định Nếu Zc nằm ở miền chấp nhận () thì không thể bác bỏ Ho với mức ý nghĩa a. Nếu Zc nằm ở miền bác bỏ () thì có thể bác bỏ Ho với mức ý nghĩa a. Dùng giá trị p Giả sử chúng ta tính được Zc = 1.28. Vì 1.28 nằm ở miền chấp nhận nên chúng ta không thể bác bỏ Ho. Nếu đặt diện tích ngoài giá trị Zc là p/2 thì chúng ta thấy p>a. Cụ thể trong trường hợp này p = 2*P(Z>1.28) = 2*0.1 = 0.2 Quy tắc quyết định Nếu p thì không thể bác bỏ Ho với mức ý nghĩa a. Nếu p thì có thể bác bỏ Ho với mức ý nghĩa a. 3.1.1. Kiểm định giả thuyết thống kê cho giá trị trung bình khi không biết phương sai của tổng thể Ước lượng khoảng tin cậy 1-a (phương pháp truyền thống) Quy tắc quyết định Nếu khoảng tin cậy nêu trên chứa mo thì không thể bác bỏ Ho với mức ý nghĩa a. Nếu khoảng tin cậy nêu trên chứa mo thì có thể bác bỏ Ho với mức ý nghĩa a. Dùng trị thống kê kiểm định Nếu Ho đúng thì Nếu chọn a = 5%, ứng với n = 20 thì t19,a/2 = -2.093 và t19,1-a/2= 2.093 t19,a/2 t19,1-a/2 Miền bác bỏ Miền chấp nhận Miền bác bỏ Quy tắc quyết định đối với trường hợp a = 5% Quy tắc quyết định Nếu tc nằm ở miền chấp nhận () thì không thể bác bỏ Ho với mức ý nghĩa a. Nếu tc nằm ở miền bác bỏ () thì có thể bác bỏ Ho với mức ý nghĩa a. Dùng giá trị p Giả sử chúng ta tính được tc = 1.066. Vì 1.066 nằm ở miền chấp nhận nên chúng ta không thể bác bỏ Ho. Nếu đặt diện tích ngoài giá trị tc là p/2 thì chúng ta thấy p>a. Cụ thể trong trường hợp này p = 2*P(t>1.066) = 2*0.15 = 0.3 Quy tắc quyết định Nếu p thì không thể bác bỏ Ho với mức ý nghĩa a. Nếu p thì có thể bác bỏ Ho với mức ý nghĩa a. 3.2. Kiểm định giả thuyết thống kê về phương sai (2 đuôi) Hy vọng bạn đọc đã quen với 3 cách kiểm định thống kê qua hai ví dụ về kiểm định giá trị trung bình. Từ đây tôi chỉ trình bày vắn tắt kết quả. Từ Chúng ta có 3 cách kiểm định giả thuyết thống kê như sau Ước lượng khoảng tin cậy 1-a cho phương sai Nếu khoảng tin cậy này chứa thì không thể bác bỏ Ho, ngược lại chúng ta có thể bác bỏ Ho với mức ý nghĩa a. Trị thống kê kiểm định là Miền chấp nhận là Nếu nằm trong miền chấp nhận thì không thể bác bỏ Ho, ngược lại chúng ta có thể bác bỏ Ho với mức ý nghĩa a. Giá trị p Nếu pthì thì không thể bác bỏ Ho, ngược lại chúng ta có thể bác bỏ Ho với mức ý nghĩa a. 3.3. Kiểm định giả thuyết thống kê về tỷ lệ (2 đuôi) Khoảng tin cậy 1-a cho tỷ lệ Nếu khoảng tin cậy này chứa thì không thể bác bỏ Ho, ngược lại chúng ta có thể bác bỏ Ho với mức ý nghĩa a. Trị thống kê kiểm định ~N(0,1) nếu Ho đúng. Nếu Zc nằm ở miền chấp nhận () thì không thể bác bỏ Ho với mức ý nghĩa a. Nếu Zc nằm ở miền bác bỏ () thì có thể bác bỏ Ho với mức ý nghĩa a. Giá trị p Nếu pthì thì không thể bác bỏ Ho, ngược lại chúng ta có thể bác bỏ Ho với mức ý nghĩa a. 3.4. Kiểm định 1 đuôi 3.4.1. Kiểm định giá trị trung bình trường hợp biết độ lệch chuẩn tổng thể (1 đuôi phải) Trị thống kê kiểm định , chọn a = 5% thì Z1-a = Z95% = 1.64 Miền chấp nhận Miền bác bỏ Nếu Zc Z1-a thì không thể bác bỏ Ho với mức ý nghĩa a. Nếu p thì không thể bác bỏ Ho với mức ý nghĩa a. 3.4.2. Kiểm định giá trị trung bình trường hợp biết độ lệch chuẩn tổng thể (1 đuôi trái) Trị thống kê kiểm định , chọn a = 5% thì Za = Z5% = -1.64 Miền bác bỏ Miền chấp nhận Nếu Zc Z1-a thì không thể bác bỏ Ho với mức ý nghĩa a. Nếu p thì không thể bác bỏ Ho với mức ý nghĩa a. 3.4.2. Các kiểm định giá một đuôi khác. Các kiểm định một đuôi khác cũng có cách thức tương tự. Hy vọng bạn tự xây dựng được. 4. Ví dụ bằng số trên phần mềm MegaStat Khảo sát điểm môn Lý Thuyết Thống Kê của 20 sinh viên được chọn ngẫu nhiên trong khoá 6 chúng ta nhận bảng số liệu như sau. STT Điểm LTTK Giỏi 1 9 1 2 8 1 3 7 0 4 7 0 5 8 1 6 9 1 7 5 0 8 9 1 9 10 1 10 7 0 11 7 0 12 5 0 13 6 0 14 6 0 15 8 1 16 5 0 17 7 0 18 6 0 19 10 1 20 9 1 4.1. Ước lượng điểm Ước lượng điểm cho trung bình và phương sai của Điểm LTTK như sau Excel/ MegaStat/ Descriptive Statistics/ InputRange: Điểm LTTK Ước lượng điểm cho tỷ lệ sinh viên đạt loại giỏi (8 điểm trở lên) Excel/ MegaStat/ Descriptive Statistics/ InputRange: Giỏi 4.2. Kiểm định giả thuyết thống kê cho giá trị trung bình Hai đuôi Excel/ MegaStat/ Hypothesis Tests/ Mean vs. Hypothesized Value/ Input Range: Điểm LTTK, Hypothesized mean: 8, Alternative: not equal, t-test, Display 95% confidence/OK. Kết quả kiểm định Cả ba cách kiểm định đều cho kết quả là không đủ cơ sở để bác bỏ Ho với mức ý nghĩa 5%. Đuôi phải Excel/ MegaStat/ Hypothesis Tests/ Mean vs. Hypothesized Value/ Input Range: Điểm LTTK, Hypothesized mean: 6, Alternative: greater than, t-test/OK. Kết quả kiểm định là có bằng chứng thống kê để bác bỏ Ho với mức ý nghĩa 5%. Đuôi trái Excel/ MegaStat/ Hypothesis Tests/ Mean vs. Hypothesized Value/ Input Range: Điểm LTTK, Hypothesized mean: 7, Alternative: less than, t-test/OK. Kết quả kiểm định là không bác bỏ Ho (với mức ý nghĩa 5%) 4.3. Kiểm định giả thuyết thống kê cho phương sai Hai đuôi Excel/ MegaStat/ Hypothesis Tests/ Chi-square Variance Test/ Input Range: Điểm LTTK, Hypothesized mean: 7, Alternative: not equal, Display 95% confidence/OK. Bạn hãy tự rút ra kết luận. Sau đây là các kết xuất của kiểm định một đuôi Đuôi phải Đuôi trái Kết xuất Kết xuất Kết luận: ? Kết luận: ? 4.4. Kiểm định giả thuyết thống kê cho tỷ lệ Excel/ MegaStat/ Hypothesis Tests/ Proportion vs. Hypothesed Value/ Obsered (p=0.45, n=20), Hypothesized (p=0.7), Alternative: not equal, Display 95% confidence/OK. Kết luận: ? Kiểm định 1 đuôi Đuôi phải Đuôi trái Kết xuất Kết xuất Kết luận: ? Kết luận: ? 5. Lời kết Có sự liên thông giữa 3 môn XSTK, LLTK và KTL. Bạn phải nắm vững các khái niệm xác suất, đặc biệt là các hàm phân phối xác suất dẫn xuất từ phân phối chuẩn, bạn mới có thể hiểu được thống kê suy diễn của LLTK. Nếu bạn hiểu LLTK thì KTL là môn khá thú vị. Khi đó bạn không còn quá bận tâm về kỹ thuật thống kê (ước lượng, kiểm định) mà tập trung phân tích bản chất quan hệ giữa các biến số kinh tế. Yan can cook, you too. Yan có thể nấu ăn thì bạn có thể. Riêng tôi thì không chắc chắn lắm về khoản làm bếp, mặc dù rất thích xem Yan biểu diễn. Chúc thành công!