Chương III Kiểm định các giả thiết thống kê

Như ở chương 1 đã trình bày, cơ sở để áp dụng các phương pháp thống kê là chuỗi phải đồng nhất và ngẫu nhiên. Hơn nữa khi áp dụng các đường tần suất lý luận để mô tả phân bố của các đại lượng này phải đảm bảo sự phù hợp của giữa đường lý luận và đường kinh nghiệm. Chúng ta đã giả thiết rằng chuỗi quan trắc thoả mãn các tiêu chuẩn này để tiến hành các tính toán tiếp theo. Đó chính là các giả thiết thống kê. Tuy nhiên chuỗi quan trắc là một mẫu từ tổng thể, do tác động của nhiều nhân tố nên có thể chưa phản ảnh đúng bản chất của tổng thể. Chính vì vậy cần tiến hành kiểm định các giả thiết trên.

pdf31 trang | Chia sẻ: lylyngoc | Lượt xem: 1662 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Chương III Kiểm định các giả thiết thống kê, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
66 Chương III Kiểm định các giả thiết thống kê 3.1.Khái niệm 3.1.1. Một số khái niệm về kiểm dịnh giả thiết thống kê Như ở chương 1 đã trình bày, cơ sở để áp dụng các phương pháp thống kê là chuỗi phải đồng nhất và ngẫu nhiên. Hơn nữa khi áp dụng các đường tần suất lý luận để mô tả phân bố của các đại lượng này phải đảm bảo sự phù hợp của giữa đường lý luận và đường kinh nghiệm. Chúng ta đã giả thiết rằng chuỗi quan trắc thoả mãn các tiêu chuẩn này để tiến hành các tính toán tiếp theo. Đó chính là các giả thiết thống kê. Tuy nhiên chuỗi quan trắc là một mẫu từ tổng thể, do tác động của nhiều nhân tố nên có thể chưa phản ảnh đúng bản chất của tổng thể. Chính vì vậy cần tiến hành kiểm định các giả thiết trên. Vậy giả thiết thống kê là gì? Đó là giả thiết đưa ra để xem xét có công nhận hay không một kết luận về thống kê. Nói riêng đó là giả thiết về tính đồng nhất, tính ngẫu nhiên và tính phù hợp với đường tần suất nào đó của chuỗi quan trắc thuỷ văn. Kiểm định giả thiết thống kê là thủ tục để đánh giá xem giả thiết đúng hay sai và để có thể chấp nhận hay bác bỏ giả thiết đó. Trong thủ tục kiểm định thống kê chúng ta cần biết một số khái niệm sau: - Giả thiết không (Null Hypothesis-H0) Giả thiết không là giả thiết ban đầu đưa ra để kiểm định. Thường giả thiết thiên về sự công nhận. - Giả thiết chệch (nghịch) (Anternative-Hypothesis) Giả thiết chệch là giả thiết ngược lại với giả thiết không H0, giả thiết không công nhận. - Mức ý nghĩa  (Level of significance) Mức ý nghĩa là xác suất (khá nhỏ) khi loại bỏ không chính xác giả thiết H0, hay còn gọi là xác suất sai lầm loại 1. Ngược lại với mức ý nghĩa  là mức tin cậy:  = 1-. Giá trị  càng nhỏ thì mức tin cậy càng lớn, giới hạn tin cậy càng mở rộng, càng ít phạm sai lầm loại 1, nhưng lại tăng sai lầm loại 2. - Miền tới hạn - Miền tin cậy: Mỗi chỉ tiêu xác định một tập hợp (miền) tới hạn mà nếu giá trị lựa chọn rơi vào đó thì giả thiết H0 bị bác bỏ. Phần bù của miền tới hạn gọi là miền tin cậy. Miền tới hạn được chọn sao cho xác suất rơi vào nó của chỉ tiêu xem xét là lớn nhất, khi đó giả thiết chệch đối lập với giả thiết H0 được chấp nhận. - Biên tới hạn - Biên tin cậy 67 Biên tin cậy là giới hạn của miền tin cậy, là ranh giới giữa miền tới hạn và miền tin cậy . Nó phụ thuộc dạng phân bố của chỉ tiêu và mức ý nghĩa . - Bậc tự do (Degree of Freedom): là số giá trị độc lập có thể xác định được, chính bằng dung lượng mẫu trừ đi số ràng buộc: Y = n -(h+1), trong đó h là số thông số, n là dung lượng mẫu. - Các chỉ tiêu thống kê hay viết gọn là thống kê (Statistic) là chỉ tiêu để so sánh khi kiểm định. 3.1.2.Các bước kiểm định giả thiết thống kê Quá trình kiểm định bao gồm các bước sau: 1). Xác lập giả thiết không H0 2). Chọn mức ý nghĩa , thường chọn 1, 2, 5 và 10%. Khi kiểm định sẽ có 4 trường hợp xảy ra: - Giả thiết là đúng và được chấp nhận. - Giả thiết đúng nhưng bị loại bỏ với mức , khi đó ta đã phạm sai lầm loại 1. - Giả thiết sai và bị loại bỏ. - Giả thiết sai nhưng được chấp nhận với mức , khi đó ta đã phạm sai lầm loại 2. 3). Xác định miền tới hạn và biên tới hạn: Điều này phụ thuộc vào dạng phân bố của chỉ tiêu và mức ý nghĩa. 4). Tính chỉ tiêu thống kê theo tài liệu quan trắc. 5). So sánh chỉ tiêu với biên tới hạn và kết luận chấp nhận hay loại bỏ giả thiết H0. 3.2. Kiểm định các giả thiết thống kê Có nhiều giả thiết thống kê cần kiểm định, nhưng trong thuỷ văn thường tiến hành kiểm định tính đồng nhất, tính ngẫu nhiên của chuỗi và tính phù hợp của đường lí luận với đường kinh nghiệm. Sau đây chúng ta sẽ tiến hành với từng giả thiết. 3.2.1. Kiểm định tính đồng nhất của chuỗi Chuỗi thuỷ văn đưa vào trong tính toán phải đảm bảo tính đồng nhất. Có nhiều nguyên nhân, cả tự nhiên và nhân tạo, làm cho tính đồng nhất của chuỗi bị phá hoại. Tuy nhiên phân tích bản chất vật lý của các đặc trưng thuỷ văn hoặc các nhân tố hình thành nó để chỉ ra sự đồng nhất là không đủ, vì chỉ mới là định tính. Hợp lý hơn cần sử dụng phương pháp thống kê, nó cho phép đánh giá tính đồng nhất của các chuỗi quan trắc trong dạng định lượng. Hơn nữa cũng cần đánh giá tính đồng nhất của chuỗi khi không có thông tin về nguồn gốc gây ra sự không đồng nhất, khi đó phương pháp thống kê sẽ là duy nhất. Mặt khác cũng có thể nguyên nhân vật lý đã biết nhưng không rõ ràng, và theo quan điểm thực tế có thể không tính đến, các phương pháp thống kê sẽ cho ta câu trả lời hợp lý nhất. Phương pháp thống kê còn cho phép kiểm định tính đồng nhất của các chuỗi theo không gian khi cần kết hợp chúng trong một khu vực địa vật lý đồng nhất. 68 Có nhiều chỉ tiêu thống kê được dùng để đánh giá tính đồng nhất của các thông số phân bố mẫu, nói riêng là giá trị trung bình và phương sai. a. Đồng nhất về giá trị trung bình Thường bắt đầu áp dụng cho trường hợp chuỗi có phân bố chuẩn *. Chỉ tiêu phân bố chuẩn z Coi trị số trung bình có phân bố chuẩn. Khi chuỗi gốc có phân bố chuẩn hay có dung lượng rất lớn. Chúng ta thực hiện theo các bước kiểm định giả thiết thống kê. - Giả sử có 2 chuỗi x và y. Xác lập giả thiết H0 : yx  . - Giả sử 2 chuỗi x và y có dung lượng mẫu nx và ny, khi đó chỉ tiêu phân bố chuẩn có dạng: )( xy xy z     , (3.1) trong đó: y y x x xy nn 22 )(    , (3.2) x và y là các giá trị trung bình của mẫu; x và y là các khoảng lệch chuẩn của mẫu. - Chọn mức ý nghĩa , thường chọn  = 5%=0,05. - Xác định miền tới hạn. Tra bảng phân bố chuẩn (phụ lục 2.7) với q=1/2 (vì phân bố đối xứng) được giá trị zth. Với = 0,05 ta có zth = 1,96. - Tính chỉ tiêu z từ tài liệu quan trắc theo công thức (3.1). - So sánh: Nếu thzz  thì ta chấp nhận giả thiết không H0, tức là có yx  . Khi đó có thể đưa vào cùng một chuỗi để tính toán. Ngược lại, giả thiết H0 bị bác bỏ và ta tiếp nhận giả thiết chệch yx  . Sau này với các chỉ tiêu kiểm định khác, không trình bày lại các bước kiểm định như trên mà chỉ đưa ra các chỉ tiêu cần tính và giá trị tới hạn để so sánh. Tuy nhiên phải nhớ rằng các bước tiến hành kiểm định phải đầy đủ như đã nêu. *. Chỉ tiêu Student Khi chuỗi không dài thì chỉ tiêu phân bố chuẩn không dủ mạnh, cần phải áp dụng chỉ tiêu khác, trong đó có chỉ tiêu Student. Chỉ tiêu này xuất phát từ phân bố Student hay phân bố t, do W.S.Gosset sử dụng lần đầu trong một bài toán thống kê (1908) (hình 3.1). Hình 3.1: Phân bố Student 69 Khi áp dụng chỉ tiêu này, phải thừa nhận phương sai là đồng nhất:   yx với  là phương sai của tổng thể. Tính đồng nhất của phương sai sẽ xem xét ở phần sau. Chỉ tiêu có dạng: yx yxyx yyxx nn nnnn nn xy t      )( 2 22  , (3.3) hoặc: , dS yx t   (3.4) yx yx cd nn nn SS   , (3.5) 2 11 22 2    yx yyxx c nn nn S )()(  . (3.6) Các ký hiệu như đã nêu ở trên. Giá trị tới hạn t được tra theo bảng Student (phụ lục 3.1) ứng với số bậc tự do:  = nx + nY -2 và mức ý nghĩa . Lưu ý rằng chỉ tiêu student đối xứng nên cần tra bảng phụ lục (3.1) với q= /2. Sau đây là một số giá trị t ứng với  =: (%) 5 1 0,1 t 1,96 2,58 3,29 Các bước kiểm định vẫn tiến hành như trên. 2 chỉ tiêu phân bố chuẩn và Student là những chỉ tiêu có tham số, áp dụng cho chuỗi quan trắc có phân bố chuẩn. *. Chỉ tiêu cho nhiều chuỗi Trong trường hợp kiểm định nhiều chuỗi đồng thời, dùng chỉ tiêu Student dưới dạng: 2 2 m m mymn nmy t    )( , (3.7) trong đó:  xx y m m   , (3.8) với x là trung bình chung của toàn bộ n quan trắc:    n i ixx 1 và    k j imn 1 , còn mx là giá trị trung bình theo mẫu quan trắc thứ m, có độ lệch lớn nhất so với trung bình chung; k là số mẫu quan trắc;  là khoảng lệch chuẩn của chuỗi chung. Nếu t ứng với ym nằm trong miền tin cậy với mức ý nghĩa  thì giá trị trung bình các mẫu mx là đồng nhất. Lưu ý rằng chúng ta cũng phải thừa nhận các khoảng lệch chuẩn (phương sai) của các mẫu m là đồng nhất. 70 Ví dụ 3.1: Cho số liệu Q năm trạm Hoà Bình–sông Đà (bảng 1.7) từ 1956 đến 2002. Kiểm tra tính đồng nhất của chuỗi số liệu theo chỉ tiêu Student, biết rằng hồ chứa Hoà Bình bắt đầu hoạt động từ năm 1986. Ta chia chuỗi số liệu làm 2 phần, phần 1 từ 1956 đến 1985 gồm 30 số hạng, phần 2 gồm 17 số hạng còn lại. - Xác lập giả thiết H0: 2 chuỗi đồng nhất về giá trị trung bình: yx  . - Giả thiết phương sai của 2 chuỗi là đồng nhất:   yx . - Tính chỉ tiêu Student từ chuỗi quan trắc theo công thức (3.3) được: t=0,04. - Chọn mức ý nghĩa =5%. - Tra bảng Student với mức ý nghĩa đã chọn và số bậc tự do  =nx+ny-2=45, có tth=2,014. - So sánh thấy rằng t<tth , như vậy giả thiết H0 được chấp nhận và kết luận rằng chuỗi Q năm trạm Hoà Bình–sông Đà từ 1956 đến 2002 là đồng nhất. *. Chỉ tiêu Wilcoxon Chỉ tiêu này thường dùng để chấp nhận 2 mẫu vào cùng một tổng thể (mẫu chung), có thể cháp nhận cho cả 2 vị trí khác nhau (không gian) và cho 2 thời khoảng khác nhau (thời gian). Chỉ tiêu khá nhạy đối với trung bình mẫu, nhưng không phản ứng với phương sai mẫu, nên thường dùng để đánh giá trung bình mẫu. Tiêu chuẩn này căn cứ trên việc thống kê số lượng nghịch thế xuất hiện do thuật toán sau: 1). Các giá trị quan trắc của 2 mẫu sắp xếp trong một chuỗi chung theo thứ tự (giảm dần hay tăng dần). Ví dụ: y1 x1 x2 y2 y3 y4 x3 y5 y6 x4, (a) hay: x1 x2 x3 y1 y2 x4 y3 y4 x5 y5, (b) trong đó xi là các giá trị của chuỗi 1, còn yi là các giá trị của chuỗi 2. 2). Nếu một giá trị x nào đó (hay y) xuất hiện sau giá trị y (hay x) thì cặp này hình thành một nghịch thế. Như vậy trong dãy (a), x1 hình thành một nghịch thế (với y1) và x2 cũng hình thành một nghịch thế (với y1), x3 hình thành 4 nghịch thế (với y1, y2, y3 và y4), còn x4 hình thành 6 nghịch thế (với y1, y2, y3, y4, y5 và y6). Tương tự, trong chuỗi (b) y1 và y2 hình thành 3 nghịch thế (với x1, x2, x3), y3 và y4 hình thành 4 nghịch thế, còn y5 hình thành 5 nghịch thế. 3). Lý thuyết [4,32] cho thấy rằng khi dung lượng mẫu không nhỏ hơn 10 thì số nghịch thế có phân bố gần chuẩn với kỳ vọng là: 2 nm Mn .  , (3.9) và phương sai là: )( . 1 12  nm nm Dn , (3.10) trong đó: m và n là số các số hạng của chuỗi x và y. 4). Miền tới hạn được xác định trong phạm vi: 71 u mnnmnm U 12 1 2 )(   , (3.11) trong đó u được xác định theo bảng phân bố chuẩn với mức ý nghĩa  (=0,05 thì u=2,58). hoặc: uqu uqu tMu tMu     )( )( với uu D , (3.12) tP là khoảng lệch chuẩn hoá ứng với mức ý nghĩa  (q=1/2  vì khoảng tin cậy đối xứng). Ví dụ với = 0,1 có q=0,05 và thu dược tq = 2,58, còn với = 0,05 nhận được tq = 1,96. 5). So sánh, nếu U tính được nằm trong miền tới hạn thì giả thiết không H0 bị bác bỏ, chuỗi không đồng nhất. Còn ngược lại thì giả thiết không H0 được chấp nhận và chuỗi đồng nhất. Chỉ tiêu này chỉ thích hợp khi so sánh 2 mẫu hoặc từng cặp mẫu trong nhiều điểm có cảnh quan đồng nhất. Với số mẫu lớn hơn 2 thì rất phức tạp và kém hiệu quả. Chỉ tiêu Wilcoxon là chỉ tiêu không tham số có thể áp dụng cho chuỗi gốc có phân bố bất kỳ. Ví dụ 3.2: Cũng với số liệu Q năm trạm Hoà Bình–sông Đà (bảng 1.7) từ 1956 đến 2002. Kiểm tra tính đồng nhất của chuỗi số liệu theo chỉ tiêu Wilcoxon. Chúng ta cũng làm theo các bước như trên, nhưng không nhắc lại lần lượt các bước, mà chỉ tiến hành các bước chủ yếu: - 2 chuỗi đã chia được gộp vào làm một và sắp xếp theo thứ tự giảm dần, đánh dấu phân biệt số hạng của chuỗi 1 và 2. - Tính số nghịch thế theo phương pháp đã trình bày (bảng 3.1) Từ bảng (3.1) ta có tổng số nghịch thế là: Ut=248. - Tính kỳ vọng và phương sai của phân bố số nghịch thế theo các công thức (3.9) và (3.10), nhận được : Mu=255; Du=2040; u=45,16. Bảng 3.1: Tính số nghịch thế U của chuỗi Q trạm Hoà Bình–sông Đà TT Năm Q năm U TT Năm Q năm U 1 1989 1124 25 1976 (1720) 8 2 1992 1231 26 1974 (1740) 8 3 1987 1259 27 1990 1747 4 1980 (1260) 3 28 1984 (1750) 9 ..... ........... ................. ................ ...... ............... ................... ................ 21 1969 (1630) 7 45 1999 2154 22 1985 (1650) 7 46 2002 2170 23 1972 (1690) 7 47 1971 (2180) 17 24 1991 1708 Tổng số 248 Ghi chú: Nhứng số trong dấu ngoặc đơn là của chuỗi x - Với =5%, ta có tq=1,96. 72 - Xác định miền tới hạn theo (3.11): u mnnmnm U 12 1 2 )(   = 582 12 117301730 2 1730 , )(..   =395,2. hoặc theo (3.12): Hai giá trị tới hạn của U tính theo (3.12) là : U1=166 và U2=343. - So sánh với Ut tính được ta thấy nó thoả mãn điều kiện (3.11) hoặc (3.12), như vậy giả thiết H0 được chấp nhận và kết luận chuỗi Q năm của trạm Hoà Bình-sông Đà đồng nhất *. Chỉ tiêu theo dấu Chỉ tiêu này cũng được áp dụng để kiểm định tính đồng nhất. Trong trường hợp này chỉ xem xét dấu của sự chênh lệch giữa các số hạng của 2 chuỗi x và y: Ri = xi - yi. Ta coi rằng số số hạng như nhau và bằng n. Ri = xi - yi:     0 y- x nếu(-) dấu mang x nếu)( dấu mang ii i   0iy (3.14) Xác định số trường hợp mang dấu cộng (Kn+) và số trường hợp mang dấu trừ (Kn-). Lấy số trường hợp nhỏ nhất trong (Kn+) và (Kn-), ta được Kn(±). Xác định giá trị tới hạn: 1 2 1    nk n m kn, , (3.15) k được tra bảng, với = 5% = 0,05 thì k = 0,98. So sánh: Nếu Kn(+) < knm , thì chuỗi không đồng nhất; Nếu Kn(+) > knm , thì chuỗi đồng nhất. Chỉ tiêu theo dấu cũng là chỉ tiêu không tham số có thể áp dụng cho chuỗi gốc có phân bố bất kỳ. Tuy nhiên chỉ tiêu này ít dùng. b. Đồng nhất về phương sai Khi kiểm định theo chỉ tiêu Student đã thừa nhận phương sai của các chuỗi là đồng nhất và bằng phương sai tổng thể. Tuy nhiên cũng cần đánh giá làm rõ điều này. Việc kiểm định được tiến hành bằng các chỉ tiêu sau đây. *. Chỉ tiêu Fisher Hiện nay trong thuỷ văn thường dùng chỉ tiêu Fisher hay tỷ số phương sai để kiểm định về phương sai. Chỉ tiêu xuất phát từ hàm mật độ xác suất do Fisher đưa ra (1941) (hình 3.2), có dạng: 2 2 y xF    , (3.16) trong đó: x là phương sai lớn (lớn hơn) có số bậc tự do 1 xx n ; y là phương sai nhỏ có 1 yy n ; nx và ny là số số hạng của 2 chuỗi x và y. Để xác định chỉ tiêu tới hạn Fth, sử dụng bảng phân phối Fisher với số bậc tự do yx v, và 2 phương sai x , y ứng với mức ý nghĩa . Bảng tra được đưa ra trong phụ lục (3.3). Sau đây là một số giá trị ứng với số bậc tự do là  yx v :  (%) 1 5 10 Fth 6,63 3,84 2,23 73 Hình 3.2: Phân bố Fisher Đây là tiêu chuẩn tham số nên yêu cầu chuỗi gốc phải có phân bố chuẩn. Vì trong kiểm định luôn có x > y nên gọi là kiểm định chặn một đầu. Các bước kiểm định cũng thực hiện như ở phần đầu chương. Sau khi tính được Ft và Fth, tiến hành so sánh nếu thấy thFF  thì chấp nhận giả thiết không và kết luận phương sai 2 chuỗi đồng nhất. Còn nếu thFF  thì phương sai 2 chuỗi không đồng nhất. Ví dụ 3.3: Theo số liệu bảng (2.6), kiểm định phương sai chuỗi Qmax trạm Hoà Bình-sông Đà. - Chia chuỗi thành 2 phần như đã thực hiện ở các ví dụ kiểm định trước đây. - Tính phương sai 2 chuỗi thành phần được :Dx= 2 x =2506 và Dy= 2 y =2313. - Tính chỉ tiêu Fisher theo công thức (3.16) được Ft=1,174. - Tra bảng Fisher (phụ lục 3.2A,B) với mức ý nghĩa 5% và các phương sai thành phần vừa tính, ta nhận được Fth=2,198. Cũng có thể tính bằng hàm trong Excel. - So sánh thấy rằng Ft<Fth do đó phương sai của 2 thành phần và cả chuỗi là đồng nhất. *. Chỉ tiêu cho nhiều chuỗi Trường hợp khi kiểm định cho nhiều chuỗi người ta dùng chỉ tiêu: 22 2 2 1 2 max2 ... K G     , (3.17) trong đó: max : phương sai lớn nhất trong các chuỗi; k ,...,, 21 phương sai của các chuỗi thành phần. Lưu ý rằng chỉ tiêu này áp dụng cho các chuỗi cùng dung lượng. Người ta cũng sử dụng kiểm định Bartlett cho phương sai [10], khi mà số chuỗi lớn hơn 2. Đó là một áp dụng đặc biệt của kiểm định 2 và cho bởi phương trình:   ,log)()(lg,            m k kk m k kk snns 1 2 1 22 1130262 (3.18) trong đó: 2ks là phương sai trung bình của các mẫu; m là số mẫu; nk là dung lượng của mẫu thứ k và 2ks là phương sai mẫu thứ k: 74           k k k k k n i i k n xx s K 1 1 1 2 2 , (3.19) với k là số mẫu hay số phương sai được ước tính. Khi các mẫu có cùng dung lượng nk = n thì phương trình (3.18) dẫn tới:  222 130262 kkk ssnn loglg)(,  (3.20) Vì 2 tính theo (3.18), (3.20) bị lệch nên phải hiệu chỉnh bằng cách chia nó cho một hằng số C: C hc 2 2   , trong đó:                      )()( 1 1 1 1 13 1 1 kk nnk C (3.21) So sánh 2hc với giá trị tới hạn tra từ bảng  2 (Phụ lục 3.4), nếu 22 thhc   thì chấp nhận H0 với mức ý nghĩa đã chọn, nghĩa là các chuỗi đồng nhất. Trước khi kiểm định Bartlett nên tiến hành kiểm định theo chỉ tiêu Fisher cho phương sai lớn nhất và nhỏ nhất, nếu nó thoả mãn đồng nhất thì mới tiến hành theo Bartlett. Nếu không thoả mãn thì không cần tính tiếp, vì ít nhất đã không đồng nhất ở 2 chuỗi có phương sai lớn nhất và nhỏ nhất vừa kiểm định và dĩ nhiên tất cả các chuỗi sẽ không đồng nhất. Các ví dụ trình bày chỉ kiểm định cho các thời đoạn khác nhau của chuỗi số liệu tại cùng một vị trí (đồng nhất về thời gian), tuy nhiên các chỉ tiêu cũng có thể áp dụng cho các chuỗi ở các vị trí khác nhau trong một khu vực địa vật lý đồng nhất (đồng nhất về không gian). c. Xây dựng đường tần suất khi mẫu không đồng nhất Trong một số trường hợp chuỗi quan trắc thu được là không đồng nhất. Khi đó các phương pháp xây dựng đường tần suất đã trình bày ở chương 2 không thực hiện được. Tuy nhiên muốn tận dụng các thông tin đã có từ số liệu quan trắc, chúng ta phải xây dựng đường tần suất cho chuỗi không đồng nhất. Có nhiều phương pháp được giới thiệu, nhưng phương pháp đơn giản và đủ chính xác là của Velicanov và Brokovits [32]. Đây là phương pháp bán đồ giải. Cơ sở của phương pháp như sau. Đường tần suất của chuỗi không đồng nhất được coi là tổng có trọng số của các chuỗi đồng nhất thành phần: k kk nnn xPnxPnxPn xP    ... )(...)()( )(' 21 2211 , (3.22) trong đó: )(' xP là tần suất lí luận chung của toàn bộ chuỗi không đồng nhất; P1(x), P2(x),...,Pk(x) là tần suất của các chuỗi đồng nhất thành phần; n là dung lượng chung; n=n1+n2+...+nk; n1, n2,...,nk là dung lượng các chuỗi thành phần. Để chứng mình công thức (3.22) chúng ta xem xét một trường hợp đơn giản, khi có 2 chuỗi thành phần, khi đó (3.22) có dạng sau: 21 2211 nn xPnxPn xP    )()( )(' (3.23) 75 Xác suất để biến x thuộc chuỗi thành phần thứ nhất P1(x), bằng n n nn n 1 21 1   , tương tự xác suất để x thuộc chuỗi thành phần thứ hai P2(x), bằng n n2 . Xác suất để giá trị cụ thể xi với tần suất P1(xi) thuộc chuỗi P1(x), theo định lý nhân xác suất sẽ là: 21 1 nn n  P1(xi). Vì giá trị cụ thể xi bất kỳ có thể thuộc chuỗi thứ nhất hoặc thứ 2 nên xác suất xuất hiện của giá trị cụ thể xi trong toàn chuỗi không đồng nhất, theo định lý cộng xác suất, là: )()()(' xP nn n xP nn n xP i 2 21 2 1 21 1     (3.24) Khái quát cho k chuỗi thành phần không đồng nhất nhận được biểu thức (3.22). Các bước làm cụ thể tiến hành theo ví dụ sau đây. Ví dụ 3.4 [32]: Cho chuỗi dòng chảy năm của trạm Xakmara sông Xakmara gồm 80 năm. Người ta thấy rằng dòng chảy thời kỳ nhiều nước và ít nước là không đồng nhất. Yêu cầu xây dựng đường tần suất lí luận tổng hợp. Chia toàn bộ chuỗi thành 2 chuỗi thành phần theo các thời kỳ. Như vậy chuỗi lưu lượng năm nhiều nước có 68 số hạng, còn chuỗi năm ít nước gồm 12 số hạng. Xây dựng các đường cong tần suất cho toàn bộ 80 năm số liệu và cho từng chuỗi thàn
Tài liệu liên quan