Như ở chương 1 đã trình bày, cơ sở để áp dụng các phương pháp thống kê là chuỗi
phải đồng nhất và ngẫu nhiên. Hơn nữa khi áp dụng các đường tần suất lý luận để mô
tả phân bố của các đại lượng này phải đảm bảo sự phù hợp của giữa đường lý luận và
đường kinh nghiệm. Chúng ta đã giả thiết rằng chuỗi quan trắc thoả mãn các tiêu
chuẩn này để tiến hành các tính toán tiếp theo. Đó chính là các giả thiết thống kê. Tuy
nhiên chuỗi quan trắc là một mẫu từ tổng thể, do tác động của nhiều nhân tố nên có
thể chưa phản ảnh đúng bản chất của tổng thể. Chính vì vậy cần tiến hành kiểm định
các giả thiết trên.
31 trang |
Chia sẻ: lylyngoc | Lượt xem: 1718 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Chương III Kiểm định các giả thiết thống kê, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
66
Chương III
Kiểm định các giả thiết thống kê
3.1.Khái niệm
3.1.1. Một số khái niệm về kiểm dịnh giả thiết thống kê
Như ở chương 1 đã trình bày, cơ sở để áp dụng các phương pháp thống kê là chuỗi
phải đồng nhất và ngẫu nhiên. Hơn nữa khi áp dụng các đường tần suất lý luận để mô
tả phân bố của các đại lượng này phải đảm bảo sự phù hợp của giữa đường lý luận và
đường kinh nghiệm. Chúng ta đã giả thiết rằng chuỗi quan trắc thoả mãn các tiêu
chuẩn này để tiến hành các tính toán tiếp theo. Đó chính là các giả thiết thống kê. Tuy
nhiên chuỗi quan trắc là một mẫu từ tổng thể, do tác động của nhiều nhân tố nên có
thể chưa phản ảnh đúng bản chất của tổng thể. Chính vì vậy cần tiến hành kiểm định
các giả thiết trên.
Vậy giả thiết thống kê là gì? Đó là giả thiết đưa ra để xem xét có công nhận hay
không một kết luận về thống kê. Nói riêng đó là giả thiết về tính đồng nhất, tính ngẫu
nhiên và tính phù hợp với đường tần suất nào đó của chuỗi quan trắc thuỷ văn. Kiểm
định giả thiết thống kê là thủ tục để đánh giá xem giả thiết đúng hay sai và để có thể
chấp nhận hay bác bỏ giả thiết đó.
Trong thủ tục kiểm định thống kê chúng ta cần biết một số khái niệm sau:
- Giả thiết không (Null Hypothesis-H0)
Giả thiết không là giả thiết ban đầu đưa ra để kiểm định. Thường giả thiết thiên
về sự công nhận.
- Giả thiết chệch (nghịch) (Anternative-Hypothesis)
Giả thiết chệch là giả thiết ngược lại với giả thiết không H0, giả thiết không công
nhận.
- Mức ý nghĩa (Level of significance)
Mức ý nghĩa là xác suất (khá nhỏ) khi loại bỏ không chính xác giả thiết H0, hay
còn gọi là xác suất sai lầm loại 1.
Ngược lại với mức ý nghĩa là mức tin cậy: = 1-.
Giá trị càng nhỏ thì mức tin cậy càng lớn, giới hạn tin cậy càng mở rộng, càng ít
phạm sai lầm loại 1, nhưng lại tăng sai lầm loại 2.
- Miền tới hạn - Miền tin cậy: Mỗi chỉ tiêu xác định một tập hợp (miền) tới hạn
mà nếu giá trị lựa chọn rơi vào đó thì giả thiết H0 bị bác bỏ. Phần bù của miền tới hạn
gọi là miền tin cậy.
Miền tới hạn được chọn sao cho xác suất rơi vào nó của chỉ tiêu xem xét là lớn
nhất, khi đó giả thiết chệch đối lập với giả thiết H0 được chấp nhận.
- Biên tới hạn - Biên tin cậy
67
Biên tin cậy là giới hạn của miền tin cậy, là ranh giới giữa miền tới hạn và miền
tin cậy . Nó phụ thuộc dạng phân bố của chỉ tiêu và mức ý nghĩa .
- Bậc tự do (Degree of Freedom): là số giá trị độc lập có thể xác định được, chính
bằng dung lượng mẫu trừ đi số ràng buộc:
Y = n -(h+1),
trong đó h là số thông số, n là dung lượng mẫu.
- Các chỉ tiêu thống kê hay viết gọn là thống kê (Statistic) là chỉ tiêu để so sánh
khi kiểm định.
3.1.2.Các bước kiểm định giả thiết thống kê
Quá trình kiểm định bao gồm các bước sau:
1). Xác lập giả thiết không H0
2). Chọn mức ý nghĩa , thường chọn 1, 2, 5 và 10%.
Khi kiểm định sẽ có 4 trường hợp xảy ra:
- Giả thiết là đúng và được chấp nhận.
- Giả thiết đúng nhưng bị loại bỏ với mức , khi đó ta đã phạm sai lầm loại 1.
- Giả thiết sai và bị loại bỏ.
- Giả thiết sai nhưng được chấp nhận với mức , khi đó ta đã phạm sai lầm loại
2.
3). Xác định miền tới hạn và biên tới hạn: Điều này phụ thuộc vào dạng phân bố
của chỉ tiêu và mức ý nghĩa.
4). Tính chỉ tiêu thống kê theo tài liệu quan trắc.
5). So sánh chỉ tiêu với biên tới hạn và kết luận chấp nhận hay loại bỏ giả thiết
H0.
3.2. Kiểm định các giả thiết thống kê
Có nhiều giả thiết thống kê cần kiểm định, nhưng trong thuỷ văn thường tiến
hành kiểm định tính đồng nhất, tính ngẫu nhiên của chuỗi và tính phù hợp của đường
lí luận với đường kinh nghiệm. Sau đây chúng ta sẽ tiến hành với từng giả thiết.
3.2.1. Kiểm định tính đồng nhất của chuỗi
Chuỗi thuỷ văn đưa vào trong tính toán phải đảm bảo tính đồng nhất. Có nhiều
nguyên nhân, cả tự nhiên và nhân tạo, làm cho tính đồng nhất của chuỗi bị phá hoại.
Tuy nhiên phân tích bản chất vật lý của các đặc trưng thuỷ văn hoặc các nhân tố hình
thành nó để chỉ ra sự đồng nhất là không đủ, vì chỉ mới là định tính. Hợp lý hơn cần
sử dụng phương pháp thống kê, nó cho phép đánh giá tính đồng nhất của các chuỗi
quan trắc trong dạng định lượng. Hơn nữa cũng cần đánh giá tính đồng nhất của
chuỗi khi không có thông tin về nguồn gốc gây ra sự không đồng nhất, khi đó phương
pháp thống kê sẽ là duy nhất. Mặt khác cũng có thể nguyên nhân vật lý đã biết nhưng
không rõ ràng, và theo quan điểm thực tế có thể không tính đến, các phương pháp
thống kê sẽ cho ta câu trả lời hợp lý nhất. Phương pháp thống kê còn cho phép kiểm
định tính đồng nhất của các chuỗi theo không gian khi cần kết hợp chúng trong một
khu vực địa vật lý đồng nhất.
68
Có nhiều chỉ tiêu thống kê được dùng để đánh giá tính đồng nhất của các thông số
phân bố mẫu, nói riêng là giá trị trung bình và phương sai.
a. Đồng nhất về giá trị trung bình
Thường bắt đầu áp dụng cho trường hợp chuỗi có phân bố chuẩn
*. Chỉ tiêu phân bố chuẩn z
Coi trị số trung bình có phân bố chuẩn. Khi chuỗi gốc có phân bố chuẩn hay có
dung lượng rất lớn. Chúng ta thực hiện theo các bước kiểm định giả thiết thống kê.
- Giả sử có 2 chuỗi x và y. Xác lập giả thiết H0 : yx .
- Giả sử 2 chuỗi x và y có dung lượng mẫu nx và ny, khi đó chỉ tiêu phân bố chuẩn
có dạng:
)( xy
xy
z
, (3.1)
trong đó:
y
y
x
x
xy
nn
22
)(
, (3.2)
x và y là các giá trị trung bình của mẫu; x và y là các khoảng lệch chuẩn
của mẫu.
- Chọn mức ý nghĩa , thường chọn = 5%=0,05.
- Xác định miền tới hạn. Tra bảng phân bố chuẩn (phụ lục 2.7) với q=1/2 (vì phân
bố đối xứng) được giá trị zth. Với = 0,05 ta có zth = 1,96.
- Tính chỉ tiêu z từ tài liệu quan trắc theo công thức (3.1).
- So sánh: Nếu thzz thì ta chấp nhận giả thiết không H0, tức là có yx . Khi
đó có thể đưa vào cùng một chuỗi để tính toán.
Ngược lại, giả thiết H0 bị bác bỏ và ta tiếp nhận giả thiết chệch yx .
Sau này với các chỉ tiêu kiểm định khác, không trình bày lại các bước kiểm định
như trên mà chỉ đưa ra các chỉ tiêu cần tính và giá trị tới hạn để so sánh. Tuy nhiên
phải nhớ rằng các bước tiến hành kiểm định phải đầy đủ như đã nêu.
*. Chỉ tiêu Student
Khi chuỗi không dài thì chỉ tiêu phân bố chuẩn không dủ mạnh, cần phải áp dụng
chỉ tiêu khác, trong đó có chỉ tiêu Student. Chỉ tiêu này xuất phát từ phân bố Student
hay phân bố t, do W.S.Gosset sử dụng lần đầu trong một bài toán thống kê (1908)
(hình 3.1).
Hình 3.1: Phân bố Student
69
Khi áp dụng chỉ tiêu này, phải thừa nhận phương sai là đồng nhất: yx
với là phương sai của tổng thể. Tính đồng nhất của phương sai sẽ xem xét ở phần
sau.
Chỉ tiêu có dạng:
yx
yxyx
yyxx
nn
nnnn
nn
xy
t
)( 2
22
, (3.3)
hoặc:
,
dS
yx
t
(3.4)
yx
yx
cd
nn
nn
SS
, (3.5)
2
11 22
2
yx
yyxx
c
nn
nn
S
)()(
. (3.6)
Các ký hiệu như đã nêu ở trên.
Giá trị tới hạn t được tra theo bảng Student (phụ lục 3.1) ứng với số bậc tự do:
= nx + nY -2 và mức ý nghĩa . Lưu ý rằng chỉ tiêu student đối xứng nên cần tra bảng
phụ lục (3.1) với q= /2. Sau đây là một số giá trị t ứng với =:
(%) 5 1 0,1
t 1,96 2,58 3,29
Các bước kiểm định vẫn tiến hành như trên. 2 chỉ tiêu phân bố chuẩn và Student
là những chỉ tiêu có tham số, áp dụng cho chuỗi quan trắc có phân bố chuẩn.
*. Chỉ tiêu cho nhiều chuỗi
Trong trường hợp kiểm định nhiều chuỗi đồng thời, dùng chỉ tiêu Student dưới
dạng:
2
2
m
m
mymn
nmy
t
)(
, (3.7)
trong đó:
xx
y
m
m
, (3.8)
với x là trung bình chung của toàn bộ n quan trắc:
n
i
ixx
1
và
k
j
imn
1
, còn mx là
giá trị trung bình theo mẫu quan trắc thứ m, có độ lệch lớn nhất so với trung bình
chung; k là số mẫu quan trắc; là khoảng lệch chuẩn của chuỗi chung.
Nếu t ứng với ym nằm trong miền tin cậy với mức ý nghĩa thì giá trị trung bình
các mẫu mx là đồng nhất.
Lưu ý rằng chúng ta cũng phải thừa nhận các khoảng lệch chuẩn (phương sai) của
các mẫu m là đồng nhất.
70
Ví dụ 3.1: Cho số liệu Q năm trạm Hoà Bình–sông Đà (bảng 1.7) từ 1956 đến
2002. Kiểm tra tính đồng nhất của chuỗi số liệu theo chỉ tiêu Student, biết rằng hồ
chứa Hoà Bình bắt đầu hoạt động từ năm 1986.
Ta chia chuỗi số liệu làm 2 phần, phần 1 từ 1956 đến 1985 gồm 30 số hạng, phần
2 gồm 17 số hạng còn lại.
- Xác lập giả thiết H0: 2 chuỗi đồng nhất về giá trị trung bình: yx .
- Giả thiết phương sai của 2 chuỗi là đồng nhất: yx .
- Tính chỉ tiêu Student từ chuỗi quan trắc theo công thức (3.3) được: t=0,04.
- Chọn mức ý nghĩa =5%.
- Tra bảng Student với mức ý nghĩa đã chọn và số bậc tự do =nx+ny-2=45, có
tth=2,014.
- So sánh thấy rằng t<tth , như vậy giả thiết H0 được chấp nhận và kết luận rằng
chuỗi Q năm trạm Hoà Bình–sông Đà từ 1956 đến 2002 là đồng nhất.
*. Chỉ tiêu Wilcoxon
Chỉ tiêu này thường dùng để chấp nhận 2 mẫu vào cùng một tổng thể (mẫu
chung), có thể cháp nhận cho cả 2 vị trí khác nhau (không gian) và cho 2 thời khoảng
khác nhau (thời gian).
Chỉ tiêu khá nhạy đối với trung bình mẫu, nhưng không phản ứng với phương sai
mẫu, nên thường dùng để đánh giá trung bình mẫu.
Tiêu chuẩn này căn cứ trên việc thống kê số lượng nghịch thế xuất hiện do thuật
toán sau:
1). Các giá trị quan trắc của 2 mẫu sắp xếp trong một chuỗi chung theo thứ tự
(giảm dần hay tăng dần).
Ví dụ: y1 x1 x2 y2 y3 y4 x3 y5 y6 x4, (a)
hay: x1 x2 x3 y1 y2 x4 y3 y4 x5 y5, (b)
trong đó xi là các giá trị của chuỗi 1, còn yi là các giá trị của chuỗi 2.
2). Nếu một giá trị x nào đó (hay y) xuất hiện sau giá trị y (hay x) thì cặp này hình
thành một nghịch thế. Như vậy trong dãy (a), x1 hình thành một nghịch thế (với y1) và
x2 cũng hình thành một nghịch thế (với y1), x3 hình thành 4 nghịch thế (với y1, y2, y3 và
y4), còn x4 hình thành 6 nghịch thế (với y1, y2, y3, y4, y5 và y6). Tương tự, trong chuỗi (b)
y1 và y2 hình thành 3 nghịch thế (với x1, x2, x3), y3 và y4 hình thành 4 nghịch thế, còn y5
hình thành 5 nghịch thế.
3). Lý thuyết [4,32] cho thấy rằng khi dung lượng mẫu không nhỏ hơn 10 thì số
nghịch thế có phân bố gần chuẩn với kỳ vọng là:
2
nm
Mn
.
, (3.9)
và phương sai là: )(
.
1
12
nm
nm
Dn , (3.10)
trong đó: m và n là số các số hạng của chuỗi x và y.
4). Miền tới hạn được xác định trong phạm vi:
71
u
mnnmnm
U
12
1
2
)(
, (3.11)
trong đó u được xác định theo bảng phân bố chuẩn với mức ý nghĩa (=0,05 thì
u=2,58).
hoặc:
uqu
uqu
tMu
tMu
)(
)(
với uu D , (3.12)
tP là khoảng lệch chuẩn hoá ứng với mức ý nghĩa (q=1/2 vì khoảng tin cậy đối
xứng). Ví dụ với = 0,1 có q=0,05 và thu dược tq = 2,58, còn với = 0,05 nhận được tq =
1,96.
5). So sánh, nếu U tính được nằm trong miền tới hạn thì giả thiết không H0 bị bác
bỏ, chuỗi không đồng nhất.
Còn ngược lại thì giả thiết không H0 được chấp nhận và chuỗi đồng nhất.
Chỉ tiêu này chỉ thích hợp khi so sánh 2 mẫu hoặc từng cặp mẫu trong nhiều điểm
có cảnh quan đồng nhất. Với số mẫu lớn hơn 2 thì rất phức tạp và kém hiệu quả.
Chỉ tiêu Wilcoxon là chỉ tiêu không tham số có thể áp dụng cho chuỗi gốc có phân
bố bất kỳ.
Ví dụ 3.2: Cũng với số liệu Q năm trạm Hoà Bình–sông Đà (bảng 1.7) từ 1956 đến
2002. Kiểm tra tính đồng nhất của chuỗi số liệu theo chỉ tiêu Wilcoxon.
Chúng ta cũng làm theo các bước như trên, nhưng không nhắc lại lần lượt các
bước, mà chỉ tiến hành các bước chủ yếu:
- 2 chuỗi đã chia được gộp vào làm một và sắp xếp theo thứ tự giảm dần, đánh dấu
phân biệt số hạng của chuỗi 1 và 2.
- Tính số nghịch thế theo phương pháp đã trình bày (bảng 3.1)
Từ bảng (3.1) ta có tổng số nghịch thế là: Ut=248.
- Tính kỳ vọng và phương sai của phân bố số nghịch thế theo các công thức (3.9)
và (3.10), nhận được : Mu=255; Du=2040; u=45,16.
Bảng 3.1: Tính số nghịch thế U của chuỗi Q trạm Hoà Bình–sông Đà
TT Năm Q năm U TT Năm Q năm U
1 1989 1124 25 1976 (1720) 8
2 1992 1231 26 1974 (1740) 8
3 1987 1259 27 1990 1747
4 1980 (1260) 3 28 1984 (1750) 9
..... ........... ................. ................ ...... ............... ................... ................
21 1969 (1630) 7 45 1999 2154
22 1985 (1650) 7 46 2002 2170
23 1972 (1690) 7 47 1971 (2180) 17
24 1991 1708 Tổng số 248
Ghi chú: Nhứng số trong dấu ngoặc đơn là của chuỗi x
- Với =5%, ta có tq=1,96.
72
- Xác định miền tới hạn theo (3.11):
u
mnnmnm
U
12
1
2
)(
= 582
12
117301730
2
1730
,
)(..
=395,2.
hoặc theo (3.12): Hai giá trị tới hạn của U tính theo (3.12) là : U1=166 và U2=343.
- So sánh với Ut tính được ta thấy nó thoả mãn điều kiện (3.11) hoặc (3.12), như
vậy giả thiết H0 được chấp nhận và kết luận chuỗi Q năm của trạm Hoà Bình-sông Đà
đồng nhất
*. Chỉ tiêu theo dấu
Chỉ tiêu này cũng được áp dụng để kiểm định tính đồng nhất. Trong trường hợp này chỉ
xem xét dấu của sự chênh lệch giữa các số hạng của 2 chuỗi x và y:
Ri = xi - yi.
Ta coi rằng số số hạng như nhau và bằng n.
Ri = xi - yi:
0 y- x nếu(-) dấu mang
x nếu)( dấu mang
ii
i
0iy (3.14)
Xác định số trường hợp mang dấu cộng (Kn+) và số trường hợp mang dấu trừ (Kn-). Lấy số
trường hợp nhỏ nhất trong (Kn+) và (Kn-), ta được Kn(±).
Xác định giá trị tới hạn: 1
2
1
nk
n
m kn, , (3.15)
k được tra bảng, với = 5% = 0,05 thì k = 0,98.
So sánh: Nếu Kn(+) < knm , thì chuỗi không đồng nhất;
Nếu Kn(+) > knm , thì chuỗi đồng nhất.
Chỉ tiêu theo dấu cũng là chỉ tiêu không tham số có thể áp dụng cho chuỗi gốc có
phân bố bất kỳ. Tuy nhiên chỉ tiêu này ít dùng.
b. Đồng nhất về phương sai
Khi kiểm định theo chỉ tiêu Student đã thừa nhận phương sai của các chuỗi là
đồng nhất và bằng phương sai tổng thể. Tuy nhiên cũng cần đánh giá làm rõ điều này.
Việc kiểm định được tiến hành bằng các chỉ tiêu sau đây.
*. Chỉ tiêu Fisher
Hiện nay trong thuỷ văn thường dùng chỉ tiêu Fisher hay tỷ số phương sai để
kiểm định về phương sai. Chỉ tiêu xuất phát từ hàm mật độ xác suất do Fisher đưa ra
(1941) (hình 3.2), có dạng:
2
2
y
xF
, (3.16)
trong đó: x là phương sai lớn (lớn hơn) có số bậc tự do 1 xx n ; y là phương sai
nhỏ có 1 yy n ; nx và ny là số số hạng của 2 chuỗi x và y.
Để xác định chỉ tiêu tới hạn Fth, sử dụng bảng phân phối Fisher với số bậc tự do
yx v, và 2 phương sai x , y ứng với mức ý nghĩa . Bảng tra được đưa ra trong phụ
lục (3.3). Sau đây là một số giá trị ứng với số bậc tự do là yx v :
(%) 1 5 10
Fth 6,63 3,84 2,23
73
Hình 3.2: Phân bố Fisher
Đây là tiêu chuẩn tham số nên yêu cầu chuỗi gốc phải có phân bố chuẩn. Vì trong
kiểm định luôn có x > y nên gọi là kiểm định chặn một đầu.
Các bước kiểm định cũng thực hiện như ở phần đầu chương. Sau khi tính được Ft
và Fth, tiến hành so sánh nếu thấy thFF thì chấp nhận giả thiết không và kết luận
phương sai 2 chuỗi đồng nhất.
Còn nếu thFF thì phương sai 2 chuỗi không đồng nhất.
Ví dụ 3.3: Theo số liệu bảng (2.6), kiểm định phương sai chuỗi Qmax trạm Hoà
Bình-sông Đà.
- Chia chuỗi thành 2 phần như đã thực hiện ở các ví dụ kiểm định trước đây.
- Tính phương sai 2 chuỗi thành phần được :Dx=
2
x =2506 và Dy=
2
y =2313.
- Tính chỉ tiêu Fisher theo công thức (3.16) được Ft=1,174.
- Tra bảng Fisher (phụ lục 3.2A,B) với mức ý nghĩa 5% và các phương sai thành
phần vừa tính, ta nhận được Fth=2,198. Cũng có thể tính bằng hàm trong Excel.
- So sánh thấy rằng Ft<Fth do đó phương sai của 2 thành phần và cả chuỗi là đồng
nhất.
*. Chỉ tiêu cho nhiều chuỗi
Trường hợp khi kiểm định cho nhiều chuỗi người ta dùng chỉ tiêu:
22
2
2
1
2
max2
... K
G
, (3.17)
trong đó: max : phương sai lớn nhất trong các chuỗi; k ,...,, 21 phương sai của các
chuỗi thành phần.
Lưu ý rằng chỉ tiêu này áp dụng cho các chuỗi cùng dung lượng.
Người ta cũng sử dụng kiểm định Bartlett cho phương sai [10], khi mà số chuỗi lớn hơn 2.
Đó là một áp dụng đặc biệt của kiểm định 2 và cho bởi phương trình:
,log)()(lg,
m
k
kk
m
k
kk snns
1
2
1
22 1130262 (3.18)
trong đó: 2ks là phương sai trung bình của các mẫu; m là số mẫu; nk là dung lượng của mẫu thứ
k và 2ks là phương sai mẫu thứ k:
74
k
k
k
k
k
n
i
i
k
n
xx
s
K
1
1 1
2
2 , (3.19)
với k là số mẫu hay số phương sai được ước tính.
Khi các mẫu có cùng dung lượng nk = n thì phương trình (3.18) dẫn tới:
222 130262 kkk ssnn loglg)(, (3.20)
Vì 2 tính theo (3.18), (3.20) bị lệch nên phải hiệu chỉnh bằng cách chia nó cho một hằng số
C:
C
hc
2
2 , trong đó:
)()( 1
1
1
1
13
1
1
kk nnk
C (3.21)
So sánh 2hc với giá trị tới hạn tra từ bảng
2 (Phụ lục 3.4), nếu 22 thhc thì chấp nhận
H0 với mức ý nghĩa đã chọn, nghĩa là các chuỗi đồng nhất.
Trước khi kiểm định Bartlett nên tiến hành kiểm định theo chỉ tiêu Fisher cho phương sai
lớn nhất và nhỏ nhất, nếu nó thoả mãn đồng nhất thì mới tiến hành theo Bartlett. Nếu không
thoả mãn thì không cần tính tiếp, vì ít nhất đã không đồng nhất ở 2 chuỗi có phương sai lớn
nhất và nhỏ nhất vừa kiểm định và dĩ nhiên tất cả các chuỗi sẽ không đồng nhất.
Các ví dụ trình bày chỉ kiểm định cho các thời đoạn khác nhau của chuỗi số liệu
tại cùng một vị trí (đồng nhất về thời gian), tuy nhiên các chỉ tiêu cũng có thể áp dụng
cho các chuỗi ở các vị trí khác nhau trong một khu vực địa vật lý đồng nhất (đồng nhất
về không gian).
c. Xây dựng đường tần suất khi mẫu không đồng nhất
Trong một số trường hợp chuỗi quan trắc thu được là không đồng nhất. Khi đó các phương
pháp xây dựng đường tần suất đã trình bày ở chương 2 không thực hiện được. Tuy nhiên muốn
tận dụng các thông tin đã có từ số liệu quan trắc, chúng ta phải xây dựng đường tần suất cho
chuỗi không đồng nhất. Có nhiều phương pháp được giới thiệu, nhưng phương pháp đơn giản
và đủ chính xác là của Velicanov và Brokovits [32]. Đây là phương pháp bán đồ giải. Cơ sở của
phương pháp như sau.
Đường tần suất của chuỗi không đồng nhất được coi là tổng có trọng số của các chuỗi đồng
nhất thành phần:
k
kk
nnn
xPnxPnxPn
xP
...
)(...)()(
)('
21
2211 , (3.22)
trong đó: )(' xP là tần suất lí luận chung của toàn bộ chuỗi không đồng nhất; P1(x),
P2(x),...,Pk(x) là tần suất của các chuỗi đồng nhất thành phần; n là dung lượng chung;
n=n1+n2+...+nk; n1, n2,...,nk là dung lượng các chuỗi thành phần.
Để chứng mình công thức (3.22) chúng ta xem xét một trường hợp đơn giản, khi có 2 chuỗi
thành phần, khi đó (3.22) có dạng sau:
21
2211
nn
xPnxPn
xP
)()(
)(' (3.23)
75
Xác suất để biến x thuộc chuỗi thành phần thứ nhất P1(x), bằng
n
n
nn
n 1
21
1
, tương tự
xác suất để x thuộc chuỗi thành phần thứ hai P2(x), bằng
n
n2 .
Xác suất để giá trị cụ thể xi với tần suất P1(xi) thuộc chuỗi P1(x), theo định lý nhân xác
suất sẽ là:
21
1
nn
n
P1(xi).
Vì giá trị cụ thể xi bất kỳ có thể thuộc chuỗi thứ nhất hoặc thứ 2 nên xác suất xuất hiện
của giá trị cụ thể xi trong toàn chuỗi không đồng nhất, theo định lý cộng xác suất, là:
)()()(' xP
nn
n
xP
nn
n
xP i 2
21
2
1
21
1
(3.24)
Khái quát cho k chuỗi thành phần không đồng nhất nhận được biểu thức (3.22). Các bước
làm cụ thể tiến hành theo ví dụ sau đây.
Ví dụ 3.4 [32]: Cho chuỗi dòng chảy năm của trạm Xakmara sông Xakmara gồm 80 năm.
Người ta thấy rằng dòng chảy thời kỳ nhiều nước và ít nước là không đồng nhất. Yêu cầu xây
dựng đường tần suất lí luận tổng hợp.
Chia toàn bộ chuỗi thành 2 chuỗi thành phần theo các thời kỳ. Như vậy chuỗi lưu lượng
năm nhiều nước có 68 số hạng, còn chuỗi năm ít nước gồm 12 số hạng.
Xây dựng các đường cong tần suất cho toàn bộ 80 năm số liệu và cho từng chuỗi thàn