Tóm tắt. Trong lý thuyết thông tin và xác suất thống kê, độ đo Mutual
Information (MI) là một độ đo dùng để đo sự phụ thuộc thông tin giữa hai
hay nhiều biến ngẫu nhiên. Đối với trường hợp hai biến, ta có thể dễ dàng
tính toán và diễn giải ý nghĩa của MI. Tuy nhiên, khi mở rộng định nghĩa
MI cho nhiều biến thì rất phức tạp, diễn giải các định nghĩa mở rộng này
còn rất nhiều tranh cãi. Cho đến nay, mặc dù đã có một số mở rộng của
MI cho trường hợp nhiều biến và cũng có một số cách biểu diễn trực quan
độ đo MI. Song, các cách biểu diễn này tỏ ra không phù hợp. Trong bài
báo này, chúng tôi đề xuất công thức mở rộng MI cho trường hợp ba biến,
đồng thời chúng tôi cũng đưa ra một cách biểu diễn trực quan mới cho MI
của hai biến và ba biến. Từ biểu diễn trực quan này, chúng tôi có thể lý giải
được sự phụ thuộc của các biến, giống như sự đa dạng của các mối quan hệ
trong thế giới thực.
12 trang |
Chia sẻ: thanhle95 | Lượt xem: 314 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Một đề xuất mở rộng Mutual Information cho trường hợp 3 biến, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
JOURNAL OF SCIENCE OF HNUE
FIT., 2011, Vol. 56, pp. 17-28
MỘT ĐỀ XUẤT MỞ RỘNG MUTUAL INFORMATION
CHO TRƯỜNG HỢP 3 BIẾN
Nguyễn Quỳnh Diệp(∗), Phạm Thọ Hoàn
Nguyễn Tô Sơn và Trần Đăng Hưng
Khoa Công nghệ Thông tin - Trường Đại học Sư phạm Hà Nội
(∗)E-mail: diepnq@hnue.edu.vn
Tóm tắt. Trong lý thuyết thông tin và xác suất thống kê, độ đo Mutual
Information (MI) là một độ đo dùng để đo sự phụ thuộc thông tin giữa hai
hay nhiều biến ngẫu nhiên. Đối với trường hợp hai biến, ta có thể dễ dàng
tính toán và diễn giải ý nghĩa của MI. Tuy nhiên, khi mở rộng định nghĩa
MI cho nhiều biến thì rất phức tạp, diễn giải các định nghĩa mở rộng này
còn rất nhiều tranh cãi. Cho đến nay, mặc dù đã có một số mở rộng của
MI cho trường hợp nhiều biến và cũng có một số cách biểu diễn trực quan
độ đo MI. Song, các cách biểu diễn này tỏ ra không phù hợp. Trong bài
báo này, chúng tôi đề xuất công thức mở rộng MI cho trường hợp ba biến,
đồng thời chúng tôi cũng đưa ra một cách biểu diễn trực quan mới cho MI
của hai biến và ba biến. Từ biểu diễn trực quan này, chúng tôi có thể lý giải
được sự phụ thuộc của các biến, giống như sự đa dạng của các mối quan hệ
trong thế giới thực.
1. Mở đầu
Để kiểm tra các biến (thuộc tính) X1, X2, ..., Xn có độc lập với nhau không ta
chỉ cần kiểm tra đẳng thức xác suất P (X1, X2, ..., Xn) = P (X1)P (X2)...P (Xn). Các
biến là độc lập nếu đẳng thức xảy ra, còn nếu không thì sẽ có sự phụ thuộc nào đó
giữa các biến. Tuy nhiên, ngay cả khi đã biết rằng tồn tại sự phụ thuộc giữa các
biến nhưng làm thế nào để biết được sự phụ thuộc đó là gì và mức độ sự phụ thuộc
đó là như thế nào thì vẫn là một bài toán mở.
Hệ số tương quan Pearson (PC) [11, 12] trong xác suất thống kê là một độ
đo có khả năng đo được mức độ phụ thuộc tuyến tính giữa các biến, nhưng nó
không thể xác định được sự phụ thuộc phi tuyến. Độ đo thông tin sự phụ thuộc
(Mutual Information-MI ) trong lý thuyết thông tin có thể đánh giá được mức độ
sự phụ thuộc (tuyến tính hoặc phi tuyến) giữa hai biến [16]. Độ đo MI và tiếp cận
lý thuyết thông tin tỏ ra là một tiếp cận tổng quát và hợp lý cho khai phá các sự
phụ thuộc trong dữ liệu. Tuy nhiên, hiện tại độ đo MI mới chỉ được ứng dụng phổ
biến trong trường hợp 2 biến, giúp nghiên cứu sự phụ thuộc 2 chiều giữa hai thành
phần dữ liệu.
17
Nguyễn Quỳnh Diệp, Phạm Thọ Hoàn, Nguyễn Tô Sơn và Trần Đăng Hưng
Trong bài báo này, chúng tôi trình bày một cách diễn giải mới về mức độ sự
phụ thuộc giữa hai biến nhờ công thức định nghĩa MI và đề xuất một cách biểu
diễn trực quan mới cho MI của hai biến. Trên cơ sở đó, chúng tôi đưa ra công thức
mở rộng MI, đồng thời biểu diễn trực quan cho MI trong trường hợp ba biến.
2. Nội dung nghiên cứu
2.1. Mutual Information của hai biến
2.1.1. Công thức MI của hai biến
Mutual Information của hai biến ngẫu nhiên là một đại lượng dùng để đo sự
phụ thuộc thông tin giữa hai biến. Độ phụ thuộc thông tin của hai biến ngẫu nhiên
rời rạc được định nghĩa như sau:
MI(X, Y ) =
∑
x∈X
∑
y∈Y
pX,Y (x, y) log
pX,Y (x, y)
pX(x)pY (y)
(2.1)
Trong đó, pX,Y (x, y) là hàm phân bố xác suất đồng thời của X và Y , còn
pX(x) và pY (y) là hàm phân bố xác suất lề tương ứng của X và Y . Trong trường
hợp các biến liên tục, độ đo phụ thuộc thông tin được xác định như sau:
MI(X, Y ) =
∫ ∫
pX,Y (x, y) log
pX,Y (x, y)
pX(x)pY (y)
dxdy (2.2)
Trong đó, pX,Y (x, y) là hàm mật độ xác suất đồng thời của X và Y , pX(x) và pY (y)
là hàm mật độ xác suất lề của X và Y . Nếu X và Y độc lập thì MI(X, Y ) = 0; nếu
chúng phụ thuộc thì MI(X, Y ) tiến đến vô cực.
Độ đo MI của hai biến X và Y , ký hiệu là MI(2)(X, Y ) có thể được giải thích
theo entropy thông tin như sau [13]:
MI(2)(X, Y ) = H(X) +H(Y )−H(X, Y ) (2.3)
Từ công thức (2.3), chúng ta thấy độ đo MI có thể được định lượng dựa trên
entropy, entropy được định lượng dựa trên hàm mật độ. Nếu dữ liệu là rời rạc thì có
thể dễ dàng ước lượng hàm mật độ dựa trên thống kê tần suất. Trong trường hợp
dữ liệu liên tục, bài toán ước lượng MI trở nên khó khăn hơn.
2.1.2. Một số cách biểu diễn trực quan MI của hai biến
Biểu đồ Venn là một trong các cách biểu diễn trực quan độ đo MI. Đây là
phương pháp cổ điển và được sử dụng khá rộng rãi trong các tài liệu về Lý thuyết
thông tin cũng như các tài liệu về độ đo MI cho hai biến. Theo phương pháp này,
MI giữa hai biến được mô tả trực quan như Hình 1.
Trong Hình 1, hai hình tròn biểu diễn lượng thông tin trong mỗi biến. Phần
giao của hai hình tròn thể hiện lượng thông tin chung của hai biến. Nhìn vào độ lớn
18
Một đề xuất mở rộng Mutual Information cho trường hợp 3 biến
Hình 1: Biểu đồ Venn của MI của hai biến
Hình 2: Biểu đồ tương tác của Jakulin giữa hai biến
của phần giao giữa hai hình tròn chúng ta có thể khẳng định về mức độ phụ thuộc
lẫn nhau giữa hai biến. Phương pháp biểu diễn trực quan này mặc dù phù hợp với
dạng công thức MI(3) nhưng có nhược điểm: H(X) và H(Y ) là các con số (số thực)
chứ không phải tập hợp.
Một phương pháp trực quan khác được Aleks Jakulin và Ivan Bratko đưa ra
năm 2003 [15]. Trong phương pháp của Jakulin, sự phụ thuộc giữa hai biến được
thể hiện như trong Hình 2.
Trong phương pháp Jakulin, mức độ phụ thuộc được mô tả bằng một hình
tròn màu xám trên đường nối giữa hai biến. Trong tiếp cận này, Jakulin chỉ tập
trung mô tả mối quan hệ phụ thuộc lẫn nhau giữa hai biến. Tuy nhiên, cách tiếp
cận này có tính trực quan thấp. Chúng ta không thể nói gì về hình tròn (màu xám)
mô tả sự phụ thuộc trong tương quan với các hình tròn biểu diễn các biến X, Y .
2.1.3. Đề xuất một cách biểu diễn trực quan mới cho MI của hai biến
Từ những nhược điểm của các phương pháp trên, chúng tôi đề xuất một
phương pháp trực quan mới, cho phép kết hợp ưu điểm và khắc phục các nhược
điểm của cả phương pháp biểu diễn bằng biểu đồ Venn và phương pháp do Jakulin
đề xuất.
Ở đây, chúng tôi mô tả tương tác giữa hai biến trong một không gian hai
chiều, mỗi chiều đặc trưng cho độ bất định hay lượng thông tin của một biến. Cụ
thể, để biểu diễn sự phụ thuộc giữa hai biến, chúng tôi biểu diễn như Hình 3. Trong
đó, lượng bất định của mỗi biến được biểu diễn bằng một đoạn thẳng.
Chúng tôi giả định một hệ thống S ′ bao gồm hai biến X, Y độc lập, khi đó
lượng tin trong S ′ có thể được mô tả bằng một hình chữ nhật với chiều dài và chiều
rộng tương ứng với H(X) và H(Y ). Lượng tin thực sự của hệ thống S được xây
dựng từ hai biến là H(X, Y ), được thể hiện bằng một hình có dạng bất kỳ (kẻ ca
rô) nằm bên trong hình chữ nhật. Nếu hình biểu diễn cho lượng thông tin của S
khớp với hình chữ nhật biểu diễn lượng thông tin của S ′ thì khi đó chúng tôi có kết
luận rằng hai biến là độc lập. Ngược lại, nếu hình biểu diễn lượng thông tin của S
19
Nguyễn Quỳnh Diệp, Phạm Thọ Hoàn, Nguyễn Tô Sơn và Trần Đăng Hưng
Hình 3: Một cách biểu diễn trực quan mới cho MI của hai biến
càng thu hẹp so với hình chữ nhật biểu diễn lượng thông tin của S ′ thì sự phụ thuộc
giữa hai biến càng lớn.
Theo công thức (2.3) đã trình bày ở phần trên thì MI(2)(X, Y ) chính là phần
diện tích (kẻ chéo) nằm giữa hình chữ nhật và hình kẻ ca rô.
2.2. Nhìn lại một số mở rộng MI của ba biến
Khi mở rộng từ hai biến sang ba biến, các mối quan hệ phụ thuộc trở nên
phức tạp hơn. Với hai biến, chỉ có hai khả năng xảy ra là hoặc hai biến độc lập hoặc
hai biến phụ thuộc. Tuy nhiên, khi có ba biến biến, một số mối quan hệ mới nảy
sinh. Từ đó, cũng có nhiều tiếp cận khác nhau để xem xét những loại quan hệ phụ
thuộc trong trường hợp ba biến.
2.2.1. Các kiểu phụ thuộc
Ngoài quan hệ phụ thuộc đơn giản giữa hai biến, sự xuất hiện của biến thứ
ba làm nảy sinh một số loại quan hệ mới, có thể làm tăng cường hoặc ức chế quan
hệ phụ thuộc của hai biến ban đầu.
Đầu tiên, phải kể đến là quan hệ hiệp trợ. Có thể có những cặp biến không có
quan hệ phụ thuộc gì với nhau nhưng khi có sự xuất hiện của biến thứ ba thì chúng
trở nên có sự phụ thuộc hoàn toàn. Ngược lại với sự hiệp trợ, sự ức chế cũng có thể
xảy ra. Có những cặp biến đang phụ thuộc nhau lại trở nên hoàn toàn độc lập khi
có sự hiện diện của biến thứ ba.
Một kiểu quan hệ khác nữa là quan hệ phụ thuộc lẫn nhau giữa ba biến, có
thể hiểu đơn giản như là sự liên kết của các thành phần tạo thành một module.
Chúng ta không thể phân tách được các thành phần trong module tương tác với
nhau như thế nào, nhưng có thể khẳng định rằng chúng tương tác và phụ thuộc lẫn
nhau tạo thành một module thống nhất.
2.2.2. Một số công thức mở rộng MI của ba biến
Như chúng tôi đã trình bày trong phần mở đầu, mặc dù ý tưởng tổng quát
độ đo MI được Fano đưa ra thảo luận trong Lý thuyết thông tin (1961), nhưng cho
đến nay những diễn giải cho các công thức tổng quát vẫn chưa được đưa ra.
20
Một đề xuất mở rộng Mutual Information cho trường hợp 3 biến
Hình 4: Biểu đồ Venn cho MI của 3 biến
Công thức đầu tiên phải kể đến là công thức đo tổng sự phụ thuộc giữa n biến
được Wantanable đưa ra năm 1960 [17].
TC(X1, X2, ..., Xn) =
n∑
i=1
H(Xi)−H(X1, X2, ..., Xn) (2.4)
Tuy nhiên, độ đo TC trong công thức trên chỉ phản ánh độ phụ thuộc chung
của n biến. Nhưng như đã trình bày trong mục 2.2.1., khi mở rộng sang trường hợp
nhiều biến, có rất nhiều kiểu phụ thuộc chứ không đơn thuần là một kiểu phụ thuộc
như trong trường hợp hai biến nữa.
Công thức tổng quát thứ hai là công thức Fano đưa ra vào năm 1961 [14].
Trong trường hợp hai biến, ta có:
MI(2)(X, Y ) = H(X) +H(Y )−H(X, Y ) (2.5)
Trong trường hợp ba biến, ta có:
MI(3)(X, Y, Z) = H(X) +H(Y ) +H(Z)−
− [H(X, Y ) +H(Y, Z) +H(Z,X)] +H(X, Y, Z)
= MI(2)(X, Y )−MI(2)(X, Y | Z) (2.6)
Để diễn giải ý nghĩa của các công thức trên, trước tiên, chúng tôi sẽ bắt đầu
với phương pháp cổ điển, lý giải bằng biểu đồ Venn. Trong cách tiếp cận của biểu
đồ Venn, các mối quan hệ phụ thuộc giữa ba biến được thể hiện như trong Hình 4.
Ban đầu cách lý giải bằng biểu đồ Venn có vẻ hợp lý. Sự phụ thuộc lẫn nhau
giữa ba biến đặc trưng bởi phần thông tin chung của cả ba biến. Tuy nhiên, trên
thực tế tính toán, MI(3)(X, Y, Z) có thể nhận cả giá trị âm và giá trị dương. Khi
MI(3)(X, Y, Z) nhận giá trị âm, biểu đồ Venn thực sự không thể biểu diễn được.
Cái sai trong cách trực quan của biểu đồ Venn là do một vài nguyên nhân
sau: Trong biểu đồ Venn, lượng thông tin được đặc trưng bởi một hình tròn giống
như tập hợp. Tuy nhiên, lượng thông tin là đại lượng số, dùng cách biểu trưng
này tuy không sai nhưng cũng không hợp lý. Cái sai quan trọng hơn là cách thức
trực quan của biểu đồ Venn không bắt nguồn từ bản chất thực sự của công thức
MI(3)(X, Y, Z). Biểu đồ Venn quan niệm độ đo MI(3) luôn là phần thông tin chung
giữa ba biến. Nhưng như trên đã phân tích thì không phải vậy.
21
Nguyễn Quỳnh Diệp, Phạm Thọ Hoàn, Nguyễn Tô Sơn và Trần Đăng Hưng
Hình 5: Biểu đồ Venn cho MI(3) âm
Hình 6: Biểu đồ Venn cho MI(3) dương
Trong trường hợp MI(3)(X, Y, Z) âm chúng tôi sử dụng biểu đồ Venn có dạng
như trong Hình 5.
Chúng tôi giải nghĩa biểu đồ Venn trong Hình 5 như sau: Khi không có sự
xuất hiện của biến Z sự phụ thuộc giữa X và Y thể hiện ở phần giao nhau giữa
H(X) và H(Y ). Khi có sự xuất hiện của Z, do Z có quan hệ phụ thuộc với X và Y ,
nên Z làm giảm độ bất định của X và Y . Việc giảm độ bất định này làm tăng thêm
vai trò của phần thông tin chung giữa X và Y ban đầu. Do đó, sự phụ thuộc giữa
X và Y tăng lên dẫn đến MI(3)(X, Y, Z) mang giá trị âm. Tuy nhiên, không thể
chỉ ra được đại lượng MI(3)(X, Y, Z) ở đâu vì trong trường hợp này, MI(3)(X, Y, Z)
không phải là lượng thông tin chung của ba biến.
Biểu đồ Venn đặc trưng cho trường hợp MI(3)(X, Y, Z) dương được thể hiện
trong Hình 6. Lý giải tương tự như trên, khi không có sự xuất hiện của Z, sự phụ
thuộc giữa X và Y được thể hiện trong phần giao giữa H(X) và H(Y ). Ở đây, Z phụ
thuộc vớiX đúng ở phầnX phụ thuộc với Y , Z phụ thuộc với Y cũng đúng ở phần Y
phụ thuộc với X. Do vậy, Khi có sự xuất hiện của Z, phần giao giữa H(X) và H(Y )
hoàn toàn đã rõ, dẫn tớiX và Y hoàn toàn độc lập vàMI(3)(X, Y, Z) = MI(2)(X, Y )
có giá trị dương. Lúc này, MI(3)(X, Y, Z) đạt giá trị lớn nhất. Và trong trường hợp
này, chúng ta có thể chỉ ra được MI(3)(X, Y, Z) là phần chung của cả ba biến.
Phương pháp trực quan hóa thứ hai là của Jakulin. Trong trường hợp ba
biến, Jakulin mở rộng thêm khái niệm phụ thuộc (“tương tác“ theo quan niệm của
Jakulin) dương và âm. Để biểu diễn điều này, Jakulin dùng hình tròn với màu xám
biểu trưng cho sự phụ thuộc âm và màu trắng thể hiện sự phụ thuộc dương như biểu
diễn trong Hình 7. Tuy nhiên, cách biểu diễn của Jakulin chỉ thể hiện được cấu trúc
của tương tác chứ không phản ánh được mức độ của sự phụ thuộc giữa các biến.
22
Một đề xuất mở rộng Mutual Information cho trường hợp 3 biến
Hình 7: Đồ thị tương tác của Jakulin cho ba biến
2.3. Một đề xuất mở rộng MI của ba biến
2.4. Đề xuất công thức MI của ba biến
Như đã trình bày trong mục 2.2.1, khi có nhiều hơn hai biến, sẽ xuất hiện
nhiều kiểu phụ thuộc. Trong trường hợp 3 biến thì sẽ có các kiểu phụ thuộc sau:
sự phụ thuộc đồng thời của 3 biến, sự phụ thuộc giữa một biến với cặp hai biến
còn lại. Có thể thấy, mỗi một kiểu phụ thuộc sẽ tương ứng với một phân hoạch
D1, D2, ..., Dk.
Cụ thể, trong trường hợp ba biến chúng ta có các kiểu phân hoạch sau:
1. {X1} ∪ {X2} ∪ {X3}.
2. {X1} ∪ {X2, X3} hoặc {X2} ∪ {X1, X3} hoặc {X3} ∪ {X1, X2}.
Sức mạnh sự phụ thuộc D1, D2, ..., Dk trong các biến {X1, X2, X3} từ dữ liệu
quan sát có thể đo bằng lượng tin bị hụt đi giữa dữ liệu quan sát (O) với tập dữ
liệu giả định (O1) được sinh ra từ phân bố tích p(D1)...p(Dk) (tức là giả thiết độc
lập giữa các nhóm D1, D2, ..., Dk) với p(Di) là phân bố lề của tập dữ liệu quan sát
trên Di.
Từ đó, chúng tôi đề xuất một công thức tổng quát cho MI của ba biến như
sau:
MI{X,Y,Z}(X, Y, Z) = H(X) +H(Y ) +H(Z)−H(X, Y, Z) (2.7)
Đây chính là công thức TC(X1, X2, X3), công thức (2.4) đo tổng sự phụ thuộc của
3 biến.
MI{X,}(X, Y, Z) = H(X) +H(Y, Z)−H(X, Y, Z) (2.8)
MI{Y,}(X, Y, Z) = H(Y ) +H(Z,X)−H(X, Y, Z) (2.9)
MI{Z,}(X, Y, Z) = H(Z) +H(X, Y )−H(X, Y, Z) (2.10)
Ba công thức (2.8),(2.9) và (2.10) dùng để đo sự phụ thuộc thông tin của một biến
với cặp hai biến còn lại.
23
Nguyễn Quỳnh Diệp, Phạm Thọ Hoàn, Nguyễn Tô Sơn và Trần Đăng Hưng
Hình 8: Mô tả trực quan TC(X, Y, Z)
2.4.1. Biểu diễn trực quan MI của ba biến
Trong phần này, chúng tôi đề xuất và phân tích một phương pháp trực quan
mới cho MI của ba biến mà ý tưởng cơ bản của nó đã được đề cập trong mục 2.1.3
khi biểu diễn trực quan độ đo MI của hai biến. Trong phương pháp trực quan này,
lượng thông tin của mỗi biến được biểu diễn bằng một đoạn thẳng gắn với một chiều
của hệ tọa độ. Khi phân tích độ đoMI của hai biến, chúng tôi đã sử dụng một không
gian hai chiều để cho thấy mối quan hệ tương quan giữa H(X), H(Y ), H(X)+H(Y )
và H(X, Y ) (như trong Hình 3). Để lý giải độ đo MI cho trường hợp ba biến chúng
tôi sẽ xây dựng một không gian ba chiều theo cách tương tự.
Giả sử, ta có một hệ thống S được xây dựng từ dữ liệu thực tế, được biểu diễn
trực quan bằng một khối với hình dạng méo mó (hình quả khế - gọi là khối HS).
Khối HS mô tả H(X, Y, Z) như biểu diễn trong Hình 8.
Dựa trên dữ liệu này, ta xây dựng được khối hình hộp H(S ′) với 3 cạnh
H(X), H(Y ), H(Z) được biểu diễn là phép chiếu của dữ liệu khối HS lần lượt lên 3
trục Ox,Oy,Oz. Khối hộp H(S ′) mô tả H(X)+H(Y )+H(Z) chính là lượng thông
tin của hệ thống S ′ bao gồm ba biến X, Y và Z độc lập. Cách mô tả này phản ánh
đúng tính chất của hàm mật độ và bản chất của quan hệ độc lập theo tiếp cận xác
suất.
Trong trường hợp ba biến, độ đo TC được tính theo công thức (2.11):
TC(X, Y, Z) = H(X) +H(Y ) +H(Z)−H(X, Y, Z) (2.11)
Như vậy, trong Hình 8 có hai biểu diễn: một là khối hộp HS ′ biểu diễn cho hệ
thống giả định S ′ với ba biến hoàn toàn độc lập, hai là khối HS biểu diễn cho hệ
thống thực S. Nếu HS khớp với HS ′ thì ba biến trong S độc lập. Ngược lại, nếu
HS và HS ′ có sự chênh lệch đủ lớn thì chúng ta có thể khẳng định rằng ba biến
trong S là phụ thuộc. Như vậy, căn cứ vào khoảng chênh lệch giữa HS ′ và HS, có
thể đi đến kết luận rằng ba biến trong hệ thống S là độc lập hay phụ thuộc.
Như vậy, theo công thức (2.11) thì biểu diễn trực quan của độ đo TC chính là
24
Một đề xuất mở rộng Mutual Information cho trường hợp 3 biến
Hình 9: Mô tả trực quan MI(2)(XY,Z)
phần chênh lệch giữa hình hộp HS ′ với hình quá khế H(S).
Bây giờ, chúng tôi sẽ biểu diễn trực quan sự phụ thuộc thông tin của một biến
với cặp hai biến còn lại. Với những lập luận tương tự như Hình 8, chúng ta có thể
thấy ngay sự độc lập của X, Y với Z. Khi chiếu hình quả khế HS lên mặt phẳng
tọa độ Oxy chúng ta sẽ thu được H(X, Y ), còn chiếu lên trục Oz sẽ thu được H(Z).
Trong Hình 9, khối hình trụ thể hiện lượng thông tin của hệ thống S” (gọi là
khối HS”) với HS” = H(X, Y ) +H(Z). Từ đây, sự phụ thuộc giữa XY với Z (tức
MI(2)(XY,Z)) chính là sự chênh lệch giữa hai khối HS và HS” (phần nằm giữa
hình quả khế và hình trụ).
Như vậy, qua các phân tích trên chúng ta thấy ý nghĩa của các độ đo như sau:
các sự phụ thuộc hai chiều, chẳng hạn MI(2)(X, Y ) là sự chênh lệch giữa HS” và
HS ′ như trong cách lý giải của Hình 9, và TC(X, Y, Z) là sự chênh lệch giữa HS ′ và
HS như trong cách lý giải của Hình 8. Nhìn vào sự tương quan giữa các khối hình
này, dễ thấy biểu diễn này quay lại lý giải như trong trường hợp lập luận của biểu
đồ Venn trong Hình 5. Tuy nhiên, phương pháp biểu diễn này tỏ ra hợp lý hơn vì sự
giao thoa giữa các khối hình là mối quan hệ giữa các hàm mật độ, còn trong biểu
đồ Venn là sự giao thoa giữa các lượng thông tin. Điều này sẽ dẫn tới mâu thuẫn
không giải quyết được của biểu diễn trong Hình 8. Không những vậy, lý giải về tính
âm dương của độ đo MI(3) cũng được thể hiện rõ ràng hơn so với cách biểu diễn
bằng biểu đồ Venn.
2.5. Ví dụ
Như đã trình bày trong mục 2.4, đối với trường hợp 3 biến, chúng ta sẽ gặp
các tương tác giữa ba biến (dạng 1) hoặc tương tác giữa 1 biến với cặp 2 biến còn
lại (dạng 2) như sau:
1. MI(X, Y, Z) = H(X) +H(Y ) +H(Z)−H(X, Y, Z) = TC(X, Y, Z).
Đây chính là MI{X,Y,Z}(X, Y, Z) và được gọi là độ đo tương hỗ tổng cộng TC
2. MI(X,) Đây chính là MI{X,}(X, Y, Z) và được gọi là độ đo
25
Nguyễn Quỳnh Diệp, Phạm Thọ Hoàn, Nguyễn Tô Sơn và Trần Đăng Hưng
Hình 10: Ví dụ 1
tương hỗ bộ phận
Trong trường hợp này sẽ có 3 tương tác là:
• MI(X,)
• MI(Y,)
• MI(Z,)
Trong phần này, chúng tôi sẽ xét một ví dụ để thấy rằng: khi khảo sát các
quan hệ nhiều biến, ngoài độ đo tương hỗ tổng cộng ta còn cần phải quan tâm đến
các độ đo tương hỗ bộ phận.
Xét dữ liệu Z = XxorY được cho như trong Hình 10:
Chúng tôi sẽ giải thích trường hợp này theo hai công thức: công thức tổng quát
trước đây, và công thức do chúng tôi đề xuất.
1. Tính theo công thức tổng quát trước đây:
Interaction(X ; Y ;Z) = I(X ; Y ;Z) = H(X) +H(Y ) +H(Z)− [H(X, Y ) +
+ H(Y, Z) +H(Z,X)] +H(X, Y, Z)
Ta có:
H(X) = −(1/2 ∗ log1/2 + 1/2 ∗ log1/2) = 1 (Vì khả năng X = 0 là 1/2, khả
năng X = 1 là 1/2)
Tương tự như vậy, H(Y ) = H(Z) = 1
H(X, Y ) = −4∗(1/4∗log1/4) = 2 (Vì (X, Y ) có 4 khả năng (0,0),(0,1),(1,0),(1,1))
Tương tự như vậy, H(Y, Z) = H(Z,X) = 2
Do đó: MI(X, Y ) = MI(Y, Z) = MI(Z,X) = 0, tức là X,Y,Z đôi một độc
lập với nhau.
Ta có: H(X, Y, Z) = −4 ∗ (1/4 ∗ log1/4) = 2 (Vì (X, Y, Z) có 4 khả năng
(0,0,0),(0,1,1), (1,0,1),(1,1,0))
26
Một đề xuất mở rộng Mutual Information cho trường hợp 3 biến
Hình 11: Biểu đồ Venn cho MI(3) của dữ liệu hàm XOR
Do đó,
Interaction(X ; Y ;Z) = I(X ; Y ;Z) = H(X) +H(Y ) +H(Z)−
− [H(X, Y )−H(Y, Z)−H(Z,X)] +
+ H(X, Y, Z)
= 1 + 1 + 1− [2 + 2 + 2] + 2
= −1
Nếu giải thích biểu đồ Venn trường hợp âm này theo như Hình 5 trong mục
2.2.2. là không thể được, vì trong trường hợp này X, Y, Z đôi một độc lập với
nhau nên H(X), H(Y ), H(Z) đôi một không giao nhau. Biểu đồ Venn trong
trường hợp này phải được biểu diền như Hình 11:
2. Tính theo công thức chúng tôi đề xuất:
MI(X, Y, Z) = TC(X, Y, Z) = H(X) +H(Y ) +H(Z)−H(X, Y, Z)
= 1 + 1 + 1− 2
= 1
MI(