Một đề xuất mở rộng Mutual Information cho trường hợp 3 biến

Tóm tắt. Trong lý thuyết thông tin và xác suất thống kê, độ đo Mutual Information (MI) là một độ đo dùng để đo sự phụ thuộc thông tin giữa hai hay nhiều biến ngẫu nhiên. Đối với trường hợp hai biến, ta có thể dễ dàng tính toán và diễn giải ý nghĩa của MI. Tuy nhiên, khi mở rộng định nghĩa MI cho nhiều biến thì rất phức tạp, diễn giải các định nghĩa mở rộng này còn rất nhiều tranh cãi. Cho đến nay, mặc dù đã có một số mở rộng của MI cho trường hợp nhiều biến và cũng có một số cách biểu diễn trực quan độ đo MI. Song, các cách biểu diễn này tỏ ra không phù hợp. Trong bài báo này, chúng tôi đề xuất công thức mở rộng MI cho trường hợp ba biến, đồng thời chúng tôi cũng đưa ra một cách biểu diễn trực quan mới cho MI của hai biến và ba biến. Từ biểu diễn trực quan này, chúng tôi có thể lý giải được sự phụ thuộc của các biến, giống như sự đa dạng của các mối quan hệ trong thế giới thực.

12 trang | Chia sẻ: thanhle95 | Lượt xem: 883 | Lượt tải: 1Free

Bạn đang xem nội dung tài liệu Một đề xuất mở rộng Mutual Information cho trường hợp 3 biến, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

JOURNAL OF SCIENCE OF HNUE FIT., 2011, Vol. 56, pp. 17-28 MỘT ĐỀ XUẤT MỞ RỘNG MUTUAL INFORMATION CHO TRƯỜNG HỢP 3 BIẾN Nguyễn Quỳnh Diệp(∗), Phạm Thọ Hoàn Nguyễn Tô Sơn và Trần Đăng Hưng Khoa Công nghệ Thông tin - Trường Đại học Sư phạm Hà Nội (∗)E-mail: [email protected] Tóm tắt. Trong lý thuyết thông tin và xác suất thống kê, độ đo Mutual Information (MI) là một độ đo dùng để đo sự phụ thuộc thông tin giữa hai hay nhiều biến ngẫu nhiên. Đối với trường hợp hai biến, ta có thể dễ dàng tính toán và diễn giải ý nghĩa của MI. Tuy nhiên, khi mở rộng định nghĩa MI cho nhiều biến thì rất phức tạp, diễn giải các định nghĩa mở rộng này còn rất nhiều tranh cãi. Cho đến nay, mặc dù đã có một số mở rộng của MI cho trường hợp nhiều biến và cũng có một số cách biểu diễn trực quan độ đo MI. Song, các cách biểu diễn này tỏ ra không phù hợp. Trong bài báo này, chúng tôi đề xuất công thức mở rộng MI cho trường hợp ba biến, đồng thời chúng tôi cũng đưa ra một cách biểu diễn trực quan mới cho MI của hai biến và ba biến. Từ biểu diễn trực quan này, chúng tôi có thể lý giải được sự phụ thuộc của các biến, giống như sự đa dạng của các mối quan hệ trong thế giới thực. 1. Mở đầu Để kiểm tra các biến (thuộc tính) X1, X2, ..., Xn có độc lập với nhau không ta chỉ cần kiểm tra đẳng thức xác suất P (X1, X2, ..., Xn) = P (X1)P (X2)...P (Xn). Các biến là độc lập nếu đẳng thức xảy ra, còn nếu không thì sẽ có sự phụ thuộc nào đó giữa các biến. Tuy nhiên, ngay cả khi đã biết rằng tồn tại sự phụ thuộc giữa các biến nhưng làm thế nào để biết được sự phụ thuộc đó là gì và mức độ sự phụ thuộc đó là như thế nào thì vẫn là một bài toán mở. Hệ số tương quan Pearson (PC) [11, 12] trong xác suất thống kê là một độ đo có khả năng đo được mức độ phụ thuộc tuyến tính giữa các biến, nhưng nó không thể xác định được sự phụ thuộc phi tuyến. Độ đo thông tin sự phụ thuộc (Mutual Information-MI ) trong lý thuyết thông tin có thể đánh giá được mức độ sự phụ thuộc (tuyến tính hoặc phi tuyến) giữa hai biến [16]. Độ đo MI và tiếp cận lý thuyết thông tin tỏ ra là một tiếp cận tổng quát và hợp lý cho khai phá các sự phụ thuộc trong dữ liệu. Tuy nhiên, hiện tại độ đo MI mới chỉ được ứng dụng phổ biến trong trường hợp 2 biến, giúp nghiên cứu sự phụ thuộc 2 chiều giữa hai thành phần dữ liệu. 17 Nguyễn Quỳnh Diệp, Phạm Thọ Hoàn, Nguyễn Tô Sơn và Trần Đăng Hưng Trong bài báo này, chúng tôi trình bày một cách diễn giải mới về mức độ sự phụ thuộc giữa hai biến nhờ công thức định nghĩa MI và đề xuất một cách biểu diễn trực quan mới cho MI của hai biến. Trên cơ sở đó, chúng tôi đưa ra công thức mở rộng MI, đồng thời biểu diễn trực quan cho MI trong trường hợp ba biến. 2. Nội dung nghiên cứu 2.1. Mutual Information của hai biến 2.1.1. Công thức MI của hai biến Mutual Information của hai biến ngẫu nhiên là một đại lượng dùng để đo sự phụ thuộc thông tin giữa hai biến. Độ phụ thuộc thông tin của hai biến ngẫu nhiên rời rạc được định nghĩa như sau: MI(X, Y ) = ∑ x∈X ∑ y∈Y pX,Y (x, y) log pX,Y (x, y) pX(x)pY (y) (2.1) Trong đó, pX,Y (x, y) là hàm phân bố xác suất đồng thời của X và Y , còn pX(x) và pY (y) là hàm phân bố xác suất lề tương ứng của X và Y . Trong trường hợp các biến liên tục, độ đo phụ thuộc thông tin được xác định như sau: MI(X, Y ) = ∫ ∫ pX,Y (x, y) log pX,Y (x, y) pX(x)pY (y) dxdy (2.2) Trong đó, pX,Y (x, y) là hàm mật độ xác suất đồng thời của X và Y , pX(x) và pY (y) là hàm mật độ xác suất lề của X và Y . Nếu X và Y độc lập thì MI(X, Y ) = 0; nếu chúng phụ thuộc thì MI(X, Y ) tiến đến vô cực. Độ đo MI của hai biến X và Y , ký hiệu là MI(2)(X, Y ) có thể được giải thích theo entropy thông tin như sau [13]: MI(2)(X, Y ) = H(X) +H(Y )−H(X, Y ) (2.3) Từ công thức (2.3), chúng ta thấy độ đo MI có thể được định lượng dựa trên entropy, entropy được định lượng dựa trên hàm mật độ. Nếu dữ liệu là rời rạc thì có thể dễ dàng ước lượng hàm mật độ dựa trên thống kê tần suất. Trong trường hợp dữ liệu liên tục, bài toán ước lượng MI trở nên khó khăn hơn. 2.1.2. Một số cách biểu diễn trực quan MI của hai biến Biểu đồ Venn là một trong các cách biểu diễn trực quan độ đo MI. Đây là phương pháp cổ điển và được sử dụng khá rộng rãi trong các tài liệu về Lý thuyết thông tin cũng như các tài liệu về độ đo MI cho hai biến. Theo phương pháp này, MI giữa hai biến được mô tả trực quan như Hình 1. Trong Hình 1, hai hình tròn biểu diễn lượng thông tin trong mỗi biến. Phần giao của hai hình tròn thể hiện lượng thông tin chung của hai biến. Nhìn vào độ lớn 18 Một đề xuất mở rộng Mutual Information cho trường hợp 3 biến Hình 1: Biểu đồ Venn của MI của hai biến Hình 2: Biểu đồ tương tác của Jakulin giữa hai biến của phần giao giữa hai hình tròn chúng ta có thể khẳng định về mức độ phụ thuộc lẫn nhau giữa hai biến. Phương pháp biểu diễn trực quan này mặc dù phù hợp với dạng công thức MI(3) nhưng có nhược điểm: H(X) và H(Y ) là các con số (số thực) chứ không phải tập hợp. Một phương pháp trực quan khác được Aleks Jakulin và Ivan Bratko đưa ra năm 2003 [15]. Trong phương pháp của Jakulin, sự phụ thuộc giữa hai biến được thể hiện như trong Hình 2. Trong phương pháp Jakulin, mức độ phụ thuộc được mô tả bằng một hình tròn màu xám trên đường nối giữa hai biến. Trong tiếp cận này, Jakulin chỉ tập trung mô tả mối quan hệ phụ thuộc lẫn nhau giữa hai biến. Tuy nhiên, cách tiếp cận này có tính trực quan thấp. Chúng ta không thể nói gì về hình tròn (màu xám) mô tả sự phụ thuộc trong tương quan với các hình tròn biểu diễn các biến X, Y . 2.1.3. Đề xuất một cách biểu diễn trực quan mới cho MI của hai biến Từ những nhược điểm của các phương pháp trên, chúng tôi đề xuất một phương pháp trực quan mới, cho phép kết hợp ưu điểm và khắc phục các nhược điểm của cả phương pháp biểu diễn bằng biểu đồ Venn và phương pháp do Jakulin đề xuất. Ở đây, chúng tôi mô tả tương tác giữa hai biến trong một không gian hai chiều, mỗi chiều đặc trưng cho độ bất định hay lượng thông tin của một biến. Cụ thể, để biểu diễn sự phụ thuộc giữa hai biến, chúng tôi biểu diễn như Hình 3. Trong đó, lượng bất định của mỗi biến được biểu diễn bằng một đoạn thẳng. Chúng tôi giả định một hệ thống S ′ bao gồm hai biến X, Y độc lập, khi đó lượng tin trong S ′ có thể được mô tả bằng một hình chữ nhật với chiều dài và chiều rộng tương ứng với H(X) và H(Y ). Lượng tin thực sự của hệ thống S được xây dựng từ hai biến là H(X, Y ), được thể hiện bằng một hình có dạng bất kỳ (kẻ ca rô) nằm bên trong hình chữ nhật. Nếu hình biểu diễn cho lượng thông tin của S khớp với hình chữ nhật biểu diễn lượng thông tin của S ′ thì khi đó chúng tôi có kết luận rằng hai biến là độc lập. Ngược lại, nếu hình biểu diễn lượng thông tin của S 19 Nguyễn Quỳnh Diệp, Phạm Thọ Hoàn, Nguyễn Tô Sơn và Trần Đăng Hưng Hình 3: Một cách biểu diễn trực quan mới cho MI của hai biến càng thu hẹp so với hình chữ nhật biểu diễn lượng thông tin của S ′ thì sự phụ thuộc giữa hai biến càng lớn. Theo công thức (2.3) đã trình bày ở phần trên thì MI(2)(X, Y ) chính là phần diện tích (kẻ chéo) nằm giữa hình chữ nhật và hình kẻ ca rô. 2.2. Nhìn lại một số mở rộng MI của ba biến Khi mở rộng từ hai biến sang ba biến, các mối quan hệ phụ thuộc trở nên phức tạp hơn. Với hai biến, chỉ có hai khả năng xảy ra là hoặc hai biến độc lập hoặc hai biến phụ thuộc. Tuy nhiên, khi có ba biến biến, một số mối quan hệ mới nảy sinh. Từ đó, cũng có nhiều tiếp cận khác nhau để xem xét những loại quan hệ phụ thuộc trong trường hợp ba biến. 2.2.1. Các kiểu phụ thuộc Ngoài quan hệ phụ thuộc đơn giản giữa hai biến, sự xuất hiện của biến thứ ba làm nảy sinh một số loại quan hệ mới, có thể làm tăng cường hoặc ức chế quan hệ phụ thuộc của hai biến ban đầu. Đầu tiên, phải kể đến là quan hệ hiệp trợ. Có thể có những cặp biến không có quan hệ phụ thuộc gì với nhau nhưng khi có sự xuất hiện của biến thứ ba thì chúng trở nên có sự phụ thuộc hoàn toàn. Ngược lại với sự hiệp trợ, sự ức chế cũng có thể xảy ra. Có những cặp biến đang phụ thuộc nhau lại trở nên hoàn toàn độc lập khi có sự hiện diện của biến thứ ba. Một kiểu quan hệ khác nữa là quan hệ phụ thuộc lẫn nhau giữa ba biến, có thể hiểu đơn giản như là sự liên kết của các thành phần tạo thành một module. Chúng ta không thể phân tách được các thành phần trong module tương tác với nhau như thế nào, nhưng có thể khẳng định rằng chúng tương tác và phụ thuộc lẫn nhau tạo thành một module thống nhất. 2.2.2. Một số công thức mở rộng MI của ba biến Như chúng tôi đã trình bày trong phần mở đầu, mặc dù ý tưởng tổng quát độ đo MI được Fano đưa ra thảo luận trong Lý thuyết thông tin (1961), nhưng cho đến nay những diễn giải cho các công thức tổng quát vẫn chưa được đưa ra. 20 Một đề xuất mở rộng Mutual Information cho trường hợp 3 biến Hình 4: Biểu đồ Venn cho MI của 3 biến Công thức đầu tiên phải kể đến là công thức đo tổng sự phụ thuộc giữa n biến được Wantanable đưa ra năm 1960 [17]. TC(X1, X2, ..., Xn) = n∑ i=1 H(Xi)−H(X1, X2, ..., Xn) (2.4) Tuy nhiên, độ đo TC trong công thức trên chỉ phản ánh độ phụ thuộc chung của n biến. Nhưng như đã trình bày trong mục 2.2.1., khi mở rộng sang trường hợp nhiều biến, có rất nhiều kiểu phụ thuộc chứ không đơn thuần là một kiểu phụ thuộc như trong trường hợp hai biến nữa. Công thức tổng quát thứ hai là công thức Fano đưa ra vào năm 1961 [14]. Trong trường hợp hai biến, ta có: MI(2)(X, Y ) = H(X) +H(Y )−H(X, Y ) (2.5) Trong trường hợp ba biến, ta có: MI(3)(X, Y, Z) = H(X) +H(Y ) +H(Z)− − [H(X, Y ) +H(Y, Z) +H(Z,X)] +H(X, Y, Z) = MI(2)(X, Y )−MI(2)(X, Y | Z) (2.6) Để diễn giải ý nghĩa của các công thức trên, trước tiên, chúng tôi sẽ bắt đầu với phương pháp cổ điển, lý giải bằng biểu đồ Venn. Trong cách tiếp cận của biểu đồ Venn, các mối quan hệ phụ thuộc giữa ba biến được thể hiện như trong Hình 4. Ban đầu cách lý giải bằng biểu đồ Venn có vẻ hợp lý. Sự phụ thuộc lẫn nhau giữa ba biến đặc trưng bởi phần thông tin chung của cả ba biến. Tuy nhiên, trên thực tế tính toán, MI(3)(X, Y, Z) có thể nhận cả giá trị âm và giá trị dương. Khi MI(3)(X, Y, Z) nhận giá trị âm, biểu đồ Venn thực sự không thể biểu diễn được. Cái sai trong cách trực quan của biểu đồ Venn là do một vài nguyên nhân sau: Trong biểu đồ Venn, lượng thông tin được đặc trưng bởi một hình tròn giống như tập hợp. Tuy nhiên, lượng thông tin là đại lượng số, dùng cách biểu trưng này tuy không sai nhưng cũng không hợp lý. Cái sai quan trọng hơn là cách thức trực quan của biểu đồ Venn không bắt nguồn từ bản chất thực sự của công thức MI(3)(X, Y, Z). Biểu đồ Venn quan niệm độ đo MI(3) luôn là phần thông tin chung giữa ba biến. Nhưng như trên đã phân tích thì không phải vậy. 21 Nguyễn Quỳnh Diệp, Phạm Thọ Hoàn, Nguyễn Tô Sơn và Trần Đăng Hưng Hình 5: Biểu đồ Venn cho MI(3) âm Hình 6: Biểu đồ Venn cho MI(3) dương Trong trường hợp MI(3)(X, Y, Z) âm chúng tôi sử dụng biểu đồ Venn có dạng như trong Hình 5. Chúng tôi giải nghĩa biểu đồ Venn trong Hình 5 như sau: Khi không có sự xuất hiện của biến Z sự phụ thuộc giữa X và Y thể hiện ở phần giao nhau giữa H(X) và H(Y ). Khi có sự xuất hiện của Z, do Z có quan hệ phụ thuộc với X và Y , nên Z làm giảm độ bất định của X và Y . Việc giảm độ bất định này làm tăng thêm vai trò của phần thông tin chung giữa X và Y ban đầu. Do đó, sự phụ thuộc giữa X và Y tăng lên dẫn đến MI(3)(X, Y, Z) mang giá trị âm. Tuy nhiên, không thể chỉ ra được đại lượng MI(3)(X, Y, Z) ở đâu vì trong trường hợp này, MI(3)(X, Y, Z) không phải là lượng thông tin chung của ba biến. Biểu đồ Venn đặc trưng cho trường hợp MI(3)(X, Y, Z) dương được thể hiện trong Hình 6. Lý giải tương tự như trên, khi không có sự xuất hiện của Z, sự phụ thuộc giữa X và Y được thể hiện trong phần giao giữa H(X) và H(Y ). Ở đây, Z phụ thuộc vớiX đúng ở phầnX phụ thuộc với Y , Z phụ thuộc với Y cũng đúng ở phần Y phụ thuộc với X. Do vậy, Khi có sự xuất hiện của Z, phần giao giữa H(X) và H(Y ) hoàn toàn đã rõ, dẫn tớiX và Y hoàn toàn độc lập vàMI(3)(X, Y, Z) = MI(2)(X, Y ) có giá trị dương. Lúc này, MI(3)(X, Y, Z) đạt giá trị lớn nhất. Và trong trường hợp này, chúng ta có thể chỉ ra được MI(3)(X, Y, Z) là phần chung của cả ba biến. Phương pháp trực quan hóa thứ hai là của Jakulin. Trong trường hợp ba biến, Jakulin mở rộng thêm khái niệm phụ thuộc (“tương tác“ theo quan niệm của Jakulin) dương và âm. Để biểu diễn điều này, Jakulin dùng hình tròn với màu xám biểu trưng cho sự phụ thuộc âm và màu trắng thể hiện sự phụ thuộc dương như biểu diễn trong Hình 7. Tuy nhiên, cách biểu diễn của Jakulin chỉ thể hiện được cấu trúc của tương tác chứ không phản ánh được mức độ của sự phụ thuộc giữa các biến. 22 Một đề xuất mở rộng Mutual Information cho trường hợp 3 biến Hình 7: Đồ thị tương tác của Jakulin cho ba biến 2.3. Một đề xuất mở rộng MI của ba biến 2.4. Đề xuất công thức MI của ba biến Như đã trình bày trong mục 2.2.1, khi có nhiều hơn hai biến, sẽ xuất hiện nhiều kiểu phụ thuộc. Trong trường hợp 3 biến thì sẽ có các kiểu phụ thuộc sau: sự phụ thuộc đồng thời của 3 biến, sự phụ thuộc giữa một biến với cặp hai biến còn lại. Có thể thấy, mỗi một kiểu phụ thuộc sẽ tương ứng với một phân hoạch D1, D2, ..., Dk. Cụ thể, trong trường hợp ba biến chúng ta có các kiểu phân hoạch sau: 1. {X1} ∪ {X2} ∪ {X3}. 2. {X1} ∪ {X2, X3} hoặc {X2} ∪ {X1, X3} hoặc {X3} ∪ {X1, X2}. Sức mạnh sự phụ thuộc D1, D2, ..., Dk trong các biến {X1, X2, X3} từ dữ liệu quan sát có thể đo bằng lượng tin bị hụt đi giữa dữ liệu quan sát (O) với tập dữ liệu giả định (O1) được sinh ra từ phân bố tích p(D1)...p(Dk) (tức là giả thiết độc lập giữa các nhóm D1, D2, ..., Dk) với p(Di) là phân bố lề của tập dữ liệu quan sát trên Di. Từ đó, chúng tôi đề xuất một công thức tổng quát cho MI của ba biến như sau: MI{X,Y,Z}(X, Y, Z) = H(X) +H(Y ) +H(Z)−H(X, Y, Z) (2.7) Đây chính là công thức TC(X1, X2, X3), công thức (2.4) đo tổng sự phụ thuộc của 3 biến. MI{X,}(X, Y, Z) = H(X) +H(Y, Z)−H(X, Y, Z) (2.8) MI{Y,}(X, Y, Z) = H(Y ) +H(Z,X)−H(X, Y, Z) (2.9) MI{Z,}(X, Y, Z) = H(Z) +H(X, Y )−H(X, Y, Z) (2.10) Ba công thức (2.8),(2.9) và (2.10) dùng để đo sự phụ thuộc thông tin của một biến với cặp hai biến còn lại. 23 Nguyễn Quỳnh Diệp, Phạm Thọ Hoàn, Nguyễn Tô Sơn và Trần Đăng Hưng Hình 8: Mô tả trực quan TC(X, Y, Z) 2.4.1. Biểu diễn trực quan MI của ba biến Trong phần này, chúng tôi đề xuất và phân tích một phương pháp trực quan mới cho MI của ba biến mà ý tưởng cơ bản của nó đã được đề cập trong mục 2.1.3 khi biểu diễn trực quan độ đo MI của hai biến. Trong phương pháp trực quan này, lượng thông tin của mỗi biến được biểu diễn bằng một đoạn thẳng gắn với một chiều của hệ tọa độ. Khi phân tích độ đoMI của hai biến, chúng tôi đã sử dụng một không gian hai chiều để cho thấy mối quan hệ tương quan giữa H(X), H(Y ), H(X)+H(Y ) và H(X, Y ) (như trong Hình 3). Để lý giải độ đo MI cho trường hợp ba biến chúng tôi sẽ xây dựng một không gian ba chiều theo cách tương tự. Giả sử, ta có một hệ thống S được xây dựng từ dữ liệu thực tế, được biểu diễn trực quan bằng một khối với hình dạng méo mó (hình quả khế - gọi là khối HS). Khối HS mô tả H(X, Y, Z) như biểu diễn trong Hình 8. Dựa trên dữ liệu này, ta xây dựng được khối hình hộp H(S ′) với 3 cạnh H(X), H(Y ), H(Z) được biểu diễn là phép chiếu của dữ liệu khối HS lần lượt lên 3 trục Ox,Oy,Oz. Khối hộp H(S ′) mô tả H(X)+H(Y )+H(Z) chính là lượng thông tin của hệ thống S ′ bao gồm ba biến X, Y và Z độc lập. Cách mô tả này phản ánh đúng tính chất của hàm mật độ và bản chất của quan hệ độc lập theo tiếp cận xác suất. Trong trường hợp ba biến, độ đo TC được tính theo công thức (2.11): TC(X, Y, Z) = H(X) +H(Y ) +H(Z)−H(X, Y, Z) (2.11) Như vậy, trong Hình 8 có hai biểu diễn: một là khối hộp HS ′ biểu diễn cho hệ thống giả định S ′ với ba biến hoàn toàn độc lập, hai là khối HS biểu diễn cho hệ thống thực S. Nếu HS khớp với HS ′ thì ba biến trong S độc lập. Ngược lại, nếu HS và HS ′ có sự chênh lệch đủ lớn thì chúng ta có thể khẳng định rằng ba biến trong S là phụ thuộc. Như vậy, căn cứ vào khoảng chênh lệch giữa HS ′ và HS, có thể đi đến kết luận rằng ba biến trong hệ thống S là độc lập hay phụ thuộc. Như vậy, theo công thức (2.11) thì biểu diễn trực quan của độ đo TC chính là 24 Một đề xuất mở rộng Mutual Information cho trường hợp 3 biến Hình 9: Mô tả trực quan MI(2)(XY,Z) phần chênh lệch giữa hình hộp HS ′ với hình quá khế H(S). Bây giờ, chúng tôi sẽ biểu diễn trực quan sự phụ thuộc thông tin của một biến với cặp hai biến còn lại. Với những lập luận tương tự như Hình 8, chúng ta có thể thấy ngay sự độc lập của X, Y với Z. Khi chiếu hình quả khế HS lên mặt phẳng tọa độ Oxy chúng ta sẽ thu được H(X, Y ), còn chiếu lên trục Oz sẽ thu được H(Z). Trong Hình 9, khối hình trụ thể hiện lượng thông tin của hệ thống S” (gọi là khối HS”) với HS” = H(X, Y ) +H(Z). Từ đây, sự phụ thuộc giữa XY với Z (tức MI(2)(XY,Z)) chính là sự chênh lệch giữa hai khối HS và HS” (phần nằm giữa hình quả khế và hình trụ). Như vậy, qua các phân tích trên chúng ta thấy ý nghĩa của các độ đo như sau: các sự phụ thuộc hai chiều, chẳng hạn MI(2)(X, Y ) là sự chênh lệch giữa HS” và HS ′ như trong cách lý giải của Hình 9, và TC(X, Y, Z) là sự chênh lệch giữa HS ′ và HS như trong cách lý giải của Hình 8. Nhìn vào sự tương quan giữa các khối hình này, dễ thấy biểu diễn này quay lại lý giải như trong trường hợp lập luận của biểu đồ Venn trong Hình 5. Tuy nhiên, phương pháp biểu diễn này tỏ ra hợp lý hơn vì sự giao thoa giữa các khối hình là mối quan hệ giữa các hàm mật độ, còn trong biểu đồ Venn là sự giao thoa giữa các lượng thông tin. Điều này sẽ dẫn tới mâu thuẫn không giải quyết được của biểu diễn trong Hình 8. Không những vậy, lý giải về tính âm dương của độ đo MI(3) cũng được thể hiện rõ ràng hơn so với cách biểu diễn bằng biểu đồ Venn. 2.5. Ví dụ Như đã trình bày trong mục 2.4, đối với trường hợp 3 biến, chúng ta sẽ gặp các tương tác giữa ba biến (dạng 1) hoặc tương tác giữa 1 biến với cặp 2 biến còn lại (dạng 2) như sau: 1. MI(X, Y, Z) = H(X) +H(Y ) +H(Z)−H(X, Y, Z) = TC(X, Y, Z). Đây chính là MI{X,Y,Z}(X, Y, Z) và được gọi là độ đo tương hỗ tổng cộng TC 2. MI(X,) Đây chính là MI{X,}(X, Y, Z) và được gọi là độ đo 25 Nguyễn Quỳnh Diệp, Phạm Thọ Hoàn, Nguyễn Tô Sơn và Trần Đăng Hưng Hình 10: Ví dụ 1 tương hỗ bộ phận Trong trường hợp này sẽ có 3 tương tác là: • MI(X,) • MI(Y,) • MI(Z,) Trong phần này, chúng tôi sẽ xét một ví dụ để thấy rằng: khi khảo sát các quan hệ nhiều biến, ngoài độ đo tương hỗ tổng cộng ta còn cần phải quan tâm đến các độ đo tương hỗ bộ phận. Xét dữ liệu Z = XxorY được cho như trong Hình 10: Chúng tôi sẽ giải thích trường hợp này theo hai công thức: công thức tổng quát trước đây, và công thức do chúng tôi đề xuất. 1. Tính theo công thức tổng quát trước đây: Interaction(X ; Y ;Z) = I(X ; Y ;Z) = H(X) +H(Y ) +H(Z)− [H(X, Y ) + + H(Y, Z) +H(Z,X)] +H(X, Y, Z) Ta có: H(X) = −(1/2 ∗ log1/2 + 1/2 ∗ log1/2) = 1 (Vì khả năng X = 0 là 1/2, khả năng X = 1 là 1/2) Tương tự như vậy, H(Y ) = H(Z) = 1 H(X, Y ) = −4∗(1/4∗log1/4) = 2 (Vì (X, Y ) có 4 khả năng (0,0),(0,1),(1,0),(1,1)) Tương tự như vậy, H(Y, Z) = H(Z,X) = 2 Do đó: MI(X, Y ) = MI(Y, Z) = MI(Z,X) = 0, tức là X,Y,Z đôi một độc lập với nhau. Ta có: H(X, Y, Z) = −4 ∗ (1/4 ∗ log1/4) = 2 (Vì (X, Y, Z) có 4 khả năng (0,0,0),(0,1,1), (1,0,1),(1,1,0)) 26 Một đề xuất mở rộng Mutual Information cho trường hợp 3 biến Hình 11: Biểu đồ Venn cho MI(3) của dữ liệu hàm XOR Do đó, Interaction(X ; Y ;Z) = I(X ; Y ;Z) = H(X) +H(Y ) +H(Z)− − [H(X, Y )−H(Y, Z)−H(Z,X)] + + H(X, Y, Z) = 1 + 1 + 1− [2 + 2 + 2] + 2 = −1 Nếu giải thích biểu đồ Venn trường hợp âm này theo như Hình 5 trong mục 2.2.2. là không thể được, vì trong trường hợp này X, Y, Z đôi một độc lập với nhau nên H(X), H(Y ), H(Z) đôi một không giao nhau. Biểu đồ Venn trong trường hợp này phải được biểu diền như Hình 11: 2. Tính theo công thức chúng tôi đề xuất: MI(X, Y, Z) = TC(X, Y, Z) = H(X) +H(Y ) +H(Z)−H(X, Y, Z) = 1 + 1 + 1− 2 = 1 MI(