Mở rộng độ đo thông tin tương hỗ có điều kiện cho trường hợp nhiều biến

Tóm tắt. Phân tích dữ liệu biểu hiện gen là một trong những thao tác quan trọng để tìm ra chức năng của các phần tử sinh học. Để có thể hiểu được cơ chế phức tạp của hệ thống sinh học, việc tái tạo mạng điều khiển gen (Gene Regulatory Networks-GRNs) là một nhiệm vụ hết sức quan trọng và đã trở thành một vấn đề thách thức. Trong bài báo này, chúng tôi đề xuất một mở rộng độ đo thông tin tương hỗ có điều kiện (Conditional Mutual Information-CMI) cho trường hợp nhiều biến. Sau đó, chúng tôi trình bày thuật toán Path Consistency Algorithm-PCA. Đây là một phương pháp mới để tái tạo GRNs từ dữ liệu biểu hiện gen bằng cách sử dụng thông tin tương hỗ (MI) và thông tin tương hỗ có điều kiện (CMI). Trong thuật toán này, sự phụ thuộc có điều kiện giữa một cặp gen được biểu diễn bằng CMI giữa chúng. Kết quả thử nghiệm đã xác nhận hiệu quả của phương pháp PCA-CMI tốt hơn so với các phương pháp trước đây.

pdf10 trang | Chia sẻ: thanhle95 | Lượt xem: 242 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Mở rộng độ đo thông tin tương hỗ có điều kiện cho trường hợp nhiều biến, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
JOURNAL OF SCIENCE OF HNUE FIT., 2013, Vol. 58, pp. 3-12 This paper is available online at MỞ RỘNG ĐỘ ĐO THÔNG TIN TƯƠNG HỖ CÓ ĐIỀU KIỆN CHO TRƯỜNG HỢP NHIỀU BIẾN Nguyễn Quỳnh Diệp∗, Nguyễn Thị Bích Ngọc, Phạm Thọ Hoàn và Trần Đăng Hưng Khoa Công nghệ Thông tin, Trường Đại học Sư Phạm Hà Nội ∗E-mail: diepnq@hnue.edu.vn Tóm tắt. Phân tích dữ liệu biểu hiện gen là một trong những thao tác quan trọng để tìm ra chức năng của các phần tử sinh học. Để có thể hiểu được cơ chế phức tạp của hệ thống sinh học, việc tái tạo mạng điều khiển gen (Gene Regulatory Networks-GRNs) là một nhiệm vụ hết sức quan trọng và đã trở thành một vấn đề thách thức. Trong bài báo này, chúng tôi đề xuất một mở rộng độ đo thông tin tương hỗ có điều kiện (Conditional Mutual Information-CMI) cho trường hợp nhiều biến. Sau đó, chúng tôi trình bày thuật toán Path Consistency Algorithm-PCA. Đây là một phương pháp mới để tái tạo GRNs từ dữ liệu biểu hiện gen bằng cách sử dụng thông tin tương hỗ (MI) và thông tin tương hỗ có điều kiện (CMI). Trong thuật toán này, sự phụ thuộc có điều kiện giữa một cặp gen được biểu diễn bằng CMI giữa chúng. Kết quả thử nghiệm đã xác nhận hiệu quả của phương pháp PCA-CMI tốt hơn so với các phương pháp trước đây. Từ khóa: Phần tử sinh học, mở rộng độ đo, thông tin tương hỗ có điều kiện, phương pháp PCA-CMI. 1. Mở đầu Trong lĩnh vực sinh học phân tử, việc tìm hiểu về tương tác giữa các phân tử của hệ thống sinh học là hết sức quan trọng, đây có thể được xem như là mục tiêu cuối cùng của di truyền học. Mặc dù, toàn bộ hệ gen của con người đã được nghiên cứu và sắp xếp theo trình tự, nhưng hiểu biết về mạng điều khiển gen ở người còn rất hạn chế. Hiện nay, có nhiều phương pháp tiếp cận để tái tạo mạng điều khiển gen GRNs từ dữ liệu biểu hiện gen như: Mô hình đồ thị, chẳng hạn như đồ thị Gauss [9]; mạng Bayes [10]; Phương trình vi phân, tích phân [1, 6]; Phương pháp hồi quy, quy hoạch tuyến tính [2, 8]; Lí thuyết thông tin [3, 4]. Mặc dù, nhiều giải thuật xây dựng mạng đã được công bố nhưng vẫn còn một số hạn chế. Trong bài báo này, theo hướng tiếp cận của Lí thuyết thông tin, chúng tôi đề xuất một mở rộng của độ đo thông tin tương hỗ có điều kiện trong trường hợp nhiều biến. Sau đó, chúng tôi giới thiệu một phương pháp mới sử dụng cả hai độ đo là độ đo thông tin 3 Nguyễn Quỳnh Diệp, Nguyễn Thị Bích Ngọc, Phạm Thọ Hoàn, Trần Đăng Hưng tương hỗ (MI) và độ đo thông tin tương hỗ có điều kiện (CMI) để phát hiện các mối quan hệ giữa các gen, từ đó tái tạo mạng điều khiển gen. Chúng tôi đã tiến hành thực nghiệm trên dữ liệu của loài men nấm với kích thước 10. Kết quả cho thấy mạng xây dựng được nhờ phương pháp này tương đối khớp với mạng thực. 2. Nội dung nghiên cứu 2.1. Một số khái niệm cơ bản 2.1.1. Entropy của một biến Một khái niệm cơ bản của Lí thuyết thông tin là Entropy. Entropy của một biến ngẫu nhiên X , kí hiệu là H(X), chỉ độ bất định hay lượng thông tin về biến X . NếuX là một biến ứng với một tập biến cố rời rạc thì entropy củaX được tính theo công thức sau [15]: H(X) = ∑ x p(x)log 1 p(x) = − ∑ x p(x)logp(x) (2.1) Trong đó, p(x) là hàm phân phối xác suất của biến ngẫu nhiênX . 2.1.2. Entropy đồng thời Giả sử, cho cặp biến ngẫu nhiên X và Y . Khi đó, entropy của X và Y được định nghĩa như sau: H(X, Y ) = ∑ x,y p(x, y)log 1 p(x, y) = − ∑ x,y p(x, y)logp(x, y) (2.2) Trong đó, p(x, y) là phân phối đồng thời của hai biếnX và Y . 2.1.3. Entropy có điều kiện Cho biến ngẫu nhiên Y . Entropy có điều kiện H(X|Y ) đo lượng thông tin không chắc chắn của biến ngẫu nhiên X khi đã biết Y và được tính theo công thức: H(X | Y ) = − ∑ y p(y) ∑ x p(x | y)logp(x | y) = − ∑ x,y p(x, y)log p(x, y) p(y) (2.3) Trong đó, p(x | y) là xác suất có điều kiện của biến X với điều kiện Y Từ định nghĩa, entropy có điều kiện có thể biểu diễn như sau: H(X | Y ) = H(X, Y )−H(Y ) (2.4) 4 Mở rộng độ đo thông tin tương hỗ có điều kiện cho trường hợp nhiều biến Do tính chất đối xứng của H(X,Y), nên ta có: H(Y | X) = H(X, Y )−H(X) (2.5) 2.1.4. Entropy của nhiều biến Trong trường hợp có nhiều biến ngẫu nhiên, ta có công thức tổng quát: H(X1, ..., Xn) = − ∑ x1,...,xn p(x1, . . . , xn)logp(x1, ..., xn) (2.6) Sử dụng quy tắc xích, ta có thể phân rã entropy của nhiều biến theo công thức (2.7): H(X1, ..., Xn) = n∑ i=1 H(Xi | Xi−1, ..., X1) (2.7) Trong trường hợp ba biếnX, Y, Z, công thức (2.7) được viết như sau: H(X, Y, Z) = H(X) +H(Y | X) +H(Z | X, Y ) (2.8) 2.1.5. Thông tin tương hỗ của hai biến Độ đo thông tin tương hỗ (Mutual Information-MI) là một độ đo trong Lí thuyết thông tin dùng để đo mức độ tương hỗ của hai biến. Thông tin tương hỗ của hai biến ngẫu nhiên X và Y , kí hiệu làMI(X, Y ) và được định nghĩa như sau [5]: MI(X, Y ) = ∑ x,y p(x, y)log p(x, y) p(x)p(y) (2.9) = H(X) +H(Y )−H(X, Y ) (2.10) Từ công thức (2.10) và công thức (2.4), ta có thể biểu diễn mối quan hệ của entropy, entropy có điều kiện và MI như sau: MI(X, Y ) = H(X) +H(Y )−H(X, Y ) = H(X)−H(X | Y ) (2.11) = H(Y )−H(Y | X) (2.12) 2.1.6. Thông tin tương hỗ có điều kiện Thông tin tương hỗ có điều kiện (Conditional Mutual Information-CMI) là một độ đo được dùng để đo lường sự tương hỗ của hai biến khi có sự xuất hiện của một hay nhiều biến khác. Thông tin tương hỗ của hai biến rời rạcX và Y khi biết biến Z được định nghĩa: MI(X, Y | Z) = ∑ z p(z) ∑ x,y p(x, y | z)log p(x, y | z) p(x | z)p(y | z) = ∑ x,y,z p(x, y, z)log p(x, y | z) p(x | z)p(y | z) (2.13) 5 Nguyễn Quỳnh Diệp, Nguyễn Thị Bích Ngọc, Phạm Thọ Hoàn, Trần Đăng Hưng Trong đó, p(x, y | z) là xác suất đồng thời của 2 biếnX và Y với điều kiện Z. p(x, y, z) là xác suất đồng thời của 3 biến X, Y, Z. Ngoài công thức trên, CMI còn có thể biểu diễn dựa trên entropy : MI(X, Y | Z) = H(X,Z) +H(Y, Z)−H(Z)−H(X, Y, Z) (2.14) Cũng giống như MI, nếu giá trị CMI càng lớn thì mối quan hệ giữa hai biến X và Y với điều kiện Z càng chặt chẽ. Theo công thức (2.5), vì H(X | Z) = H(X,Z) − H(Z) nên công thức (2.14) có thể viết thành: MI(X, Y | Z) = H(X | Z) +H(Y | Z)−H(X, Y | Z) (2.15) 2.2. Mở rộng thông tin tương hỗ có điều kiện Khi xuất hiện thêm biến thứ ba, mối quan hệ giữa các biến trở nên phức tạp hơn. Do đó, giữa các biến không chỉ còn tồn tại tương hỗ giữa cặp hai biến nữa mà còn có thêm các mối quan hệ khác. Trong [13], chúng tôi đã đề xuất một mở rộng độ đo thông tin tương hỗ MI cho trường hợp ba biến, bao gồm các kiểu tương hỗ sau: 1. Tương hỗ tổng hợp của ba biến: MI(X, Y, Z) = TC(X, Y, Z) = H(X) +H(Y ) +H(Z)−H(X, Y, Z) (2.16) 2. Tương hỗ bộ phận giữa một biến với cặp hai biến: MI(X,) = H(X) +H(Y, Z)−H(X, Y, Z) (2.17) MI(Y,) = H(Y ) +H(Z,X)−H(X, Y, Z) (2.18) MI(Z,) = H(Z) +H(X, Y )−H(X, Y, Z) (2.19) Nhìn vào công thức (2.10): M(X, Y ) = H(X) +H(Y )−H(X, Y ) và công thức (2.15): M(X, Y | Z) = H(X | Z) +H(Y | Z)−H(X, Y | Z) ta thấy có một sự tương ứng giữa MI và CMI. Từ đó, chúng tôi đề xuất một mở rộng độ đo thông tin tương hỗ có điều kiện của ba biến với các công thức tương tự như đã đề xuất đối vớiMI như sau: 1. Tương hỗ tổng hợp của ba biếnX, Y, Z khi có biến T xảy ra: MI(X, Y, Z | T ) = H(X | T ) +H(Y | T ) +H(Z | T )−H(X, Y, Z | T ) (2.20) 2. Tương hỗ bộ phận giữa một biến với cặp hai biến khi có biến T xảy ra: MI(X,| T ) = H(X | T ) +H(Y, Z | T )−H(X, Y, Z | T ) (2.21) MI(Y,| T ) = H(Y | T ) +H(Z,X | T )−H(X, Y, Z | T ) (2.22) MI(Z,| T ) = H(Z | T ) +H(X, Y | T )−H(X, Y, Z | T ) (2.23) Trong phần tiếp theo, chúng tôi sẽ trình bày một ứng dụng của độ đo MI và CMI để tái tạo mạng điều khiển gen từ dữ liệu biểu hiện gen. 6 Mở rộng độ đo thông tin tương hỗ có điều kiện cho trường hợp nhiều biến 2.3. Tái tạo mạng điều khiển gen 2.3.1. Thuật toán PCA Như đã trình bày trong phần Mở đầu, hiện nay đã có nhiều giải thuật xây dựng mạng được nghiên cứu nhưng những mô hình này vẫn còn một số hạn chế, cần được hoàn thiện hơn. Gần đây, lí thuyết thông tin đề cập tới việc tái tạo GRNs, sử dụng độ đo thông tin tương hỗ như thuật toán ARACNE [11], CLR [7]... Từ ma trận MI này, ta sẽ xác định được mối quan hệ giữa 2 gen. Ưu điểm lớn nhất của phương pháp này là nó có khả năng tính toán với hàng ngàn gen. Mặc dù, phương pháp dựa vào độ đo MI có ưu điểm nổi bật, nhưng độ đo thông tin tương hỗ chỉ làm việc trên cặp gen mà không xét đến tác động của các điều kiện hay sự ảnh hưởng của các gen khác. Phương pháp dựa vào độ đo CMI có khả năng phát hiện các mối quan hệ giữa các gen khi có các điều kiện xảy ra. Trong bài báo này, chúng tôi giới thiệu phương pháp dựa trên cả hai độ đo MI và CMI để phát hiện tương tác giữa các gen. Phương pháp chúng tôi trình bày có tên Path Consistency Algorithm-PCA, tái tạo mạng điều khiển gen từ dữ liệu biểu hiện gen bằng thuật toán PC. Thuật toán PC được sử dụng để loại bỏ các cạnh tương quan độc lập từ đồ thị. PCA được mô tả chi tiết như sau: Path Consistency Algorithm -PCA - Input: A: dữ liệu biểu hiện của gen θ: ngưỡng quyết định sự phụ thuộc order0: tham số kết thúc chương trình (khi order = order0) - Output: G: mạng liên kết giữa các gen order: bậc của mạng tái tạo • Bước 0: Khởi tạo. Xây dựng mạng đầy đủ G từ tất cả các gen đã cho. Chọn ngưỡng θ. Đặt L = -1. • Bước 1: L = L+1. Đối với cạnh G(i, j) 6= 0. Tìm các gen kề với cả 2 gen i, j. Gọi T là tập các gen kề với i, j (không tính i, j). • Bước 2: Nếu T<L thì dừng thuật toán. Nếu T ≥ L, chọn ra L gen từ tập T gen, giả sử đó làK = [k1, . . . , kL], có CLT cách lựa chọn tập K. Tính CMI bậc L,MI(i, j | K) cho tất cả CLT lựa chọn và chọn raMImax(i, j | K). NếuMImax(i, j | K) < θ thì G(i, j) = 0. Quay lại Bước 1. Đầu vào cho bài toán là tập dữ liệu biểu hiện gen được đo trong các điều kiện hoặc các thời điểm khác nhau. Đầu tiên, tạo ra một đồ thị đầy đủ từ các gen đã cho. Thứ hai, với cặp gen liền kề (i, j), tính thông tin tương hỗ MI(i, j). Nếu các cặp gen (i, j) có 7 Nguyễn Quỳnh Diệp, Nguyễn Thị Bích Ngọc, Phạm Thọ Hoàn, Trần Đăng Hưng MI(i, j) = 0 (tức là, chúng độc lập với nhau) hoặcMI(i, j) 6= 0 nhưng nhỏ hơn ngưỡng θ (ta coi chúng độc lập nhau), thì sẽ xóa các cạnh giữa gen i và j. Thứ ba, tìm các gen liền kề với cặp gen (i, j) (không tính gen i, j). Tính thông tin tương hỗ bậc 1 (1 điều kiện) giữa i và j với điều kiện k,MI(i, j | k). NếuMI(i, j | k) = 0 hoặc nhỏ hơn ngưỡng thì ta tiến hành xóa bỏ cạnh giữa chúng. Bước tiếp theo là tính CMI bậc cao hơn (nhiều điều kiện) cho đến khi không còn cạnh liền kề nào. Để hiểu rõ hơn về thuật toán PC, sau đây chúng tôi sẽ diễn giải thuật toán này với trường hợp dữ liệu biểu hiện của 5 gen X, Y, Z,W và V được minh họa trong Hình 1. Hình 1: Sơ đồ biểu diễn thuật toán PC Đầu tiên, ta tạo ra một mạng đầy đủ của 5 gen X, Y, Z, T, V . Ta tính MI của tất cả các cặp gen. Nếu MI của cặp gen nào < ngưỡng θ, ta xóa cạnh giữa hai gen đó. Ở đây, ta giả sử MI(X,Z) và MI(W,V ) xấp xỉ bằng 0, do đó các cạnh (X,Z) và (W,V ) được xóa. Ta thu được mạng gen bậc 0. Bước tiếp theo, ta tính CMI bậc 1 giữa các gen với các gen liền kề trong mạng bậc 0. Giả sử, thông tin tương hỗ có điều kiện MI(X,W |Y ) và MI(X, V |Y ) bằng 0, khi đó các cạnh (X,W ) và (X, V ) được xóa và ta thu được mạng gen bậc 1. Dựa vào kết quả của mạng bậc 1 này, ta tính CMI bậc 2 giữa các gen. Ở đây, ta có MI(Y, Z|W,V ) được giả định xấp xỉ bằng không, vì vậy cạnh (Y, Z) được xóa và ta có mạng bậc 2. Trong ví dụ này, ta không có CMI với 3 điều kiện (CMI bậc 3). Vì vậy, thuật toán kết thúc và mạng bậc 2 là mạng cuối cùng được tái tạo. 2.3.2. Thực nghiệm Trong bài báo này, chúng tôi sử dụng những tập dữ liệu được lấy từ trang web Với đầu vào là file dữ liệu biểu hiện gen, ngưỡng θ và bậc của CMI (order = 1, 2, ..., n). Đầu ra của chương trình là file cmi.txt chứa giá trị CMI của các cặp gen (sắp xếp theo chiều giảm dần) và file output.txt thể hiện các quan hệ của các gen trên mạng cùng với bậc tương ứng. Ở đây, chúng tôi sử dụng file dữ liệu có kích thước 10 (mạng gồm 8 Mở rộng độ đo thông tin tương hỗ có điều kiện cho trường hợp nhiều biến 10 gen) có tên là InSilicoSize10-Yeast1-null-mutants.txt. Hình 2: File đích Yeast1-null-mutants Hình 3: Kết quả CMI Chọn ngưỡng θ = 0.03 Mạng bậc 0 (order=0) có 12 cạnh Mạng bậc 1 (order=1) có 10 cạnh Hình 4: Kết quả CMI với ngưỡng θ và các bậc khác nhau Sau khi có được kết quả như trên, ta tái tạo được mạng gen như Hình 5. Trong đó: (A) là mạng thực với 10 gen và 10 cạnh. (B) là mạng bậc 0 được xây dựng bởi thuật toán PC với CMI bậc 0 với những cạnh nét đứt là những cạnh suy ra sai, còn những cạnh nét liền là những cạnh suy ra đúng. Mạng gen bậc 0 này có ba cạnh biểu thị bằng nét đứt là G2−G4, G4−G5, G2−G9 bị dư thừa, trong khi cạnh G4−G9 lại không được suy ra. 9 Nguyễn Quỳnh Diệp, Nguyễn Thị Bích Ngọc, Phạm Thọ Hoàn, Trần Đăng Hưng (A): mạng thực (B): mạng bậc 0 (C): mạng bậc 1 Hình 5: Mạng điều khiển gen của tập dữ liệu InSilicoSize10-Yeast1-null-mutants.txt (C) là mạng bậc 1 được xây dựng từ dữ liệu, đây cũng là mạng cuối cùng, là mạng bậc cao nhất được tái tạo dựa vào thuật toán PC. Và ở mạng bậc 1 này, ta thấy hai cạnh G2−G4 vàG4−G5 đã được xóa thành công. Tuy nhiên, cạnhG2−G9 chưa được xóa và cạnh G4−G9 vẫn chưa được suy ra. Mạng cuối cùng được tái tạo trong trường hợp này là mạng bậc 1 khi đem so sánh với mạng thực thì ta thấy kết quả cũng gần như chính xác hoàn toàn. Như vậy, ta có thể kết luận, đối với tập dữ liệu InSilicoSize10-Yeast1-null-mutants, mạng điều khiển gen được tìm ra bởi thuật toán PC dựa trên CMI tương đối khớp với mạng thực. Trên đây là một cách ta dùng để đánh giá mạng điều khiển gen được tái tạo. Cách đánh giá này sử dụng tới ngưỡng θ để xác định có tồn tại mối quan hệ giữa hai gen hay không. Tiếp theo, chúng tôi giới thiệu cách đánh giá thứ hai dựa vào đường cong ROC (Receiver Operating characteristic Curve) và diện tích dưới đường cong ROC (AUROC – Area Under ROC curve). Đường cong ROC có một tính chất vô cùng quan trọng như sau: nếu đường cong càng đi dọc theo biên trái và đi dọc theo biên phía trên của không gian ROC, thì chứng tỏ kết quả kiểm tra càng chính xác. Các kết quả dự đoán được đánh giá dựa trên các thông số sau: độ nhạy Sensitivity hay còn được gọi là TPR (true positive rate), FPR (false positive rate) thông số này bằng 1-Sensitivity, PPV (positive predictive value) và độ chính xác ACC (accuracy). Chúng được biểu diễn thông qua các công thức toán học sau: TPR = TP/(TP+FN) FPR = FP/(FP+TN) PPV = TP/(TP+FP) ACC = (TP+TN)/(TP+FP+TN+FN) Trong đó, TP là true positive, FP là false positive, TN là true negatives và FN là false negatives. Hai thông số TPR và FPR được sử dụng để vẽ đường cong ROC và thể hiện diện tích dưới đường cong (AUROC). Nếu biểu diễn dựa vào đường cong ROC, cho phép ta kết luận về độ đo ta sử dụng. Đối với tập dữ liệu InSilicoSize10-Yeast1-null-mutants diện tích dưới đường cong ROC ta thu được là khá cao AUROC = 0.9914. Tức là, ta sử dụng độ đo CMI trong 10 Mở rộng độ đo thông tin tương hỗ có điều kiện cho trường hợp nhiều biến trường hợp này là rất hiệu quả. Hình 6: Biểu diễn đường cong ROC tập dữ liệu InSilicoSize10-Yeast1-null-mutants 3. Kết luận Độ đo thông tin tương hỗ có điều kiện đã được đề cập từ rất sớm trong Lí thuyết thông tin. Song, việc sử dụng độ đo này trong việc tái tạo mạng sinh học vẫn còn là một vấn đề mới mẻ. Gần đây, đã có một số tác giả sử dụng độ đo này trong việc tái tạo mạng điều khiển gen. Tuy nhiên, một số mạng sinh học thường chứa các tương tác phức tạp hơn, chẳng hạn tương tác của ba hay bốn chất, v.v. Vì vậy, bài báo này đã đề xuất một mở rộng của độ đo thông tin tương hỗ có điều kiện CMI cho trường hợp nhiều biến. Để làm sáng tỏ ý nghĩa của độ đo CMI, chúng tôi đã trình bày một ứng dụng của độ đo CMI trong việc tái tạo mạng điều khiển gen. Ở đây, chúng tôi sử dụng cả hai độ đo MI và CMI để phát hiện mối quan hệ giữa các gen. Thuật toán PC được sử dụng để loại bỏ các cạnh có tương quan độc lập từ đồ thị đầy đủ ban đầu. Từ đó, tái tạo được mạng điều khiển gen. Kết quả chạy thực nghiệm đã cho thấy mạng gen được xây dựng bằng phương pháp này tương đối khớp với mạng thực. Mặc dù, dữ liệu chạy thực nghiệm có kích thước chưa lớn nhưng kết quả này sẽ là tiền đề cho những nghiên cứu tiếp theo. TÀI LIỆU THAM KHẢO [1] O. Alter, P.O. Brown and D. Botstein, 2000. Singular value decomposition for genome-wide expression data processing and modeling. Proccedings of the National Academy of Science of the USA, 97, pp. 10101 - 10106. [2] M. Bansal, G.D. Gatta and D. Bernardo, 2006. Inference of Gene Regulatory Networks and Compound Mode of Action from Time Course Gene Expression Profiles. Bioinformatics, 22(7), pp. 815-822. [3] K. Basso, A.A. Margolin, G. Stolovitzky, U. Klein, R. Dalla-Favera and A. Califano, 2005. Reverse engineering of regulatory networks in human B cells. Nat Genet, 37(4), pp. 382 - 390. 11 Nguyễn Quỳnh Diệp, Nguyễn Thị Bích Ngọc, Phạm Thọ Hoàn, Trần Đăng Hưng [4] A. Butte and I. Kohane, 1999. Unsupervised knowledge discovery in medical databases using relevance networks. Proc. AMIA Symp, pp. 711-715. [5] T.M. Cover and J.A. Thomas, 2006. Elements of Information Theory. Molecular Systems Biology. Wiley-Interscience, A John wiley & Sons, Inc., Publication. [6] I. Cantone, 2009. A yeast synthetic network for in vivo assessment of reverse engineering and modeling approaches. Cell, 137, pp. 172-181. [7] J.J. Faith,J.J, 2007. Large-scale mapping and validation of Escherichia coli transcriptional regulation from a compendium of expression profiles. PLoS Biology, 5, pp. 54-66. [8] T.S. Gardner, 2003. Inferring genetic networks and identifying compound mode of action via expression profiling. Science, 301, pp. 102-105. [9] M.I. Jordan,1998. Learning in Graphical Models. MIT Press, Cambridge. [10] S. Kauffman, C. Peterson, B. Samuelsson and C. Troein, 2003. Random Boolean network models and the yeast transcriptional network. Proccedings of the National Academy of Science of the USA, 100, pp. 14796-14799. [11] A.A. Margolin, K. Wang, W.K. Lim, M. Kustagi, I. Nemenman, A. Califano, 2006. Reverse engineering cellular networks. Nat. Protoc, 1(2), pp. 663-672. [12] S.C. Madeira, A.L. Oliveira, 2004. Biclustering Algorithms for Biological Data Analysis: A Survey. IEEE Transactions on Computational Biology and Bioinformatics, 1(1), pp. 24–45. [13] T.H. Pham, T.B. Ho, Q.D. Nguyen, D.H. Tran and V.H. Nguyen, 2012.Multivariate Mutual Information Measures for Discovering Biological Networks. Proceedings of Conference IEEE-RIVF 2012, pp. 103-108. [14] A. Rakesh, G. Johannes, G. Dimitrios and R. Prabhakar, 1998. Automatic subspace clustering of high dimensional data for data mining applications. In Proceedings of the ACM/SIGMOD International Conference on Management of data, pp. 94-105. [15] C.E. Shannon. A mathematical theory of communication. The Bell System Technical Journal, pp. 379-423, 623-656. ABSTRACT Proposing an extension of the conditional mutual information measure to the multivariate case Analysis of gene expression data is essential in discovering the functions of biological elements. In order to understand the complex mechanisms of biological systems, gene regulatory network (GRN) reconstruction is very important and is also a challenging problem. In this paper, we propose an extension of the conditional mutual information measure to the multivariate case. Then, we present algorithm PCA (Path Consistency Algorithm), a new method to reconstruct GRNs from gene expression data by using mutual information (MI) and conditional mutual information (CMI). In this algorithm, the conditional dependence between a pair of genes is represented by the CMI between them. Experimetal results have confirmed that the PCA-CMI method is more effective than that of previous methods. 12