Một phương pháp phân tích mạng tương tác protein để dự đoán gen gây bệnh ung thư

Tóm tắt. Dự đoán gen gây bệnh là một trong những mục tiêu quan trọng trong nghiên cứu y sinh. Mặc dù hiện nay đã có khá nhiều phương pháp được xây dựng để dự đoán các gen liên quan đến một số bệnh cụ thể. Tuy nhiên, do mối quan hệ phức tạp giữa các gen và bệnh, nên rất nhiều các gen là nguyên nhân gây ra một số bệnh di truyền hiện vẫn chưa được phát hiện ra. Trong bài báo này, chúng tôi đề xuất một phương pháp tính toán dựa trên việc phân tích một mạng tích hợp các thông tin: mạng tương tác protein, mạng tương tác microRNA-gen, và các gen gây bệnh ung thư đã biết. Từ mạng tích hợp này, chúng tôi đưa ra phương pháp biểu diễn mới cho các gen dựa vào các tương tác trực tiếp và gián tiếp với các gen khác trong mạng. Các thông tin này sau đó được dùng để dự đoán một gen có phải là gen gây bệnh ung thư hay không. Chúng tôi đã áp dụng phương pháp đề xuất vào dữ liệu thực tế được download từ các trung tâm dữ liệu sinh học trên thế giới và sử dụng các phương pháp phân lớp phổ biến để đánh giá hiệu quả của phương pháp đề xuất. Kết quả cho thấy khi tích hợp thông tin về mạng tương tác microRNA thì độ chính xác của các phương pháp dự đoán được nâng lên. Điều này chứng tỏ thông tin về microRNA là hữu ích trong việc tiên lượng các gen gây bệnh.

9 trang | Chia sẻ: thanhle95 | Lượt xem: 603 | Lượt tải: 2

Bạn đang xem nội dung tài liệu Một phương pháp phân tích mạng tương tác protein để dự đoán gen gây bệnh ung thư, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

JOURNAL OF SCIENCE OF HNUE FIT., 2013, Vol. 58, pp. 38-46 This paper is available online at MỘT PHƯƠNG PHÁP PHÂN TÍCHMẠNG TƯƠNG TÁC PROTEIN ĐỂ DỰ ĐOÁN GEN GÂY BỆNH UNG THƯ Trần Thị Bích Phương1, Nguyễn Văn Huấn2, Trần Đăng Hưng2 1 Trường Đại học Tây Nguyên; 2Khoa Công nghệ Thông tin, Trường Đại học Sư Phạm Hà Nội 2Email: [email protected] Tóm tắt. Dự đoán gen gây bệnh là một trong những mục tiêu quan trọng trong nghiên cứu y sinh. Mặc dù hiện nay đã có khá nhiều phương pháp được xây dựng để dự đoán các gen liên quan đến một số bệnh cụ thể. Tuy nhiên, do mối quan hệ phức tạp giữa các gen và bệnh, nên rất nhiều các gen là nguyên nhân gây ra một số bệnh di truyền hiện vẫn chưa được phát hiện ra. Trong bài báo này, chúng tôi đề xuất một phương pháp tính toán dựa trên việc phân tích một mạng tích hợp các thông tin: mạng tương tác protein, mạng tương tác microRNA-gen, và các gen gây bệnh ung thư đã biết. Từ mạng tích hợp này, chúng tôi đưa ra phương pháp biểu diễn mới cho các gen dựa vào các tương tác trực tiếp và gián tiếp với các gen khác trong mạng. Các thông tin này sau đó được dùng để dự đoán một gen có phải là gen gây bệnh ung thư hay không. Chúng tôi đã áp dụng phương pháp đề xuất vào dữ liệu thực tế được download từ các trung tâm dữ liệu sinh học trên thế giới và sử dụng các phương pháp phân lớp phổ biến để đánh giá hiệu quả của phương pháp đề xuất. Kết quả cho thấy khi tích hợp thông tin về mạng tương tác microRNA thì độ chính xác của các phương pháp dự đoán được nâng lên. Điều này chứng tỏ thông tin về microRNA là hữu ích trong việc tiên lượng các gen gây bệnh. Từ khóa: Phân tích mạng, Protein, Ung thư, gen, microRNA, dữ liệu sinh học. 1. Mở đầu Ung thư là một trong những bệnh phổ biến và nguy hiểm trên thế giới hiện nay, hàng năm có hàng trăm nghìn người chết vì bệnh này [1, 2]. Việc tìm hiểu cơ chế và nguyên nhân gây bệnh ung thư là một trong những bài toán quan trọng trong y sinh. Các nguyên nhân có thể là do môi trường, do ngoại cảnh, nhưng một nguyên nhân không nhỏ là do di truyền. Vậy câu hỏi đặt ra là, những vật chất di truyền nào là nguồn gốc gây ra bệnh ung thư. Bằng các nghiên cứu thực nghiệm, người ta đã chỉ ra rằng, với từng loại bệnh cụ thể, có thể do một số gen quy định gây ra [3]. Tuy nhiên, các nhà thực nghiệm chỉ tìm ra được các gen gây bệnh một cách đơn lẻ trên một số cá thể, hơn nữa các thực nghiệm này rất tốn thời gian và chi phí lớn. Với sự hỗ trợ của máy tính, các nhà sinh học tính toán có thể đưa 38 Một phương pháp phân tích mạng tương tác protein để dự đoán gen gây bệnh ung thư ra các phương pháp tính toán dựa trên những tri thức đã biết để tiên lượng khả năng gây bênh của các gen khác [2, 4]. Phương pháp tính toán được dùng hiện nay là các phương pháp học máy (machine learning), học máy dựa trên các kĩ thuật thống kê và tối ưu hóa cho phép xây dựng các mô hình "học" được các tri thức từ các nguồn thông tin đã biết trước đó. Sau đó sử dụng các mô hình này để đự đoán các tri thức mới. Đối với bài toán dự đoán gen gây bệnh, trong khoảng 5 năm trở lại đây, cộng đồng nghiên cứu đã đưa ra khá nhiều phương pháp. Nhìn chung các phương pháp tính toán đều dựa trên hai khía cạnh.Một là, tích hợp nhiều loại thông tin liên quan đến gen, như thông tin tương tác protein, thông tin biểu hiện gen, thông tin về những gen gây bệnh đã biết,... Vì các phân tử sinh học (gen, protein) trong cơ thể sống không tồn tại độc lập mà chúng thường tương tác với nhau tạo thành các phức hợp, các phức hợp này mới thể hiện chức năng. Vì vậy, tích hợp được càng nhiều loại thông tin về một đối tượng thì khả năng dự đoán ra chức năng của nó càng cao [1, 6]. Hai là, xây dựng các mô hình học máy phù hợp với dữ liệu sinh học, vì đặc điểm của dữ liệu sinh học thường có số chiều rất lớn, nên cần đưa ra các mô hình học máy có thể làm việc được với dữ liệu có số chiều lớn. Ngoài ra, các phương pháp học máy cũng phải làm việc được trên nhiều loại dữ liệu khác nhau. Chẳng hạn một số phương pháp nghiên cứu gần đây như ENDEAVOUR [6] và PhenoPred [7] đã sử dụng các phương pháp học đa-nhân (mutil-kernel learning) để tích hợp được nhiều loại thông tin. Nhìn chung, các phương pháp tính toán hiện nay chủ yếu dựa vào việc tích hợp các nguồn thông tin khác nhau liên quan đến gen và bệnh để tăng cường khả năng đoán nhận gen bệnh. Tuy nhiên, các nguồn dữ liệu này thường có nhiễu và chưa đầy đủ, nên việc tìm kiếm các nguồn thông tin mới ảnh hưởng đến việc suy đoán ra chức năng mới của các phần tử sinh học là một bài toán thách thức. Qua quá trình tìm hiểu, chúng tôi nhận thấy các nghiên cứu gần đây chỉ ra rằng, một yếu tố quan trọng ảnh hưởng đến tính di truyền của gen là các microRNAs, đây là một loại RNA nhỏ, không có chức năng sản sinh ra protein nhưng lại đóng vai trò quan trọng trong sự biểu hiện của các gen khác [9]. Nhất là đối với bệnh ung thư ở người, các thực nghiệm đã tìm ra được rất nhiều microRNA có ảnh hưởng đến các gen gây bệnh này [5, 10]. Trong bài báo này, chúng tôi đề xuất một framework nhằm tích hợp thông tin từ nhiều nguồn dữ liệu khác nhau thành một mạng tổng thể, sau đó đưa ra một cách phân tích mạng tương tác này để biểu diễn các gen thông qua các gen khác có tương tác trực tiếp và gián tiếp với nó. Ý tưởng chính là tìm cách biểu diễn được sự tương tác của một gen với các gen khác để từ đó đoán nhận khả năng gây bệnh của nó. Điểm mới trong bài báo này là chúng tôi tích hợp thông tin mạng tương tác microRNA-gen vào mạng tương tác protein và đưa ra một cách phân tích mạng tương tác dựa trên thuật toán tìm kiếm theo chiều rộng để biểu diễn các nút trên mạng. Chúng tôi đã áp dụng phương pháp đề xuất vào dữ liệu thực tế được download từ các trung tâm dữ liệu sinh học trên thế giới và sử dụng các phương pháp phân lớp phổ biến (SVM, C4.5, K-NN) để đánh giá hiệu quả của phương pháp đề xuất. Kết quả thực nghiệm trên dữ liệu thực cho thấy khi tích hợp thông tin về mạng tương tác microRNA thì độ chính xác của các phương pháp dự đoán được nâng lên. Điều này chứng tỏ thông tin về microRNA là hữu ích trong việc tiên lượng các gen gây bệnh. 39 Trần Thị Bích Phương, Nguyễn Văn Huấn, Trần Đăng Hưng 2. Nội dung nghiên cứu 2.1. Phương pháp Trong nghiên cứu này, bài toán tiên lượng gen gây bệnh được chúng tôi phát biểu dưới dạng một bài toán phân lớp, cụ thể là bài toán phân 2 lớp, 1 lớp gen gây ung thư và lớp còn lại. Để sử dụng được các phương pháp phân lớp hiện có, chúng tôi đã tạo ra dữ liệu có nhãn và đánh giá mô hình bằng cross-validation. Chúng tôi đề xuất phương pháp gồm 3 bước chính: (1) kết hợp các nguồn thông tin để xây dựng 1 mạng tích hợp dựa trên mạng tương tác protein; (2) đưa ra cách biểu diễn từng protein trên mạng thành dữ liệu vector, gán nhãn cho các dữ liệu này dựa trên thông tin về các gen gây ung thư đã biết; (3) thực hiện các mô hình phân lớp trên dữ liệu đã tạo và đánh giá mô hình. * Xây dựng mạng tích hợp Giống với ý tưởng của các nghiên cứu gần đây [1, 6, 8], phương pháp của chúng tôi cũng đi theo hướng tích hợp nhiều nguồn thông tin khác nhau liên quan đến gen để nâng cao hiệu quả dự đoán. Các nguồn thông tin thường được các nghiên cứu trước đây dùng là thông tin về chuỗi protein, thông tin về chú giải gen (Gene Annotation), và thông tin về mạng tương tác protein. Tuy nhiên, phương pháp của chúng tôi lần đầu tiên đề xuất tích hợp thông tin về mạng tương tác giữa gen và microRNA vào mạng protein, và tập các gen ung thư đã biết để đưa ra mạng tích hợp. Các bước xây dựng mạng tích hợp được chỉ ra trong Hình 1. Bước 1 xuất phát từ một mạng tương tác protein (được download từ các nguồn tin cậy), mạng này được biểu diễn bằng một đồ thị vô hướng, mỗi đỉnh là một protein (hoặc gen, trong ngữ cảnh này thì có thể coi protein và gen là tương đương), cạnh nối hai protein thể hiện hai protein đó có tương tác với nhau. Các protein trên mạng được đánh dấu là normal protein (nút màu xám). Bước 2 ánh xạ mạng tương tác microRNA-gene (biểu diễn bằng một đồ thị hai phía) vào mạng tương tác protein ở trên, lúc này những protein (gen) nào có tương tác với microRNA được đánh dấu là microRNA protein (nút màu xanh). Bước 3 ánh xạ tập các gen ung thư đã biết vào mạng đã tích hợp microRNA, trên mạng các nút này được gọi là cancer protein (nút màu đỏ). Kết quả là chúng ta sẽ có 4 loại nút trên mạng tương tác, loại 1 là normal protein, loại 2 là microRNA protein, loại 3 là cancer protein, và loại 4 là microRNA-cancer protein (nút màu tím, tức là các protein vừa là microRNA vừa là cancer protein). Mạng này được gọi là mạng tích hợp và được dùng trong những bước sau. 2.2. Biểu diễn mạng tích hợp Với mỗi protein p trong mạng tích hợp, chúng tôi xây dựng tập các đặc trưng cho nó để dự đoán khả năng liên quan đến bệnh ung thư. Chúng tôi định nghĩa 4 loại đặc trưng như sau: ◦ N lnp số lượng normal protein có khoảng cách ngắn nhất đến p là l. ◦ N ldp số lượng cancer protein có khoảng cách ngắn nhất đến p là l. ◦ N lmp số lượng microRNA protein có khoảng cách ngắn nhất đến p là l. ◦ N ldmp số lượng microRNA-cancer protein có khoảng cách ngắn nhất đến p là l. 40 Một phương pháp phân tích mạng tương tác protein để dự đoán gen gây bệnh ung thư Hình 1. Xây dựng mạng tích hợp (Integrated network) Hình 2. Biểu diễn protein A1BG theo phân bố của các láng giềng theo các mức khác nhau. Giả sử Lmax = 2, thì protein A được biểu diễn thành vector 4 * 2 thành phần là (3, 1, 0, 1, 6, 4, 2, 4). Trong đó l ∈ (1, Lmax), Lmax là cực đại của độ dài đường đi ngắn nhất giữa hai protein bất kì trong mạng. Đối với mỗi mạng chúng tôi tính được độ dài đường đi ngắn nhất và thấy rằng giá trị Lmax ≤ 20. Khi thực nghiệm trên dữ liệu cụ thể chúng tôi coi Lmax như một tham số do người dùng đưa vào. Với cách định nghĩa các đặc trưng như trên thì mỗi protein p sẽ được biểu diễn thành 1 vector với độ dài là 4 ∗ Lmax. Các tính các đặc trưng cho từng protein được minh họa trong Hình 2. Để tính ra các đặc trưng như trên, chúng tôi sử dụng một thuật toán tìm kiếm theo chiều rộng, chi tiết được trình bày trong Thuật toán 2 (NodeAnalyzer). Với chú ý là xuất phát từ nút hiện thời rồi loang theo chiều rộng, những nút nào đã được thăm sẽ được đánh dấu để không phải thăm lại, đảm bảo tính theo đường đi ngắn nhất từ nút hiện thời đến các nút còn lại trong mạng. Chúng tôi tính toán các đặc trưng cho toàn bộ nút trong mạng bằng Thuật toán 1 (NetAnalyzer), trong đó đáng chú ý là sau khi hoàn thành tính toán cho mỗi protein thì trạng thái của các nút trong mạng được trả lại giá trị để thực hiện cho protein tiếp theo. Cuối cùng, nhãn của mỗi vector dữ liệu chính là trạng thái của protein tương ứng, trong đó những protein có trạng thái là cancer protein và microRNA-cancer protein được gán nhãn là cancer các protein còn lại là non-cancer. Như vậy, với cách làm như trên chúng tôi đã chuyển dữ liệu mạng tương tác thành dữ liệu vector có nhãn, dữ liệu này sẽ được đưa vào huấn luyện và kiểm thử với các mô hình phân lớp phổ biến. 41 Trần Thị Bích Phương, Nguyễn Văn Huấn, Trần Đăng Hưng Algorithm 1: NetAnalyzer: Thuật toán tính vector phân bố 4 loại protein của tất cả các nút trong mạng tích hợp Input: Danh sách protein trong mạng tích hợp; Mạng tích hợp; lmax - số mức tối đa Output: Biểu diễn mỗi protein bằng một vector độ dài 4*lmax foreach (gen ∈ listOfgene) do Call NodeAnalyzer(gene, lmax); foreach (gen ∈ listOfgene) do gen.visittedstatus← true; Algorithm 2: NodeAnalyzer: Thuật toán tính phân bố của 4 loại protein xung quan nút root với các level khác nhau Input: root - gen cần tính; lmax - độ dài đường đi ngắn nhất Output: 1 vector gồm 4*lmax giá trị, là phân bố của 4 loại protein xung quanh root với các level khác nhau vector Idx; vector Q; r ← 0; l← 0; level← −1; Idx← −1; Q← root; root.visittedstatus← false; while (level < lmax) and (l ≤ r) do currgene← Q.pop(); if (l = 0) then level++; else if (Idx[l − 1] 6= Idx[l]) then level++; foreach (gene ∈ currgene.neibourhood) do if (gene.visittedstatus then r ++; Q.push(gene); Idx.push(level); gen.visittedstatus← false; switch gen.type do case normal protein root.count[level].np++ casemicroRNA protein root.count[level].mp+ + case cancer protein root.count[level].dp++ casemicroRNA− disease protein root.count[level].mdp++ 42 Một phương pháp phân tích mạng tương tác protein để dự đoán gen gây bệnh ung thư * Một số phương pháp phân lớp phổ biến Trong bài báo này, chúng tôi sử dụng ba phương pháp phân lớp được sử dụng nhiều và hiệu quả trong lĩnh vực khai phá dữ liệu: máy vector hỗ trợ, cây quyết định (C4.5) và K-láng giềng gần nhất. Các thuật toán này được cài đặt trong phần mềm Weka, chúng tôi thực nghiệm trên các tập dữ liệu đã chuẩn bị theo các bước trên đây và đánh giá/so sánh hiệu quả của các phương pháp. Vì giới hạn của bài báo, chúng tôi không trình bày các chi tiết các phương pháp phân lớp trong bài báo, người đọc có thể dễ dàng tìm được các tài liệu liên quan đến ba phương pháp này. 2.3. Kết quả và thảo luận 2.3.1. Các tập dữ liệu Hiện nay có khá nhiều trung tâm sinh học phân tử cung cấp các cơ sở dữ liệu (CSDL) về mạng tương tác protein, trong nghiên cứu này chúng tôi sử dụng 3 mạng tương tác protein tin cậy được nhiều người sử dụng là HINT, BIOGRID, và HPRD. Thông tin chi tiết về 3 CSDL này được cho trong Bảng 1. Dữ liệu về tương tác giữa microRNA và gen được download từ CSDL TarBase, đây là CSDL chứa các tương tác giữa microRNA và gen đã được tìm ra bằng phương pháp thực nghiệm. TarBase chứa 3576 tương tác giữa 657 microRNAs và 2297 gen. Danh sách các gen đã biết liên quan đến bệnh ung thư được download từ website của viện Sanger, UK (CancerGene). Danh sách này gồm 954 gen đã biết là có liên quan đến ung thư và được lọc từ các bài báo thực nghiệm. Từ các nguồn dữ liệu đã download, chúng tôi viết chương trình bằng C++ để tích hợp thành 3 mạng tích hợp dựa trên 3 mạng tương tác protein, gọi là iNET1, iNET2, và iNET3. Trong đó iNET được xây dựng từ HINT, TarBase, và CancerGene; iNET2 được xây dựng từ BIOGRID, TarBase, và CancerGene; iNET được xây dựng từ HPRD, TarBase, và CancerGene. Bảng 1. Thông tin về các mạng tương tác protein Dataset No. Protein No. Interaction URL Downloaded Date HINT 8237 27297 www.hint.yulab.org 1/2012 BIOGRID 16166 65372 www.thebiogrid.org 7/2012 HPRD 9584 38926 www.hprd.org 5/2012 2.3.2. Kết quả dự đoán Sau khi tiền xử lí dữ liệu để tạo ra 3 bộ dữ liệu như trên đã nói, chúng tôi tiến hành chạy thực nghiệm phân lớp trên phần mềmWeka (một phần mềm chuyên dụng trong khai phá dữ liệu). Thực tế dữ liệu trong các mạng iNET1, iNET2, và iNET3 thì số lượng mẫu non-cancer nhiều hơn so với dữ liệu cancer, điều này dẫn đến hiện tượng bị lệch dữ liệu giữa hai lớp khi thực hiện các thuật toán phân lớp. Chúng tôi đã giải quyết hiện tượng này bằng cách với mỗi bộ dữ liệu chúng tôi chỉ chọn ngẫu nhiên số lượng mẫu non-cancer 43 Trần Thị Bích Phương, Nguyễn Văn Huấn, Trần Đăng Hưng gấp đôi số lượng cancer trong lớp đó. Ngoài ra, một tham số quan trọng khi tạo dữ liệu là Lmax, chúng tôi đã khảo sát và chọn giá trị Lmax = 10 cho các thực nghiệm, vì với giá trị này các mô hình dự đoán cho kết quả tốt nhất (trên cả 3 bộ dữ liệu). Để đánh giá mô hình phân lớp, chúng tôi sử dụng phương pháp cross-validation, chia tập dữ liệu thành 3 phần, 2 phần dùng huấn luyện, phần còn lại dùng để test mô hình, với mỗi bộ dữ liệu thực hiện 10 lần, lấy kết quả trung bình của các lần chạy. Các tham số của các mô hình phân lớp được dùng theo giá trị mặc định. Chúng tôi đã sử dụng 3 tiêu chuẩn là Precision, Recall và F1-measure để đánh giá độ chính xác của các mô hình trên từng tập dữ liệu. Trong đó các tiêu chuẩn này được tính như sau: Gọi TP là số lượng phần tử được mô hình dự đoán đúng cho lớp cancer. TN là số lượng phần tử được mô hình dự đoán đúng cho lớp non-cancer. FP là số lượng phần tử mô hình dự đoán sai cho lớp cancer. FN là số lượng phần tử mô hình dự đoán sai cho lớp non-cancer. Ta có TP + FN, TN + FP lần lượt là tổng số phần tử của lớp cancer và tổng số phần tử của lớp non-cancer thực có trong dữ liệu thử nghiệm. Từ đó các tiêu chuẩn đánh giá mô hình được tính như sau: Precision = TP/(TP + FP ) (2.1) Recall = TP/(TP + FN) (2.2) F1 = 2 ∗ (Precision ∗Recall)/(Precision+Recall) (2.3) Chúng tôi tiến hành các bước thực nghiệm như sau: bước đầu tiên lấy ngẫu nhiên một trong ba bộ dữ liệu mà chúng tôi chuẩn bị để thực hiện trên 3 phương pháp phân lớp. Sau khi thống kê kết quả chúng tôi thấy rằng trong 3 phương pháp phân lớp phương pháp C4.5 cho kết quả tốt nhất (Bảng 2). Sau đó, chúng tôi áp dụng trên cả ba bộ dữ liệu và thống kê kết quả cho thấy bộ dữ liệu iNET2 cho kết quả tốt nhất (Bảng 3). Bộ dữ liệu này cho kết quả tốt nhất dễ dàng được nhận thấy khi số lượng protein và các tương tác là lớn nhất trong ba bộ, và thời gian cập nhật còn khá mới. Dựa trên hai cơ sở này, chúng tôi thực hiện bước thực nghiệm tiếp theo là áp dụng phương pháp C4.5 với bộ iNET2 để so sánh kết quả khi bộ iNET2 có tích hợp thông tin microRNA và không tích hợp thông tin microRNA. Kết quả cho thấy khi tích hợp thông tin microRNA thì kết quả dự đoán cao hơn trường hợp không tích hợp thông tin microRNA (Bảng 4). Bảng 2. Kết quả dự đoán trên 3 phương pháp phân lớp khác nhau Method Recall Precision F-measure SVM 86.50 86.40 85.50 C4.5 90.90 90.70 90.70 K-NN 90.10 89.90 89.90 Như vậy, mặc dù chưa thiết lập được quy trình để so sánh với các phương pháp khác, nhưng qua kết quả thực nghiệm chúng tôi thấy rằng phương pháp biểu diễn mạng 44 Một phương pháp phân tích mạng tương tác protein để dự đoán gen gây bệnh ung thư tích hợp của chúng tôi là hợp lí khi kết quả dự đoán của các mô hình phân lớp khá cao. Ngoài ra, khi đưa thêm mạng tương tác của microRNA vào mạng tương tác protein, thì độ chính xác của các mô hình tăng lên (mặc dù không quá nhiều), nhưng điều này thể hiện thông tin về tương tác của microRNA với gen là một thông tin quan trọng để dự đoán gen gây bệnh ung thư. Hạn chế là hiện nay dữ liệu về tương tác của microRNA với gen được thực nghiệm kiểm chứng chưa nhiều (đa phần là dữ liệu dự đoán), nên trong thời gian tới khi các nhà sinh học cung cấp thêm lượng dữ liệu nhiều hơn, chúng tôi hy vọng sẽ nâng cao được độ chính xác của các mô hình dự đoán. Bảng 3. Kết quả dự đoán trên 3 mạng tích hợp với 3 phương pháp phân lớp khác nhau DATA SVM C4.5 kNN Rec. Pre. F1. Rec. Pre. F1. Rec. Pre. F1. iNET1 86.50 86.40 85.50 90.90 90.70 90.70 90.10 89.90 89.90 iNET2 92.60 92.60 92.40 95.10 95.10 95.10 93.10 93.10 93.10 iNET3 81.70 81.50 78.40 82.00 81.40 81.60 83.80 83.80 83.80 Bảng 4. So sánh kết quả dự đoán trong trường hợp có microRNA và không có microRNA Có microRNA Không có microRNA Rec. Pre. F1. Rec. Pre. F1. 95.10 95.10 95.10 94.70 94.70 94.70 3. Kết luận Trong y học, việc tìm ra các gen gây bệnh có ý nghĩa rất lớn đến việc chế tạo thuốc hoặc đưa ra các phương pháp chữa trị. Ngày nay, với sự tiến bộ của các kĩ thuật sinh học phân tử, lượng dữ liệu sinh học được sinh ra rất nhiều. Trong bài báo này, chúng tôi đã đưa ra một framework nhằm tích hợp nhiều nguồn thông tin liên quan đến gen vào một mạng tích hợp, trong đó thông tin về microRNA gen lần đầu tiên được sử dụng. Sau đó chúng tôi đề xuất một phương pháp biểu diễn mạng tích hợp để đưa ra dữ liệu phân lớp. Kết qủa thực nghiệm phân lớp trên các phương pháp học máy phổ biến cho kết quả khả quan, chứng tỏ framework đưa ra là hợp lí và hữu ích cho bài toán tiên lượng gen gây bệnh. Tuy nhiên trong bài báo này chúng tôi mới thử nghiệm trên dữ liệu bệnh ung thư, framework này có thể sử dụng để dự đoán cho các loại bệnh khác. TÀI LIỆU THAM KHẢO [1] Li L., Kangyu Z., James L., Shaun C., David P. D., Zhijun T., 2009. Discovering cancer genes by integrating network and functional properties. BMC Biomedical Genomics, 2(61). 45 Trần Thị Bích Phương, Nguyễn Văn Huấn, Trần Đăng Hưng [2] Kann M. G., 2010. Advances in translational bioinf