Tóm tắt. Dự đoán gen gây bệnh là một trong những mục tiêu quan trọng trong
nghiên cứu y sinh. Mặc dù hiện nay đã có khá nhiều phương pháp được xây dựng
để dự đoán các gen liên quan đến một số bệnh cụ thể. Tuy nhiên, do mối quan hệ
phức tạp giữa các gen và bệnh, nên rất nhiều các gen là nguyên nhân gây ra một
số bệnh di truyền hiện vẫn chưa được phát hiện ra. Trong bài báo này, chúng tôi
đề xuất một phương pháp tính toán dựa trên việc phân tích một mạng tích hợp các
thông tin: mạng tương tác protein, mạng tương tác microRNA-gen, và các gen gây
bệnh ung thư đã biết. Từ mạng tích hợp này, chúng tôi đưa ra phương pháp biểu
diễn mới cho các gen dựa vào các tương tác trực tiếp và gián tiếp với các gen khác
trong mạng. Các thông tin này sau đó được dùng để dự đoán một gen có phải là
gen gây bệnh ung thư hay không. Chúng tôi đã áp dụng phương pháp đề xuất vào
dữ liệu thực tế được download từ các trung tâm dữ liệu sinh học trên thế giới và sử
dụng các phương pháp phân lớp phổ biến để đánh giá hiệu quả của phương pháp đề
xuất. Kết quả cho thấy khi tích hợp thông tin về mạng tương tác microRNA thì độ
chính xác của các phương pháp dự đoán được nâng lên. Điều này chứng tỏ thông
tin về microRNA là hữu ích trong việc tiên lượng các gen gây bệnh.
9 trang |
Chia sẻ: thanhle95 | Lượt xem: 303 | Lượt tải: 2
Bạn đang xem nội dung tài liệu Một phương pháp phân tích mạng tương tác protein để dự đoán gen gây bệnh ung thư, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
JOURNAL OF SCIENCE OF HNUE
FIT., 2013, Vol. 58, pp. 38-46
This paper is available online at
MỘT PHƯƠNG PHÁP PHÂN TÍCHMẠNG TƯƠNG TÁC PROTEIN
ĐỂ DỰ ĐOÁN GEN GÂY BỆNH UNG THƯ
Trần Thị Bích Phương1, Nguyễn Văn Huấn2, Trần Đăng Hưng2
1 Trường Đại học Tây Nguyên; 2Khoa Công nghệ Thông tin,
Trường Đại học Sư Phạm Hà Nội
2Email: hungtd@hnue.edu.vn
Tóm tắt. Dự đoán gen gây bệnh là một trong những mục tiêu quan trọng trong
nghiên cứu y sinh. Mặc dù hiện nay đã có khá nhiều phương pháp được xây dựng
để dự đoán các gen liên quan đến một số bệnh cụ thể. Tuy nhiên, do mối quan hệ
phức tạp giữa các gen và bệnh, nên rất nhiều các gen là nguyên nhân gây ra một
số bệnh di truyền hiện vẫn chưa được phát hiện ra. Trong bài báo này, chúng tôi
đề xuất một phương pháp tính toán dựa trên việc phân tích một mạng tích hợp các
thông tin: mạng tương tác protein, mạng tương tác microRNA-gen, và các gen gây
bệnh ung thư đã biết. Từ mạng tích hợp này, chúng tôi đưa ra phương pháp biểu
diễn mới cho các gen dựa vào các tương tác trực tiếp và gián tiếp với các gen khác
trong mạng. Các thông tin này sau đó được dùng để dự đoán một gen có phải là
gen gây bệnh ung thư hay không. Chúng tôi đã áp dụng phương pháp đề xuất vào
dữ liệu thực tế được download từ các trung tâm dữ liệu sinh học trên thế giới và sử
dụng các phương pháp phân lớp phổ biến để đánh giá hiệu quả của phương pháp đề
xuất. Kết quả cho thấy khi tích hợp thông tin về mạng tương tác microRNA thì độ
chính xác của các phương pháp dự đoán được nâng lên. Điều này chứng tỏ thông
tin về microRNA là hữu ích trong việc tiên lượng các gen gây bệnh.
Từ khóa: Phân tích mạng, Protein, Ung thư, gen, microRNA, dữ liệu sinh học.
1. Mở đầu
Ung thư là một trong những bệnh phổ biến và nguy hiểm trên thế giới hiện nay, hàng
năm có hàng trăm nghìn người chết vì bệnh này [1, 2]. Việc tìm hiểu cơ chế và nguyên
nhân gây bệnh ung thư là một trong những bài toán quan trọng trong y sinh. Các nguyên
nhân có thể là do môi trường, do ngoại cảnh, nhưng một nguyên nhân không nhỏ là do di
truyền. Vậy câu hỏi đặt ra là, những vật chất di truyền nào là nguồn gốc gây ra bệnh ung
thư. Bằng các nghiên cứu thực nghiệm, người ta đã chỉ ra rằng, với từng loại bệnh cụ thể,
có thể do một số gen quy định gây ra [3]. Tuy nhiên, các nhà thực nghiệm chỉ tìm ra được
các gen gây bệnh một cách đơn lẻ trên một số cá thể, hơn nữa các thực nghiệm này rất tốn
thời gian và chi phí lớn. Với sự hỗ trợ của máy tính, các nhà sinh học tính toán có thể đưa
38
Một phương pháp phân tích mạng tương tác protein để dự đoán gen gây bệnh ung thư
ra các phương pháp tính toán dựa trên những tri thức đã biết để tiên lượng khả năng gây
bênh của các gen khác [2, 4].
Phương pháp tính toán được dùng hiện nay là các phương pháp học máy (machine
learning), học máy dựa trên các kĩ thuật thống kê và tối ưu hóa cho phép xây dựng các
mô hình "học" được các tri thức từ các nguồn thông tin đã biết trước đó. Sau đó sử dụng
các mô hình này để đự đoán các tri thức mới. Đối với bài toán dự đoán gen gây bệnh,
trong khoảng 5 năm trở lại đây, cộng đồng nghiên cứu đã đưa ra khá nhiều phương pháp.
Nhìn chung các phương pháp tính toán đều dựa trên hai khía cạnh.Một là, tích hợp nhiều
loại thông tin liên quan đến gen, như thông tin tương tác protein, thông tin biểu hiện gen,
thông tin về những gen gây bệnh đã biết,... Vì các phân tử sinh học (gen, protein) trong
cơ thể sống không tồn tại độc lập mà chúng thường tương tác với nhau tạo thành các phức
hợp, các phức hợp này mới thể hiện chức năng. Vì vậy, tích hợp được càng nhiều loại
thông tin về một đối tượng thì khả năng dự đoán ra chức năng của nó càng cao [1, 6]. Hai
là, xây dựng các mô hình học máy phù hợp với dữ liệu sinh học, vì đặc điểm của dữ liệu
sinh học thường có số chiều rất lớn, nên cần đưa ra các mô hình học máy có thể làm việc
được với dữ liệu có số chiều lớn. Ngoài ra, các phương pháp học máy cũng phải làm việc
được trên nhiều loại dữ liệu khác nhau. Chẳng hạn một số phương pháp nghiên cứu gần
đây như ENDEAVOUR [6] và PhenoPred [7] đã sử dụng các phương pháp học đa-nhân
(mutil-kernel learning) để tích hợp được nhiều loại thông tin.
Nhìn chung, các phương pháp tính toán hiện nay chủ yếu dựa vào việc tích hợp các
nguồn thông tin khác nhau liên quan đến gen và bệnh để tăng cường khả năng đoán nhận
gen bệnh. Tuy nhiên, các nguồn dữ liệu này thường có nhiễu và chưa đầy đủ, nên việc tìm
kiếm các nguồn thông tin mới ảnh hưởng đến việc suy đoán ra chức năng mới của các
phần tử sinh học là một bài toán thách thức. Qua quá trình tìm hiểu, chúng tôi nhận thấy
các nghiên cứu gần đây chỉ ra rằng, một yếu tố quan trọng ảnh hưởng đến tính di truyền
của gen là các microRNAs, đây là một loại RNA nhỏ, không có chức năng sản sinh ra
protein nhưng lại đóng vai trò quan trọng trong sự biểu hiện của các gen khác [9]. Nhất
là đối với bệnh ung thư ở người, các thực nghiệm đã tìm ra được rất nhiều microRNA có
ảnh hưởng đến các gen gây bệnh này [5, 10].
Trong bài báo này, chúng tôi đề xuất một framework nhằm tích hợp thông tin từ
nhiều nguồn dữ liệu khác nhau thành một mạng tổng thể, sau đó đưa ra một cách phân
tích mạng tương tác này để biểu diễn các gen thông qua các gen khác có tương tác trực
tiếp và gián tiếp với nó. Ý tưởng chính là tìm cách biểu diễn được sự tương tác của một
gen với các gen khác để từ đó đoán nhận khả năng gây bệnh của nó. Điểm mới trong bài
báo này là chúng tôi tích hợp thông tin mạng tương tác microRNA-gen vào mạng tương
tác protein và đưa ra một cách phân tích mạng tương tác dựa trên thuật toán tìm kiếm theo
chiều rộng để biểu diễn các nút trên mạng.
Chúng tôi đã áp dụng phương pháp đề xuất vào dữ liệu thực tế được download từ
các trung tâm dữ liệu sinh học trên thế giới và sử dụng các phương pháp phân lớp phổ
biến (SVM, C4.5, K-NN) để đánh giá hiệu quả của phương pháp đề xuất. Kết quả thực
nghiệm trên dữ liệu thực cho thấy khi tích hợp thông tin về mạng tương tác microRNA thì
độ chính xác của các phương pháp dự đoán được nâng lên. Điều này chứng tỏ thông tin về
microRNA là hữu ích trong việc tiên lượng các gen gây bệnh.
39
Trần Thị Bích Phương, Nguyễn Văn Huấn, Trần Đăng Hưng
2. Nội dung nghiên cứu
2.1. Phương pháp
Trong nghiên cứu này, bài toán tiên lượng gen gây bệnh được chúng tôi phát biểu
dưới dạng một bài toán phân lớp, cụ thể là bài toán phân 2 lớp, 1 lớp gen gây ung thư và
lớp còn lại. Để sử dụng được các phương pháp phân lớp hiện có, chúng tôi đã tạo ra dữ
liệu có nhãn và đánh giá mô hình bằng cross-validation. Chúng tôi đề xuất phương pháp
gồm 3 bước chính: (1) kết hợp các nguồn thông tin để xây dựng 1 mạng tích hợp dựa trên
mạng tương tác protein; (2) đưa ra cách biểu diễn từng protein trên mạng thành dữ liệu
vector, gán nhãn cho các dữ liệu này dựa trên thông tin về các gen gây ung thư đã biết; (3)
thực hiện các mô hình phân lớp trên dữ liệu đã tạo và đánh giá mô hình.
* Xây dựng mạng tích hợp
Giống với ý tưởng của các nghiên cứu gần đây [1, 6, 8], phương pháp của chúng tôi
cũng đi theo hướng tích hợp nhiều nguồn thông tin khác nhau liên quan đến gen để nâng
cao hiệu quả dự đoán. Các nguồn thông tin thường được các nghiên cứu trước đây dùng
là thông tin về chuỗi protein, thông tin về chú giải gen (Gene Annotation), và thông tin về
mạng tương tác protein. Tuy nhiên, phương pháp của chúng tôi lần đầu tiên đề xuất tích
hợp thông tin về mạng tương tác giữa gen và microRNA vào mạng protein, và tập các gen
ung thư đã biết để đưa ra mạng tích hợp.
Các bước xây dựng mạng tích hợp được chỉ ra trong Hình 1. Bước 1 xuất phát từ
một mạng tương tác protein (được download từ các nguồn tin cậy), mạng này được biểu
diễn bằng một đồ thị vô hướng, mỗi đỉnh là một protein (hoặc gen, trong ngữ cảnh này
thì có thể coi protein và gen là tương đương), cạnh nối hai protein thể hiện hai protein
đó có tương tác với nhau. Các protein trên mạng được đánh dấu là normal protein (nút
màu xám). Bước 2 ánh xạ mạng tương tác microRNA-gene (biểu diễn bằng một đồ thị
hai phía) vào mạng tương tác protein ở trên, lúc này những protein (gen) nào có tương tác
với microRNA được đánh dấu là microRNA protein (nút màu xanh). Bước 3 ánh xạ tập
các gen ung thư đã biết vào mạng đã tích hợp microRNA, trên mạng các nút này được
gọi là cancer protein (nút màu đỏ). Kết quả là chúng ta sẽ có 4 loại nút trên mạng tương
tác, loại 1 là normal protein, loại 2 là microRNA protein, loại 3 là cancer protein, và loại
4 là microRNA-cancer protein (nút màu tím, tức là các protein vừa là microRNA vừa là
cancer protein). Mạng này được gọi là mạng tích hợp và được dùng trong những bước sau.
2.2. Biểu diễn mạng tích hợp
Với mỗi protein p trong mạng tích hợp, chúng tôi xây dựng tập các đặc trưng cho
nó để dự đoán khả năng liên quan đến bệnh ung thư. Chúng tôi định nghĩa 4 loại đặc
trưng như sau:
◦ N lnp số lượng normal protein có khoảng cách ngắn nhất đến p là l.
◦ N ldp số lượng cancer protein có khoảng cách ngắn nhất đến p là l.
◦ N lmp số lượng microRNA protein có khoảng cách ngắn nhất đến p là l.
◦ N ldmp số lượng microRNA-cancer protein có khoảng cách ngắn nhất đến p là l.
40
Một phương pháp phân tích mạng tương tác protein để dự đoán gen gây bệnh ung thư
Hình 1. Xây dựng mạng tích hợp (Integrated network)
Hình 2. Biểu diễn protein A1BG theo phân
bố của các láng giềng theo các mức khác
nhau. Giả sử Lmax = 2, thì protein A được
biểu diễn thành vector 4 * 2 thành phần là
(3, 1, 0, 1, 6, 4, 2, 4).
Trong đó l ∈ (1, Lmax), Lmax là cực
đại của độ dài đường đi ngắn nhất giữa hai
protein bất kì trong mạng. Đối với mỗi mạng
chúng tôi tính được độ dài đường đi ngắn
nhất và thấy rằng giá trị Lmax ≤ 20. Khi
thực nghiệm trên dữ liệu cụ thể chúng tôi coi
Lmax như một tham số do người dùng đưa
vào. Với cách định nghĩa các đặc trưng như
trên thì mỗi protein p sẽ được biểu diễn thành
1 vector với độ dài là 4 ∗ Lmax. Các tính
các đặc trưng cho từng protein được minh họa
trong Hình 2.
Để tính ra các đặc trưng như trên, chúng
tôi sử dụng một thuật toán tìm kiếm theo
chiều rộng, chi tiết được trình bày trong Thuật
toán 2 (NodeAnalyzer). Với chú ý là xuất phát
từ nút hiện thời rồi loang theo chiều rộng,
những nút nào đã được thăm sẽ được đánh
dấu để không phải thăm lại, đảm bảo tính theo
đường đi ngắn nhất từ nút hiện thời đến các
nút còn lại trong mạng. Chúng tôi tính toán các đặc trưng cho toàn bộ nút trong mạng
bằng Thuật toán 1 (NetAnalyzer), trong đó đáng chú ý là sau khi hoàn thành tính toán
cho mỗi protein thì trạng thái của các nút trong mạng được trả lại giá trị để thực hiện cho
protein tiếp theo. Cuối cùng, nhãn của mỗi vector dữ liệu chính là trạng thái của protein
tương ứng, trong đó những protein có trạng thái là cancer protein và microRNA-cancer
protein được gán nhãn là cancer các protein còn lại là non-cancer. Như vậy, với cách làm
như trên chúng tôi đã chuyển dữ liệu mạng tương tác thành dữ liệu vector có nhãn, dữ liệu
này sẽ được đưa vào huấn luyện và kiểm thử với các mô hình phân lớp phổ biến.
41
Trần Thị Bích Phương, Nguyễn Văn Huấn, Trần Đăng Hưng
Algorithm 1: NetAnalyzer: Thuật toán tính vector phân bố 4 loại protein của tất cả
các nút trong mạng tích hợp
Input: Danh sách protein trong mạng tích hợp; Mạng tích hợp; lmax - số mức tối đa
Output: Biểu diễn mỗi protein bằng một vector độ dài 4*lmax
foreach (gen ∈ listOfgene) do
Call NodeAnalyzer(gene, lmax);
foreach (gen ∈ listOfgene) do
gen.visittedstatus← true;
Algorithm 2: NodeAnalyzer: Thuật toán tính phân bố của 4 loại protein xung quan
nút root với các level khác nhau
Input: root - gen cần tính; lmax - độ dài đường đi ngắn nhất
Output: 1 vector gồm 4*lmax giá trị, là phân bố của 4 loại protein xung quanh root với các level
khác nhau
vector Idx;
vector Q;
r ← 0;
l← 0;
level← −1;
Idx← −1;
Q← root;
root.visittedstatus← false;
while (level < lmax) and (l ≤ r) do
currgene← Q.pop();
if (l = 0) then
level++;
else
if (Idx[l − 1] 6= Idx[l]) then
level++;
foreach (gene ∈ currgene.neibourhood) do
if (gene.visittedstatus then
r ++;
Q.push(gene);
Idx.push(level);
gen.visittedstatus← false;
switch gen.type do
case normal protein
root.count[level].np++
casemicroRNA protein
root.count[level].mp+ +
case cancer protein
root.count[level].dp++
casemicroRNA− disease protein
root.count[level].mdp++
42
Một phương pháp phân tích mạng tương tác protein để dự đoán gen gây bệnh ung thư
* Một số phương pháp phân lớp phổ biến
Trong bài báo này, chúng tôi sử dụng ba phương pháp phân lớp được sử dụng nhiều
và hiệu quả trong lĩnh vực khai phá dữ liệu: máy vector hỗ trợ, cây quyết định (C4.5) và
K-láng giềng gần nhất. Các thuật toán này được cài đặt trong phần mềm Weka, chúng tôi
thực nghiệm trên các tập dữ liệu đã chuẩn bị theo các bước trên đây và đánh giá/so sánh
hiệu quả của các phương pháp. Vì giới hạn của bài báo, chúng tôi không trình bày các chi
tiết các phương pháp phân lớp trong bài báo, người đọc có thể dễ dàng tìm được các tài
liệu liên quan đến ba phương pháp này.
2.3. Kết quả và thảo luận
2.3.1. Các tập dữ liệu
Hiện nay có khá nhiều trung tâm sinh học phân tử cung cấp các cơ sở dữ liệu
(CSDL) về mạng tương tác protein, trong nghiên cứu này chúng tôi sử dụng 3 mạng tương
tác protein tin cậy được nhiều người sử dụng là HINT, BIOGRID, và HPRD. Thông tin
chi tiết về 3 CSDL này được cho trong Bảng 1. Dữ liệu về tương tác giữa microRNA và
gen được download từ CSDL TarBase, đây là CSDL chứa các tương tác giữa microRNA
và gen đã được tìm ra bằng phương pháp thực nghiệm. TarBase chứa 3576 tương tác giữa
657 microRNAs và 2297 gen. Danh sách các gen đã biết liên quan đến bệnh ung thư được
download từ website của viện Sanger, UK (CancerGene). Danh sách này gồm 954 gen đã
biết là có liên quan đến ung thư và được lọc từ các bài báo thực nghiệm. Từ các nguồn dữ
liệu đã download, chúng tôi viết chương trình bằng C++ để tích hợp thành 3 mạng tích hợp
dựa trên 3 mạng tương tác protein, gọi là iNET1, iNET2, và iNET3. Trong đó iNET
được xây dựng từ HINT, TarBase, và CancerGene; iNET2 được xây dựng từ BIOGRID,
TarBase, và CancerGene; iNET được xây dựng từ HPRD, TarBase, và CancerGene.
Bảng 1. Thông tin về các mạng tương tác protein
Dataset No. Protein No. Interaction URL Downloaded Date
HINT 8237 27297 www.hint.yulab.org 1/2012
BIOGRID 16166 65372 www.thebiogrid.org 7/2012
HPRD 9584 38926 www.hprd.org 5/2012
2.3.2. Kết quả dự đoán
Sau khi tiền xử lí dữ liệu để tạo ra 3 bộ dữ liệu như trên đã nói, chúng tôi tiến hành
chạy thực nghiệm phân lớp trên phần mềmWeka (một phần mềm chuyên dụng trong khai
phá dữ liệu). Thực tế dữ liệu trong các mạng iNET1, iNET2, và iNET3 thì số lượng
mẫu non-cancer nhiều hơn so với dữ liệu cancer, điều này dẫn đến hiện tượng bị lệch dữ
liệu giữa hai lớp khi thực hiện các thuật toán phân lớp. Chúng tôi đã giải quyết hiện tượng
này bằng cách với mỗi bộ dữ liệu chúng tôi chỉ chọn ngẫu nhiên số lượng mẫu non-cancer
43
Trần Thị Bích Phương, Nguyễn Văn Huấn, Trần Đăng Hưng
gấp đôi số lượng cancer trong lớp đó. Ngoài ra, một tham số quan trọng khi tạo dữ liệu là
Lmax, chúng tôi đã khảo sát và chọn giá trị Lmax = 10 cho các thực nghiệm, vì với giá
trị này các mô hình dự đoán cho kết quả tốt nhất (trên cả 3 bộ dữ liệu).
Để đánh giá mô hình phân lớp, chúng tôi sử dụng phương pháp cross-validation,
chia tập dữ liệu thành 3 phần, 2 phần dùng huấn luyện, phần còn lại dùng để test mô
hình, với mỗi bộ dữ liệu thực hiện 10 lần, lấy kết quả trung bình của các lần chạy. Các
tham số của các mô hình phân lớp được dùng theo giá trị mặc định. Chúng tôi đã sử dụng
3 tiêu chuẩn là Precision, Recall và F1-measure để đánh giá độ chính xác của các mô
hình trên từng tập dữ liệu. Trong đó các tiêu chuẩn này được tính như sau: Gọi TP là số
lượng phần tử được mô hình dự đoán đúng cho lớp cancer. TN là số lượng phần tử được
mô hình dự đoán đúng cho lớp non-cancer. FP là số lượng phần tử mô hình dự đoán
sai cho lớp cancer. FN là số lượng phần tử mô hình dự đoán sai cho lớp non-cancer.
Ta có TP + FN, TN + FP lần lượt là tổng số phần tử của lớp cancer và tổng số phần
tử của lớp non-cancer thực có trong dữ liệu thử nghiệm. Từ đó các tiêu chuẩn đánh giá
mô hình được tính như sau:
Precision = TP/(TP + FP ) (2.1)
Recall = TP/(TP + FN) (2.2)
F1 = 2 ∗ (Precision ∗Recall)/(Precision+Recall) (2.3)
Chúng tôi tiến hành các bước thực nghiệm như sau: bước đầu tiên lấy ngẫu nhiên
một trong ba bộ dữ liệu mà chúng tôi chuẩn bị để thực hiện trên 3 phương pháp phân lớp.
Sau khi thống kê kết quả chúng tôi thấy rằng trong 3 phương pháp phân lớp phương pháp
C4.5 cho kết quả tốt nhất (Bảng 2). Sau đó, chúng tôi áp dụng trên cả ba bộ dữ liệu và
thống kê kết quả cho thấy bộ dữ liệu iNET2 cho kết quả tốt nhất (Bảng 3). Bộ dữ liệu này
cho kết quả tốt nhất dễ dàng được nhận thấy khi số lượng protein và các tương tác là lớn
nhất trong ba bộ, và thời gian cập nhật còn khá mới. Dựa trên hai cơ sở này, chúng tôi
thực hiện bước thực nghiệm tiếp theo là áp dụng phương pháp C4.5 với bộ iNET2 để so
sánh kết quả khi bộ iNET2 có tích hợp thông tin microRNA và không tích hợp thông tin
microRNA. Kết quả cho thấy khi tích hợp thông tin microRNA thì kết quả dự đoán cao
hơn trường hợp không tích hợp thông tin microRNA (Bảng 4).
Bảng 2. Kết quả dự đoán trên 3 phương pháp phân lớp khác nhau
Method Recall Precision F-measure
SVM 86.50 86.40 85.50
C4.5 90.90 90.70 90.70
K-NN 90.10 89.90 89.90
Như vậy, mặc dù chưa thiết lập được quy trình để so sánh với các phương pháp
khác, nhưng qua kết quả thực nghiệm chúng tôi thấy rằng phương pháp biểu diễn mạng
44
Một phương pháp phân tích mạng tương tác protein để dự đoán gen gây bệnh ung thư
tích hợp của chúng tôi là hợp lí khi kết quả dự đoán của các mô hình phân lớp khá cao.
Ngoài ra, khi đưa thêm mạng tương tác của microRNA vào mạng tương tác protein, thì độ
chính xác của các mô hình tăng lên (mặc dù không quá nhiều), nhưng điều này thể hiện
thông tin về tương tác của microRNA với gen là một thông tin quan trọng để dự đoán gen
gây bệnh ung thư. Hạn chế là hiện nay dữ liệu về tương tác của microRNA với gen được
thực nghiệm kiểm chứng chưa nhiều (đa phần là dữ liệu dự đoán), nên trong thời gian tới
khi các nhà sinh học cung cấp thêm lượng dữ liệu nhiều hơn, chúng tôi hy vọng sẽ nâng
cao được độ chính xác của các mô hình dự đoán.
Bảng 3. Kết quả dự đoán trên 3 mạng tích hợp với 3 phương pháp phân lớp khác nhau
DATA SVM C4.5 kNN
Rec. Pre. F1. Rec. Pre. F1. Rec. Pre. F1.
iNET1 86.50 86.40 85.50 90.90 90.70 90.70 90.10 89.90 89.90
iNET2 92.60 92.60 92.40 95.10 95.10 95.10 93.10 93.10 93.10
iNET3 81.70 81.50 78.40 82.00 81.40 81.60 83.80 83.80 83.80
Bảng 4. So sánh kết quả dự đoán trong trường hợp
có microRNA và không có microRNA
Có microRNA Không có microRNA
Rec. Pre. F1. Rec. Pre. F1.
95.10 95.10 95.10 94.70 94.70 94.70
3. Kết luận
Trong y học, việc tìm ra các gen gây bệnh có ý nghĩa rất lớn đến việc chế tạo thuốc
hoặc đưa ra các phương pháp chữa trị. Ngày nay, với sự tiến bộ của các kĩ thuật sinh học
phân tử, lượng dữ liệu sinh học được sinh ra rất nhiều. Trong bài báo này, chúng tôi đã đưa
ra một framework nhằm tích hợp nhiều nguồn thông tin liên quan đến gen vào một mạng
tích hợp, trong đó thông tin về microRNA gen lần đầu tiên được sử dụng. Sau đó chúng
tôi đề xuất một phương pháp biểu diễn mạng tích hợp để đưa ra dữ liệu phân lớp. Kết
qủa thực nghiệm phân lớp trên các phương pháp học máy phổ biến cho kết quả khả quan,
chứng tỏ framework đưa ra là hợp lí và hữu ích cho bài toán tiên lượng gen gây bệnh. Tuy
nhiên trong bài báo này chúng tôi mới thử nghiệm trên dữ liệu bệnh ung thư, framework
này có thể sử dụng để dự đoán cho các loại bệnh khác.
TÀI LIỆU THAM KHẢO
[1] Li L., Kangyu Z., James L., Shaun C., David P. D., Zhijun T., 2009. Discovering
cancer genes by integrating network and functional properties. BMC Biomedical
Genomics, 2(61).
45
Trần Thị Bích Phương, Nguyễn Văn Huấn, Trần Đăng Hưng
[2] Kann M. G., 2010. Advances in translational bioinf