Tin-sinh học (Bioinformatics) là một lĩnh vực nghiên cứu đang phát triển rất
mạnh mẽ. Tin-sinh học áp dụng những phương pháp trong tin học đểgiải quyết
các bài toán trong sinh học phân tử.Với sựphát triển mạnh mẽcủa công nghệsinh
học, một khối lượng lớn dữliệu sinh học phân tử(gene, protein, genome) đã được
thu thập, lưu trữvà chia sẻtại các ngân hàng dữliệu thếgiới như NCBI (National
Center for Biotechnology Information). Tin sinh học hiện đang được ứng dụng
phổbiến trong sinh học phân tử, y-dược học, nông nghiệp, công nghệthực phẩm,
môi trường và kiểm soát bệnh.
Hiện nay, tin-sinh học đang được ứng dụng rộng trong việc phát hiện và
kiểm soát bệnh. Một trong các ứng dụng cụthểlà kiểm soát bệnh cúm, với các
dịch bệnh đang lây lan như cúm gia cầm H5N1, cúm H1N1.Đểgóp phần vào việc
cung cấp thông tin, cũng như các công cụphân tích cho việc kiểm soát bệnh cúmở
Việt Nam, đềtài tập trung vào những mục tiêu chính sau: (1) cung cấp dữliệu về
cúm trên thếgiới và Việt Nam, (2) cung cấp các công cụ phân tích cơ bản như tìm
kiếm, sắp hàng đa chuỗi, xây dựng cây tiến hóa, (3) cung cấp dữliệu vềvirut cúm
chi tiết tới từng tỉnh thành của Việt Nam, (4) cung cấp bản đồphân tán của virut
cúm trên thếgiới và cho các tỉnh thành ởViệt Nam, (5) cung cấp biểu đồthống kê
virut cúm cho các vùng của Việt Nam, và trên thếgiới”.
Đềtài hy vọng sẽgóp phần vào việc nghiên cứu và kiểm soát các dịch bệnh
liên quan đến virut cúm ởViệt Nam.
37 trang |
Chia sẻ: nhungnt | Lượt xem: 2200 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Đề tài Nghiên cứu sự phát triển của virut cúm, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Văn Sáu
NGHIÊN CỨU SỰ PHÁT TRIỂN CỦA VIRUT CÚM
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: khoa học máy tính
HÀ NỘI – 2009
1Mục lục
Mục lục ..................................................................................................................... 1
Lời nói đầu................................................................................................................ 3
Chương I. Giới thiệu về sinh học phân tử và tin-sinh học ....................................... 4
1. Giới thiệu về sinh học phân tử.............................................................................. 4
2. Giới thiệu về tin-sinh học ..................................................................................... 5
2.1. Sắp hàng đa chuỗi ......................................................................................... 5
2.2. Cây tiến hóa ................................................................................................... 7
Chương II. Virut cúm ............................................................................................... 8
1.Sơ lược về virut cúm ............................................................................................. 8
2. Các loại virut cúm ................................................................................................ 8
3. Cấu trúc và tính chất............................................................................................ 9
4. Một số thống kê và sự lây lan của virut cúm...................................................... 10
4.1. Một số thống kê về dịch cúm...................................................................... 10
4.2. Sự lây lan của virut cúm ............................................................................. 12
Chương III. Ngân hàng gene virut cúm.................................................................. 13
1. Giới thiệu tổng quan ........................................................................................... 13
2. Các chức năng đã xây dựng................................................................................ 13
2.1. Quá trình xây dựng ngân hàng gene ............................................................ 14
2.1.1. Quá trình thu thập dữ liệu chi tiết cho Việt Nam .................................. 15
Nghiên cứu sự phát triển của virut cúm
2
2.1.2. Xây dựng cơ sở dữ liệu.......................................................................... 16
2.2. Tìm kiếm các chuỗi...................................................................................... 21
2.3. Tiện ích tải chuỗi.......................................................................................... 23
2.4. Tiện ích sắp hàng đa chuỗi........................................................................... 23
2.5. Tiện ích xây dựng cây tiến hóa .................................................................... 24
2.6. Bản đồ phân bố của virut cúm ..................................................................... 25
2.6. Biểu đồ thống kê về virut cúm..................................................................... 28
Tài liệu tham khảo .................................................................................................. 31
Các hình ảnh tham khảo ......................................................................................... 33
Các bảng tham khảo ............................................................................................... 35
Nghiên cứu sự phát triển của virut cúm
3
Lời nói đầu
Tin-sinh học (Bioinformatics) là một lĩnh vực nghiên cứu đang phát triển rất
mạnh mẽ. Tin-sinh học áp dụng những phương pháp trong tin học để giải quyết
các bài toán trong sinh học phân tử. Với sự phát triển mạnh mẽ của công nghệ sinh
học, một khối lượng lớn dữ liệu sinh học phân tử (gene, protein, genome) đã được
thu thập, lưu trữ và chia sẻ tại các ngân hàng dữ liệu thế giới như NCBI (National
Center for Biotechnology Information). Tin sinh học hiện đang được ứng dụng
phổ biến trong sinh học phân tử, y-dược học, nông nghiệp, công nghệ thực phẩm,
môi trường và kiểm soát bệnh.
Hiện nay, tin-sinh học đang được ứng dụng rộng trong việc phát hiện và
kiểm soát bệnh. Một trong các ứng dụng cụ thể là kiểm soát bệnh cúm, với các
dịch bệnh đang lây lan như cúm gia cầm H5N1, cúm H1N1. Để góp phần vào việc
cung cấp thông tin, cũng như các công cụ phân tích cho việc kiểm soát bệnh cúm ở
Việt Nam, đề tài tập trung vào những mục tiêu chính sau: (1) cung cấp dữ liệu về
cúm trên thế giới và Việt Nam, (2) cung cấp các công cụ phân tích cơ bản như tìm
kiếm, sắp hàng đa chuỗi, xây dựng cây tiến hóa, (3) cung cấp dữ liệu về virut cúm
chi tiết tới từng tỉnh thành của Việt Nam, (4) cung cấp bản đồ phân tán của virut
cúm trên thế giới và cho các tỉnh thành ở Việt Nam, (5) cung cấp biểu đồ thống kê
virut cúm cho các vùng của Việt Nam, và trên thế giới”.
Đề tài hy vọng sẽ góp phần vào việc nghiên cứu và kiểm soát các dịch bệnh
liên quan đến virut cúm ở Việt Nam.
Nghiên cứu sự phát triển của virut cúm
4
Chương I. Giới thiệu về sinh học phân tử và tin-sinh học
1. Giới thiệu về sinh học phân tử
Mọi cơ thể sống đều cấu tạo từ các tế bào.
Tế bào có cấu tạo gồm vỏ và nhân, trong đó
nhân tế bào chứa ADN (hoặc ARN). Hình
1 mô tả cấu tạo của tế bào.
ADN (acid deoxyribo nucleic) mang
thông tin di truyền, được cấu tạo từ 4 thành
phần cơ bản (gọi là các nucleotide –
Brown, 2000) Adenine (A), Cytosine (C),
Guanine (G), Thymine (T) như hình 2.
Trong các chuỗi ADN, một số đoạn được
gọi là gene mang thông tin di truyền của các
loài sinh vật. Các nucleotide trong gene sẽ
kết hợp với nhau để tổng hợp ra protein. Cụ
thể là, một bộ ba nucleotide liên tiếp sẽ tạo
ra 1 axit amin. Có 20 loại axit amin khác
nhau (Brown, 2002) là Phe (Phenylalanine),
Leu (Leucine), Ser (Serine), Tyr (Tyrosine),
Cys (Cysteine), Trp (Tryptophan), Pro (Pro-
line), His (Histidine), Gln (Glutamine), Arg
(Arginine), Ile (Isoleucine), Thr (Threonine), Asn (Asparagine), Lys (Lysine), Val
(Valine), Ala (Alanine), Asp (Aspartic Acid), Glu (Glutamic Acid), Gly (Glycine).
Hình 3 mô tả sự kết hợp của các ADN để tạo ra các axit amin. Từ các axit amin
này tạo nên các protein bằng cách liên kết với nhau. Sự sắp xếp khác nhau và số
lượng khác nhau của các axit amin tạo thành vô số các protein khác nhau.
Nghiên cứu sự phát triển của virut cúm
5
ARN (Ribonucleic acid) cũng tương
tự như ADN nhưng trong thành phần cơ
bản của nó thì T được thay bằng U (Uracil).
2. Giới thiệu về tin-sinh học
Trong phần này chúng tôi sẽ trình bày một
số bài toán cơ bản trong tin-sinh học như 1.
Sắp hàng đa chuỗi, 2. Cây tiến hóa.
2.1. Sắp hàng đa chuỗi
Trong quá trình tiến hóa của các loài sinh vật, các chuỗi ADN bị biến đổi do 3
phép biến đổi chính là (Brown, 2002).
1. Thay thế là một hoặc vài nucleotide bị thay thế bởi một hoặc vài nucleo-
tide khác trong chuỗi.
2. Chèn là một hoặc vài nucleotide được chèn thêm vào chuỗi cũ.
3. Xóa là một hoặc một vài nucleotide bị xóa đi ở chuỗi cũ.
Do 3 phép biến đổi chính ở trên làm cho các ADN sinh vật bị thay đổi. Vì
thế, để biết được mối quan hệ giữa các loài sinh vật (ADN) chúng ta phải dùng sắp
hàng đa chuỗi để tìm ra mối quan hệ này.
Gióng hàng các chuỗi ADN, ARN hay protein là cách gióng sao cho chúng
giống nhau nhất. Các chuỗi này sau khi gióng hàng sẽ có cùng chiều dài. Trường
hợp đơn giản nhất của gióng hàng là sắp hàng 2 chuỗi.
Nghiên cứu sự phát triển của virut cúm
6
Sắp hàng 2 chuỗi là trường hợp riêng của sắp hàng đa chuỗi. Ví dụ chúng ta
có hai chuỗi ADN của Human và Chimpanzee như bảng 1 dưới đây.
Sau khi gióng hàng hai chuỗi thì hai chuỗi sẽ có chiều dài bằng nhau như
bảng 2 bên dưới (Waterman, 2000).
Gióng hàng đa chuỗi là thực hiện tìm sự giống nhau của nhiều chuỗi thay
cho một cặp như gióng hàng 2 chuỗi. Ví dụ, ta có gióng hàng đa chuỗi của 8 chuỗi
sau ở bảng 3 (Waterman, 2000; Higgins, 2003).
Nghiên cứu sự phát triển của virut cúm
7
Hiện tại có một số phần mềm sắp hàng đa chuỗi được sử dụng rộng rãi là
MUSCLE (Edgar, R.C., 2004), CLUSTALAW (Thompson et al., 1994) hoặc T-
COFFEE (Notredame et al., 2000). Sắp hàng đa chuỗi tạo ra tệp kết quả là đầu vào
để cho ta tìm ra cây tiến hóa giữa các loài. Cây tiến hóa chính là biểu diễn trực
quan của mối quan hệ giữa các loài.
2.2. Cây tiến hóa
Cây tiến hóa là biểu diễn mối quan hệ tiến hóa giữa các loài sinh vật một cách trực
quan dưới dạng cây. Dựa vào cây tiến hóa người ta có thể xác định được loài nào
có quan hệ nguồn gốc với loài nào.
Trong nghiên cứu về virut
cúm, thông qua cây tiến hóa người
ta xác định được loài virut nào có
quan hệ tiến hóa từ loài virut nào,
tức là xác định được sự lây lan virut
từ nơi này qua nơi khác thông qua
quan hệ nguồn gốc giữa chúng. Từ
đó, người ta đề ra các biện pháp
phòng, chống lây lan dịch tốt hơn.
Trong hình 4 là ví dụ mô tả về cây
tiến hóa của các loài virut cúm ở
Việt Nam từ năm 2001 đến 2007
(Wan X-F, Nguyen T, Davis -CT,
Smith CB, Zhao Z-M, et al, 2008),
ta thấy virut HK79-like, GX22-like,
F1-like có chung một gốc và nằm ở
2 nhánh nên chúng có quan hệ nguồn gốc với nhau. Hiện tại có phần mềm thông
dụng sinh ra cây tiến hóa như CLUSTALAW (Thompson et al., 1994), PHYLIP
(Joe Felsenstein, mid-1995) và phần mềm xem cây tiến hóa như TreeView (Ro-
deric D. M. Page, 2000).
Nghiên cứu sự phát triển của virut cúm
8
Chương II. Virut cúm
1.Sơ lược về virut cúm
Virut cúm được biết đến từ một trận dịch cúm xuất phát từ chim ở Tây Ban Nha
vào năm 1918 đã giết chết khoảng 40-50 triệu người (khoảng một nửa dân số thế
giới vào thời điểm đó - Theo thống kê của tổ chức y tế thế giới WHO). Cho đến
ngày hôm nay, các nhà khoa học mới giải mã được cách mà loại virut cúm này
từng làm kinh hoàng thế giới bằng cách lây từ vật sang người và gây bệnh, vượt
qua ranh giới về loài.
Virut cúm tên khoa học là influenza virus, thường được gọi là cúm (flu), là
tác nhân gây bệnh truyền nhiễm từ chim và động vật có vú, nó là virut ARN thuộc
họ Orthomyxoviridae (Voyles, 2002). Dưới đây ta sẽ tìm hiểu các loài virut chính
thường gặp nhất.
2. Các loại virut cúm
Virut cúm là virut ARN của họ Orthomyxoviridae (Voyles, 2002), gồm có 3 loại
chính cúm A, cúm B, cúm C (CDC).
Cúm A là loại virut cúm phổ biến thường gặp trong các trận dịch (hầu hết các
trận dịch xảy ra đều là cúm A như hình 5). Cúm A có 15 tuýp từ H1 đến H15
(CDC). Cho đến nay tất cả các tuýp virut cúm được biết đều đã được tìm thấy ở
các loài chim di cư và chim sống gần nước (xem ở hình 5). Chúng có thể xâm
nhập mà không gây triệu chứng gì trong đường ruột, dạ dày của vật chủ.
Nghiên cứu sự phát triển của virut cúm
9
Cúm B là một loại virut cúm
thường gây bệnh ở người, thường
gây bệnh nhẹ và xảy ra ít hơn so
với cúm A. Người ta mới chỉ phát
hiện ra một loài vật khác bị
nhiễm cúm B là loài hải cẩu. Loại
cúm B này có tần số thay đổi 2-3
lần và ít hơn sự thay đổi của cúm
A.
Cúm C là một loại virut cúm
gây bệnh chủ yếu ở người và lợn,
có thể gây ốm và lây lan cục bộ.
Cúm C gặp ít hơn hai loại cúm A, cúm B rất nhiều và thường gây ốm nhẹ ở trẻ
em. Tính chất dễ gây bệnh và lây lan của virut chính là do đặc điểm về cấu trúc
genome của virut gây nên. Dưới đây chúng ta nói rõ hơn về cấu trúc và tính chất
này.
3. Cấu trúc và tính chất.
Cúm A, B và C có cấu trúc tương tự nhau. Chúng có chiều dài khoảng 80-120 na-
nomet và thường có hình cầu, mặc dù có cả hình sợi (NBCI GenBank).
Genome là thành phần lõi của virut. Virut cúm có 8 đoạn (với cúm A và B)
và 7 đoạn (đối với cúm C) trong bộ genome của chúng (Nippon Rinsho, 1997).
Trong GenBank người ta lần lượt ký hiệu các đoạn này theo số từ 1 đến 8 là 1
(PB2), 2 (PB1), 3 (PA), 4 (HA), 5 (NP), 6 (NA), 7 (M1 và M2), 8 (NS1 và NS2)
đối với cúm A và B. Đối với cúm C thì 7 đoạn là 1 (PB2), 2 (PB1), 3 (P3), 4 (HE),
5 (NP), 6 (MP), 7 (NS) (Nippon Rinsho, 1997). Genome của cúm A và B mã hóa
11 loại protein là hemagglutinin (HA), neuraminidase (NA), nucleoprotein (NP),
M1, M2, NS1, NS2 (NEP), PA, PB1, PB1-F2 và PB2. Còn genome của cúm C
Nghiên cứu sự phát triển của virut cúm
10
mã hóa 9 loại protein PB1, PB2, P3, HE, NP, M1, CM2, NS1, NS2 (NCBI, Gen-
Bank). Hai protein quan trọng của virut cúm là HA và NA.
Virut cúm có 2 protein lớn HA và NA (nhưng đơn giản) hầu như quy định
tính độc hại của virut. HA là đoạn liên kết của virut tới tế bào vật thể bị lây sang,
trong khi NA là bao gồm thay đổi của virut mới sinh ra từ những tế bào bị nhiễm
bằng cách chia tách phân tử này. Vì thế, những protein được sinh ra từ biến đổi
này có tính kháng thuốc. Do đó, chúng được gọi là những gen kháng (antigen).
Cúm A được phân loại dựa vào kiểu trên kháng thể tương ứng HA và NA, ví dụ:
H5N1.
Coding region của một gene là một phần của ADN hoặc ARN mà nó làm
nhiệm vụ sao chép phiên mã sang ARN khác, giống như ARN thông tin hoặc một
ARN không mã hóa (cho trường hợp chuyển ARN hoặc một ribosom ARN). Một
đoạn mang phiên mã có thể dùng để giải mã protein. Đối với đoạn này thì nó
không chứa những vùng gene như vị trí nhận dạng, chuỗi lặp, hoặc chuỗi kết thúc.
Chính do cấu trúc và tính chất genome của virut cúm làm cho chúng dễ gây
bệnh. Sau đây là một số thông kê về dịch cúm.
4. Một số thống kê và sự lây lan của virut cúm
Dịch cúm H5N1, H1N1,... bùng phát đã làm kinh hoàng loài người kể từ trận đại
dịch cúm Tây Ban Nha 1918 và đến nay nó vẫn là một trong những dịch hết sức
nguy hiểm đối với loài người. Sau đây, chúng ta điểm qua những trận dịch trong
lịch sử.
4.1. Một số thống kê về dịch cúm
Các trận đại dịch kinh hoàng trong lịch sử được thống kê trong bảng 4 dưới đây.
Nghiên cứu sự phát triển của virut cúm
11
Các trận dịch cúm xảy ra gần đây (bảng 5).
Theo thống kê của tổ chức y tế thế giới WHO “Cumulative Number of Confirmed
Human Cases of A-vian Influenza A/(H5N) Reported to WHO 3 April 2008 ”.
Để hiểu rõ hơn virut cúm truyền bệnh như thế nào, chúng ta sẽ tìm hiểu
trong phần “sự lây lan của virut cúm” ở phần dưới đây.
Nghiên cứu sự phát triển của virut cúm
12
4.2. Sự lây lan của virut cúm
Thông thường virut cúm không
thể lây nhiễm trực tiếp sang
người mà phải thông qua vật
chủ trung gian như lợn, gà,…
Khi ở trong vật thể trung gian
này thì virut từ người và virut
cúm của một loài khác sẽ kết
hợp với nhau bằng cách trao đổi
các thành phần trong tế bào của
chúng để tạo nên loại virut cúm
mới có khả năng gây bệnh ở
người. Có hai quá trình lây lan
của virut cúm là drift và shift.
Chi tiết về hai quá trình lây lan
này có thể tham khảo từ trung
tâm ngăn chặn và kiểm soát dịch bệnh CDC “
info/flu-viruses.html”.
Nghiên cứu sự phát triển của virut cúm
13
Chương III. Ngân hàng gene virut cúm
1. Giới thiệu tổng quan
Luận án này nghiên cứu về sự phát triển của virut cúm. Công việc của luận án là
xây dựng một ngân hàng gene virut cúm cho tất cả các nước trên thế giới và chi
tiết tới từng tỉnh thành/vùng miền của Việt Nam. Phần mềm này lấy dữ liệu tự
động từ ngân hàng gene NCBI (một trong 3 ngân hàng gene lớn nhất thế giới
NCBI http:// www.ncbi.nih.gov), tích hợp các công cụ phân tích dữ liệu tin sinh
học tượng tự như của NCBI và “làm rõ thông tin cho hầu hết các chuỗi cập nhật
được về Việt Nam mà chỉ có lượng rất nhỏ thông tin có sẵn khi cập nhật từ NCBI”.
Để góp phần vào việc cung cấp thông tin, cũng như các công cụ phân tích cho việc
kiểm soát bệnh cúm ở Việt Nam, đề tài tập trung vào những mục tiêu chính sau
(1) cung cấp dữ liệu về cúm trên thế giới và Việt Nam, (2) cung cấp các công cụ
phân tích cơ bản như tìm kiếm, sắp hàng đa chuỗi, xây dựng cây tiến hóa, (3) cung
cấp dữ liệu về virut cúm chi tiết tới từng tỉnh thành của Việt Nam, (4) cung cấp
bản đồ phân tán của virut cúm trên thế giới và cho các tỉnh thành ở Việt Nam, (5)
cung cấp biểu đồ thống kê virut cúm cho các vùng của Việt Nam, và trên thế giới”.
2. Các chức năng đã xây dựng
- Tự động cập nhật.
- Tìm kiếm chuỗi.
- Thực hiện sắp hàng đa chuỗi, sinh tệp tin biểu diễn toán học cây tiến hóa.
- Cho phép tải tệp tin chứa các chuỗi dạng fasta, genbank, sắp hàng đa chuỗi,
cây tiến hóa.
- Xây dựng bản đồ phân tán của virut cúm.
- Xây dựng biểu đồ thống kê virut cúm.
Nghiên cứu sự phát triển của virut cúm
14
Dưới đây sẽ đi vào trình bày cách xây dựng ngân hàng gen virut cúm như thế nào.
2.1. Quá trình xây dựng ngân hàng gene
Mô hình hoạt động của ngân hàng gen xây dựng như hình 7 bên dưới.
Việc đầu tiên và hết sức quan trọng cho việc xây dựng ngân hàng gene virut cúm
cho Việt Nam là thu thập dữ liệu và thông tin chi tiết các gene của Việt Nam.
Dưới đây là quá trình thu thập này.
Nghiên cứu sự phát triển của virut cúm
15
2.1.1. Quá trình thu thập dữ liệu chi tiết cho Việt Nam
Quá trình thu thập dữ liệu chi tiết cho Việt Nam là quá trình đầu tiên và quan trọng
nhất trong xây dựng ngân hàng gene virut cúm cho Việt Nam. Trong khi cập nhật
dữ liệu trực tiếp từ NCBI thông qua việc lấy các tệp tin ‘genomeset.dat’, ‘influen-
za.dat’, ‘influenza_aa.dat’, ‘influenza_na.dat’, ‘influenza.faa’, ‘influenza.fna’, ‘in-
fluenza.cds’ chia sẻ từ địa chỉ ftp:// ftp.ncbi.nih.gov/genomes/INFLUENZA/. Các
thông tin nhận được ở trên trong các tệp tin sẽ được tách ra để cho vào cơ sở dữ
liệu được xây dựng ở bên dưới. Trong các tệp tin này thông tin rõ ràng chuỗi nào ở
tỉnh thành/vùng nào của Việt Nam là rất ít. Vì thế, kết hợp với các tài liệu đáng tin
cậy từ các thông tin tìm kiếm trên các bài báo của các tác giả nghiên cứu virut cúm
ở Việt Nam (các bài báo đăng trên pubmed, thông tin trực tiếp từ tác giả của chuỗi
gen đó,...). Sau đây là một số bài báo trên pubmed có thông tin chi tiết về các tỉnh
thành của Việt Nam.
1. Evolution of
Highly Pathogenic H5N1
Avian Ifluen-za Viruses in
Vietnam between 2001
and 2007.
2. Multiple Subline-
ages of Influenza A Virus
(H5N1), Vietnam, 2005-
2007.
Các thông tin tìm
được chi tiết về Việt Nam
kể trên sẽ được chuẩn hóa
và được cập nhật vào tệp
tin “listTown.txt” để cập
nhật vào cơ sở dữ liệu.
“listTown.txt” là tệp tin có
dạng ký hiệu tỉnh thành
Nghiên cứu sự phát triển của virut cúm
16
/vùng chưa chuẩn hóa => tỉnh thành/vùng của Việt Nam được chuẩn hóa. Ví dụ
thông tin từ một bài báo tìm được (bài báo có dữ liệu năm 2005-2007 ở trên).
Chuẩn hóa dữ liệu chi tiết về Việt Nam được cho ở bảng 6.
Sau khi đã có thông tin chi tiết về Việt Nam chúng ta bắt tay vào xây dựng
cơ sở dữ liệu lưu trữ các gene đó.
2.1.2. Xây dựng cơ sở dữ liệu
Xây dựng cơ sở dữ liệu là
phần tiếp theo sau khi đã
có thông tin chi tiết hầu
hết các gene về Việt Nam.
Trước hết chúng ta
xây dựng chương trình tự
động cập nhật thông tin từ
NCBI về để xây dựng cơ
sở dữ liệu. Để có thể cập
nhật dữ liệu người dùng
phải đăng nhập vào hệ
thống để quản lý cập nhật dữ liệu. Từ trang chủ, người dùng chọn tab “Login” để
vào trang đăng nhập như hình 9 ở bên. Tên người dùng và mật khẩu của người
dùng được lưu trữ trong cơ sở dữ liệu “users” ở bảng “information” với hai trường
là “user” và “pass”. Nếu người dùng có thông tin ở trong bảng “information” này
thì sẽ được phép quản lý cập nhật cơ sở dữ liệu sau khi đăng nhập thành công như
hình 10.
Nghiên cứu sự phát triển của virut cúm
17
Tự động cập nhật
thông tin các chuỗi từ
ngân hàng gene NCBI
theo phương thức ftp từ
địa chỉ sau ftp://ftp.ncbi-
.nih.gov/genomes/INFLU
ENZA/ từ các tệp tin ‘ge-
nomeset.dat’, ‘influez-
a.dat’, ‘influenza_aa.dat’,
‘influenza_na.dat’, ‘influ-
enza.faa’, ‘influenza.f-na’,
‘influenza.cds’ (những tệp tin tổng hợp dữ liệu từ trước tới thời điểm hiện tại của
NCBI) và ftp://ftp.ncbi.nih.gov/genomes/INFLUENZA/updates/yyyy-mm-dd/files
(những thư mục chứa dữ liệu gần đây được cập nhật) những tệp tin này được tự
động tải về. Sử dụng module Net::FTP trong perl để thực hiện vi