Trong vài thập kỷ qua, sinh học phân tử đã có nhiều bước phát triển mạnh mẽ, một loạt các công cụ ứng dụng sinh học ra đời góp phần thúc đẩy quá trình giải mã một số lượng lớn trình tự bộ gene ở nhiều loài sinh vật. Cho đến nay, nhiều bộ gene vi khuẩn đã được giải mã gần như hoàn toàn. Dựán giải trình tự tất cả 24 nhiễm sắc thể của bộ gene người cũng đã hoàn thành từcuối năm 2000. Có thểnói chưa bao giờthông tin sinh hoc trở nên phong phú và đa dạng như hiện nay. Để ứng phó với khối lượng thông tin đồsộ như vậy, công nghệ thông tin đã được ứng dụng vào sinh học một cách khá triệt để. Từ đó, một ngành khoa học hoàn toàn mới ra đời, đó là Sinh tin hoc (Bioinformatics).
11 trang |
Chia sẻ: haohao89 | Lượt xem: 2123 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Xây dựng ứng dụng hỗ trợ phát triển sinh tin học, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
1
XÂY DỰNG ỨNG DỤNG HỖ TRỢ PHÁT TRIỂN SINH TIN HỌC
Trần Văn Lăng1
Phân viện Công nghệ thông tin tại TP Hồ Chí Minh
Tóm tắt: Việc xây dựng các ứng dụng hỗ trợ nghiên cứu và huấn luyện về sinh tin học là
vô cùng cần thiết, qua đó giúp chúng ta nhanh chóng hòa nhập với cộng đồng thế giới,
mở ra cơ hội hợp tác với các nước trong khu vực. Bài báo trình bày một số kết quả có
được trong những năm vừa qua của nhóm nhiên cứu về Sinh tin học của Phân viện Công
nghệ thông tin tại TP.Hồ Chí Minh. Bài báo gồm ba phần, phần thứ nhất trình bày một số
bài toán cơ bản về Sinh tin hoc như: thiết kế mồi, tìm các enzym cắt, vẽ cây sinh loài,
chẩn đoán cấu trúc protein,.... Phần thứ hai trình bày những kết quả hiện thực các bài
toán trên vào trong ứng dụng Sinh tin hoc có tên gọi HiBio của nhóm và các nghiên cứu
đang tập trung phát triển khác. Phần cuối cùng nêu một số kết luận, so sánh kết quả đạt
được so với một số phần mềm khác cùng lĩnh vực. Đồng thời nêu lên một số kiến nghị.
1. Mở đầu
Trong vài thập kỷ qua, sinh học phân tử đã có nhiều bước phát triển mạnh mẽ, một loạt các
công cụ ứng dụng sinh học ra đời góp phần thúc đẩy quá trình giải mã một số lượng lớn trình
tự bộ gene ở nhiều loài sinh vật. Cho đến nay, nhiều bộ gene vi khuẩn đã được giải mã gần
như hoàn toàn. Dự án giải trình tự tất cả 24 nhiễm sắc thể của bộ gene người cũng đã hoàn
thành từ cuối năm 2000. Có thể nói chưa bao giờ thông tin sinh hoc trở nên phong phú và đa
dạng như hiện nay. Để ứng phó với khối lượng thông tin đồ sộ như vậy, công nghệ thông tin
đã được ứng dụng vào sinh học một cách khá triệt để. Từ đó, một ngành khoa học hoàn toàn
mới ra đời, đó là Sinh tin hoc (Bioinformatics).
Thực chất Sinh tin hoc gắn liền với nhiều ngành khoa học khác nhau, nghiên cứu trên nhiều
lĩnh vực khác nhau. Nhằm thu thập, lưu trữ và phân tích các dữ liệu sinh học. Khi đó, vai trò
của các thuật toán, hệ thống xử lý dữ liệu, môi trường mạng hết sức quan trọng. Kết quả của
những nghiên cứu này là tạo ra các phần mềm giúp giải quyết một số vấn đề xung quanh việc
tìm hiểu về gene, protein và một số vấn đề khác liên quan đến sinh học phân tử. Những thành
tựu của lĩnh vực này hỗ trợ mạnh mẽ đến việc đưa sinh học, y học vào giải quyết của những
công việc của thực tiễn. Đặc biệt đóng góp nhiều thành tựu khoa học mới, như việc tìm ra các
giống cây trồng và vật nuôi mới cho năng suất cao; thúc đẩy nhanh quá trình chẩn đoán bệnh,
tìm ra các loại thuốc chữa bệnh mới, ... Bên cạnh đó, với khối lượng lớn dữ liệu sinh học tác
động qua lại lẫn nhau cũng đặt ra nhiều vấn đề. Chẳng hạn, bộ gene người đã được giải mã,
tuy nhiên để hiểu và sử dụng được bộ mã này cần phải có những kiến thức về cấu trúc, chức
năng của protein, từ đó mới vận dụng được những kiến thức của bộ gene vào thực tế, tác động
vào sự di truyền. Bên cạnh đó số protein trong cơ thể người gấp nhiều lần số gene. Bộ gene
được lưu giữ như nhau trong các tế bào nhưng kết quả mã hoá, biểu hiện của nó là bộ protein
trong mỗi bộ phận, tế bào lại không giống nhau. Bộ protein thay đổi theo tình trạng của tế bào
và phản ứng lại với những tác động bên ngoài. Bản đồ gene có thể ghi chép lại trong những
tài liệu in ấn, nhưng bản đồ protein không thể ghi chép. Chỉ có thể ghi lại bản đồ protein như
một tài liệu điện tử, do không phải vì quá lớn mà do sự liên lạc giữa protein này với protein
khác chỉ mang tính ước lệ và liên tục xảy ra trong sự tiến hoá ([4],[5],[6],[7],[8]).
1 Email: lang@hcmc.netnam.vn
1 Mạc Đĩnh Chi, Q1, TPHCM
2
Chính vì vậy việc đưa Tin học vào Sinh học đã và đang được quan tâm bởi hầu hết các nước
phát triển trên thế giới. Trong khu vực Châu Á, các nước như Trung Quốc, Hàn Quốc, Nhật
Bản đã có những đột phá trong lĩnh vực này. Chính phủ của họ đã huy động nguồn nhân lực
hoạt động trong các lĩnh vực khác nhau để tham gia nghiên cứu. Đặc biệt, thế giới đã có
những ngân hàng dữ liệu nổi tiếng như:
NCBI - Trung tâm Quốc gia về Thông tin Công nghệ Sinh học (National Center for
Biotechnology Information) của Mỹ [9].
EMBL - Phòng thí nghiệm Sinh học phân tử (European Molecular Biology
Laboratory) của Châu Âu [10], hoặc một phần của nó là EBI - Viện Sinh tin hoc
Châu Âu đặt ở Anh (European Bioinformatics Institute [11]).
DDBJ - Ngân hàng dữ liệu DNA, Nhật Bản (DNA Data Bank of Japan [12]).
Về phần mềm, hiện nay có khá nhiều phần mềm giúp xử lý các trình tự sinh học DNA và
Protein như: Phần mềm FastA, Blast, Cn3D, Phylip, PepTool, GeneTool, ClustalX, BioEdit,
SeqVISTA, SAGA, Primer3, PC-Genes, Discovery Studio Gene, DNASIS, DNAMAN,
VECTOR NTI, AnnHyb, DNA Club, Plasmid Processor, Oligos, v.v... Những phần mềm này
có một số chức năng:
Chuyển mã trình tự DNA sang RNA.
Hiển thị cặp trình tự chính và trình tự bắt cặp.
Tìm vị trí của một enzyme giới hạn trong một trình tự.
Vẽ bản đồ plasmid, hỗ trợ thiết kế phân tử
Tìm kiếm các đoạn mồi (primer)
So sánh mức độ tương đồng (similarity) giữa các trình tự
Vẽ cây biểu diễn mức độ tương đồng giữa các trình tự (biểu đồ dendogram)
Tìm kiếm các trình tự, các đoạn lặp (motif), các enzyme trong cơ sở dữ liệu.
Đối với Việt Nam chúng ta, lĩnh vực này cũng chỉ xuất hiện ở các viện nghiên cứu, trong một
vài trường đại học lớn, và cũng chỉ dừng lại ở trong giới nghiên cứu về Công nghệ sinh học.
Hoạt động của Khoa Công nghệ Sinh học, trường Đại học Khoa học tự nhiên TP. Hồ Chí
Minh; Viện Công nghệ sinh học, Viện Khoa học và Công nghệ Việt Nam; Trường Đại học Y
Dược TP. Hồ Chí Minh là những minh chứng.
2. Phương pháp và kết quả
2.1 Xử lý về gene và protein
Lĩnh vực Sinh tin hoc vô cùng phát triển trên thế giới. Tuy nhiên ở Việt Nam, sự tham gia của
những người làm Tin học vô cùng hiếm hoi, việc tạo ra các sản phẩm phân mềm để đưa vào
áp dụng không thấy có. Phân
viện Công nghệ thông tin tại
TP. Hồ Chí Minh, trong những
năm qua đã hợp tác với một số
nhà nghiên cứu của Viện Công
nghệ Sinh học; của
NCBI/NLM/NIH và
NIAID/NIH, đã xây dựng một
hướng nghiên cứu với hai mục
tiêu chính [1]:
Xây dựng Website về ngân hàng dữ liệu cung cấp thông tin di truyền phục vụ công
tác huấn luyện và nghiên cứu Công nghệ Sinh học.
3
Xây dựng phần mềm phục vụ việc nghiên cứu Công nghệ Sinh học để có thể xử lý và
phân tích các trình tự sinh học, qua đó nắm được nguyên lý thiết kế cũng như bước
đầu tạo ra sản phẩm phần mềm mang thương hiệu Việt Nam trong lĩnh vực Sinh tin
hoc.
Nhóm thực hiện đã tạo ra sản phẩm phần mềm với tên gọi HiBio. Sản phẩm phần mềm HiBio
này có những tính năng cần thiết cho việc tìm hiểu về sinh học phân tử. Những chức năng từ
đơn giản như kiểm tra trình tự có đúng là một trình tự sinh học DNA hay Protein không;
chuyển đổi trình tự từ DNA sang RNA, rồi sang Protein với một số bảng mã, dịch Frame khác
nhau, v.v... Bên trong phần mềm HiBio cũng có một số chức năng phức tạp hơn. Chẳng hạn,
Thiết kế mồi để hiễn thị cặp mồi tốt nhất, các đoạn mồi xuôi, các đoạn mồi ngược,
hoặc sắp xếp theo các quality;
Thiết kế bản đồ plasmid với các tính năng cần thiết ở các dạng khác nhau, trong đó
có cả việc đề xuất những enzym cắt;
Có thể sử dụng để dự đoán cấu trúc protein bậc 2, xem cấu trúc bậc 3 của một protein
nào đó;
Sử dụng để vẽ cây sinh loài theo hai dạng có gốc và không gốc;
Vấn đề tìm kiếm motif cũng được đặt ra trong HiBio;
Bên cạnh đó các sản phẩm nguồn mở như ClustalX, RasTop, Blastn cũng được tích
hợp vào hệ thống với sự bản địa hóa cao.
Phần mềm HiBio là tập hợp gồm các module chương trình độc lập, trong đó mỗi module thực
hiện một chức năng riêng như: module nhập và soạn thảo dữ liệu trình tự, module so sánh bắt
cặp trình tự, module tạo vector cắt, ...
2.1.1 Chuyển đổi trình tự
DNA động thực vật được cấu thành
chủ yếu từ 4 base cơ bản A, T, G, C, có
khả năng tạo nên 64 codon (mỗi codon
gồm 3 base), được gói gọn thành 20
amino acid. Các amino acid này lại góp
phần hình thành nên các protein đặc
trưng. Tuy nhiên, các sinh vật không
giống nhau nên sự hình thành amino
acid cũng không giống nhau. Có những
loài với codon này thì tạo nên amino
acid này nhưng đối với loài khác thì lại
là một acid amin khác. Chẳng hạn, bộ
ba (codon) “CTT” ở động vật có xương
sống hình thành nên Leucine thì ở nấm
men là Threonine. Do đó, cũng có
tương ứng nhiều bảng dịch mã khác nhau cho từng loài, từng trường hợp khác nhau. Trong hệ
thống HiBio hiện có 17 bảng dịch mã từ DNA sang Protein.
Thuật toán Six Frame, như tên gọi của nó, dựa trên nguyên lý hợp thành bộ 3 chuyển mã để
đưa ra 6 khả năng phân tích có thể. Theo đó, chúng ta có 3 frame theo chiều thuận và 3 frame
còn lại theo chiều nghịch. Chỉ 1 trong 6 frame này được xem là sản phẩm dịch mã đúng.
2.1.2 Thiết kế mồi
4
Thông thường, việc triển khai các
ứng dụng sinh học phân tử thường
vấp phải trở ngại về số lượng vật chất
di truyền cần có. Trong các phương
pháp tạo dòng phản ứng khuếch đại
trình tự (Polymerase Chain Reaction
- PCR) được sử dụng rộng rãi. Nhưng
để thực hiện được phương pháp này,
nhà sinh học cần phải biết thông tin
về trình tự cần nhân bản và từ đó phải
xác định được cần các mồi - một đoạn
DNA ngắn, có khả năng bắt cặp bổ
sung với một đầu của mạch khuôn -
bổ sung chuyên biệt nào.
Thiết kế mồi trong HiBio cho phép
thống kê có bao nhiêu đoạn mồi thoả yêu cầu người dùng và mô tả các yếu tố kỹ thuật về các
đoạn mồi đó. Từ đó, có thể thiết lập thuộc tính đoạn mồi cần tìm trong trình tự DNA thông
qua giao diện chương trình. Đoạn mồi được chọn dựa trên các thông số như:
Chiều dài đoạn mồi
Vị trí bắt cặp duy nhất
Phần trăm loại nucleotid G, C
Nhiệt độ annealing
Các đoạn mồi khó tự bắt cặp với nhau.
2.1.3 Tìm kiếm trình tự
Hai giải thuật tìm kiếm trong cơ sở dữ liệu phổ biến trên thế giới hiện nay là BLAST và FastA.
Giải thuật BLAST được đánh giá nhanh hơn và hiện đang được sử dụng rộng rãi. BLAST
(Basic Local Alignment Search Tool) là giải thuật tìm kiếm heuristic. Giải thuật này được hiện
thực qua các chương trình: blastp, blastn, blastx, tblastn và tblastx của NCBI với các chức
năng như sau:
blastp: so sánh chuỗi amino acid với cơ sở dữ liệu là các chuỗi protein
blastn: so sánh chuỗi nucleotid với cơ sở dữ liệu là các chuỗi nucleotid
blastx: so sánh biến đổi six-frame của chuỗi nucleotid với cơ sở dữ liệu protein
blastn: so sánh chuỗi protein với cơ sở dữ liệu nucleotid
tblastx: so sánh biến đổi six-frame của một chuỗi nucleotid với biến đổi six-frame
của các chuỗi trong cơ sở dữ
liệu nucleotid
Mục đích chính của việc tìm kiếm trên
cơ sở dữ liệu là tìm các gene có trong
cơ sở dữ liệu có chứa một chuỗi trình
tự cho trước. Thông thường cức năng
này được hiện thực thông qua ứng
dụng Web.
Dữ liệu trong trường hợp này là một
trình tự DNA. Từ đó, HiBio sẽ tìm
kiếm những gene đã biết có thông tin
giống hoặc tương tự với trình tự đưa
vào. Ngoài thông số chính là trình tự
5
DNA, chương trình còn nhận thêm các thông số như E (expect value), đây là giá trị mong đợi
khi so sánh; W (word) là số nucleotid trong một từ dùng đề so sánh.
2.1.4 So sánh trình tự
Khi so sánh trình tự sinh học, có hai vấn đề đặt ra, đó là việc so sánh đối xứng toàn cục và so
sánh đối xứng cục bộ. So sánh đối xứng toàn cục là quá trình so sánh đối xứng cho toàn bộ
các phần tử của hai trình tự. Mỗi một phần tử của một trình tự sẽ được so sánh đối xứng với
một phần tử của trình tự kia hoặc ứng với một ký tự trống (gap). Trong HiBioClustalX việc so
sánh đối xứng đa trình tự dựa trên cơ sở sử dụng giải thuật Needleman - Wunsch, giải thuật
này có những đặc điểm sau [1]:
Tìm so sánh đối xứng toàn cục tốt nhất giữa hai trình tự bất kỳ. Số phần tử so khớp
giữa hai trình tự lớn nhất và cho phép chèn ký tự trống.
Tất cả các phần tử của hai trình tự sẽ được sử dụng để tạo ma trận hai chiều. Mọi khả
năng so sánh đối xứng đều có thể biểu diễn thông qua ma trận này
Khác với giải thuật so sánh đối xứng toàn cục, giải thuật so sánh đối xứng cục bộ chỉ thực
hiện việc so sánh đối xứng trên một số phần của các trình tự được so sánh. So sánh đối xứng
cục bộ có ý nghĩa sinh học hơn so
sánh toàn cục vì thông thường
không phải tất cả các phần tử trong
trình tự tham gia vào việc xác định
đặc tính sinh học của trình tự. Giải
thuật so sánh đối xứng cục bộ
thường được sử dụng hiện nay là
Smith-Waterman. Các bước của
giải thuật Smith-Waterman tương
tự như các bước của giải thuật
Needleman - Wunsch.
Chức năng so sánh này nằm trong
module HiBioClustalX - là phiên
bản được hiện thực trên cơ sở phần mềm ClustalX 1.83. Công dụng của chương trình cho
phép nhập và so sánh các đoạn trình tự hoặc các tập tin so sánh dạng fasta, phylip, v.v...
2.1.5 Xác định enzym cắt giới hạn
Enzyme giới hạn (RE) là loại
enzyme có khả năng thuỷ giải
DNA mạch đôi ở các vị trí xác
định. Một số vấn đề sau đây của
công nghệ sinh học liên quan đến
enzyme cắt giới hạn:
Quá trình phân tích trình
tự chỉ thực hiện lần lượt
với từng đoạn ngắn, vì
vậy cần phải cắt bộ gene
khổng lồ ra thành những
phần nhỏ.
Phân định các đoạn gene
chính xác nhằm phục vụ
6
cho việc nhân bản các đoạn gene với số lượng lớn để cấy ghép, phục vụ ngành y
dược, nghiên cứu biểu hiện gene, tạo các gene bảo vệ cho các vi khuẩn có ích, ...
Lập bản đồ enzyme cắt giới hạn để các nhà sinh học có thể phân tích và nhận biết
đúng các vùng gene quan tâm.
Enzyme cắt giới hạn có đặc tính cơ bản là khả năng nhận biết và cắt một trình tự xác định trên
DNA. Các điểm mà có tác động của enzyme được gọi là điểm cắt giới hạn. Mỗi enzyme nhận
biết một trình tự nucleotide đặc trưng. Các trình tự này thường bao gồm 4 - 8 nucleotide. Các
RE khác nhau có cùng một trình tự nhận biết được gọi là các isoschizomers. Còn với một số
RE, trình tự nhận biết không có tính chuyên biệt tuyệt đối vì nó nhận diện các vùng trình tự có
dạng đặc trưng (trong đó các một số vị trí có thể là bất cứ ký tự nào cũng được) không hoàn
toàn là một chuỗi duy nhất. Chức năng tìm enzyme cắt trong HiBio cho phép xác định các
điểm cắt trong các đoạn trình tự nhập vào bằng cách so trùng với cơ sở dữ liệu các enzyme cắt
giới hạn thông dụng. Kết quả trả về mô tả vị trí cắt trên trình tự này, tên của các enzym và
dạng cắt của chúng (thẳng hay chéo).
2.1.6 Thiết kế Plasmid
Đây cũng là một chức năng quan
trọng trong quá trình nghiên cứu
sông nghệ sinh học. Thiết kế
Plasmid trong HiBio thể hiện cho cả
DNA thẳng và tròn, trên cơ sở định
nghĩa các điểm cắt giới hạn
(restriction site), các gene và vị trí tạo
dòng đa năng (multiple cloning site).
2.1.7 Dự đoán cấu trúc bậc hai
Dự đoán cấu trúc protein là một
trong những nhiệm vụ quan trọng,
nhằm xây dựng cơ sở dữ liệu
protein, phục vụ cho việc tìm hiểu chức năng và ý nghĩa của các protein, hiểu được bản chất
của sự sống từ đó cải thiện môi trường sống. Tìm ra cấu trúc protein thông qua quá trình phân
tích thực nghiệm đòi hỏi nhiều thời gian và công sức. Nhiệm vụ quan trọng của Sinh tin hoc
là giúp dự đoán cấu trúc protein từ một chuỗi các amino acid đã biết hình thành nên protein
đó. Tuy nhiên các phương pháp dự đoán
cấu trúc protein hiện vẫn chưa thể có độ
chính xác tuyệt đối. Tỉ lệ chính xác của
các phương pháp chẩn đoán cấu trúc
protein hiện nay vẫn chưa vượt quá con
số 80%. Việc tìm hiểu chức năng của
protein thường dựa vào cấu trúc bậc ba
của protein đó. Tuy nhiên, việc áp dụng
các phương pháp thí nghiệm hoá lý để
tìm ra cấu trúc bậc ba của protein vẫn
còn gặp nhiều khó khăn và phức tạp. Do
đó, đa số các phương pháp xác định cấu
trúc bậc ba của một protein phải trải qua
một bước trung gian quan trọng là xác
định cấu trúc bậc hai của protein đó. Việc xác định được cấu trúc bậc hai của protein sẽ làm
tăng thêm độ chính xác trong việc xác định cấu trúc bậc ba lên từ 25 cho đến 50 phần trăm.
7
Phương pháp thí nghiệm hoá lý được sử dụng để xác định cấu trúc bậc hai protein cũng gặp
nhiều khó khăn và tốn kém thời gian. Chính những khó khăn này đã thúc đẩy các nhà nghiên
cứu tìm cách chẩn đoán cấu trúc bậc hai của các protein mới dựa trên cấu trúc bậc hai của
những protein đã biết. Nhiều thuật toán khác nhau được phát triển như thuật toán sử dụng hệ
chuyên gia, sử dụng các lý thuyết về đồ thị, sử dụng các phương pháp thống kê, thuật toán
người láng giềng gần nhất, sử dụng mạng neural, ...
Để giải quyết bài toán trên, phương pháp thông thường là chia chuỗi amino acid thành nhiều
đoạn, mỗi đoạn là một cửa sổ chứa từ 13 đến 21 amino acid. Các amino acid trong cùng một
cửa sổ sẽ có cấu trúc bậc 2 giống nhau. Khi đó bài toán được đơn giản hóa từ việc chẩn đoán
cấu trúc bậc 2 của mỗi amino acid trong protein thành việc chẩn đoán cấu trúc bậc 2 của một
amino acid trung tâm trong mỗi cửa sổ nói trên. Sau đó xây dựng mô hình để ánh xạ từ các
cửa sổ amino acid trong chuỗi sang trạng thái cấu trúc bậc 2 tương ứng.
Độ chính xác của kỹ thuật dự đoán cấu trúc bậc 2 của protein được cải tiến đáng kể sau khi áp
dụng mạng neural nhân tạo để huấn luyện quá trình chẩn đoán. Mạng sau khi được huấn luyện
sẽ được ghi nhớ để chuẩn bị dự đoán
cấu trúc bậc 2 của các chuỗi protein
mới. Mạng neural thường được xây
dựng trên 3 lớp và áp dụng với số
lượng lớn thông tin để tăng độ chi tiết
của thông tin huấn luyện, nhằm tăng độ
chính xác của giải thuật dự đoán. Độ
chính xác của phương pháp dự đoán
cấu trúc bậc 2 sử dụng mạng neural
hiện là 78%.
2.1.8 Tìm Motif
Motif được phân thành 2 loại. Thứ nhất
là motif trình tự (sequence motif), đây
là một đoạn trình tự đặc trưng được tìm
thấy ở 2 hay nhiều trình tự. Bản thân nó đại diện cho chức năng, cấu trúc hoặc thành viên
trong họ. Các motif có thể được tìm thấy ở DNA, RNA, và Protein. Thứ hai là motif cấu trúc
(structural motif), là một nhóm cấu trúc gần kề nhau kết hợp lại tạo thành một cấu trúc 3D
chuyên biệt, còn được gọi là siêu cấu trúc bậc 2.
2.2 Ngân hàng dữ liệu Sinh
tin hoc
Ngoài ra, nhóm thực hiện cũng
đã xây dựng một website Sinh
tin hoc đặt tại địa chỉ
Nhằm cung cấp những phần
mềm do nhóm xây dựng và cả
những phần mềm khác do
nhóm thu thập được trên
Internet. Tại website này cũng
có thể sử dụng để tìm kiếm các
trình tự sinh học như một số
website hiện có trên thế giới.
8
Đặc biệt có thể thực hiện một số chức như vẽ plasmid, thiết kế mồi, v.v... ngay trên giao diện
của web browser.
Mô hình dữ liệu được thiết kế để lưu trữ các thông tin nucleotide của nhiều loài sinh vật. Cơ
sở dữ liệu hiện nay chứa thông tin các loài: tôm sú (Penaeus monodon), cá ba sa (Pangasius),
cây lúa nước (Oryza sativa), và muỗi gây bệnh sốt rét (Anopheles gambiae). Khi đó, hệ thống
thu thập một cách tự động để cập nhật vào ngân hàng dữ liệu và thông qua các công cụ như
FastA, Blast để tìm kiếm một đoạn gene nào đó.
PDB là một trong những cơ sở dữ liệu sinh học phân tử đầu tiên trên thế giới được thành lập
trước cả những cơ sở dữ liệu DNA. Kể từ khi cấu trúc protein đầu tiên được công bố năm
1950 thì mãi đến những năm 1970 thế giới vẫn không có một sự biến động nào đáng kể về số
lượng cấu trúc protein. Năm 1971, PDB được thành lập ở Brookhaven National Laboratory.
Nhiệm vụ chính của PDB là lưu trữ dữ liệu cấu trúc protein trên máy tính [17]. Một định dạng
dữ liệu chuẩn được PDB phát triển đó là dạng tập tin .pdb. Hiện nay, cơ sở dữ liệu PDB lên
đến 34065 cấu trúc (cập nhật ngày 06/12/2005, theo nguồn Hệ
thống thiết kế nhằm đáp ứng việc lưu trữ dữ liệu trong tập tin pdb hỗ trợ cho thao tác tìm
kiếm thông tin.
2.3 Bài toán Sinh tin hoc trên môi trường tính toán lưới
Trên thế giới cũng có nhiều dự án về tính toán lưới (Grid Computing) liên quan đến Sinh tin
hoc. Chẳng hạn, các dự án sau đây của những trung tâm nghiên cứu lớn.
myGrid của UK e-Science được hỗ trợ các trườ