Lịch sử & khái niệm tin sinh học
Vì sao phải cần nghiên cứu tin sinh học?
Các lĩnh vực nghiên cứu ứng dụng của
tin sinh học
Các công cụ, kỹ năng phục vụ cho tin
sinh học
Các thuật ngữ sử dụng trong các ứng
dụng tin sinh học
33 trang |
Chia sẻ: lylyngoc | Lượt xem: 3404 | Lượt tải: 3
Bạn đang xem trước 20 trang tài liệu Chương 1 Giới thiệu cơ bản về tin sinh học, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
3/8/2013
1
Giới thiệu chung về
Tin sinh học
GV: ThS. Nguyễn Thành Luân
Email: luannt@cntp.edu.vn
Liên hệ: Khu A Lầu 3 Khoa CNSH & KTMT
TRƢỜNG ĐH CÔNG NGHIỆP THỰC PHẨM TPHCM
KHOA CNSH & KTMT
HỆ ĐẠI HỌC
TIN SINH HỌC
• Mã học phần : 08200018
• Số tín chỉ : 2
• Trình độ: Cho sinh viên năm thứ 3 đại học
• Phân bố thời gian: 30 tiết
─ Lý thuyết: 12 tiết
─ Tiểu luận, bài kiểm tra tại lớp: 4 tiết
─ Thực hành, thí nghiệm: 14 tiết
─ Tự học : 60 tiết
3/8/2013
2
Nội dung học phần
STT Tên chƣơng
1
Chương 1: Giới thiệu chung về tin sinh học
2 Chương 2: Cơ sở dữ liệu tin sinh học (Bioinformatic
Databases)
3 Chương 3: Sắp xếp thẳng hàng trình tự (Sequence
Alignment)
4 Chương 4. Phép phân tích hệ thống phát sinh loài
(Phylogeny)
5 Chương 5.Giải mã trình tự toàn bộ bộ gen
6 Chương 6. Ứng dụng các tiện ích của tin sinh học trong
nghiên cứu khoa học
7 Thực hành thao tác trong tin sinh học
8 Báo cáo tiểu luận
Mục tiêu môn học tin sinh học
• Mục tiêu chính:
Khám phá những lĩnh vực mới trong sinh học.
Mở ra triển vọng có tính chất toàn cầu về NC
Thống nhất hóa các nguyên tắc, thành tựu của
khoa học trong sinh học.
Số hóa các cơ sở dữ liệu (database) cũng như xây
dựng cách quản lý CNSH bằng tin học.
Xây dựng và phát triển các chương trình ứng
dụng trong CNSH nhằm giải quyết vấn đề trong
nghiên cứu. VD: cây phát sinh loài, đột biến gen…
3/8/2013
3
Mục tiêu của môn học
Sau khi học xong học phần này, sinh viên có
khả năng:
─ Trình bày các nguyên tắc cơ bản trong phân
tích DNA, phân tích Protein, thiết kế các mồi
oligonucleotide,…
─ Tìm kiếm các bài báo, công trình nghiên
cứu & tìm kiếm các trình tự DNA, Protein.
─ Xử lý và Phân tích DNA, Protein & thiết kế
các oligomer lai phân tử, các primer để khuyếch
đại DNA.
─ Tìm kiếm các bản đồ của các RE trên DNA.
& đăng ký trình tự gene vào ngân hàng gene thế
giới.
Tiêu chí đánh giá môn học
• Bài tập lớn (Tiểu luận): 30%
Nhóm theo chủ đề lớn GV giao (10%
báo cáo Seminar nhóm + báo cáo chủ đề
dạng Report MS Word)
Khác: 20% (chuyên cần, bài tập cá
nhân…)
• Thi kết thúc học phần: 70%
Hình thức thi: vấn đáp (đề mở)
3/8/2013
4
Tài liệu tham khảo
• Tiếng Việt
Nguyễn Thị Lang, Bùi Chí Bửu (2008). ‘Giáo trình Tin
sinh học–Bioinformatics’, Nhà xuất bản nông nghiệp, TP. Hồ
Chí Minh.
Trần Linh Thƣớc và cộng sự (2008). ‘Thực tập
Bioinformatics –Lưu hành nội bộ’, Đại học Khoa học Tự
nhiên TP.HCM.
• Tiếng Anh
Baxevanis, A.D. and Ouellette, B.F.F. (2005).
Bioinformatics: A Practical Guide to the Analysis of Genes
and Proteins, 3rd edition. Wiley. New York.
Waterman, M.S. (1995). Introduction to Computational
Biology: Sequences, Maps and Genomes. CRC Press.
Mount, D.W. (2002). Bioinformatics: Sequence and
Genome, Cold Spring Harbour Press, New York
Yêu cầu chung cho môn học
Tự chia nhóm và nộp cho lớp trưởng tổng
hợp (<=5 người/nhóm). Ai không có
nhóm = không có điểm báo cáo tiểu
luận. (Nộp DS vào tuần 2)
Mỗi nhóm tự trang bị ít nhất 1 laptop +
USB 3G kết nối mạng + 1 USB.
Kiểm tra thông qua các bài báo cáo cá
nhân sau mỗi buổi học (lý thuyết hoặc
thực hành)
3/8/2013
5
GIỚI THIỆU CƠ BẢN
VỀ TIN SINH HỌC
CHƢƠNG I
TỔNG QUAN CHƢƠNG I
Lịch sử & khái niệm tin sinh học
Vì sao phải cần nghiên cứu tin sinh học?
Các lĩnh vực nghiên cứu ứng dụng của
tin sinh học
Các công cụ, kỹ năng phục vụ cho tin
sinh học
Các thuật ngữ sử dụng trong các ứng
dụng tin sinh học
3/8/2013
6
Lịch sử Tin sinh học
• Khởi nguồn từ nhu cầu
cơ bản trong việc tìm
kiếm cũng như nâng cao
các phương pháp tìm
kiếm trong máy tính về
di truyền học
• Làm hữu ích hơn cho sự
tiến bộ của di truyền học
và các kỹ thuật di truyền
cũng như sinh học phân
tử
Lịch sử Tin sinh học
• Sau sự phát kiến cấu trúc phân tử DNA của
Watson-Crick (1953) ngày càng nhiều
nhu cầu quản lý dữ liệu sinh học & CNSH
ở các công ty & các nhà khoa học về
SHPT.
• Chuyển hướng nghiên cứu từ in vitro in
vivo in situ in silico Hình thành
ngành tin sinh học.
3/8/2013
7
Rất khó để xác định khái
niệm khi nào thuật ngữ
“Tin-sinh học”
(Bioinformatics) được sử
dụng theo một số nơi ghi
nhận cách đây từ 1965.
Năm 1968, Margaret
Dayhoff (Mỹ) tập hợp
các trình tự protein thành
bản đồ cấu trúc trình tự
protein
Margaret Dayhoff (1925-1983)
Lịch sử Tin sinh học
Tin sinh học giống như ngành học được biết
đến từ thập niên 1960 trước khi được công
bố tên gọi.
Năm 1965, được gọi tên là “sự tiến hóa
phân tử” (molecular evolution).
Ứng dụng đầu tiên là chương trình so sánh
trình tự xác định trình tự gốc của virus cảm
cúm.
Thuật ngữ Tin sinh học lần đầu tiên được
công nhận toàn thế giới vào năm 1991.
3/8/2013
8
Lịch sử phát triển Tin sinh học
•1994-2004: Số lƣợng gia tăng đột biến do việc khám phá kỹ thuật PCR
•2000-2008: gia tăng do việc khởi đầu dự án giải mã toàn bộ bộ gen các loài
và ngƣời
3/8/2013
9
Lịch sử phát triển của Tin sinh học
3/8/2013
10
TIN SINH HỌC LÀ GÌ??
TIN SINH HỌC LÀ GÌ??
3/8/2013
11
Khái niệm tin sinh học
Tin sinh học (bioinformatics) là môn học được
cơ bản hợp nhất hóa từ tổ hợp các môn sinh
học, khoa học máy tính và các kỹ thuật trong
công nghệ thông tin.
Theo Frank Tekaia, “Tin sinh học là những
phương pháp dựa trên các thuật toán, thống kê
và máy tính để hướng đến việc giải quyết các
vấn đề sinh học sử dụng các chuỗi DNA và
amino acid cùng những thông tin liên quan
đến sinh học”.
Bioinformatics là gì?
22
3/8/2013
12
What is Bioinformatics
Tin sinh học là gì?
Khái niệm tin sinh học
Là phƣơng pháp xác định:
Khả năng phân biệt giữa trình tự của gen
này và trình tự của những gen khác
So sánh các trình tự giữa các loài có
quan hệ huyết thống nhờ các dữ liệu có
sẵn
Tìm kiếm các hợp phần của gen thông
qua các cơ sở dữ liệu trên thế giới.
3/8/2013
13
Tin sinh học là 1 dạng bảng chữ cái sinh
học phân tử (molecular alphabet)
Hầu hết các đại phân tử sinh học là polymer, được sắp xếp thứ
tự từ những phân tử đơn giản hơn được gọi là monomer
Tin sinh học là 1 dạng sắp xếp nhiều chữ cái thành 1 từ có
nghĩa
Monomer Polymer
Nhu cầu tìm hiểu sự khác nhau
giữa các loài có chung nguồn gốc
3/8/2013
14
Sắp xếp các
trình tự và giải
mã trình tự cần
biết thông qua
các website và
phần mềm tin
học
VÌ SAO PHẢI NGHIÊN CỨU
TIN SINH HỌC?
3/8/2013
15
VÌ SAO PHẢI NGHIÊN CỨU
TIN SINH HỌC?
“Tôi mơ ước rằng một ngày nào đó trên mỗi bàn giấy ở
mọi nơi trên thế giới đều có một máy vi tính cá nhân (PC)”
Tin sinh học là xu hƣớng tất
yếu của sự phát triển CNSH
“The two technologies that will shape the next century
are biotechnology and information technology”
– Bill Gates –
“The two technologies that will have the greatest
impact on each other in the new millennium are
biotechnology and information technology”
– Martina McGloughlin -
3/8/2013
16
Vai trò ngày càng lớn của CNTT
Nguồn: ABC News, Australia. 2010
Tầm quan trọng của tin sinh
học trong nghiên cứu khoa học
Khởi đầu sự nghiên cứu tiến hóa hay
nghiên cứu trong hệ genome.
Duy trì và lưu giữ các dữ kiện và số liệu
thông tin trong công nghệ genome bao
gồm thông tin về trình tự DNA, protein
của tất cả sinh vật trên thế giới.
Là công cụ giúp cho phân tích và tập hợp
thống nhất các số liệu về sinh học.
3/8/2013
17
TIN SINH HỌC CHỌN LỌC TỪ GEN MỤC
TIÊU ĐẾN CHỌN TẠO GIỐNG CÓ GIÁ TRỊ
MONG MUỐN
Sự bùng nổ của các kỹ thuật di
truyền: Giải mã trình tự
3/8/2013
18
Internet
Cơ sở dữ
liệu sinh
học
NCBI
120 quốc gia
Anh đã giải mã 30% bản đồ gene
Mỹ, Pháp, Đức, Nhật Bản, Trung Quốc
Các vi sinh vật khác: vi khuẩn, Virus…
Tin sinh học xây dựng, bổ sung, tổ chức quản lý khai khác
cơ sở dữ liệu (database - cơ sở dữ liệu) đa dạng, toàn diện
trên quy mô toàn cầu về công nghệ sinh học.
Chuyển trình
tự Gene
Primary public domain
bioinformatics servers
3/8/2013
19
Các lĩnh vực nghiên cứu ứng
dụng Tin sinh học
Các lĩnh vực nghiên cứu ứng
dụng của tin sinh học
Nghiên cứu chuỗi trình tự DNA và protein
Bộ gene người, động vật, thực vật, côn trùng,
VSV..
Sự tiến hóa sinh học
Đa dạng sinh học di truyền
Chức năng của gene & protein
So sánh các gene & protein
Dự đoán cấu trúc protein
Phân tích kết quả thí nghiệm
Bệnh di truyền
Định danh loài
3/8/2013
20
Các ứng dụng của Tin sinh học
Quy trình thực hiện chung của các phần mềm Tin sinh học
39
BẮT ĐẦU
THÍ NGHIỆM
PHẦN MỀM
XÁC ĐỊNH
LẠI
TỐI ƢU HÓA
THÔNG SỐ
MÁY TÍNH
TIẾN HÀNH
THÍ NGHIỆM
TỪ CÁC THÔNG
SỐ NÀY
TEA-BREAK
3/8/2013
21
Sinh học máy tính
(Computational Biology)
Ngành học của việc ứng dụng các kỹ
thuật tin học cho sinh học cổ điển
Chủ yếu tập trung vào các quá trình tiến
hóa, mật độ phân bố và nguyên lý sinh
họchơn là cấp độ tế bào và sinh học phân
tử
Thuật ngữ có thể dùng thay thế cho
thuật ngữ Tin sinh học
PHÂN TÍCH CƠ SỞ DỮ
LIỆU
42
Phần mềm
sinh học
1. Sản phẩm
nghiên cứu từ
nông nghiệp
2. Sản phẩm
nghiên cứu từ
thực phẩm
3. Sản phẩm từ
môi trƣờng
vv…
Các kỹ thuật
sinh học khi
làm thí nghiệm
3/8/2013
22
Tin y học
(Medical Informatics)
Ngành học và ứng
dụng của các kỹ thuật
tin học để cải thiện các
y học dữ liệu giao tiếp,
hiểu sâu và quản lý dữ
liệu
Tập trung chủ yếu cho
việc làm thế nào dữ
liệu được vận dụng
hơn là chỉ là dữ liệu
đơn thuần.
Tin hóa học
(Chemical Informatics)
Ngành học và ứng
dụng của kỹ thuật
tin học kết hợp với
các kỹ thuật hóa và
sinh học cho việc
điều chế và phát
triển thuốc trị bệnh.
3/8/2013
23
Công nghệ hệ gen
(Genomics)
Phân tích và so sánh toàn bộ genome của 1 loài hoặc nhiều
loài với nhau
1 genome là 1 bộ của tất cả các gen có trong 1 cơ thể
Kỹ thuật gen đã tồn tại trước khi bất kỳ bộ gen nào được
sắp xếp hoàn toàn nhưng trong 1 thời kỳ hoang sơ, nguyên
thủy.
Genomics là môn học nghiên cứu đánh giá các
chức năng và phương pháp phân lập so sánh giữa
các genome. Phương pháp nghiên cứu thường dựa
vào khảo sát các đột biến nhằm định danh các bộ,
họ, loài.
3/8/2013
24
Các lĩnh vực chính trong
genomics
Structural genomics (Gen cấu trúc)
Functional genomics (Gen chức năng)
Comparative genomics (Gen so sánh)
Genomics hiện đang là tâm điểm của
sinh học.
Gen cấu trúc
Tìm hiểu thành phần & cấu trúc bộ gen
Bản đồ di truyền (linking map)
Không có độ phân giải cao
Không thực sự chính xác khi so sánh
Bản đồ vật lý (physical map)
Dựa trên sự phân tích trực tiếp DNA và khoảng
cách giữ các gen theo base (bp), Kilobase (Kb) và
Megabase (Mb)
Giúp cung cấp thông tin về vị trí các gen, DNA
marker và sự phân mảnh NST
3/8/2013
25
Gen chức năng
(Functional genomics)
• Mục tiêu chỉ định, nhận diện tổ chức
gene và nhận ra chức năng của chúng.
– Dự đoán chức năng gen từ trình tự
– Dò tìm chức năng theo hướng đồng dạng
– Dò tìm chức năng dựa trên so sánh vùng
chủ đạo
– Dò tìm theo tính chất biểu hiện phát sinh
loài
– PP Hàng xóm gen (Gene neighboring)
– Kỹ thuật Microarray
Gene học chức năng
• Gene học chức năng (functional genomics) có
thể được định nghĩa nôm na như việc dùng tri
thức tiêu biểu về hệ gene để tìm hiểu về gene, về
các chức năng sản xuất và sự tương tác của
chúng, và quan trọng hơn là vì sao điều này làm
cho các sinh vật hoạt động.
Gene functions (Chức năng gene)
Protein abundance in a cell
(Sự dư thừa protein trong tế bào)
Gene regulation and networks
(Điều khiển gene và mạng gene)
3/8/2013
26
Gene chức năng
– Dường như có một hệ hạn chế các genes (a limited universe of
genes) và proteins tương ứng của chúng. Từ quan điểm chức năng,
rất nhiều trong chúng có trong phần lớn hoặc toàn bộ hệ các genes.
– Sự dƣ thừa protein (protein abundance) có thể phụ thuộc vào
nhiều yếu tố như liệu gene tương ứng có được biểu hiện (expressed)
(i.e., được sao chép tích cực) hay không, được thể hiện nhanh và
mạnh thế nào, được nối ghép, dịch chuyển, và thay đổi nhanh thế
nào, v.v….
– Thể hiện gene (gene expression) là quá trình qua đó thông tin mã
hóa trong một gene được truyền vào cấu trúc đang có trong tế bào và
điều khiển tế bào (hoặc proteins hoặc RNAs).
– Một câu hỏi quan trọng và lý thú khác trong sinh học là sự biểu hiện
gene được “bật” và “tắt” thế nào, tức là các genes được điều chỉnh
thế nào.
Tin sinh học trong công nghệ
protein (Proteomics)
• Proteomics là
ngành học phân
tích các mẫu sinh
học về hàm
lượng, sự phân
bố và hoạt động
của protein.
3/8/2013
27
Tin sinh học trong so sánh trình tự
(Sequence Alignment)
• Là ngành học nghiên cứu các phương pháp
so sánh chuỗi trình tự protein hay DNA với
chuỗi trình tự khác nhằm tìm ra:
– Sự tương đồng giữa 2 chuỗi
– So sánh 1 gen và sản phẩm của nó
– Tìm ra cầu nối disulfide hay các vị trí xúc tác
– Tìm primer hay các đoạn gen đột biến trên gene
– Tìm ra các đoạn lặp lại trên chuỗi trình tự
Tin sinh học trong nghiên cứu các quan
hệ tiến hóa (Phylogenetic analysis)
Là ngành nghiên cứu
các mối quan hệ có
tính chất tiến hóa
trong bộ các chuỗi
trình tự giống nhau
nhờ phương pháp tạo
cây gia hệ
(phylogenetic tree)
với các nhánh đại diện
với tính chất gần gũi.
3/8/2013
28
Các công cụ, kỹ năng cần
thiết cho tin sinh học
Là một lĩnh vực khá đặc biệt trong công nghệ
sinh học và sinh học hiện đại, Tin-Sinh học
cũng cần có những công cụ riêng phục vụ
cho nhu cầu và sự phát triển của nó. Những
công cụ cơ bản có thể bao gồm:
Máy tính (Computer) và hệ thống máy tính
Các thuật toán (Algorithms)
Các công cụ (tools) và phần mềm (software)
Internet
Thông tin Tin sinh học trên Internet
Hầu hết các thông tin CSDL của Tin sinh
học cũng giống như khoa học máy tính
đều phải thông qua Internet
– Các cơ sở DL trực tuyến:
– NCBI (The National Centre for
Biotechnology Information)
– EMBL (European Bioinformatics Institute)
– TIGR (The Institute for Genomic
Research)…
• Các dự án về giải mã bộ gene người
(Human genome project-HGP)
3/8/2013
29
Các cơ sở dữ liệu sinh học lớn
trên thế giới
• Là những nơi chứa 1 lượng lớn các thông
tin về sinh học như các báo cáo khoa học,
cấu trúc chuỗi DNA, genome, protein,
enzyme
– NCBI (The National Center for Biotechnology
Information)
– EMBL (The European Molecular Biology
Laboratory)
– CIB –DDBJ (DNA Data Bank of Japan)
– TIGR (The Institute for Genomic Research)
– ExPASy (Expert Protein Analysis System)
Ngân hàng dữ liệu protein quốc tế
• Nơi cung cấp các kết quả nghiên cứu
protein và các dữ liệu cấu trúc sinh học
phân tử gồm 4 phòng nghiên cứu lớn
– PDP-RCSB (Mỹ) www.rcsb.org/pdb
– EMBL-EBI (Châu Âu) www.ebi.ac.uk/msd
– PDBj (Nhật Bản) www.PDBj.org
– BMRB (Mỹ) www.bmrb.wisc.edu
3/8/2013
30
KẾT LUẬN
• Tin sinh học cơ bản là nơi tìm kiếm các
kỹ thuật và phương pháp di truyền và sinh
học phân tử mà trong đó máy tính có thể
hữu ích cho các phương pháp di truyền kỹ
thuật cao.
• Các ứng dụng của tin sinh học trong
nghiên cứu khoa học và thực tiễn
• Các ngân hàng dữ liệu trên thế giới.
Challenges in Bioinformatics
• Tin sinh học đòi hỏi:
– Truy nhập vào được nhiều nguồn phân tán (Access
to multiple distributed resources)
– Cần thông tin được cập nhật (Needs information to
be up-to-date)
– Dư thừa dữ liệu tối thiểu (Minimal data
redundancy)
– Các ứng dụng ổn định (Robust applications)
– Các ứng dụng mở rộng được (Extendable
applications)
– Monolithic App. vs. Components
– Các phần mềm chuyển tải được (Portable software)
3/8/2013
31
Challenges in Bioinformatics
Bùng nổ thông tin
• Cần phân tích được nhanh, tự động để xử lý được
lượng thông tin lớn
• Cần tích hợp được nhiều kiểu thông tin khác nhau
(sequences, literature, annotations, protein levels,
RNA levels etc…)
• Cần các phần mềm “thông minh hơn” để nhận biết
được các quan hệ quan trọng trong các tập dữ liệu rất
lớn.
Thiếu các “nhà tin sinh học” (“bioinformaticians”)
• Phần mềm cần dễ truy nhập, dễ dùng và dễ hiểu hơn
• Nhà sinh học cần học phần mềm, thấy hạn chế của
chúng, và cách giải thích kết quả của chúng.
Con đƣờng tin sinh học
“It’s not the strongest, nor the most
intelligent, but the species most
adaptable to change has the best
chance of survival”
- Darwin -
3/8/2013
32
KIẾN THỨC CẦN NHỚ
Các định nghĩa về tin sinh học, các ứng
dụng tin sinh học trong CNSH
Lịch sử tin sinh học bắt nguồn từ khi nào?
Thế nào là hệ gen học (genomics)? Các hệ
gen học cơ bản trong nghiên cứu?
Các công cụ và kỹ năng cần thiết cho tin
sinh học?
Nêu các lĩnh vực ứng dụng của tin sinh
học?
KẾT THÚC CHƢƠNG I
3/8/2013
33
TEA-BREAK