Chương 1 Giới thiệu cơ bản về tin sinh học

Lịch sử & khái niệm tin sinh học Vì sao phải cần nghiên cứu tin sinh học? Các lĩnh vực nghiên cứu ứng dụng của tin sinh học Các công cụ, kỹ năng phục vụ cho tin sinh học Các thuật ngữ sử dụng trong các ứng dụng tin sinh học

pdf33 trang | Chia sẻ: lylyngoc | Lượt xem: 3346 | Lượt tải: 3download
Bạn đang xem trước 20 trang tài liệu Chương 1 Giới thiệu cơ bản về tin sinh học, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
3/8/2013 1 Giới thiệu chung về Tin sinh học GV: ThS. Nguyễn Thành Luân Email: luannt@cntp.edu.vn Liên hệ: Khu A Lầu 3 Khoa CNSH & KTMT TRƢỜNG ĐH CÔNG NGHIỆP THỰC PHẨM TPHCM KHOA CNSH & KTMT HỆ ĐẠI HỌC TIN SINH HỌC • Mã học phần : 08200018 • Số tín chỉ : 2 • Trình độ: Cho sinh viên năm thứ 3 đại học • Phân bố thời gian: 30 tiết ─ Lý thuyết: 12 tiết ─ Tiểu luận, bài kiểm tra tại lớp: 4 tiết ─ Thực hành, thí nghiệm: 14 tiết ─ Tự học : 60 tiết 3/8/2013 2 Nội dung học phần STT Tên chƣơng 1 Chương 1: Giới thiệu chung về tin sinh học 2 Chương 2: Cơ sở dữ liệu tin sinh học (Bioinformatic Databases) 3 Chương 3: Sắp xếp thẳng hàng trình tự (Sequence Alignment) 4 Chương 4. Phép phân tích hệ thống phát sinh loài (Phylogeny) 5 Chương 5.Giải mã trình tự toàn bộ bộ gen 6 Chương 6. Ứng dụng các tiện ích của tin sinh học trong nghiên cứu khoa học 7 Thực hành thao tác trong tin sinh học 8 Báo cáo tiểu luận Mục tiêu môn học tin sinh học • Mục tiêu chính: Khám phá những lĩnh vực mới trong sinh học. Mở ra triển vọng có tính chất toàn cầu về NC Thống nhất hóa các nguyên tắc, thành tựu của khoa học trong sinh học. Số hóa các cơ sở dữ liệu (database) cũng như xây dựng cách quản lý CNSH bằng tin học. Xây dựng và phát triển các chương trình ứng dụng trong CNSH nhằm giải quyết vấn đề trong nghiên cứu. VD: cây phát sinh loài, đột biến gen… 3/8/2013 3 Mục tiêu của môn học Sau khi học xong học phần này, sinh viên có khả năng: ─ Trình bày các nguyên tắc cơ bản trong phân tích DNA, phân tích Protein, thiết kế các mồi oligonucleotide,… ─ Tìm kiếm các bài báo, công trình nghiên cứu & tìm kiếm các trình tự DNA, Protein. ─ Xử lý và Phân tích DNA, Protein & thiết kế các oligomer lai phân tử, các primer để khuyếch đại DNA. ─ Tìm kiếm các bản đồ của các RE trên DNA. & đăng ký trình tự gene vào ngân hàng gene thế giới. Tiêu chí đánh giá môn học • Bài tập lớn (Tiểu luận): 30% Nhóm theo chủ đề lớn GV giao (10% báo cáo Seminar nhóm + báo cáo chủ đề dạng Report MS Word) Khác: 20% (chuyên cần, bài tập cá nhân…) • Thi kết thúc học phần: 70% Hình thức thi: vấn đáp (đề mở) 3/8/2013 4 Tài liệu tham khảo • Tiếng Việt Nguyễn Thị Lang, Bùi Chí Bửu (2008). ‘Giáo trình Tin sinh học–Bioinformatics’, Nhà xuất bản nông nghiệp, TP. Hồ Chí Minh. Trần Linh Thƣớc và cộng sự (2008). ‘Thực tập Bioinformatics –Lưu hành nội bộ’, Đại học Khoa học Tự nhiên TP.HCM. • Tiếng Anh Baxevanis, A.D. and Ouellette, B.F.F. (2005). Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, 3rd edition. Wiley. New York. Waterman, M.S. (1995). Introduction to Computational Biology: Sequences, Maps and Genomes. CRC Press. Mount, D.W. (2002). Bioinformatics: Sequence and Genome, Cold Spring Harbour Press, New York Yêu cầu chung cho môn học Tự chia nhóm và nộp cho lớp trưởng tổng hợp (<=5 người/nhóm). Ai không có nhóm = không có điểm báo cáo tiểu luận. (Nộp DS vào tuần 2) Mỗi nhóm tự trang bị ít nhất 1 laptop + USB 3G kết nối mạng + 1 USB. Kiểm tra thông qua các bài báo cáo cá nhân sau mỗi buổi học (lý thuyết hoặc thực hành) 3/8/2013 5 GIỚI THIỆU CƠ BẢN VỀ TIN SINH HỌC CHƢƠNG I TỔNG QUAN CHƢƠNG I Lịch sử & khái niệm tin sinh học Vì sao phải cần nghiên cứu tin sinh học? Các lĩnh vực nghiên cứu ứng dụng của tin sinh học Các công cụ, kỹ năng phục vụ cho tin sinh học Các thuật ngữ sử dụng trong các ứng dụng tin sinh học 3/8/2013 6 Lịch sử Tin sinh học • Khởi nguồn từ nhu cầu cơ bản trong việc tìm kiếm cũng như nâng cao các phương pháp tìm kiếm trong máy tính về di truyền học • Làm hữu ích hơn cho sự tiến bộ của di truyền học và các kỹ thuật di truyền cũng như sinh học phân tử Lịch sử Tin sinh học • Sau sự phát kiến cấu trúc phân tử DNA của Watson-Crick (1953)  ngày càng nhiều nhu cầu quản lý dữ liệu sinh học & CNSH ở các công ty & các nhà khoa học về SHPT. • Chuyển hướng nghiên cứu từ in vitro  in vivo  in situ  in silico  Hình thành ngành tin sinh học. 3/8/2013 7 Rất khó để xác định khái niệm khi nào thuật ngữ “Tin-sinh học” (Bioinformatics) được sử dụng theo một số nơi ghi nhận cách đây từ 1965. Năm 1968, Margaret Dayhoff (Mỹ) tập hợp các trình tự protein thành bản đồ cấu trúc trình tự protein Margaret Dayhoff (1925-1983) Lịch sử Tin sinh học Tin sinh học giống như ngành học được biết đến từ thập niên 1960 trước khi được công bố tên gọi. Năm 1965, được gọi tên là “sự tiến hóa phân tử” (molecular evolution). Ứng dụng đầu tiên là chương trình so sánh trình tự xác định trình tự gốc của virus cảm cúm. Thuật ngữ Tin sinh học lần đầu tiên được công nhận toàn thế giới vào năm 1991. 3/8/2013 8 Lịch sử phát triển Tin sinh học •1994-2004: Số lƣợng gia tăng đột biến do việc khám phá kỹ thuật PCR •2000-2008: gia tăng do việc khởi đầu dự án giải mã toàn bộ bộ gen các loài và ngƣời 3/8/2013 9 Lịch sử phát triển của Tin sinh học 3/8/2013 10 TIN SINH HỌC LÀ GÌ?? TIN SINH HỌC LÀ GÌ?? 3/8/2013 11 Khái niệm tin sinh học Tin sinh học (bioinformatics) là môn học được cơ bản hợp nhất hóa từ tổ hợp các môn sinh học, khoa học máy tính và các kỹ thuật trong công nghệ thông tin. Theo Frank Tekaia, “Tin sinh học là những phương pháp dựa trên các thuật toán, thống kê và máy tính để hướng đến việc giải quyết các vấn đề sinh học sử dụng các chuỗi DNA và amino acid cùng những thông tin liên quan đến sinh học”. Bioinformatics là gì? 22 3/8/2013 12 What is Bioinformatics Tin sinh học là gì? Khái niệm tin sinh học Là phƣơng pháp xác định: Khả năng phân biệt giữa trình tự của gen này và trình tự của những gen khác So sánh các trình tự giữa các loài có quan hệ huyết thống nhờ các dữ liệu có sẵn Tìm kiếm các hợp phần của gen thông qua các cơ sở dữ liệu trên thế giới. 3/8/2013 13 Tin sinh học là 1 dạng bảng chữ cái sinh học phân tử (molecular alphabet) Hầu hết các đại phân tử sinh học là polymer, được sắp xếp thứ tự từ những phân tử đơn giản hơn được gọi là monomer Tin sinh học là 1 dạng sắp xếp nhiều chữ cái thành 1 từ có nghĩa Monomer Polymer Nhu cầu tìm hiểu sự khác nhau giữa các loài có chung nguồn gốc 3/8/2013 14 Sắp xếp các trình tự và giải mã trình tự cần biết thông qua các website và phần mềm tin học VÌ SAO PHẢI NGHIÊN CỨU TIN SINH HỌC? 3/8/2013 15 VÌ SAO PHẢI NGHIÊN CỨU TIN SINH HỌC? “Tôi mơ ước rằng một ngày nào đó trên mỗi bàn giấy ở mọi nơi trên thế giới đều có một máy vi tính cá nhân (PC)” Tin sinh học là xu hƣớng tất yếu của sự phát triển CNSH “The two technologies that will shape the next century are biotechnology and information technology” – Bill Gates – “The two technologies that will have the greatest impact on each other in the new millennium are biotechnology and information technology” – Martina McGloughlin - 3/8/2013 16 Vai trò ngày càng lớn của CNTT Nguồn: ABC News, Australia. 2010 Tầm quan trọng của tin sinh học trong nghiên cứu khoa học Khởi đầu sự nghiên cứu tiến hóa hay nghiên cứu trong hệ genome. Duy trì và lưu giữ các dữ kiện và số liệu thông tin trong công nghệ genome bao gồm thông tin về trình tự DNA, protein của tất cả sinh vật trên thế giới. Là công cụ giúp cho phân tích và tập hợp thống nhất các số liệu về sinh học. 3/8/2013 17 TIN SINH HỌC CHỌN LỌC TỪ GEN MỤC TIÊU ĐẾN CHỌN TẠO GIỐNG CÓ GIÁ TRỊ MONG MUỐN Sự bùng nổ của các kỹ thuật di truyền: Giải mã trình tự 3/8/2013 18 Internet Cơ sở dữ liệu sinh học NCBI 120 quốc gia Anh đã giải mã 30% bản đồ gene Mỹ, Pháp, Đức, Nhật Bản, Trung Quốc Các vi sinh vật khác: vi khuẩn, Virus… Tin sinh học xây dựng, bổ sung, tổ chức quản lý khai khác cơ sở dữ liệu (database - cơ sở dữ liệu) đa dạng, toàn diện trên quy mô toàn cầu về công nghệ sinh học. Chuyển trình tự Gene Primary public domain bioinformatics servers 3/8/2013 19 Các lĩnh vực nghiên cứu ứng dụng Tin sinh học Các lĩnh vực nghiên cứu ứng dụng của tin sinh học Nghiên cứu chuỗi trình tự DNA và protein Bộ gene người, động vật, thực vật, côn trùng, VSV.. Sự tiến hóa sinh học Đa dạng sinh học di truyền Chức năng của gene & protein So sánh các gene & protein Dự đoán cấu trúc protein Phân tích kết quả thí nghiệm Bệnh di truyền Định danh loài 3/8/2013 20 Các ứng dụng của Tin sinh học Quy trình thực hiện chung của các phần mềm Tin sinh học 39 BẮT ĐẦU THÍ NGHIỆM PHẦN MỀM XÁC ĐỊNH LẠI TỐI ƢU HÓA THÔNG SỐ MÁY TÍNH TIẾN HÀNH THÍ NGHIỆM TỪ CÁC THÔNG SỐ NÀY TEA-BREAK 3/8/2013 21 Sinh học máy tính (Computational Biology) Ngành học của việc ứng dụng các kỹ thuật tin học cho sinh học cổ điển Chủ yếu tập trung vào các quá trình tiến hóa, mật độ phân bố và nguyên lý sinh họchơn là cấp độ tế bào và sinh học phân tử  Thuật ngữ có thể dùng thay thế cho thuật ngữ Tin sinh học PHÂN TÍCH CƠ SỞ DỮ LIỆU 42 Phần mềm sinh học 1. Sản phẩm nghiên cứu từ nông nghiệp 2. Sản phẩm nghiên cứu từ thực phẩm 3. Sản phẩm từ môi trƣờng vv… Các kỹ thuật sinh học khi làm thí nghiệm 3/8/2013 22 Tin y học (Medical Informatics) Ngành học và ứng dụng của các kỹ thuật tin học để cải thiện các y học dữ liệu giao tiếp, hiểu sâu và quản lý dữ liệu Tập trung chủ yếu cho việc làm thế nào dữ liệu được vận dụng hơn là chỉ là dữ liệu đơn thuần. Tin hóa học (Chemical Informatics) Ngành học và ứng dụng của kỹ thuật tin học kết hợp với các kỹ thuật hóa và sinh học cho việc điều chế và phát triển thuốc trị bệnh. 3/8/2013 23 Công nghệ hệ gen (Genomics) Phân tích và so sánh toàn bộ genome của 1 loài hoặc nhiều loài với nhau 1 genome là 1 bộ của tất cả các gen có trong 1 cơ thể Kỹ thuật gen đã tồn tại trước khi bất kỳ bộ gen nào được sắp xếp hoàn toàn nhưng trong 1 thời kỳ hoang sơ, nguyên thủy. Genomics là môn học nghiên cứu đánh giá các chức năng và phương pháp phân lập so sánh giữa các genome. Phương pháp nghiên cứu thường dựa vào khảo sát các đột biến nhằm định danh các bộ, họ, loài. 3/8/2013 24 Các lĩnh vực chính trong genomics Structural genomics (Gen cấu trúc) Functional genomics (Gen chức năng) Comparative genomics (Gen so sánh)  Genomics hiện đang là tâm điểm của sinh học. Gen cấu trúc Tìm hiểu thành phần & cấu trúc bộ gen Bản đồ di truyền (linking map) Không có độ phân giải cao Không thực sự chính xác khi so sánh Bản đồ vật lý (physical map) Dựa trên sự phân tích trực tiếp DNA và khoảng cách giữ các gen theo base (bp), Kilobase (Kb) và Megabase (Mb) Giúp cung cấp thông tin về vị trí các gen, DNA marker và sự phân mảnh NST 3/8/2013 25 Gen chức năng (Functional genomics) • Mục tiêu chỉ định, nhận diện tổ chức gene và nhận ra chức năng của chúng. – Dự đoán chức năng gen từ trình tự – Dò tìm chức năng theo hướng đồng dạng – Dò tìm chức năng dựa trên so sánh vùng chủ đạo – Dò tìm theo tính chất biểu hiện phát sinh loài – PP Hàng xóm gen (Gene neighboring) – Kỹ thuật Microarray Gene học chức năng • Gene học chức năng (functional genomics) có thể được định nghĩa nôm na như việc dùng tri thức tiêu biểu về hệ gene để tìm hiểu về gene, về các chức năng sản xuất và sự tương tác của chúng, và quan trọng hơn là vì sao điều này làm cho các sinh vật hoạt động. Gene functions (Chức năng gene) Protein abundance in a cell (Sự dư thừa protein trong tế bào) Gene regulation and networks (Điều khiển gene và mạng gene) 3/8/2013 26 Gene chức năng – Dường như có một hệ hạn chế các genes (a limited universe of genes) và proteins tương ứng của chúng. Từ quan điểm chức năng, rất nhiều trong chúng có trong phần lớn hoặc toàn bộ hệ các genes. – Sự dƣ thừa protein (protein abundance) có thể phụ thuộc vào nhiều yếu tố như liệu gene tương ứng có được biểu hiện (expressed) (i.e., được sao chép tích cực) hay không, được thể hiện nhanh và mạnh thế nào, được nối ghép, dịch chuyển, và thay đổi nhanh thế nào, v.v…. – Thể hiện gene (gene expression) là quá trình qua đó thông tin mã hóa trong một gene được truyền vào cấu trúc đang có trong tế bào và điều khiển tế bào (hoặc proteins hoặc RNAs). – Một câu hỏi quan trọng và lý thú khác trong sinh học là sự biểu hiện gene được “bật” và “tắt” thế nào, tức là các genes được điều chỉnh thế nào. Tin sinh học trong công nghệ protein (Proteomics) • Proteomics là ngành học phân tích các mẫu sinh học về hàm lượng, sự phân bố và hoạt động của protein. 3/8/2013 27 Tin sinh học trong so sánh trình tự (Sequence Alignment) • Là ngành học nghiên cứu các phương pháp so sánh chuỗi trình tự protein hay DNA với chuỗi trình tự khác nhằm tìm ra: – Sự tương đồng giữa 2 chuỗi – So sánh 1 gen và sản phẩm của nó – Tìm ra cầu nối disulfide hay các vị trí xúc tác – Tìm primer hay các đoạn gen đột biến trên gene – Tìm ra các đoạn lặp lại trên chuỗi trình tự Tin sinh học trong nghiên cứu các quan hệ tiến hóa (Phylogenetic analysis) Là ngành nghiên cứu các mối quan hệ có tính chất tiến hóa trong bộ các chuỗi trình tự giống nhau nhờ phương pháp tạo cây gia hệ (phylogenetic tree) với các nhánh đại diện với tính chất gần gũi. 3/8/2013 28 Các công cụ, kỹ năng cần thiết cho tin sinh học Là một lĩnh vực khá đặc biệt trong công nghệ sinh học và sinh học hiện đại, Tin-Sinh học cũng cần có những công cụ riêng phục vụ cho nhu cầu và sự phát triển của nó. Những công cụ cơ bản có thể bao gồm: Máy tính (Computer) và hệ thống máy tính Các thuật toán (Algorithms) Các công cụ (tools) và phần mềm (software) Internet Thông tin Tin sinh học trên Internet Hầu hết các thông tin CSDL của Tin sinh học cũng giống như khoa học máy tính đều phải thông qua Internet – Các cơ sở DL trực tuyến: – NCBI (The National Centre for Biotechnology Information) – EMBL (European Bioinformatics Institute) – TIGR (The Institute for Genomic Research)… • Các dự án về giải mã bộ gene người (Human genome project-HGP) 3/8/2013 29 Các cơ sở dữ liệu sinh học lớn trên thế giới • Là những nơi chứa 1 lượng lớn các thông tin về sinh học như các báo cáo khoa học, cấu trúc chuỗi DNA, genome, protein, enzyme – NCBI (The National Center for Biotechnology Information) – EMBL (The European Molecular Biology Laboratory) – CIB –DDBJ (DNA Data Bank of Japan) – TIGR (The Institute for Genomic Research) – ExPASy (Expert Protein Analysis System) Ngân hàng dữ liệu protein quốc tế • Nơi cung cấp các kết quả nghiên cứu protein và các dữ liệu cấu trúc sinh học phân tử gồm 4 phòng nghiên cứu lớn – PDP-RCSB (Mỹ) www.rcsb.org/pdb – EMBL-EBI (Châu Âu) www.ebi.ac.uk/msd – PDBj (Nhật Bản) www.PDBj.org – BMRB (Mỹ) www.bmrb.wisc.edu 3/8/2013 30 KẾT LUẬN • Tin sinh học cơ bản là nơi tìm kiếm các kỹ thuật và phương pháp di truyền và sinh học phân tử mà trong đó máy tính có thể hữu ích cho các phương pháp di truyền kỹ thuật cao. • Các ứng dụng của tin sinh học trong nghiên cứu khoa học và thực tiễn • Các ngân hàng dữ liệu trên thế giới. Challenges in Bioinformatics • Tin sinh học đòi hỏi: – Truy nhập vào được nhiều nguồn phân tán (Access to multiple distributed resources) – Cần thông tin được cập nhật (Needs information to be up-to-date) – Dư thừa dữ liệu tối thiểu (Minimal data redundancy) – Các ứng dụng ổn định (Robust applications) – Các ứng dụng mở rộng được (Extendable applications) – Monolithic App. vs. Components – Các phần mềm chuyển tải được (Portable software) 3/8/2013 31 Challenges in Bioinformatics Bùng nổ thông tin • Cần phân tích được nhanh, tự động để xử lý được lượng thông tin lớn • Cần tích hợp được nhiều kiểu thông tin khác nhau (sequences, literature, annotations, protein levels, RNA levels etc…) • Cần các phần mềm “thông minh hơn” để nhận biết được các quan hệ quan trọng trong các tập dữ liệu rất lớn. Thiếu các “nhà tin sinh học” (“bioinformaticians”) • Phần mềm cần dễ truy nhập, dễ dùng và dễ hiểu hơn • Nhà sinh học cần học phần mềm, thấy hạn chế của chúng, và cách giải thích kết quả của chúng. Con đƣờng tin sinh học “It’s not the strongest, nor the most intelligent, but the species most adaptable to change has the best chance of survival” - Darwin - 3/8/2013 32 KIẾN THỨC CẦN NHỚ Các định nghĩa về tin sinh học, các ứng dụng tin sinh học trong CNSH Lịch sử tin sinh học bắt nguồn từ khi nào? Thế nào là hệ gen học (genomics)? Các hệ gen học cơ bản trong nghiên cứu? Các công cụ và kỹ năng cần thiết cho tin sinh học? Nêu các lĩnh vực ứng dụng của tin sinh học? KẾT THÚC CHƢƠNG I 3/8/2013 33 TEA-BREAK
Tài liệu liên quan