Chương 3 Sắp xếp thẳng hàng trình tự (sequence alignment)

• Khái niệm về sắp xếp trình tự • Tại sao phải nghiên cứu sắp xếp trình tự? • Phân loại PP sắp xếp trình tự • Các biểu hiện của phương pháp sắp xếp trình tự • Các phương pháp so sánh trình tự thông dụng • Ứng dụng của sắp xếp trình tự thẳng hàng

pdf21 trang | Chia sẻ: lylyngoc | Lượt xem: 2762 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Chương 3 Sắp xếp thẳng hàng trình tự (sequence alignment), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
3/26/2013 1 Chƣơng 3 SẮP XẾP THẲNG HÀNG TRÌNH TỰ (SEQUENCE ALIGNMENT) TRƢỜNG ĐH CÔNG NGHIỆP THỰC PHẨM TPHCM KHOA CNSH & KTMT ThS. Nguyễn Thành Luân Email: luannt@cntp.edu.vn BÀI GIẢNG TIN SINH HỌC HỆ ĐẠI HỌC NỘI DUNG BÀI HỌC • Khái niệm về sắp xếp trình tự • Tại sao phải nghiên cứu sắp xếp trình tự? • Phân loại PP sắp xếp trình tự • Các biểu hiện của phương pháp sắp xếp trình tự • Các phương pháp so sánh trình tự thông dụng • Ứng dụng của sắp xếp trình tự thẳng hàng 3/26/2013 2 KHÁI NIỆM • Theo tin sinh học, sắp xếp thẳng hàng trình tự là 1 cách sắp xếp các trình tự của DNA, RNA hay protein để xác định hay so sánh các vùng tương đồng của các mối quan hệ chức năng, cấu trúc hay tiến hóa của trình tự cần nhận biết. • Sắp xếp thẳng hàng trình tự là phương pháp sắp xếp hai hoặc nhiều trình tự nhằm đạt được sự giống nhau tối đa. KHÁI NIỆM Các trình tự sắp xếp thường là các nucleotide hay amino acid được diễn tả theo các hàng với một thuật ngữ nhất định. Các khoảng trắng (gaps) được diễn ra như là các ký tự tương đồng hoặc xác định (thêm vào hoặc mất đi) được sắp xếp theo dạng cột Ý nghĩa của sắp xếp thẳng hàng trình tự • Quá trình tạo ra sự sắp xếp nhằm tìm ra các cách sắp xếp tốt nhất trong CSDL gồm các trình tự riêng biệt. • Nhằm nêu bật sự giống nhau giữa các trình tự 3/26/2013 3 Ý nghĩa của sắp xếp thẳng hàng trình tự • Được dùng để nghiên cứu & giải thích sự tiến hóa của các trình tự từ một tổ tiên chung • Tính toán các bắt cặp không chính xác trong trình tự tương ứng với các đột biến. VÌ SAO PHẢI SẮP XẾP TRÌNH TỰ “Tôi tin rằng, sẽ có một ngày, mặc dù tôi sẽ không còn sống để chứng kiến điều đó, chúng ta sẽ có những cây tiến hóa chính xác về các loài sinh giới trong tự nhiên này” -Charles Darwin- VÌ SAO PHẢI SẮP XẾP TRÌNH TỰ • Nhu cầu tìm hiểu mối quan hệ tiến hóa của các loài sinh giới • Làm sáng tỏ các lý giải sinh học về các protein: dựa trên các vùng bảo toàn sinh học quan trọng (proteomics) • Xây dựng giả thiết về cấu trúc 3-D của protein • Xây dựng giả thiết về chức năng của protein 3/26/2013 4 Phƣơng pháp nhận diện • Làm thế nào để các biểu hiện về loài khác nhau trong sinh giới được phân tích?  SẮP XẾP TRÌNH TỰ – So sánh trình tự toàn bộ (Global) vs khu vực (Local Alignment) – So sánh cặp (Pairwise) vs so sánh đa trình tự (Multiple Alignment) Phân loại sắp xếp trình tự • Được chia thành 2 dạng: – Sắp xếp theo trình tự cặp (PAIRWISE ALIGNMENT) – Sắp xếp theo nhiều trình tự (MULTIPLE ALIGNMENT) Sắp xếp trình tự theo cặp (Pairwise alignment) • Sắp xếp trình tự theo cặp là phương pháp so sánh & tìm kiếm cách khả dĩ nhất của một trình tự của gen (protein hay nucleotide) chưa biết trùng khớp nhất của 1 chuỗi protein (amino acid) hay DNA (nucleic acid) đã biết. • Mục đích: Tìm ra mối quan hệ đồng đẳng của một gene hay một sản phẩm-gen trong một cơ sở dữ liệu các thông tin mẫu đã có sẵn. 3/26/2013 5 So sánh trình tự theo cặp Khám phá các thông tin về: -Chức năng -Cấu trúc chuỗi -Quan hệ tiến hóa Bắt cặp trình tự • Các trình tự này có thể được xen bằng các khoảng trống (gạch ngang) tại các vị trí có thể để biểu diễn các cột xác định (identical) hoặc tương tự nhau (similar). TCCTCTGCCTCTGCCATCAT---CAACCCCAAAGT | | | | | | | | | | | | | | | | | | | | | | | | | | | | | CCTGTGCATCTGCAATCATGGGCAACCCCAAAGT Sắp xếp trình tự toàn bộ (Global Alignment) • Tìm ra các trình tự toàn phần tốt nhất (total sequence) 3/26/2013 6 Sắp xếp trình tự cục bộ (Local Alignment) • Tìm ra đoạn trình tự ngắn có giá trị bảo tồn cao (optimize the sequence) Ứng dụng sắp xếp thẳng hàng theo cặp • Những câu hỏi mà các nhà nghiên cứu dùng BLAST để tìm câu trả lời. • Chủng loại vi khuẩn nào có các protein có liên hệ về giống loài với một loại protein khác mà có chuỗi amino-acid mà ta đã biết không?. • Chuỗi DNA mà ta vừa sắp xếp có nguồn gốc từ đâu? • Có gen nào khác dùng để mã hóa các protein có cấu trúc gần với cái mà ta vừa xác định không?. • BLAST còn được dùng kết hợp với các giải thuật khác có đòi hỏi sự sao trùng chuỗi gần đúng. Tầm quan trọng của việc sắp xếp trình tự thẳng hàng theo cặp Khi 2 cặp trình tự được so sánh được gọi là đồng đẳng vì cả 2 đều có chung nguồn gốc từ 1 tổ tiên 3/26/2013 7 So sánh các đặc tính di truyền của các loài Hemoglobin Tính đồng đẳng của trình tự (Homology) Là những trình tự biểu hiện ở cũng 1 cơ quan (hay cơ thể) của những loài động vật khác nhau dƣới 1 sự khác biệt về hình thức và chức năng Biểu hiện homology ở những loài động vật có xƣơng sống • Cấu trúc xương tay/cánh/vây Ngƣời Khỉ Chim Cá 3/26/2013 8 Ví dụ Tìm hiểu cấu trúc của 1 gene không điển hình có thể được suy ra từ 1 gen điển hình.  Kết quả sắp xếp trình tự nhận thấy β-sheet hiện diện ở RT’ase người, nhưng không biểu hiện gen α-helix. Biểu hiện gen đồng đẳng qua quá trình hình thành loài (Orthology) Gene biểu hiện hình thành loài với tổ tiên chung của chúng không trải qua quá trình sao chép gen (=gen giống nhau ở các loài khác nhau) GENE SPECIATION  ORTHOLOGS Biểu hiện gen đồng đẳng qua quá trình sao chép gen (Paralogy) Gen biểu hiện sao chép gen với tổ tiên của chúng đã trải qua quá trình sao chép gen  Gen tiến hóa bởi các đột biến nhưng cũng làm gia tăng sự đa dạng gen bằng việc nhân bản sao chép gen. ERRORS IN GENE REPLICATION  PARALOGS (GENE DUPLICATION) 3/26/2013 9 Ví dụ Ứng dụng so sánh trình tự cặp • Phát hiện & xác định 1 nhóm gene đã biết – E.g So sánh 2 loại muỗi Aedes aegypti vs. Anopheles gambiae • Xác định gene của Aedes dựa trên những gì đã biết về Anopheles • Trình tự chưa biết – So sánh các nhóm protein đã biết để tìm hiểu chức năng khả dĩ nhất cho protein so sánh Ứng dụng so sánh trình tự cặp • Trƣờng hợp đơn giản nhất: trình tự gen tổ tiên là trình tự gen hiện tại trong 2 loài có chung nguồn gốc là DNA polymerase ở người và tinh tinh • So sánh đột biến (X và Y) được gom góp qua giai đoạn phân kỳ của người và tinh tinh (khoảng 5tr năm trước) • Không thể tính toán được dễ dàng số lượng đột biến X hay Y nhưng có thể tính toán tổng X + Y nhờ số lượng trình tự khác biệt trong phép so sánh 3/26/2013 10 Tin sinh học trả lời mối quan hệ họ hàng BREAK - TIME Các phƣơng pháp so sánh trình tự thông dụng • Phương pháp so sánh ma trận điểm (Dot-matrix) • Phương pháp phân tích theo dạng lượt dọc các ô (Sliding Windows) 3/26/2013 11 Dot-matrix Phƣơng pháp phân tích theo dạng lƣợt dọc các ô (Sliding Windows) 3/26/2013 12 Phân tích so sánh NST  Mã hóa so sánh 1 NST này với 1 NST khác. Tìm sự tương đồng giữa các NST từ các loài có mối quan hệ gần nhau (e.g NST người số 22 = tinh tinh số 21 = chuột số 16) Sắp xếp nhiều trình tự thẳng hàng (Clustal)  Thứ tự bộ ba nucleotide mã hóa cho amino acid.  UAA, UAG, UGA đảm nhiệm vai trò kết thúc chuỗi Clustal • Clustal là phần mềm máy tính đƣợc sử dụng rộng rãi cho việc so sánh nhiều trình tự, gồm 3 loại chính: – ClustalW: giao diện lệnh dòng (command line interface) – ClustalX: Giao diện đồ họa cho ngƣời dùng – Clustal Omega: Là thành viên cuối cùng bổ sung vào gia đình Clustal. 3/26/2013 13 ClutalX • Clustal X là một phần mềm (giao diện windows) dùng cho việc so sánh sự tương đồng của hai hay nhiều trình tự sinh học. • Mô tả kết quả bằng hệ thống màu sắc và các ký hiệu nổi bậc những nét đặc trưng trong những đoạn tương đồng. • Ngày càng trở nên hữu ích cho các nhà nghiên cứu trong việc tìm kiếm những vùng bảo tồn trên những trình tự DNA hoặc protein Sắp gióng cột bằng ClustalX 3/26/2013 14 Nguyên tắc ClustalX • Thu nhận và lựa chọn tập trình tự (protein hay DNA, RNA) • Nhập các trình tự sinh học vào ClustalX • Phân tích kết quả sắp xếp thẳng hàng theo cột Các lƣu ý khi thực hiện • Trước khi thực hiện việc sắp xếp, phải lựa một cách cẩn thận tập trình tự mà cần so sánh cột. • Những trình tự này thuộc cùng một protein, DNA hay RNA và cùng tổ tiên. • Tùy thuộc vào mục đích xây dựng sắp xếp so sánh cột thì ta chọn ra một số trình tự để phân tích bằng ClustalX Các ma trận toán học • Những chuỗi con này đƣợc đánh giá cho điểm dựa trên ma trận thay thế (Substitutions matrix) BLOSUM hoặc PAM. 3/26/2013 15 BLOSUM62 Matrix Cách tính điểm (Scores) trong ma trận • Phương pháp chung: – Bắt cặp không tương xứng đích (AG, T<- >C) (10) – Bắt cặp nhau score (20) – Lỗi bắt đôi không tương xứng (AT, G<- >C) (5) – Lỗi khoảng trống (gap) (-5) – Lỗi 2 đoạn khoảng trống (0)  Trình tự DNA mặc định Cách tính điểm 3/26/2013 16 Ví dụ Score 1 = 105 Socre 2 = 100  Score 1 có độ tin cậy cao hơn Trình tự nào có độ tin cậy cao hơn? Cách tính điểm số DNA GGGGGGAGAA- - - - - | | | | | | | | | | * * * * * GGGGGAAAAAGGGGG GGGGGGAGAA--GGG | | | | | | | | | |** | | | GGGGGAAAAAG-GGG Trình tự nào đƣợc chọn trong phƣơng pháp tính điểm ma trận?? Sự tƣơng đồng giữa bò & cá 3/26/2013 17 Sự tƣơng đồng giữa bò & heo So sánh nhiều trình tự • Mở rộng và tạo thêm các dự đoán tin cậy so với so sánh trình tự theo cặp (pairwise) • Dữ liệu dự đoán tốt hơn cho các cấu trúc Protein • Dự đoán các chức năng của amino acid ở protein như phần còn lại ở khu vực hoạt hóa • Các cách xác định đột biến gây ra các bệnh di truyền. • Thiết kế các chuỗi peptide kháng thể • Thiết kế mồi (primer) PCR phổ biến • Xác định các quan hệ tiến hóa giữa các trình tự DNA. • Mã hóa DNA (DNA Barcode) Ứng dụng thực tiễn • Bệnh tế bào máu hình lưỡi liềm - Sickle Cell Anemia (SCA) • Thiết kế các peptide kháng thể • Thiết kế mồi PCR • Mã hóa DNA (DNA Barcoding) • Xác định quan hệ tiến hóa loài 3/26/2013 18 SCA (Sickle Cell Anemia) Sự di truyền tính trạng SCA Tế bào Hb thường có dạng như bánh rán (donut) Tế bào bệnh thường có hình lưỡi liềm Cản trở và gây sưng phồng mạch máu, gây các chứng đau buốt. Gây thiếu máu, mệt mỏi Xét nghiệm di truyền 3/26/2013 19 Thiết kế các peptide kháng thể (Ab) Vùng giữa112 and 125 bp nhằm phân biệt chuột và người. Ab peptides nhắm vào việc gắn với thrombin chuột và người. Vùng giữa 140 và 190 có thể được sử dụng để phân biệt chuột từ thrombin người Thiết kế mồi PCR  Thiết kế các mồi oligonuclotide để gắn các vùng bảo tồn cao của gene thioredoxin. Những đoạn mồi này sẽ tối ưu hóa các đoạn gen thioredoxin từ các loài khác như lớp bò sát, cá, chim và các động vật có vú khác. Nhóm gen Thioredoxin từ các loài khác nhau DNA Barcode 3/26/2013 20 Xác định quan hệ tiến hóa loài Việc xác định dựa vào 1 trong 2 cơ sở: Xác định quan hệ của các thành viên khác nhau trong 1 họ gene (Gene duplication) Xác định 1 gene trong những cá thể loài khác So sánh nhiều trình tự DNA • Tìm hiểu tất cả gene có liên quan đến gene cần tìm Ví dụ về so sánh các TT Hemoglobin người: – Human hemoglobin a – Human hemoglobin b – Horse hemoglobin a – Horse hemoglobin b – Insect myoglobin – Plant globin – Leghemoglobin So sánh nhiều trình tự DNA • Không thể tìm thấy việc sắp xếp trình tự tốt nhất cho 6-8 đoạn mã hóa. – Quy trình so sánh trình tự – Xử lý/sắp xếp tất cả trình tự nghi ngờ – Tính toán khoảng cách giữa các pair nucleotide – Xây dựng cây phát sinh loài dựa trên khoảng cách – Phân tích trình tự thông qua cây phát sinh 3/26/2013 21 Xây dựng cây phát sinh loài Hình: Mối quan hệ về trình tự các nhóm Hb liên quan nhau. Các nhóm trình tự này sẽ được sắp xếp trước, xa nhau được sắp xếp sau Phân tích trình tự thông qua cây phát sinh loài Sắp xếp các trình tự có quan hệ gần nhau nhất trước. – Sắp xếp các nhóm trình tự với nhau – Theo thứ tự sắp xếp các trình tự đến khi quá trình sắp xếp hoàn thành. Tuy nhiên: – Không bảo đảm trong việc tìm trình tự sắp xếp tối ưu nhất. – Việc sắp xếp trình tự đối với các trình tự gần nhau rất hạn chế. KẾT THÚC CHƢƠNG III
Tài liệu liên quan