- Cho 2 chuỗi sinh học S1,S2. Gióng cặp chuỗi này được thực hiện bằng cách chèn thêm vào hai chuỗi S1 và S2 các dấu cách (kí hiệu là ”-”) tại các vị trí bất kỳ với số lượng không hạn chế để tạo ra 2 chuỗi S1’ và S2’ tương ứng, sau đó đặt một chuỗi trên chuỗi kia sao cho môi kí tự của chuỗi này gióng thẳng với một kí tự của chuỗi kia và cặp trình tự gióng không đồng thời là dấu cách.
- Chuỗi sinh học ban đầu không có dấu cách và nếu loại bỏ dấu khỏi S1’ và S2’ ta sẽ có S1 và S2 ban đầu.
- Yêu cầu đặt ra là thực hiện bài toán sao cho tìm ra cặp chuỗi S1’, S2’ có sự tương đồng cao nhất.
33 trang |
Chia sẻ: lylyngoc | Lượt xem: 2089 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Chuyên đề Nghiên Cứu 7 - Tin Sinh Học., để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Chuyên Đề Nghiên Cứu 7 - Tin Sinh Học. Giảng Viên: Ngô Công Thắng. Sinh viên thực hiện: Nguyễn Hồng Kiên. Lớp: Tin học A-K52. Khoa: Công Nghệ Thông Tin. Mã Sinh Viên: 521996. Chuyên Đề Nghiên Cứu 7 - Tin Sinh Học.Nội Dung: Nhóm 2: Tìm hiểu bài toán so sánh cặp trình tự: a. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự. b. Thuật toán ma trận điểm. d. Thuật toán quy hoạch động Needleman-Wunsch. Nội dung Tìm hiểu bài toán so sánh cặp trình tự: 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự. 2. Thuật toán ma trận điểm. 3. Thuật toán quy hoạch động Needleman-Wunsch. 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự. Định nghĩa: so sánh trình tự là quá trình nghiên cứu sự giống nhau giữa các chuỗi trình tự(sequence), là cách thức so sánh giữa 2 hay nhiều trình tự dựa trên việc so sánh một chuỗi các thành phần(ký tự) của trình tự để tìm ra những điểm tương đồng, giống nhau giữa các trình tự. 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự. - Cho 2 chuỗi sinh học S1,S2. Gióng cặp chuỗi này được thực hiện bằng cách chèn thêm vào hai chuỗi S1 và S2 các dấu cách (kí hiệu là ”-”) tại các vị trí bất kỳ với số lượng không hạn chế để tạo ra 2 chuỗi S1’ và S2’ tương ứng, sau đó đặt một chuỗi trên chuỗi kia sao cho môi kí tự của chuỗi này gióng thẳng với một kí tự của chuỗi kia và cặp trình tự gióng không đồng thời là dấu cách. - Chuỗi sinh học ban đầu không có dấu cách và nếu loại bỏ dấu khỏi S1’ và S2’ ta sẽ có S1 và S2 ban đầu. - Yêu cầu đặt ra là thực hiện bài toán sao cho tìm ra cặp chuỗi S1’, S2’ có sự tương đồng cao nhất. 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự Dựa trên phương pháp so sánh người ta chia ra làm 2 loại: - Phép so sánh trình tự theo hướng toàn cục: Phép toán so sánh được áp dụng trên toàn bộ chuỗi trình tự. Thường được sử dụng khi các trình tự so sánh có kích thước gần tương đương và các trình tự này có độ tương đồng, giống nhau cao. Phép so sánh trình tự theo hướng cục bộ: + Phép toán so sánh được sử dụng trên một phần của chuỗi trình tự. + Thường được sử dụng khi các trình tự có chiều dài lớn, độ tương đồng giống nhau không cao, chỉ có một số ít các gene giống nhau trên 2 trình tự, hoặc khi 2 trình tự có kích thước khác biệt lớn. 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự Tùy thuộc vào số lượng trình tự, bài toán so sánh trình tự được chia làm 2 mức độ: - So sánh 2 trình tự - So sánh nhiều trình tự. 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự. - Ví dụ về so sánh trình tự theo hướng toàn cục: Toàn bộ 2 chuỗi trình tự L G P S S K Q T G K G S − S R I W D N và L N − I T K S A G K G A I M R L G D A được so sánh L G P S S K Q T G K G S − S R I W D N L N − I T K S A G K G A I M R L G D A 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự - Ví dụ về so sánh trình tự theo hướng cục bộ: Chỉ một phần của 2 chuỗi được so sánh: TGKG và AGKG − − − − − − − T G K G − − − − − − − − − − − − − − − A G K G − − − − − − − − 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự - Ví dụ so sánh 2 trình tự: - Ví dụ so sánh nhiều trình tự A C – – G C T G – C A T G – T – A G T − G T G A G T A G T G − G T C G T G − − T A G T G 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự Ý nghĩa: - Trên quan điểm sinh học, phép so sánh trình tự thể hiện quá trình biến đổi chọn lọc tự nhiên của các chuỗi trình tự, từ đó cho phép các nhà sinh học đưa ra kết luận về nguồn gốc của các đoạn gene, DNA, RNA, hay protein. - Mặt khác, cho phép ta xây dựng cây phát sinh chủng loại, xây dựng cây tiến hóa từ đó đánh giá được mối quan hệ giữa các loài. 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự Nội dung Tìm hiểu bài toán so sánh cặp trình tự: 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự. 2. Thuật toán ma trận điểm. 3. Thuật toán quy hoạch động Needleman-Wunsch. 2. Thuật toán ma trận điểm. Kết quả của việc tính giá trị cho mỗi phép so sánh phụ thuộc nhiều vào kết quả của hàm đánh giá sự tương đồng của mỗi cặp amino acid (nucleotide), ký hiệu là: σ (a,b). Độ tương đồng của các cặp amino acid thường được lưu trữ dưới dạng một ma trận 2 chiều gọi là ma trận điểm. Xét trên phương diện toán, ma trận đánh giá là 1 ánh xạ được định nghĩa như sau: σ : (∑’)²→R Trong đó : ∑’=∑ − { ‘-’ } và ∑ là tập các amino acid hoặc nucleotide. 2. Thuật toán ma trận điểm. Có nhiều loại ma trận điểm dựa trên quá trình nghiên cứu, thống kê thực tế sinh học. Hiện tại có 4 loại ma trận điểm: identity matrix, enetic code matrix, chemical similarity matrix và substitution matrix. Đây là cơ chế đánh giá độ tương đồng đơn giản nhất, trong ma trận này các cặp amino acid giống nhau sẽ có giá trị của phần tử (ký tự) tương ứng trong ma trận là 1, các cặp amino acid còn lại sẽ nhận giá trị 0. Ví dụ A R N D C Q A 1 0 0 0 0 0 R 0 1 0 0 0 0 N 0 0 1 0 0 0 D 0 0 0 1 0 0 C 0 0 0 0 1 0 Q 0 0 0 0 0 1 2. Thuật toán ma trận điểm. Identity matrix: Genetic code matrix (Ma trận mã di truyền) : - Trong ma trận này hàm đánh giá của mỗi cặp amino acid dựa trên độ tương đồng về mã di truyền. Ngày nay ma trận này hiếm khi được sử dụng trong việc so sánh các chuỗi amino acid. Chemical similarity matrix (Ma trận tương đồng hóa học) : - Trong ma trận này, các amino acid có cấu trúc tương đồng về cấu trúc vật lý cũng như thuộc tính hóa học như kích thước, hình dạng, khả năng phân cực,… thì phần tử tương ứng trong ma trận sẽ nhận giá trị lớn hơn so với các cặp còn lại. 2. Thuật toán ma trận điểm. Substitution matrix (Ma trận thay thế) : Ma trận này được tính toán và xây dựng dựa trên các quan sát thống kê về tần số thay đổi của các amino acid trong việc so sánh các chuỗi trình tự. Ma trận thay thế được đánh giá là tốt hơn so với 3 loại ma trận trên và hiện nay cũng được sử dụng phổ biến nhất. 2. Thuật toán ma trận điểm. Ví dụ ma trận BLOSUM62 lưu trữ hàm đánh giá độ tương đồng của tập 23 amino acid Nội dung Tìm hiểu bài toán so sánh cặp trình tự: 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự. 2. Thuật toán ma trận điểm. 3. Thuật toán quy hoạch động Needleman-Wunsch. 3. Thuật toán quy hoạch động Needleman-Wusch Giải thuật Needleman-Wusch là giải thuật gióng cặp chuỗi toàn cục dựa trên quy hoạch động để tính điểm cho quá trình gióng chuỗi. Điểm số cho phương án này được gọi là mức độ tương đồng giữa các cặp chuỗi. 3. Thuật toán quy hoạch động Needleman-Wusch Giải thuật phụ thuộc vào số trình tự, chiều dài cũng như sự khác biệt của các trình tự. Giải thuật này đòi hỏi độ phức tạp là hàm số mũ theo chiều dài và số trình tự θ(nª) . Trong thực tế việc hiện thực giải thuật này đòi hỏi chi phí tiêu tốn rất cao về mặt thời gian cũng như bộ nhớ sử dụng. Khi n và a đủ lớn việc thực thi giải thuật là không thực tế. 3. Thuật toán quy hoạch động Needleman-Wusch Quy hoạch động Needleman-Wusch gồm 3 bước: - Khởi tạo ma trận từ 2 chuỗi trình tự. - Tính toán, điền giá trị cho ma trận. - Sử dụng kỹ thuật lưu vết để tìm ra kết quả. Xét định nghĩa về 1 cơ chế đánh giá như sau: - Nếu a và b là 2 ký tự đại diện cho các amino acid (nucleotide) trong 2 trình tự. Gọi σ(a,b) là hàm đánh giá của cặp a, b trong ma trận đánh giá. - Hàm giá trị của gap: Việc tính giá trị của mỗi gap phụ thuộc vào bản chất tự nhiên của các chuỗi trình tự, có thể tính giá trị của gap theo các hàm tuyến tính hoặc đa thức. 3. Thuật toán quy hoạch động Needleman-Wusch Trong thực tế, để đơn giản hầu hết các phương pháp đề xuất tính giá trị của gap dựa trên một hàm tuyến tính theo chiều dài của gap. (Một gap bao gồm các phần tử của 1 chuỗi mà mỗi phần tử này tương ứng với các phần tử có ký hiệu là “-“ của chuỗi còn lại.) Ví dụ về Gap: 3. Thuật toán quy hoạch động Needleman-Wusch Ví dụ Thuật toán quy hoạch động Needleman-Wusch Xét 2 chuỗi “ACBCDB” và “CADBD” Hàm đánh giá Cho r=1 : 3. Thuật toán quy hoạch động Needleman-Wusch B1: Khởi tạo ma trận từ 2 chuỗi trình tự. B2: Tính toán, điền giá trị cho ma trận Gọi S(i,j) là giá trị của một phép so sánh tối ưu của chuỗi S1i(S1[1],.., S1[i]) và S2j (S2[1],..,S2[j]) ( 1≤ ≤ in ,1≤ ≤ jm) như vậy S(n,m) sẽ là giá trị của một phép so sánh tối ưu của S1 và S2. S(i, j) được định nghĩa như sau: S(0, 0)=0 S(i,0)=S(i-1,0) -r, i>0 S(0,j)=S(0,j-1) -r, j>0 3. Thuật toán quy hoạch động Needleman-Wusch S(i,j)= max { S(i-1, j-1) + σ(S1[i], S2[j]) S(i-1, j) - r , S(i, j-1) - r } Trong đó: r : là giá trị Gap σ(S1[i], S2[j]): hàm đánh giá của cặp S1[i], S2[j] ma trận điểm. 3. Thuật toán quy hoạch động Needleman-Wusch * S(0,0)= 0 * S(1,0)= S(1-1,0) – 1= S(0,0) – 1= -1 * S(0,1)= S(0,1-1) – 1= S(0,0) – 1= -1 * S(1,1)= max{ S(1-1,1-1)+ σ(A,C), S(1-1,1) – 1, S(1,1-1) – 1)} =max{(0-1),(-1-1),(-1-1)}= -1 Làm tương tự với các giá trị khác, ta có ma trận sau: 3. Thuật toán quy hoạch động Needleman-Wusch Làm tương tự với các giá trị khác, ta có ma trận sau: 3. Thuật toán quy hoạch động Needleman-Wusch B3: Sử dụng kỹ thuật lưu vết để tìm ra kết quả: Dựa vào các con đường được sinh ra do kỹ thuật lưu vết từ S(m,n) đến S(0,0), các phép so sánh sẽ được sinh ra dựa trên nguyên tắc: + Nếu con đường đi theo hướng đường chéo từ S(i,j) đến S(i-1,j-1) thì 2 ký tự đại diện cho S1[i] và S2[j] sẽ được ghi vào kết quả. + Nếu con đường đi theo hướng từ S(i,j) đến S(i-1,j) thì ký tự đại diện cho S1[i] và ‘-‘ sẽ được ghi vào kết quả. + Nếu con đường đi theo hướng từ S(i, j) đến S(i, j-1) thì ký tự đại diện cho S2[j] và ‘-‘ sẽ được ghi vào kết quả. 3. Thuật toán quy hoạch động Needleman-Wusch Theo nguyên tắc này, trong ví dụ trên ta thu được 3 kết quả tương ứng với 3 con đường truy hồi: 3. Thuật toán quy hoạch động Needleman-Wusch Ta có: 0+2-1+2+0+2+0= 5 0+2+0-1+2+2-0= 5 0+2-1+0+2+2+0=5 3. Thuật toán quy hoạch động Needleman-Wusch The End! Trên đây là những tìm hiểu của em về chuyên đề nghiên cứu tin sinh học thứ 7 của thầy giáo. Bài Viết của em còn nhiều thiếu sót. Em rất mong được sự góp ý, bổ sung của thầy giáo và các bạn để bài làm của em được hoàn thiện hơn. Thank you for your attention !