Sự minh chứng cho việc giải mã trình tự gene
Bản hướng dẫn cho ngành sinh học về các cơ thể
sống
Khám phá mỗi gen mã hóa bởi bộ gen của 1 loài động
vật –trong việc mất đoạn trình tự gen, chỉ “đoạn gen
cần quan tâm” được giải mã
25 trang |
Chia sẻ: lylyngoc | Lượt xem: 2157 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Chương 5 Giải mã trình tự toàn bộ bộ gen, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
10/19/2012
1
Chƣơng 5
Giải mã trình tự toàn bộ
bộ gen
TRƢỜNG ĐẠI HỌC CNTP TPHCM
KHOA CNSH & KTMT
HỆ LIÊN THÔNG ĐẠI HỌC
ThS. Nguyễn Thành Luân
Email: luannt@cntp.edu.vn
Tại sao cần thiết phải giải mã toàn
bộ bộ gen?
Sự minh chứng cho việc giải mã trình tự gene
Bản hướng dẫn cho ngành sinh học về các cơ thể
sống
Khám phá mỗi gen mã hóa bởi bộ gen của 1 loài động
vật –trong việc mất đoạn trình tự gen, chỉ “đoạn gen
cần quan tâm” được giải mã
Phân biệt các dòng giống từ sự khác biệt về trình tự
gen
Khám phá các kiểu di truyền gây ra bởi các đột biến
khác nhau
Khám phá các đột biến gây ra các bệnh di truyền
10/19/2012
2
Phản ứng giải mã trình tự đƣợc
phát minh bởi Fred Sanger
Sử dụng enzyme DNA polymerase để tổng hợp 1 sợi
DNA được bổ sung cho 1 mảnh DNA mà bạn muốn
giải mã trình tự
Các phản ứng chứa 1 „điểm đích‟ để tạm dừng quá
trình tổng hợp –cung cấp 1 sản phẩm DNA với 1 kích
cỡ riêng biệt (bp)
10/19/2012
3
Giải mã trình tự Sanger
Hoạt động bằng thực hiện các phản ứng nhẹ
nhàng phá gãy 1 đoạn DNA chuẩn đã tái tạo, xúc
tác bởi enzyme DNA polymerase.
Phản ứng giải mã trình tự
10/19/2012
4
Các bƣớc cơ bản trong giải mã trình tự
Thêm đoạn mồi: mảnh ngắn của DNA đƣợc
kết hợp đến chỉ 1 nơi trên mẫu khuôn DNA
Thêm enzyme cắt DNA polymerase: có
nhiệm vụ tổng hợp 1 sợi DNA mới
Thêm các nhóm bazơ nitric (4 nitrogenous
bases): sẽ kết hợp chặt chẽ trong sợi mới
Thêm 4 nhóm dideoxynucleotide (ddNTPs–
còn đƣợc gọi là các điểm đích sẽ thỉnh
thoảng đƣợc thêm vào trong sợi DNA đã
đƣợc tổng hợp mới nhƣng sẽ kết thúc phản
ứng đó
10/19/2012
5
Sản phẩm của các phản ứng giải mã
trình tự
Phản ứng diễn ra trên 1000 lần từ sợi DNA khuôn
- Mỗi vị trí có thể có đều được đánh dấu rất nhiều lần
Chấp nhận 1 chuỗi hỗn
hợp phản ứng vào 1 gel
polyacrylamide SDS
Gel này sẽ phân chia
các đoạn DNA phân
mảnh thành các kích cỡ
khác nhau. Đoạn DNA
ngắn hơn sẽ di chuyển
xuống dƣới nhanh hơn.
Gel còn có khả năng
phân giải đoạn phân
mảnh khác nhau bởi 1
base riêng lẻ.
10/19/2012
6
Với việc sử dụng các phần mềm khác nhau, sẽ
cung cấp cho chúng ta1 hình ảnh gel nhƣ trên
Mỗivạch (band) tƣơng ứng cho 1 mảnh của đoạn
DNA khác nhau về 1 đoạn chiều dài của
nucleotide. Màu sắc trong vạch biểu thị cho việc
ddNTPs đƣợc kết hợp trong đoạn DNA
Giải mã trình tự đơn giản chỉ là đọc lại kết quả gel
Giải mã trình tự trên những khu vực gel để đọc kết quả giải mã
10/19/2012
7
Phản ứng giải mã trình tự tiên phát
(primary)
Không sử dụng thuốc nhuộm (dyes) do chưa được
phát minh
Các ký tự đích (terminator) được đánh dấu bằng các
chất phóng xạ
Thực hiện 4 phản ứng riêng biệt, mỗi phản ứng khác
nhau với 1 ký tự đích khác nhau
Quá trình giải mã trình tự quá chậm
cho Genomics
Trong việc xác định 1 phản ứng trình tự riêng lẻ, hầu
hết tối đa khoảng 500 base/1 lần giải mã trình tự
Mỗi base phải được đọc trên film X-ray và ghi lại kết
quả bằng cách thủ công (tay, thuê nhân công..)
10/19/2012
8
Quá trình giải mã trình tự quá chậm
cho Genomics
Bacteriophage chỉ có 5000bp
– Mất 4 năm để hoàn thành việc giải mã
Các loài đơn giản nhất (Vi khuẩn) có bộ genome
khoảng 2,000,000 bp
–Mất khoảng1,600 năm cho việc giải mã
10/19/2012
9
Phƣơng pháp tạo phản ứng trong
việc giải mã
Các mục tiêu trong việc giải mã trình tự các phân
mảnh lớn của DNA
PP Walking
PP Shotgun
Phản ứng Walking
Phản ứng giải mã trình tự đầu tiên cung cấp 500 bp
trình tự thông tin. Việc giải mã 500 bp tiếp theo phụ
thuộc vào trình tự thông tin DT của đoạn mã trước đó.
Tuy nhiên, trình tự genome rất dài
Quy trình phản ứng chỉ đạt tối đa 1kbase/2 ngày. Việc
giải mã trình tự toàn bộ bộ genome mất 6,000,000
ngày.
10/19/2012
10
Phƣơng pháp Shotgun
Lấy nhiều đoạn copy DNA ngẫu nhiên của
bộ gen, giải mã trình tự 500bp từ mỗi đoạn
DNA đó.
Sau đó sắp xếp tất cả trình tự thành 1 trình
tự bộ gen hoàn chỉnh. Phải giải mã trình tự
gen nhiều lần để chắc chắn không bị trùng
lặp nhưng PP này có thể làm nhiều phản
ứng trình tự đồng thời cùng 1 lúc.
Walking vs Shotgun
Walking hiệu quả hơn –giải mã trình tự chỉ 1 làn duy
nhất
Walking thường chậm hơn, mất đến 2-3 ngày để thiết
kế và tổng hợp các mồi (primer) mới cho trình tự
Shotgun ít hiệu quả hơn vì là giải mã trình tự ngẫu
nhiên, cần phải giải mã mỗi trình tự ít nhất 10 lần lặp
lại
Nhanh hơn Walking –không cần tổng hợp và thiết kế
mồi (primer) –sử dụng 1 loại giống nhau cho tất cả
các phản ứng
10/19/2012
11
Các khó khăn gặp phải khi giải mã
trình tự genome
Bất kỳ bộ genome nào cũng phải được phân mảnh để
có thể giải mã trình tự
Hầu hết, phải đạt 500 base pair cho mỗi trình tự từ
đoạn phân mảnh
Sau khi giải mã, các trình tự phải được đặt vào với
nhau thành 1 bộ gen hoàn chỉnh
Mỗi đoạn phân mảnh 500 bp phải được so sánh với 1
đoạn trình tự phân mảnh 500 bp khác
Vận hành phƣơng pháp Shotgun
Các phân mảnh được phân chia ngẫu nhiên,
các trình tự của các phân mảnh phải được giải
mã để đảm bảo độ bao phủ tất cả trình tự
Một số phân mảnh sẽ chứa nhiều thông tin
trình tự đã hiện diện ở trình tự khác = đoạn lặp
(overlaps)
Các đoạn lặp này rất cần thiết cho việc kết nối
các phân đoạn DNA lại với nhau
10/19/2012
12
Vận hành phƣơng pháp Shotgun
Quy tắc chung –giải mã ít nhất 10 lần kích cỡ bộ gen
để đảm bảo độ bao phủ hoàn toàn trình tự giải mã
VD: 1 bộ genome 5kbase=5000base, máy giải mã
phải giải mã 5000*10/500 trình tự = 100 đoạn
Để kết hợp lại, phải làm các phép so sánh 2 đoạn
phân mảnh DNA (comparisons) = C(100,2)
C(100,2) = 4,950 phép so sánh
Các phép so sánh
Đối với bộ genome ngƣời, có quá nhiều phép
so sánh cần phải thực hiện, sẽ phải mất rất
nhiều năm để tính toán thời gian hoàn thành.
10/19/2012
13
CÁC HƢỚNG KHẮC PHỤC
Giải pháp 1: Mô hình huy động quỹ cộng đồng
Giải pháp 2: Mô hình hỗ trợ cá nhân
Giải pháp 1: Mô hình huy động quỹ
cộng đồng
Phân chia genome thành các “khúc” (chunks) lớn hơn
theo thứ tự nhất định, sau đó giải mã trình tự mỗi khúc
bằng PP shotgun
Những khúc đã được sắp xếp cầu thành 1 bản đồ vật
chất của bộ genome.
Đặt những khúc vào thứ tự (bản đồ vật chất) sẽ tạo
nên điểm cốt yếu của thời gian
Quay lại điểm này sau khi giải mã
Ƣớc lƣợng chi phí: mất 1000 ngƣời làm việc
trong vòng 30 năm = 3 tỷ US dollars
10/19/2012
14
Mô hình phân chia và kết hợp
Mô hình cộng đồng cho việc giải mã
trình tự Genome ngƣời
I: Cung cấp 1 bản đồ vật chất của genome
II: Trình diễn (perform) các phản ứng giải mã trình tự
III: Kết hợp các phân mảnh/miếng (piece) trình tự với
nhau
10/19/2012
15
Bản đồ vật chất
Bộ genome người –3.3 gigabase (Gb) (3.3 x 109 bp)
Mỗi NST quá lớn để quan sát và phân tích trình tự
Khởi đầu genome phải được phân đoạn thành các
miếng/mảnh nhỏ hơn, có thể quan sát và phân tích
trình tự
Làm bất tử các phân mảnh –tạo nên các nguồn
nguyên liệu vô tận
Tạo nên 1 bản đồ vật chất để kết hợp những mảnh
nhỏ lại với nhau để xây dựng bản đồ gene.
Sự phân đoạn
Quyết định trong việc phát sinh ra các đoạn DNA lặp
(overlapping)
Nguyên liệu khởi đầu là hàng triệu bản sao của mỗi
NST
–Sự phân cắt bằng enzyme cắt hạn chế (RE
disgestion)
–Sự dịch chuyển cơ học (Mechanical shearing)
–Sự chia cắt NST (Chromosomal separation)
10/19/2012
16
Enzyme cắt hạn chế (RE Digestion)
Phân cắt bằng enzyme cắt hạn chế (RE): mục tiêu là
cung cấp các phân mảnh 10-150 kbase, các RE có
chiều dài khác nhau:
–Nhóm RE 4-base cắt 1 lần khoảng 256
bases/trình tự
–Nhóm RE 6-base cắt 1 lần khoảng 4096
bases/trình tự
–Nhóm RE 8-base cắt 1 lần khoảng 65
kbases/trình tự
Tuy nhiên, trong thực tế, các phần cắt mảnh DNA
chủ yếu chỉ dùng nhóm RE 4 base.
10/19/2012
17
Sự chia cắt vật chất ở NST thường sử dụng FACS
(máy phân loại các tế bào hoạt động gắn huỳnh
quang)
Vạch đích huỳnh quang gắn vào NST. Số lượng
vạch đánh dấu đích cân xứng với kích cỡ của
NST
Các giọt nhỏ giọt, mỗi loại chứa 1 NST di chuyển
qua các đầu điện cực. Sự di chuyển điện cực phổ
biến thành các giọt nhỏ nếu đủ tiêu chí về kích cỡ
ở vạch đích (dye)
Một số giọt nhỏ có thể bị lệch và chia cắt từ 1 số
NST khác.
Bất tử các phân mảnh
Bằng việc xây dựng 1 ngân hàng genome
– Đặt mỗi phân mảnh DNA vào trong 1 sợi DNA ở cơ
thể VSV trong phòng thí nghiệm
– Một phân mảnh/1 Vi khuẩn
– Phân lập mỗi loại VSV
– Có 1 quá trình chuẩn bị thuần cho mỗi phân mảnh
– Có thể phát triển vi khuẩn trong mỗi môi trường nuôi
cấy để cung cấp 1 số lượng lớn các phân mảnh đó
10/19/2012
18
Mỗi đoạn DNA có thể đƣợc phân lập bằng cách cấy đĩa
mỗi loại vi khuẩn riêng lẻ. Thực tế, mỗi phân mảnh đƣợc
mã hóa (số hóa) cho việc theo dõi thuận tiện hơn.
10/19/2012
19
Triển vọng và hạn chế của ứng dụng tin
sinh học trong giải mã trình tự bộ gen
Hầu hết các trình tự sau khi đƣợc phân mảnh
phải mất thời gian sắp xếp lại theo đúng thứ tự
Ví dụ: xác định đoạn lặp (overlap) số 3 với đoạn
số 18, 18 với 1078….
Tìm kiếm các đoạn lặp
Đòi hỏi một số cách tính toán trình tự của mỗi
đoạn phân mảnh
Sử dụng quá trình cắt hạn chế (Restriction
digest)
Xử lý qua điện di các phân mảnh (gel agarose)
10/19/2012
20
Gel điện di
agarose đƣợc sử
dụng để chia cắt
phân đoạn của
DNA dựa vào
kích cỡ (size).
Các đoạn lặp sẽ
có 1 số vạch
chung trên các
giếng khác nhau.
Mô hình hỗ trợ cá nhân
Kế hoạch giải mã trình tự toàn bộ bộ genome bằng
PP Shotgun
Bỏ qua giai đoạn lập bản đồ vật chất
Phân mảnh bộ genome, giải mã trình tự rất nhiều
mảnh 500 bp sau đó cố gắng đặt chúng lại với nhau.
Sử dụng 1 phát minh mới –mô hình các cặp bạn bè
(mate-pair) và mô hình khung giáo (scaffold)
10/19/2012
21
Mô hình “Mate-Pair” và “Scaffold”
Mã hóa 1 mảnh thông tin bổ sung bằng cách đọc các
khoảng cách chính xác giữa các cặp trình tự
Genome được phân mảnh thành các đoạn lặp đã biết
được chiều dài như
–2 kbase
–10 kbase
–50 kbase
–150 kbase
Giải mã trình tự cả 2 đầu của các đoạn phân mảnh
DNA
Mô hình Shotgun thông thƣờng
Ngẫu nhiên phân mảnh và giải mã đoạn DNA 500
bp, và xác định các đoạn lặp
Mỗi nhóm của phân đoạn lặp sẽ đƣợc gọi là 1
đoạn tiếp giáp (contig)= 1 phân mảnh liền kề của
trình tự DNA
10/19/2012
22
Mô hình Shotgun qua Mate-Pair
Phân mảnh các sợi
DNA thành các đoạn lặp
giống hệt nhau về kích
thước và trọng lượng
(VD: 50 kbase)
Các đoạn phân mảnh
giống hệt nhau về chiều
dài và trọng lượng như
anh em nên được gọi là
„Mate-Pair‟
Mỗi đoạn phân mảnh tiếp giáp nhỏ sẽ đƣợc lắp ráp
bởi máy vi tính theo phƣơng pháp Shotgun thông
thƣờng, nhƣng bây giờ mỗi nhóm đoạn tiếp giáp
riêng lẻ có thể có các phân đoạn “bạn bè” bởi vì cả
2 đầu của mỗi đoạn DNA 50 kb đƣợc giải mã trình
tự.
10/19/2012
23
Mô hình giàn khung (Scafffold)
Scaffold thay thế cho việc lập bản đồ vật chất –do quy trình thực hiện
nhanh hơn. Về lý thuyết, chúng ta có thể kết nối thành bộ gen hoàn chỉnh
từ các trình tự giải mã sử dụng mô hình giàn khung
Trình tự bộ genome cuối cùng được kết nối hướng về việc chứa các
đoạn khoảng trống (gaps) đầu tiên bởi các trình tự lặp. Mô hình kết hợp sẽ
giúp cho việc bù đắp các đoạn gaps
Vì thế, mô hình hỗ trợ cá nhân sẽ sử dụng thông tin bản đồ vật chất
được thiết kế trong mô hình gây quỹ cộng đồng để giúp cho việc bù đắp
các đoạn gap.
Các đoạn tiếp giáp có thể gia nhập nhóm DNA bạn bè
nên được gọi là mô hình nhóm bạn bè (Mate-pairs)
hướng theo và đặt các nhóm tiếp giáp liên quan với
các nhóm khác.
Khi ngày càng nhiều cặp bạn bè được so sánh, 1 giàn
khung giáo (scaffold) từ từ được xây dựng.
10/19/2012
24
Mất bao lâu?
Dự đoán đầu tiên: 30 năm
Với các ứng dụng KHKT hiện nay với máy giải mã
trình tự tự động (automated sequencer) và bỏ qua
việc tìm hiểu bản đồ vật chất cho bộ genome người
hoàn chỉnh
–Một robot giải mã trình tự ở phòng TN có thể giải mã trình
tự 4.96 x 106bases mỗi ngày
–Bộ genome người 3.3 x 109bases
–Cần sự đảm bảo độ bao phủ nên phải được 3.3 x
1010bases
–Tốn mất 6,653 ngày cho 1 phòng thí nghiệm = 18 năm
–Xây dựng 20 phòng thí nghiệm có quy mô như PTN trên
–Giải mã toàn bộ bộ genome chỉ mất khoảng 330 ngày.
Các hƣớng giải quyết mới trong việc
giải mã bộ gen
Một nhà máy giải mã trình tự tự động hóa
10/19/2012
25
Tài liệu tham khảo
m0n0&feature=related
KẾT THÚC CHƢƠNG V