Cơ sở dữ liệu trong Sinh học

- MEDLINE unique identifier (MUID): số nguyên - PubMed (Có chứa tất cả MEDLINE) với yếu tố nhận dạng: PubMed identifier (PMID). - Ghi chú: Bài báo có trong MEDLINE sẽ có cả PMID và MUID. Bài báo chỉ có trong PubMed sẽ chỉ có PMID. - PubMed Central: Bao gồm cả các bài báo điện tử hoặc trước khi xuất bản chính thức trong các tạp chí in.

pdf6 trang | Chia sẻ: lylyngoc | Lượt xem: 1714 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Cơ sở dữ liệu trong Sinh học, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
CƠ SỞ DỮ LIỆU Giới thiệu Mô hình dữ liệu NCBI (tuần 1) Cơ sở dữ liệu trình tự GenBank (tuần 2) Cơ sở dữ liệu về cấu trúc (tuần 3) Cơ sở dữ liệu bản đồ genom (tuần 4) Các cơ sở dữ liệu  Cơ sở dữ liệu NCBI (National Center for Biotechnology Information)  Cơ sở dữ liệu EMBL-EBI (European Molecular Biology Laboratory-European Bioinformatics Institute)  Cơ sở dữ liệu CIB-DDBJ (Center for Information Biology-DNA Data Bank of Japan) Mô hình dữ liệu NCBI  NCBI dựa trên 4 dữ liệu cơ bản: - Bài báo khoa học - Trình tự ADN - Trình tự protein - Cấu trúc ba chiều.  Ngoài ra còn có các cơ sở dữ liệu khác: - Taxonomy - Bản đồ genome Mô hình dữ liệu NCBI: Bài báo khoa học  Tên tác giả  Bài báo: Tên bài báo, tập, số, trang.  Patent  Yếu tố nhận dạng MEDLINE và PubMed: Để truy cập bài báo. - MEDLINE unique identifier (MUID): số nguyên - PubMed (Có chứa tất cả MEDLINE) với yếu tố nhận dạng: PubMed identifier (PMID). - Ghi chú: Bài báo có trong MEDLINE sẽ có cả PMID và MUID. Bài báo chỉ có trong PubMed sẽ chỉ có PMID. - PubMed Central: Bao gồm cả các bài báo điện tử hoặc trước khi xuất bản chính thức trong các tạp chí in. Mô hình dữ liệu NCBI: Yếu tố nhận dạng trình tự (SEQ-Ids)  Locus name: Nhằm cung cấp yếu tố nhận dạng duy nhất - Có trong GenBank, EMBL và DDBJ - Gồm một số số (<=10) và chữ in hoa  Accession Number: - 1 chữ in hoa kèm 5 số - Số mới gồm 2 chữ in hoa kèm 6 số  gi Number (GenInfo Identifiers) : yếu tố nhận dạng cho 1 trình tự riêng biệt, bao gồm: - Trình tự nucleotid từ DDBJ/EMBL/GenBank - Trình tự protein từ dịch mã vùng CDS - Trình tự protein từ SWISS-PROT, PIR, PRF, PDB, patent, … ưu điểm của gi: - Yếu tố nhận dạng trình tự được sử dụng trong nhiều CSDL. - Yếu tố nhận dạng chuyên biệt cho một trình tự chính xác - Yếu tố nhận dạng ổn định và dễ truy cập. Mô hình dữ liệu NCBI: Yếu tố nhận dạng trình tự (SEQ-Ids)  Accession.Version Combined Identifier: Do hợp tác của GenBank, EMBL và DDBJ đưa ra - Vẫn cho phép truy cập một bản ghi chỉ dựa trên số truy cập mà không có phiên bản. - Cho phép truy cập trình tự đã thay đổi sử dụng số truy cập và số phiên bản. - Cho biết trình tự đã thay đổi bao nhiêu lần dựa trên số phiên bản.  Accession Numbers on Protein Sequences: - Accession.version Numbers cũng đã được sử dụng cho trình tự protein trong CDS feature’s /protein ID qualifier. - Gồm 3 chữ in hoa kèm 5 số và 1 số chỉ phiên bản.
Tài liệu liên quan