- MEDLINE unique identifier (MUID): số nguyên
- PubMed (Có chứa tất cả MEDLINE) với yếu tố nhận
dạng: PubMed identifier (PMID).
- Ghi chú: Bài báo có trong MEDLINE sẽ có cả PMID và
MUID. Bài báo chỉ có trong PubMed sẽ chỉ có PMID.
- PubMed Central: Bao gồm cả các bài báo điện tử hoặc
trước khi xuất bản chính thức trong các tạp chí in.
6 trang |
Chia sẻ: lylyngoc | Lượt xem: 1714 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Cơ sở dữ liệu trong Sinh học, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
CƠ SỞ DỮ LIỆU
Giới thiệu
Mô hình dữ liệu NCBI (tuần 1)
Cơ sở dữ liệu trình tự GenBank (tuần 2)
Cơ sở dữ liệu về cấu trúc (tuần 3)
Cơ sở dữ liệu bản đồ genom (tuần 4)
Các cơ sở dữ liệu
Cơ sở dữ liệu NCBI (National Center for
Biotechnology Information)
Cơ sở dữ liệu EMBL-EBI (European Molecular
Biology Laboratory-European Bioinformatics
Institute)
Cơ sở dữ liệu CIB-DDBJ (Center for Information
Biology-DNA Data Bank of Japan)
Mô hình dữ liệu NCBI
NCBI dựa trên 4 dữ liệu cơ bản:
- Bài báo khoa học
- Trình tự ADN
- Trình tự protein
- Cấu trúc ba chiều.
Ngoài ra còn có các cơ sở dữ liệu khác:
- Taxonomy
- Bản đồ genome
Mô hình dữ liệu NCBI:
Bài báo khoa học
Tên tác giả
Bài báo: Tên bài báo, tập, số, trang.
Patent
Yếu tố nhận dạng MEDLINE và PubMed: Để truy cập
bài báo.
- MEDLINE unique identifier (MUID): số nguyên
- PubMed (Có chứa tất cả MEDLINE) với yếu tố nhận
dạng: PubMed identifier (PMID).
- Ghi chú: Bài báo có trong MEDLINE sẽ có cả PMID và
MUID. Bài báo chỉ có trong PubMed sẽ chỉ có PMID.
- PubMed Central: Bao gồm cả các bài báo điện tử hoặc
trước khi xuất bản chính thức trong các tạp chí in.
Mô hình dữ liệu NCBI:
Yếu tố nhận dạng trình tự (SEQ-Ids)
Locus name: Nhằm cung cấp yếu tố nhận dạng duy nhất
- Có trong GenBank, EMBL và DDBJ
- Gồm một số số (<=10) và chữ in hoa
Accession Number:
- 1 chữ in hoa kèm 5 số
- Số mới gồm 2 chữ in hoa kèm 6 số
gi Number (GenInfo Identifiers) : yếu tố nhận dạng cho 1 trình
tự riêng biệt, bao gồm:
- Trình tự nucleotid từ DDBJ/EMBL/GenBank
- Trình tự protein từ dịch mã vùng CDS
- Trình tự protein từ SWISS-PROT, PIR, PRF, PDB, patent, …
ưu điểm của gi:
- Yếu tố nhận dạng trình tự được sử dụng trong nhiều CSDL.
- Yếu tố nhận dạng chuyên biệt cho một trình tự chính xác
- Yếu tố nhận dạng ổn định và dễ truy cập.
Mô hình dữ liệu NCBI:
Yếu tố nhận dạng trình tự (SEQ-Ids)
Accession.Version Combined Identifier: Do hợp tác
của GenBank, EMBL và DDBJ đưa ra
- Vẫn cho phép truy cập một bản ghi chỉ dựa trên số
truy cập mà không có phiên bản.
- Cho phép truy cập trình tự đã thay đổi sử dụng số
truy cập và số phiên bản.
- Cho biết trình tự đã thay đổi bao nhiêu lần dựa trên
số phiên bản.
Accession Numbers on Protein Sequences:
- Accession.version Numbers cũng đã được sử dụng
cho trình tự protein trong CDS feature’s /protein ID
qualifier.
- Gồm 3 chữ in hoa kèm 5 số và 1 số chỉ phiên bản.