NCBI、UniProt、RCSB PDB三个数据库是在生物医学领域非常重要的数据库。本帖主要为自己学习记录,可供大家学习参考。
目录
一、简介与网址
1.NCBI
网址:https://www.ncbi.nlm.nih.gov/
NCBI(National Center for Biotechnology Information)是美国国家生物技术信息中心的简称,存储了分子生物学、生物化学和遗传学等学科的相关数据资料,包括基因测序数据、基因图谱、蛋白质信息等,以及生物医学领域相关研究论文的索引。网站中的一些在线软件,如BLAST等,可以方便分析数据,提高工作效率。
2.UniProt
UniProt(Unified Protein Database)蛋白质信息数据库,是由瑞士生物信息学研究所多个研究团队共同建立并维护的蛋白质序列与注释数据综合资源,也是目前世界上最权威的蛋白质信息数据库。其整合了Swiss-Prot、TrEMBL和PIR三大数据库的数据,包括蛋白质知识库(UniProtKB)、蛋白质引用集群(UniRef)和蛋白质数据归档(UniParc)三个部分。
1)UniProtKB
UniProtKB(UniProt Knowledgebase)是蛋白质序列、功能、分类、交叉引用等信息存取中心。包括以下两部分:
①Swiss-Prot:高质量的、手工注释的、非冗余的数据集;主要来自文献中的研究成果和E-value校验过计算分析结果。有质量保证的数据才被加入该数据库。
②TrEMBL:包含高质量的计算分析结果,一般都在自动注释中富集,主要应对基因组项目获得的大量数据流以人工校验在时间上和人力上的不足。注释所有可用的蛋白序列。在三大核酸数据库(EMBL-Bank/GenBank/DDBJ)中注释的编码序列都被自动翻译并加入该数据库中。它也有来自PDB数据库的序列,以及Ensembl、Refeq和CCDS基因预测的序列
2)UniRef
UniRef(UniProt Non-redundant Reference)将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度。目前,根据序列相似程度形成3个子库:UniRef100、UniRef90和UniRef50。
3)UniParc
UniParc(UniProt Archive)是一个综合性的非冗余数据库,包含了所有主要的、公开的数据库的蛋白质序列。
由于蛋白质可能在不同的数据库中存在,并且可能在同一个数据库中有多个版本,为了去冗余,UniaraParc对每条唯一的序列只存一次,无论是否为同一物种的序列,只要序列相同就被合并为一条,每条序列提供稳定的、唯一的编号UPI。
该数据库含有蛋白质的序列信息,而没有注释数据。用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过