NCBI、UniProt、RCSB PDB的部分功能使用（蛋白质晶体结构、蛋白质氨基酸序列、基因序列、序列比对等）

笙箫一曲唱元璞

已于 2022-07-23 11:28:16 修改

阅读量3w

点赞数 22

分类专栏：计算生物学文章标签：学习

于 2022-04-08 21:50:26 首次发布

本文链接：https://blog.csdn.net/weixin_61125116/article/details/124008360

版权

本文详细介绍了生物医学领域的重要数据库NCBI、UniProt及其子数据库UniProtKB、UniRef和UniParc，以及RCSBPDB。内容涵盖数据库的基本信息、网址、功能以及实际操作，如通过PDB查找蛋白晶体结构和进行序列比对。此外，还提供了网页版和软件版的序列比对方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

NCBI、UniProt、RCSB PDB三个数据库是在生物医学领域非常重要的数据库。本帖主要为自己学习记录，可供大家学习参考。

一、简介与网址

1.NCBI

网址：https://www.ncbi.nlm.nih.gov/

NCBI（National Center for Biotechnology Information）是美国国家生物技术信息中心的简称，存储了分子生物学、生物化学和遗传学等学科的相关数据资料，包括基因测序数据、基因图谱、蛋白质信息等，以及生物医学领域相关研究论文的索引。网站中的一些在线软件，如BLAST等，可以方便分析数据，提高工作效率。

2.UniProt

网址：https://www.uniprot.org/

UniProt（Unified Protein Database）蛋白质信息数据库，是由瑞士生物信息学研究所多个研究团队共同建立并维护的蛋白质序列与注释数据综合资源，也是目前世界上最权威的蛋白质信息数据库。其整合了Swiss-Prot、TrEMBL和PIR三大数据库的数据，包括蛋白质知识库（UniProtKB）、蛋白质引用集群（UniRef）和蛋白质数据归档（UniParc）三个部分。

1）UniProtKB

UniProtKB（UniProt Knowledgebase）是蛋白质序列、功能、分类、交叉引用等信息存取中心。包括以下两部分：

①Swiss-Prot：高质量的、手工注释的、非冗余的数据集；主要来自文献中的研究成果和E-value校验过计算分析结果。有质量保证的数据才被加入该数据库。

②TrEMBL：包含高质量的计算分析结果，一般都在自动注释中富集，主要应对基因组项目获得的大量数据流以人工校验在时间上和人力上的不足。注释所有可用的蛋白序列。在三大核酸数据库（EMBL-Bank/GenBank/DDBJ）中注释的编码序列都被自动翻译并加入该数据库中。它也有来自PDB数据库的序列，以及Ensembl、Refeq和CCDS基因预测的序列