NCBI、UniProt、RCSB PDB的部分功能使用(蛋白质晶体结构、蛋白质氨基酸序列、基因序列、序列比对等)

本文详细介绍了生物医学领域的重要数据库NCBI、UniProt及其子数据库UniProtKB、UniRef和UniParc,以及RCSBPDB。内容涵盖数据库的基本信息、网址、功能以及实际操作,如通过PDB查找蛋白晶体结构和进行序列比对。此外,还提供了网页版和软件版的序列比对方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

NCBI、UniProt、RCSB PDB三个数据库是在生物医学领域非常重要的数据库。本帖主要为自己学习记录,可供大家学习参考。

目录

一、简介与网址

1.NCBI

2.UniProt

1)UniProtKB

2)UniRef

3)UniParc

3.RCSB PDB

二、操作使用

1.PDB中,找蛋白晶体结构

2.蛋白/多肽序列比对

2.1网页版

 2.2软件版


一、简介与网址

1.NCBI

 网址:https://www.ncbi.nlm.nih.gov/

NCBI(National Center for Biotechnology Information)是美国国家生物技术信息中心的简称,存储了分子生物学、生物化学和遗传学等学科的相关数据资料,包括基因测序数据、基因图谱、蛋白质信息等,以及生物医学领域相关研究论文的索引。网站中的一些在线软件,如BLAST等,可以方便分析数据,提高工作效率。

2.UniProt

网址:https://www.uniprot.org/

UniProt(Unified Protein Database)蛋白质信息数据库,是由瑞士生物信息学研究所多个研究团队共同建立并维护的蛋白质序列与注释数据综合资源,也是目前世界上最权威的蛋白质信息数据库。其整合了Swiss-Prot、TrEMBL和PIR三大数据库的数据,包括蛋白质知识库(UniProtKB)、蛋白质引用集群(UniRef)和蛋白质数据归档(UniParc)三个部分。

1)UniProtKB

UniProtKB(UniProt Knowledgebase)是蛋白质序列、功能、分类、交叉引用等信息存取中心。包括以下两部分:

①Swiss-Prot:高质量的、手工注释的、非冗余的数据集;主要来自文献中的研究成果和E-value校验过计算分析结果。有质量保证的数据才被加入该数据库。

②TrEMBL:包含高质量的计算分析结果,一般都在自动注释中富集,主要应对基因组项目获得的大量数据流以人工校验在时间上和人力上的不足。注释所有可用的蛋白序列。在三大核酸数据库(EMBL-Bank/GenBank/DDBJ)中注释的编码序列都被自动翻译并加入该数据库中。它也有来自PDB数据库的序列,以及Ensembl、Refeq和CCDS基因预测的序列

2)UniRef

UniRef(UniProt Non-redundant Reference)将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度。目前,根据序列相似程度形成3个子库:UniRef100、UniRef90和UniRef50。

3)UniParc

UniParc(UniProt Archive)是一个综合性的非冗余数据库,包含了所有主要的、公开的数据库的蛋白质序列。

由于蛋白质可能在不同的数据库中存在,并且可能在同一个数据库中有多个版本,为了去冗余,UniaraParc对每条唯一的序列只存一次,无论是否为同一物种的序列,只要序列相同就被合并为一条,每条序列提供稳定的、唯一的编号UPI。

该数据库含有蛋白质的序列信息,而没有注释数据。用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过

### 寻找地衣芽孢杆菌14580中特定蛋白酶的Uniprot链接 对于地衣芽孢杆菌14580中的假定金属蛋白酶YmfF (AGN36311.1) 和 假定前头蛋白酶(AGN35091.1),可以通过访问UniProt数据库来查找对应的Uniprot链接。 为了找到这些蛋白质的具体条目,可以按照如下方法操作: #### 方法一:通过NCBI编号查询 可以直接利用给定的NCBI RefSeq编号,在 UniProt 数据库中进行搜索。通常情况下,UniProt 支持多种识别符作为输入参数来进行检索[^1]。 针对 `AGN36311.1` 和 `AGN35091.1` 这样的RefSeq编号,可以在浏览器地址栏输入以下URL模式并替换相应的ID部分以直接跳转到对应页面: - 对于 AGN36311.1 的 URL 将会是 https://www.uniprot.org/uniprot/?query=AGN36311.1+organism:"Bacillus%20licheniformis" - 同样地,对于 AGN35091.1,则应构建类似的请求字符串以定位该蛋白质记录。 #### Python脚本自动化批量获取PDB文件 如果目标是从已知的一系列Uniprot ID 或 PDB ID 批量下载 `.pdb` 文件,下面提供了一个Python脚本来实现这一功能。此代码片段展示了如何基于列表内的每一个ID构造完整的下载链接,并发起HTTP GET 请求完成下载过程: ```python import requests protein_ids = ['AGN36311', 'AGN35091'] # 替换为实际需要处理的Protein IDs base_url = 'http://www.rcsb.org/pdb/files/' for i in protein_ids: response = requests.get(base_url + i + '.pdb') with open(i + ".pdb", "wb") as file: file.write(response.content) ``` 上述代码实现了自动化的`.pdb`文件下载流程,但请注意这仅适用于那些已经在RCSB Protein Data Bank注册过的蛋白质结构数据;而对于未解析三维结构或是尚未提交至PDB的数据集来说,这种方法可能无法适用。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值