NCBI下载特定物种蛋白质序列和Linux下Signalp6的下载安装与使用

本文介绍了如何从NCBI下载特定物种的蛋白质序列,包括选择数据类型和下载压缩包。此外,详细步骤说明了SignalP软件的下载、安装,以及如何使用它预测信号肽并解读输出文件。作者还提到将使用TMHMM2.0预测跨膜结构的后续计划。
摘要由CSDN通过智能技术生成

1、NCBI下载特定物种蛋白质序列

先在NCBI上找到自己所需物种的蛋白组序列,像下图:

Search一下,结果页面对照一下看是不是自己要的物种,然后点击Download

出现下载页面,勾选自己要下载的类型数据即可。这里有基因组序列,蛋白组序列,还有gff注释文件等。

下载的是一个压缩包,可以自命名。我的这个数据解压后里面有两个蛋白组序列,我查了一下,GCF是RefSeq,GCA是GenBank,GCF可能更可靠一些,我使用的是GCF。

2、SignalP的下载安装

下载软件

Bioinformatic Tools and Services - DTU Health Tech

上面是网址,可以在线测,有局限,大批量的还是下载本地的吧。

点进去网站,找到Download,选择版本,我选的是6.0 fast版本,用学术邮箱申请,如果没收到邮件,有可能会是网络的原因(我就是)。点开邮件里的下载地址后,下载1.4G的这个压缩文件就行了。邮件提供的下载链接有效期只有4个小时,尽快下载。

安装过程:我就随便参考了一个别人的教程,SignalP6的安装 - 知乎 (zhihu.com)

先创建虚拟环境

conda create -n signalp6 python=3.7
conda activate signalp6

安装所要求的依赖,出现successful安装成功了,一般没什么问题。

pip install matplotlib
pip install torch==1.8.1+cpu torchvision==0.9.1+cpu torchaudio==0.8.1 -f https://download.pytorch.org/whl/torch_stable.html
pip install tqdm

也可以验证一下

python
import torch
print(torch.__version__)
exit()

把下载的文件解压缩   tar zxvf signalp-6.0h.fast.tar.gz     解压后如下图:

安装   python setup.py install    这一步要cd到所在文件夹下,不然会找不到文件

移动model的位置:把上图models文件夹里的distilled_model_signalp6.pt文件文件复制到虚拟环境中软件的安装位置。我已经cd到models文件夹下了,所以直接执行下面命令即可。

cp distilled_model_signalp6.pt /home/用户名/miniconda3/envs/signalp6/lib/python3.7/site-packages/signalp6-6.0+h-py3.7.egg/signalp/model_weights

测试一下 signalp6 --help,如下图就安装成功了。

3、SignalP的使用

我直接输入下列命令:protein.faa是我的蛋白组序列,eukarya是真核生物,output是输出路径,txt是输出文件格式,fast是使用的模式是fast。耐心等待,估计得个把小时吧。

signalp6 --fastafile protein.faa --organism eukarya --output_dir output --format txt --mode fast

4、输出结果文件

输出了一堆的文件,只需要看下面几个:

prediction_results.txt:
文件里的ID:从fasta输入解析的序列ID。

Prediction: 预测类型。 OTHER 表示没有信号肽, SP (Sec/SPI), LIPO (Sec/SPII), TAT (Tat/SPI), TATLIPO (Tat/SPII), PILIN (Sec/SPIII)后面的这几种都是有信号肽,括号里是用到的切割酶。

CS Position:切割位置。信号肽酶切割的序列位置及其预测概率。

processed_entries.fasta:预测的成熟蛋白质,即去除其信号肽的序列。这个非常有用。
output.gff3:GFF3格式的所有预测信号肽的起始和终止位置。
region_output.gff3GFF3格式的所有预测信号肽区域的起始和终止位置。
output.json:预测结果为JSON格式,以及运行参数和生成的输出文件路径的详细信息。

后面还打算再用TMHMM2.0软件预测跨膜结构,到时候再一起整理整理这些结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值