Transcription Fatcor (TF), TCDB注释步骤（含批量）

Xsisikk

已于 2023-08-08 15:57:47 修改

阅读量622

点赞数

分类专栏：基因组功能注释文章标签： linux 运维服务器 ubuntu

于 2023-04-01 19:58:57 首次发布

本文链接：https://blog.csdn.net/weixin_58269397/article/details/129901323

版权

基因组功能注释专栏收录该内容

11 篇文章

订阅专栏

11.Transcription Fatcor

新建文件夹

mkdir 11.TF && cd 11.TF

需要interpro5.tsv

perl /media/aa/DATA2/bin/interpro2tf_for_Fungi.pl /media/aa/DATA/SZQ2/bj/functional_annotation/05.InterProScan/pep70/$i.interpro.tsv --out_prefix TF

批量操作

批量 pep70

for i in `cat /media/aa/DATA/SZQ2/bj/functional_annotation/70list.txt`
do
    echo "perl /media/aa/DATA2/bin/interpro2tf_for_Fungi.pl /media/aa/DATA/SZQ2/bj/functional_annotation/05.InterProScan/pep70/$i.interpro.tsv --out_prefix $i.TF"
done > command.interpro2tf_for_Fungi.list
ParaFly -c command.interpro2tf_for_Fungi.list -CPU 48

批量 pepmy

for i in `cat /media/aa/DATA/SZQ2/bj/functional_annotation/pepmylist.txt`
do
    echo "perl /media/aa/DATA2/bin/interpro2tf_for_Fungi.pl /media/aa/DATA/SZQ2/bj/functional_annotation/05.InterProScan/pepmy/$i.interpro.tsv --out_prefix $i.TF"
done > command.interpro2tf_for_Fungi.list
ParaFly -c command.interpro2tf_for_Fungi.list -CPU 48

14.TCDB 转运蛋白

本地BLASTP比对注释

对于TCDB而言，是可以免费下载的，下载的链接：

TCDB » Downloads

打开TCDB FastASequences，为蛋白序列文件，下载至本地可以使用blastp比对。

在“>”之后的序列标识符中，1001796365代表该蛋白质序列在GeneBank数据库中的编号，4.F.1.1.5 是TC Number, 代表该蛋白质所属的转运蛋白家族，CDP-alcohol phosphatidyltransferase是对该转运蛋白家族功能的具体描述，[Marinobacterexcellens] 是该蛋白序列的来源物种。

进入conda环境

conda activate pfam_scan

1）diamond blastp

diamond blastp --db /media/aa/DATA/SZQ2/TCDB/tcdb --query /media/aa/DATA/SZQ2/bj/functional_annotation/pep70/$i.fasta --out $i.tcdb10.xml --outfmt 5 --sensitive --max-target-seqs 20 --evalue 1e-10 --id 20 --tmpdir /dev/shm --index-chunks 1

批量操作

批量 pep70

for i in `cat /media/aa/DATA/SZQ2/bj/functional_annotation/70list.txt`
do
    echo "diamond blastp --db /media/aa/DATA/SZQ2/TCDB/tcdb --query /media/aa/DATA/SZQ2/bj/functional_annotation/pep70/$i.fasta --out $i.tcdb10.xml --outfmt 5 --sensitive --max-target-seqs 20 --evalue 1e-10 --id 20 --tmpdir /dev/shm --index-chunks 1"
done > command.tcdb.list
ParaFly -c command.tcdb.list -CPU 48

批量 pepmy

for i in `cat /media/aa/DATA/SZQ2/bj/functional_annotation/pepmylist.txt`
do
    echo "diamond blastp --db /media/aa/DATA/SZQ2/TCDB/tcdb --query /media/aa/DATA/SZQ2/bj/functional_annotation/pepmy/$i.fasta --out $i.tcdb10.xml --outfmt 5 --sensitive --max-target-seqs 20 --evalue 1e-10 --id 20 --tmpdir /dev/shm --index-chunks 1"
done > command.tcdb.list
ParaFly -c command.tcdb.list -CPU 48

2）parsing_blast_result.pl

# 新建文件夹
mkdir tcdb10.tab && cd tcdb10.tab

/media/aa/DATA2/bin/parsing_blast_result.pl --evalue 1e-10 --HSP-num 1 --out-hit-confidence --suject-annotation ../$i.tcdb10.xml > $i.tcdb10.tab

批量操作

批量 pep70

for i in `cat /media/aa/DATA/SZQ2/bj/functional_annotation/70list.txt`
do
    echo "/media/aa/DATA2/bin/parsing_blast_result.pl --evalue 1e-10 --HSP-num 1 --out-hit-confidence --suject-annotation ../$i.tcdb10.xml > $i.tcdb10.tab"
done > command.tcdb.list
ParaFly -c command.tcdb.list -CPU 48

批量 pepmy

for i in `cat /media/aa/DATA/SZQ2/bj/functional_annotation/pepmylist.txt`
do
    echo "/media/aa/DATA2/bin/parsing_blast_result.pl --evalue 1e-10 --HSP-num 1 --out-hit-confidence --suject-annotation ../$i.tcdb10.xml > $i.tcdb10.tab"
done > command.tcdb.list
ParaFly -c command.tcdb.list -CPU 48

Blast分析后的注释结果中一条序列含有多种结果，后续的分析需要提取得到基因最可能的注释结果。

如“/media/aa/DATA2/bin/gene_annotation_from_SwissProt.pl”的操作，如下：

3）比对结果中筛选每个query的最佳subject

进入conda环境

conda activate jcvi

python -m jcvi.formats.blast best -n 1 $i.tcdb10.tab

批量操作

批量 pep70

for i in `cat /media/aa/DATA/SZQ2/bj/functional_annotation/70list.txt`
do
    echo "python -m jcvi.formats.blast best -n 1 $i.tcdb10.tab"
done > command.jcvi.list
ParaFly -c command.jcvi.list -CPU 48

批量 pepmy

for i in `cat /media/aa/DATA/SZQ2/bj/functional_annotation/pepmylist.txt`
do
    echo "python -m jcvi.formats.blast best -n 1 $i.tcdb10.tab"
done > command.jcvi.list
ParaFly -c command.jcvi.list -CPU 48

4）整理best文件

mkdir best && cd best
cp ../*.tcdb10.tab.best ./