11.Transcription Fatcor
新建文件夹
mkdir 11.TF && cd 11.TF
需要interpro5.tsv
perl /media/aa/DATA2/bin/interpro2tf_for_Fungi.pl /media/aa/DATA/SZQ2/bj/functional_annotation/05.InterProScan/pep70/$i.interpro.tsv --out_prefix TF
批量操作
批量 pep70
for i in `cat /media/aa/DATA/SZQ2/bj/functional_annotation/70list.txt`
do
echo "perl /media/aa/DATA2/bin/interpro2tf_for_Fungi.pl /media/aa/DATA/SZQ2/bj/functional_annotation/05.InterProScan/pep70/$i.interpro.tsv --out_prefix $i.TF"
done > command.interpro2tf_for_Fungi.list
ParaFly -c command.interpro2tf_for_Fungi.list -CPU 48
批量 pepmy
for i in `cat /media/aa/DATA/SZQ2/bj/functional_annotation/pepmylist.txt`
do
echo "perl /media/aa/DATA2/bin/interpro2tf_for_Fungi.pl /media/aa/DATA/SZQ2/bj/functional_annotation/05.InterProScan/pepmy/$i.interpro.tsv --out_prefix $i.TF"
done > command.interpro2tf_for_Fungi.list
ParaFly -c command.interpro2tf_for_Fungi.list -CPU 48
14.TCDB 转运蛋白
本地BLASTP比对注释
对于TCDB而言,是可以免费下载的,下载的链接:
打开TCDB FastASequences,为蛋白序列文件,下载至本地可以使用blastp比对。
在“>”之后的序列标识符中,1001796365代表该蛋白质序列在GeneBank数据库中的编号,4.F.1.1.5 是TC Number, 代表该蛋白质所属的转运蛋白家族,CDP-alcohol phosphatidyltransferase是对该转运蛋白家族功能的具体描述,[Marinobacterexcellens] 是该蛋白序列的来源物种。
进入conda环境
conda activate pfam_scan
1)diamond blastp
diamond blastp --db /media/aa/DATA/SZQ2/TCDB/tcdb --query /media/aa/DATA/SZQ2/bj/functional_annotation/pep70/$i.fasta --out $i.tcdb10.xml --outfmt 5 --sensitive --max-target-seqs 20 --evalue 1e-10 --id 20 --tmpdir /dev/shm --index-chunks 1
批量操作
批量 pep70
for i in `cat /media/aa/DATA/SZQ2/bj/functional_annotation/70list.txt`
do
echo "diamond blastp --db /media/aa/DATA/SZQ2/TCDB/tcdb --query /media/aa/DATA/SZQ2/bj/functional_annotation/pep70/$i.fasta --out $i.tcdb10.xml --outfmt 5 --sensitive --max-target-seqs 20 --evalue 1e-10 --id 20 --tmpdir /dev/shm --index-chunks 1"
done > command.tcdb.list
ParaFly -c command.tcdb.list -CPU 48
批量 pepmy
for i in `cat /media/aa/DATA/SZQ2/bj/functional_annotation/pepmylist.txt`
do
echo "diamond blastp --db /media/aa/DATA/SZQ2/TCDB/tcdb --query /media/aa/DATA/SZQ2/bj/functional_annotation/pepmy/$i.fasta --out $i.tcdb10.xml --outfmt 5 --sensitive --max-target-seqs 20 --evalue 1e-10 --id 20 --tmpdir /dev/shm --index-chunks 1"
done > command.tcdb.list
ParaFly -c command.tcdb.list -CPU 48
2)parsing_blast_result.pl
# 新建文件夹
mkdir tcdb10.tab && cd tcdb10.tab
/media/aa/DATA2/bin/parsing_blast_result.pl --evalue 1e-10 --HSP-num 1 --out-hit-confidence --suject-annotation ../$i.tcdb10.xml > $i.tcdb10.tab
批量操作
批量 pep70
for i in `cat /media/aa/DATA/SZQ2/bj/functional_annotation/70list.txt`
do
echo "/media/aa/DATA2/bin/parsing_blast_result.pl --evalue 1e-10 --HSP-num 1 --out-hit-confidence --suject-annotation ../$i.tcdb10.xml > $i.tcdb10.tab"
done > command.tcdb.list
ParaFly -c command.tcdb.list -CPU 48
批量 pepmy
for i in `cat /media/aa/DATA/SZQ2/bj/functional_annotation/pepmylist.txt`
do
echo "/media/aa/DATA2/bin/parsing_blast_result.pl --evalue 1e-10 --HSP-num 1 --out-hit-confidence --suject-annotation ../$i.tcdb10.xml > $i.tcdb10.tab"
done > command.tcdb.list
ParaFly -c command.tcdb.list -CPU 48
Blast分析后的注释结果中一条序列含有多种结果,后续的分析需要提取得到基因最可能的注释结果。
如“/media/aa/DATA2/bin/gene_annotation_from_SwissProt.pl”的操作,如下:
3)比对结果中筛选每个query的最佳subject
进入conda环境
conda activate jcvi
python -m jcvi.formats.blast best -n 1 $i.tcdb10.tab
批量操作
批量 pep70
for i in `cat /media/aa/DATA/SZQ2/bj/functional_annotation/70list.txt`
do
echo "python -m jcvi.formats.blast best -n 1 $i.tcdb10.tab"
done > command.jcvi.list
ParaFly -c command.jcvi.list -CPU 48
批量 pepmy
for i in `cat /media/aa/DATA/SZQ2/bj/functional_annotation/pepmylist.txt`
do
echo "python -m jcvi.formats.blast best -n 1 $i.tcdb10.tab"
done > command.jcvi.list
ParaFly -c command.jcvi.list -CPU 48
4)整理best文件
mkdir best && cd best
cp ../*.tcdb10.tab.best ./