(8)抽取真核序列并注释

目录

一、Eukrep抽真核

二、使用EUKCC进行注释

一、Eukrep抽真核

#使用EukRep抽取真核基因,然后再metawrap分箱

#安装eukrep该软件
$ conda create -y -n eukrep-env -c bioconda scikit-learn==0.19.2 eukrep
#使用Eukrep
$ conda activate eukrep-env
$ EukRep -i <Sequences in Fasta format> -o <Eukaryote sequence output file>
$ EukRep -i scaffolds.fasta -o scaffolds.eukrep.fasta
#一些参数介绍  -i: 输入fasta文件  -o 输出文件  --min 设置最短序列,默认3kb  --model : 线性SVM训练模型  --seq_names:输出序列ID名称

二、使用EUKCC进行注释

#安装EUKCC2
$ conda instal -c conda-forge -c bioconda "eukcc>=2"
$ pip install eukcc
(大概安装在/ifs1/User/wuqi/anaconda3/envs/funannotate/lib/python3.7/site-packages这个下面)

#下载EUKCC数据库
$ cd /ifs1/User/wuqi/anaconda3/db #先转到这个目录
$ mkdir eukccdb
$ cd eukccdb
$ nohup wget http://ftp.ebi.ac.uk/pub/databases/metagenomics/eukcc/eukcc2_db_ver_1.1.tar.gz &  
#大概5个G左右,超级慢,挂后台
$ tar -xzvf eukcc2_db_ver_1.1.tar.gz #解压一下数据库
$ export EUKCC2_DB=/ifs1/User/wuqi/anaconda3/db/eukccdb/eukcc2_db_ver_1.1 
#要把这个数据库的位置给指定出来,每次进入这个环境,都要指定一下
#Running EukCC
$ conda activate funannotate #要激活funannotate这个环境运行
$ export EUKCC2_DB=/ifs1/User/wuqi/anaconda3/db/eukccdb/eukcc2_db_ver_1.1
#指定数据库目录
$ eukcc folder --out outfolder --threads 8 bins
#对bins文件下的内容进行floder
$ eukcc folder --out outfolder --threads 8 ../metabat2_bins
$ eukcc folder --out outfolder --threads 8 ../concoct_bins
$ eukcc folder --out outfolder --threads 8 ../maxbin2_bins

$ eukcc single --out outfolder --threads 8 bin.fa 
#对一个单独的组装文件进行分析
$ eukcc single --out outfolder --threads 8 scaffolds.fasta

# 结果文件会生成一个.csv和.log文件,从表格文件中查看评估的完整度和污染度,从日志文件中查看评估出的物种的ID号,然后去NCBI数据库中去查找

# 本次比对到多为716546,视为地衣型真菌,13786为Treboxia属,视为共生藻

# 比对结束后保留分箱得到的.fasta文件,其他的皆可删掉~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值