目录
一、Eukrep抽真核
#使用EukRep抽取真核基因,然后再metawrap分箱
#安装eukrep该软件
$ conda create -y -n eukrep-env -c bioconda scikit-learn==0.19.2 eukrep
#使用Eukrep
$ conda activate eukrep-env
$ EukRep -i <Sequences in Fasta format> -o <Eukaryote sequence output file>
$ EukRep -i scaffolds.fasta -o scaffolds.eukrep.fasta
#一些参数介绍 -i: 输入fasta文件 -o 输出文件 --min 设置最短序列,默认3kb --model : 线性SVM训练模型 --seq_names:输出序列ID名称
二、使用EUKCC进行注释
#安装EUKCC2
$ conda instal -c conda-forge -c bioconda "eukcc>=2"
$ pip install eukcc
(大概安装在/ifs1/User/wuqi/anaconda3/envs/funannotate/lib/python3.7/site-packages这个下面)
#下载EUKCC数据库
$ cd /ifs1/User/wuqi/anaconda3/db #先转到这个目录
$ mkdir eukccdb
$ cd eukccdb
$ nohup wget http://ftp.ebi.ac.uk/pub/databases/metagenomics/eukcc/eukcc2_db_ver_1.1.tar.gz &
#大概5个G左右,超级慢,挂后台
$ tar -xzvf eukcc2_db_ver_1.1.tar.gz #解压一下数据库
$ export EUKCC2_DB=/ifs1/User/wuqi/anaconda3/db/eukccdb/eukcc2_db_ver_1.1
#要把这个数据库的位置给指定出来,每次进入这个环境,都要指定一下
#Running EukCC
$ conda activate funannotate #要激活funannotate这个环境运行
$ export EUKCC2_DB=/ifs1/User/wuqi/anaconda3/db/eukccdb/eukcc2_db_ver_1.1
#指定数据库目录
$ eukcc folder --out outfolder --threads 8 bins
#对bins文件下的内容进行floder
$ eukcc folder --out outfolder --threads 8 ../metabat2_bins
$ eukcc folder --out outfolder --threads 8 ../concoct_bins
$ eukcc folder --out outfolder --threads 8 ../maxbin2_bins
$ eukcc single --out outfolder --threads 8 bin.fa
#对一个单独的组装文件进行分析
$ eukcc single --out outfolder --threads 8 scaffolds.fasta
# 结果文件会生成一个.csv和.log文件,从表格文件中查看评估的完整度和污染度,从日志文件中查看评估出的物种的ID号,然后去NCBI数据库中去查找
# 本次比对到多为716546,视为地衣型真菌,13786为Treboxia属,视为共生藻
# 比对结束后保留分箱得到的.fasta文件,其他的皆可删掉~