（8）抽取真核序列并注释

琉璃月月呀

已于 2024-05-22 16:47:45 修改

阅读量74

点赞数

文章标签：学习方法

于 2023-05-25 17:56:03 首次发布

本文链接：https://blog.csdn.net/weixin_44562189/article/details/130872315

版权

一、Eukrep抽真核

二、使用EUKCC进行注释

一、Eukrep抽真核

#使用EukRep抽取真核基因，然后再metawrap分箱

#安装eukrep该软件
$ conda create -y -n eukrep-env -c bioconda scikit-learn==0.19.2 eukrep
#使用Eukrep
$ conda activate eukrep-env
$ EukRep -i <Sequences in Fasta format> -o <Eukaryote sequence output file>
$ EukRep -i scaffolds.fasta -o scaffolds.eukrep.fasta
#一些参数介绍  -i: 输入fasta文件  -o 输出文件  --min 设置最短序列，默认3kb  --model : 线性SVM训练模型  --seq_names：输出序列ID名称

二、使用EUKCC进行注释

#安装EUKCC2
$ conda instal -c conda-forge -c bioconda "eukcc>=2"
$ pip install eukcc
(大概安装在/ifs1/User/wuqi/anaconda3/envs/funannotate/lib/python3.7/site-packages这个下面)

#下载EUKCC数据库
$ cd /ifs1/User/wuqi/anaconda3/db #先转到这个目录
$ mkdir eukccdb
$ cd eukccdb
$ nohup wget http://ftp.ebi.ac.uk/pub/databases/metagenomics/eukcc/eukcc2_db_ver_1.1.tar.gz &  
#大概5个G左右，超级慢，挂后台
$ tar -xzvf eukcc2_db_ver_1.1.tar.gz #解压一下数据库
$ export EUKCC2_DB=/ifs1/User/wuqi/anaconda3/db/eukccdb/eukcc2_db_ver_1.1 
#要把这个数据库的位置给指定出来，每次进入这个环境，都要指定一下

#Running EukCC
$ conda activate funannotate #要激活funannotate这个环境运行
$ export EUKCC2_DB=/ifs1/User/wuqi/anaconda3/db/eukccdb/eukcc2_db_ver_1.1
#指定数据库目录
$ eukcc folder --out outfolder --threads 8 bins
#对bins文件下的内容进行floder
$ eukcc folder --out outfolder --threads 8 ../metabat2_bins
$ eukcc folder --out outfolder --threads 8 ../concoct_bins
$ eukcc folder --out outfolder --threads 8 ../maxbin2_bins

$ eukcc single --out outfolder --threads 8 bin.fa 
#对一个单独的组装文件进行分析
$ eukcc single --out outfolder --threads 8 scaffolds.fasta

# 结果文件会生成一个.csv和.log文件，从表格文件中查看评估的完整度和污染度，从日志文件中查看评估出的物种的ID号，然后去NCBI数据库中去查找

# 本次比对到多为716546，视为地衣型真菌，13786为Treboxia属，视为共生藻

# 比对结束后保留分箱得到的.fasta文件，其他的皆可删掉~