宏基因组|使用CheckM2评估分箱质量

在这里插入图片描述

简介

CheckM2使用机器学习快速评估基因组bin质量

与CheckM1不同,CheckM2采用通用训练的机器学习模型,无论分类学谱系如何,均可用于预测基因组bin的完整性和污染情况。这使得它能够在训练集中纳入许多仅具有少数(甚至只有一个)高质量基因组代表的谱系,通过将其置于训练集中所有其他生物体的背景下进行分析。得益于这一机器学习框架,CheckM2对于具有缩减基因组或特殊生物学特性的生物体,如Nanoarchaeota或Patescibacteria,也具有极高的准确性。

CheckM2使用两种独立的机器学习模型来预测基因组完整性。其中,“通用”梯度提升模型具有良好的泛化能力,适用于GenBank或RefSeq中代表性不足的生物体(大致相当于在目、纲或门水平上为新物种)。而“特定”神经网络模型在预测与参考训练集相近物种的完整性时更为准确(大致相当于已知物种、属或科中的生物体)。CheckM2通过计算余弦相似度自动确定适用于每个输入基因组的完整性模型,但用户也可以强制使用特定的完整性模型,或者获取两种模型的预测输出。至于污染情况,CheckM2只有一种基于梯度提升的模型,该模型不受不同版本分类学物种注释的影响,适用于所有情况。

安装

mamba env create -f checkm2.yaml
mamba activate checkm2

checkm2.yaml文件如下

names: checkm2
channels:
  - conda-forge
  - bioconda
  - defaults
dependencies:
  - checkm2=1.0.1

下载数据库

官方下载链接

https://zenodo.org/api/files/fd3bc532-cd84-4907-b078-2e05a1e46803/checkm2_database.tar.gz

或者从我们的网盘中下载

链接:https://pan.quark.cn/s/e714d2d9d7f2
提取码:u2R1

解压

tar -xf checkm2*z

使用

checkm2 predict \
    --threads 16 \
    --input ./Bin/ \
    --output-directory ./Bin_quality/ \
    --database_path ./checkm2/uniref100.KO.1.dmnd
  • --input 输入目录,包含bin.fa或bin.fna等文件
Bin.1.fa
Bin.2.fa
Bin.3.fa
Bin.4.fa
Bin.5.fa
Bin.6.fa
...
  • --output-directory 输出文件目录
  • --database_path 数据库文件
  • --threads 所使用的线程数

输出结果

  • diamond_output/
  • protein_files/
  • checkm2.log
  • quality_report.tsv

可以根据quality_report.tsv文件中的Completeness>75和Contamination<10挑选Bin

grep 'Bin' Bin_quality/quality_report.tsv | \
awk '{if($2>75 && $3<10) print $1}' > Bin_quality/checkm2_pick.txt

NameCompletenessContaminationCompleteness_Model_UsedTranslation_Table_UsedCoding_DensityContig_N50Average_Gene_LengthGenome_SizeGC_ContentTotal_Coding_SequencesAdditional_Notes
Bin.3164.524.61Gradient Boost (General Model)110.8814705287.052094518187720.631862None
Bin.31087.922.31Neural Network (Specific Model)110.84119758357.399481924568440.511930None
Bin.31122.070.01Neural Network (Specific Model)110.85216495304.85945955944760.42555None
Bin.31270.10.93Neural Network (Specific Model)110.8684467273.762299915927660.381687None
Bin.3135.450.02Neural Network (Specific Model)110.92562916244.93877552321560.41294None
Bin.31491.290.5Gradient Boost (General Model)110.95414158348.068849712997130.491191None

Reference

https://github.com/chklovski/CheckM2
https://pubmed.ncbi.nlm.nih.gov/37500759/

承接宏基因组、扩增子全部分析内容

在这里插入图片描述

请添加图片描述

  • 20
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
dRep checkm是dRep软件中的一个命令,用于检查基因组的完整性和质量。在运行dRep checkm命令时,会检查一些依赖软件的安装情况,如mash、nucmer、ANIcalculator、centrifuge、nsimscan和fastANI。如果这些软件没有正确安装或位置不正确,dRep checkm命令会显示错误信息。\[1\] 另外,在dRep中还有其他一些命令可以用于去除基因组目录中的冗余。例如,可以使用dRep dereplicate命令以一定的ANI阈值对基因组进行聚类,并将相似度较高的基因组放入物种级别的次要集群。要去冗余基因组,可以使用以下命令:dRep dereplicate -p {threads} {params.outdir} -g {params.indir}/*.fa -pa 0.90 -sa 0.95 -nc 0.30 -cm larger --genomeInfo {input.checkm} -comp 50 -con 5。其中,pa参数表示主要集群的ANI阈值,sa参数表示次要集群的ANI阈值。\[2\] 此外,还可以使用bwa和samtools等工具对基因组进行比对和排序。例如,可以使用bwa mem命令将基因组比对到参考序列上,并使用samtools进行排序和索引。具体命令如下:bwa index {input.catalog}、bwa mem -t {threads} {input.catalog} {input.fwd} {input.rev} | samtools view -bS - | samtools sort -@ {threads} -o {params.alignedsorted}、samtools index {params.alignedsorted}、samtools flagstat {params.alignedsorted} > {output.flagstat}。\[3\] #### 引用[.reference_title] - *1* [dRep学习笔记](https://blog.csdn.net/dunghill_cock/article/details/124682718)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [Nature子刊:宏基因组中挖掘原核基因组的分析流程](https://blog.csdn.net/woodcorpse/article/details/118124686)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值