DeepARG——一种基于深度学习更加准确预测ARG的方法
本文介绍的是发表于Microbiome名为DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data的文章,截至本文投稿已被引高达388次。
背景
以往ARG的识别鉴定通常是根据比对现有数据库的序列并设置 "best hits "来确定或预测的。但是这种方法产生的假阴性率很高。为了解决这种局限性,文章提出了一种深度学习方法,考虑到使用所有已知的ARG类别创建的异同矩阵。两个深度学习模型,DeepARG-SS(针对短序列reads)和DeepARG-LS(针对长序列基因组,开放阅读框ORF)。
方法原理
参考三个数据库:
- ARDB
- CARD
- UNIPROT
合并去冗余
预处理和UNIPROT ARGs注释。将来自CARD、ARDB和UNIPROT的抗生素耐药基因合并并聚类以去除重复基因。 然后,利用metadata与ARDB和CARD的抗生素类别名称之间的匹配,对UNIPROT的序列进行注释。
UNIPROT gene构建
ARDB和CARD数据库都包含有助于ARG分类的信息,但序列水平上还没有证据表明UNIPROT基因与抗生素耐药性真正相关。由于这个原因,UNIPROT基因的注释通过它们在CARD和ARDB数据库中的序列同一性被进一步验证。下图展示的就是UNI-gene的构建过程与其不同分类介绍。
Deep learning
CARD和ARDB基因代表已知的ARG,而UNIPROT (High+Mid)基因用于模型的训练和验证。
软件安装与使用
安装
# 创建环境
#使用conda加速器mamba运行
#未安装可执行:conda install -c conda-forge mamba
mamba create -n deeparg python=2.7.18 -y
conda activate deeparg
# 安装diamond
mamba install -c bioconda diamond==0.9.24 -y
# 安装其他依赖项
mamba install trimmomatic vsearch bedtools bowtie2 samtools -y
# 安装DeepARG
pip install deeparg==1.0.1
#若无法安装使用镜像源这里使用豆瓣源
pip install deeparg==1.0.1 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
# 下载数据库, -o指定下载路径
deeparg download_data -o ./database
使用
示例:
deeparg predict \
--model LS \
-i ./test/ORFs.fa \
-o ./test/X \
-d /path/to/data/ \
--type nucl \
--min-prob 0.8 \
--arg-alignment-identity 30 \
--arg-alignment-evalue 1e-10 \
--arg-num-alignments-per-entry 1000
主要参数设置:
–model LS和SS两种方式
-i 输入文件
-o 输出文件
-d 数据库位置
–type 核苷酸nucl还是氨基酸prot,默认nucl
输出结果
四个文件:
x.mapping.ARG最终的注释结果文件
x.mapping.potential.ARG预测后可能还含有 ARG-like sequences但还需验证
x.align.daa.tsv和x.align.daa是比对的结果文件
参考
[1] https://bitbucket.org/gusphdproj/deeparg-ss/src/master/README.md
更多的最新最全内容欢迎关注公众号:生信指南