DeepARG——一种基于深度学习更加准确预测ARG的方法

生信指南

已于 2022-12-27 15:25:34 修改

阅读量2.4k

点赞数 2

分类专栏： ARG 基因组文章标签：深度学习人工智能学习方法 linux

于 2022-12-27 15:09:33 首次发布

本文链接：https://blog.csdn.net/weixin_45715611/article/details/128443778

版权

ARG 同时被 2 个专栏收录

1 篇文章

订阅专栏

基因组

1 篇文章

订阅专栏

DeepARG——一种基于深度学习更加准确预测ARG的方法

本文介绍的是发表于Microbiome名为DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data的文章，截至本文投稿已被引高达388次。
在这里插入图片描述

背景

以往ARG的识别鉴定通常是根据比对现有数据库的序列并设置 "best hits "来确定或预测的。但是这种方法产生的假阴性率很高。为了解决这种局限性，文章提出了一种深度学习方法，考虑到使用所有已知的ARG类别创建的异同矩阵。两个深度学习模型，DeepARG-SS（针对短序列reads）和DeepARG-LS(针对长序列基因组，开放阅读框ORF)。

方法原理

参考三个数据库：

ARDB
CARD
UNIPROT

合并去冗余
在这里插入图片描述预处理和UNIPROT ARGs注释。将来自CARD、ARDB和UNIPROT的抗生素耐药基因合并并聚类以去除重复基因。然后，利用metadata与ARDB和CARD的抗生素类别名称之间的匹配，对UNIPROT的序列进行注释。

UNIPROT gene构建

ARDB和CARD数据库都包含有助于ARG分类的信息,但序列水平上还没有证据表明UNIPROT基因与抗生素耐药性真正相关。由于这个原因，UNIPROT基因的注释通过它们在CARD和ARDB数据库中的序列同一性被进一步验证。下图展示的就是UNI-gene的构建过程与其不同分类介绍。
在这里插入图片描述

Deep learning

CARD和ARDB基因代表已知的ARG，而UNIPROT (High+Mid)基因用于模型的训练和验证。
在这里插入图片描述

软件安装与使用

安装

# 创建环境
#使用conda加速器mamba运行
#未安装可执行：conda install -c conda-forge mamba
mamba create -n deeparg python=2.7.18 -y
conda activate deeparg

# 安装diamond
mamba install -c bioconda diamond==0.9.24 -y

# 安装其他依赖项
mamba install trimmomatic vsearch bedtools bowtie2 samtools -y

# 安装DeepARG
pip install deeparg==1.0.1 
#若无法安装使用镜像源这里使用豆瓣源
pip install deeparg==1.0.1 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

# 下载数据库， -o指定下载路径
deeparg download_data -o ./database

使用

示例：

deeparg predict \
    --model LS \
    -i ./test/ORFs.fa \
    -o ./test/X \
    -d /path/to/data/ \
    --type nucl \
    --min-prob 0.8 \
    --arg-alignment-identity 30 \
    --arg-alignment-evalue 1e-10 \
    --arg-num-alignments-per-entry 1000