NAR:扩增子OTU聚类软件SeekDeep方法解读

本文转载自"生信算法",已获授权

微生态种群研究中,16S rRNA是细菌分类研究中最有用和最常用的标签序列,可以很容易地通过测序技术得到序列,故被广泛应用。基于16S序列的微生物多样性分析也是宏基因组领域的重要研究内容。      

OTU(operational taxonomic unit)聚类作为微生物序列分析中的重要一环,引起了许多研究者的关注,发展了不同策略的OTU聚类算法,最常用的有CD-HIT、MOTHUR、USEARCH以及被大家所熟知的综合分析平台QIIME。

传统的OTU聚类算法都是设定一个距离阈值(如0.03)进行聚类,即将序列距离小于0.03的序列聚在一起,这样形成的每个OTU对应分类学上的species(种)。(1)但是随着多样性分析的精细化,越来越多的研究者需要得到更细水平(strain)的划分。而且有时不同物种间的16S序列差异只有1个或多个碱基不同,如何将这些序列间差异很小的物种找出来,传统的OTU聚类算法变得“无能为力”。(2)第二个需要考虑的便是测序误差,包括PCR扩增过程和测序仪器两种误差。大多数传统的OTU聚类算法并没有考虑。

基于以上两点,作者开发了SeekDeep扩增子测序分析软件,18年在Nucleic Acids Research(IF: 10.162)上发表,将测序误差考虑进来,可以有效找出单个碱基差异的物种。

SeekDeep方法

SeekDeep软件主要分为4步,如下图所示,其中qcluster是软件的核心算法(重点介绍)

1 extractor

常规操作,根据barcode将不同样本的序列提取出来。

2 qcluster

对每个样本数据进行聚类,SeekDeep方法的核心步骤,看作者是如何判断将两条序列归为一类。下图是qcluster的分析流程图,先进行去重复处理,得到unique序列,然后多次迭代的进行序列合并,得到最终的clusters。

       我们接下来看qcluster的核心步骤,根据比对结果与质量分数将两条序列合并在一起。本次的重点介绍

      首先需要对两条序列进行序列比对,如下图两条序列a、b所示。

其中判断指标主要有六个,如下图所示

(1)1 base indel:1个插入或删除碱基的个数,如果出现在同聚体(Homopolymer)中,则个数为两个同聚体长度的平均值的倒数,所以上图中1 base indel的总个数为1.28。

(2)2 base indel:连续2个的indel错误,比对结果中没有出现。

(3)>2 base indel:连续2个以上的indel错误,比对结果中没有出现。

(4)High quality mismatches:质量分数比较高的mismatch,博哥认为是属于可信度比较高的mismatch(也就是真的mismatch)。要同时考虑前面2个碱基和后面两个碱基的质量分数,当mismatch位置上的质量分数高于20并且前后2个碱基(共4个碱基)的质量分数大于15时,就为High quality mismatches

(5)Low quality mismatches:不满足的High quality mismatches就是Low quality mismatches

比对结果中共有2个High quality mismatches,1个Low quality mismatches

(6)Low K-mer mismatch:如果mismatch属于High quality mismatches,计算这个mismatch的K-mer频数。K-mer以mismatch为中心的,K默认值为9。如果频数超过1(默认值),则Low K-mer mismatch个数加1。

通过以上六个指标,判断是否将两条序列合并在一起,由于观测值大于默认值,所以不进行合并。

 qcluster多次迭代比较,每次迭代的阈值会有所增加,程序默认8次迭代,最后的结果即时每个样本的聚类结果。

3 processClusters

对每个样本的聚类结果合在一起在进行qcluster。

4 popClusteringViewer

结果可视化。

结 果 比 较

比较算法:MED、UNOISE和DATA2三个算法进行比较。

测试数据集:模拟数据、真实数据

评价指标:Recovery(calculated as the number of clusterexactly matching expected divided by the total number of expected)

模拟数据

模拟数据B的复杂性高于数据A,可以看出SeekDeep在低丰度下效果明显好于其他算法。

真实数据

A图是平均多次下的比较结果,图B是聚类结果的丰度图与真实丰度的散点图,直线越接近1,说明聚出的结果越接近真实丰度。可以看出SeekDeep的结果较好。

限于篇幅,简单列了这两个分析结果。需要更加详细的结果,可以下载阅读原文文章。

参考文献: 

Hathaway N J,Parobek C M, Juliano J J, et al. SeekDeep: single-base resolution de novo clustering for amplicon deep sequencing. Nucleic Acids Research, 2018.

猜您喜欢:

mothur QIIME usearch,三足鼎立,谁主沉浮?

三代测序序列比对利器-BLASR,更小更快更方便

生信算法“八股文”,发表算法不再难!

生信算法

长按二维码
关注微互动

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值