QIIME 2教程. 17序列双端合并read-joining(2024.2)

序列双端合并的另一种方法read-joining

Alternative methods of read-joining in QIIME 2

https://docs.qiime2.org/2024.2/tutorials/read-joining/

https://www.bilibili.com/video/BV14m421s7Mt/

注:本教程将演示如何为特定数据集训练q2-feature-classifier。我们将使用Greengenes参考数据库序列来训练Naive Bayes分类器,并从《4人体各部位微生物组分析》中获得的代表性序列进行分类。

注意:本教程不包括DADA2的序列合并和去噪。相反,本教程重点介绍分析qiime 2中双端序列合并的替代方法。如果你有对DADA2去噪感和双端序列合并兴趣,《6沙漠土壤分析Atacama soil》教程演示了如何使用qiime dada2 denoise-paired去噪双端序列。如果您计划使用DADA2来合并和消除双端数据的噪声,请在用DADA2去噪之前不要合并您的序列;DADA2希望读长尚未合并的序列,并将在去噪过程中为您双端合并。

在QIIME 2中,我们使用术语“单端序列”(single-end reads)单独指正向或反向序列;我们使用术语“双端序列”(paired-end reads)单独指尚未合并的正向和反向序列;并且我们使用术语“合并的序列(joined reads)”指已经联接(或合并)的正向和反向序列。理解这些术语中的哪一个适用于您的数据是很重要的,因为这将决定分析成对的最终数据需要哪些步骤。

目前,可以使用QIIME 2中的q2-vsearch插件合并双端序列,或者导入已在qiime 2之外合并的的序列(例如,使用fastq-join,有关详细信息,请参阅导入预合并的序列 Importing pre-joined reads)。本教程将涵盖这两个过程。

数据下载

Obtain the data

mkdir read-joining
cd read-joining

wget -c \
  -O "demux.qza" \
  "https://data.qiime2.org/2024.2/tutorials/read-joining/atacama-seqs.qza"

序列合并

Joining reads

qiime vsearch merge-pairs \
  --i-demultiplexed-seqs demux.qza \
  --o-merged-sequences demux-joined.qza

输出对象:

  • demux.qza: 拆分后样本数据。查看 | 下载

  • demux-joined.qza:合并结果。查看 | 下载

查看合并序列的数据质量和摘要

Viewing a summary of joined data with read quality

接下来我们获得拼接数据的可视化结果

qiime demux summarize \
  --i-data demux-joined.qza \
  --o-visualization demux-joined.qzv

输出可视化对象:

  • demux-joined.qzv: 可视化统计结果。查看 | 下载

2f7208d261ab31a9fd3d1475674cef2a.jpeg
9a2f116a1f90ed681b589a5d78467f14.jpeg

这份摘要报告对于联接读取长度以及每个序列基本位置的质量得分特别有用。如果您将鼠标悬停在一个交互质量图的特定的位置上,您将看到下面的表格,该图自行更新以显示该序列基本位置的参数化汇总。此表对应于该位置的箱型图在视觉上表示的内容。在绘图和表格之间,您可以看到10,000个序列中的40,126个用于估计每个位置的质量得分。

当我将鼠标悬停在情节另一端的位置上并检查其各自的七个数字摘要显示质量得分逐渐下降 经常在3’端观察到。

基于对这些图的比较,我将注意到我的大多数序列至少有250个碱基长。我们计划在不久的将来简化这个过程。

序列质控

Sequence quality control

接下来,我们将使用质量过滤器quality-filter q-score对序列进行质量控制。此方法的参数尚未在双端合并的数据上进行广泛的基准测试,因此我们建议尝试使用不同的参数设置。

qiime quality-filter q-score \
  --i-demux demux-joined.qza \
  --o-filtered-sequences demux-joined-filtered.qza \
  --o-filter-stats demux-joined-filter-stats.qza

输出对象:

  • demux-joined-filter-stats.qza: 统计结果。查看 | 下载

  • demux-joined-filtered.qza: 数据过滤后结果。查看 | 下载

在这个阶段,您可以选择继续使用[Deblur](http://msystems.asm.org/content/2/2/e00191-16)进行额外的质量控制,或者您也可以进行序列去冗余,并选择使用q2-vsearch将它们聚类到OTU中。Deblur可以给出更高质量的结果,因此我们推荐该过程,并将在本教程的下一个步骤中说明该方法。

如果您有兴趣尝试一个更像QIIME 1处理的分析工作流(例如,要将Deblur或Dada2结果与QIIME 1类似的流程进行比较),那么接下来应该去冗余并聚类您的序列。如果您尝试此选项,我们强烈建议使用 qiime quality-filter q-score-joined 具有更高的最小质量阈值(--p-min-quality 20--p-min-quality 30)(参见Bokulich等人2013年的文章学习更多细节)。然后,您可以按照OTU聚类教程中的步骤进行操作。在聚类之后,您可能希望使用qiime feature-table filter-features --p-min-samples筛选在至少一些样品中出现的特征。此外,还建议使用丰度过滤器去除单体(见Bokulich等人2013年的文章),以及过滤嵌合序列。

Deblur

你现在已经准备好用Deblur去噪你的序列了。您应该从质量分数图中为--p-trim-length选择合适的序列长度值。这将把所有序列修剪到这个长度,并丢弃任何小于这个长度的序列。

注释:我们使用的修剪长度为250,基于从教程数据集生成的质量分数图。不要将250与自己的数据集一起使用,因为该值将取决于数据集的序列长度。使用质量分数图为数据选择适当的修剪长度。

qiime deblur denoise-16S \
  --i-demultiplexed-seqs demux-joined-filtered.qza \
  --p-trim-length 250 \
  --p-sample-stats \
  --o-representative-sequences rep-seqs.qza \
  --o-table table.qza \
  --o-stats deblur-stats.qza

输出对象:

  • rep-seqs.qza: 代表序列。查看 | 下载

  • deblur-stats.qza: 统计过程。查看 | 下载

  • table.qza: 特征表。查看 | 下载

查看Deblur特征表

View summary of Deblur feature table

接下来,您可以总结q2-deblur生成的功能表。这个表和相应的代表序列现在可以用同样的方法和可视化工具来分析,这些方法和可视化工具将用于单端序列数据。

qiime feature-table summarize \
  --i-table table.qza \
  --o-visualization table.qzv

输出可视化对象:

  • table.qzv: 特征表可视化。查看 | 下载

43cd3b5b140b3beb35cc8247cb7a66e1.jpeg

导入双端合并的序列

Importing pre-joined reads

下载测试数据并解压

wget -c https://data.qiime2.org/2024.2/tutorials/read-joining/fj-joined.zip
unzip fj-joined.zip

导入序列

Import reads

使用 qiime tools import 导入数据,使用的数据格式为 SingleEndFastqManifestPhred33 。在将来的升级中,我们将来升级的清晰描述为一种合并的序列数据。但是在当下,你应该采用单端Fastq Mainfest格式导入。

qiime tools import \
  --input-path fj-joined/manifest \
  --output-path fj-joined-demux.qza \
  --type SampleData[JoinedSequencesWithQuality] \
  --input-format SingleEndFastqManifestPhred33V2

输出结果:

  • fj-joined-demux.qza:导入的合并双端序列。查看 | 下载

查看导入含质量读长数据的摘要

Viewing summary of imported data with read quality

qiime demux summarize \
  --i-data fj-joined-demux.qza \
  --o-visualization fj-joined-demux.qzv

输出结果:

  • fj-joined-demux.qzv:导入的合并双端序列的摘要。查看 | 下载

c89a75c8b3e2b972187348ae0aff3daa.jpeg

现在你可以使用上面的方法继续分析此数据了,使用q2-quality-filter质控, q2-deblur去噪, 或q2-vsearch去冗余和挑选OTU。

祝你QIIME使用愉快!

译者简介

刘永鑫,研究员,博士生导师。2014年博士毕业于中国科学院大学生物信息学专业,之后在中国科学院遗传与发育生物学研究所工作历任博士后、工程师、高级工程师,2022年10月加入中国农业科学院深圳农业基因组研究所担任课题组长。研究方向为宏基因组方法开发、功能挖掘和科学传播。参与QIIME 2项目,主导开发了易扩增子(EasyAmplicon)、易宏基因组(EasyMetagenome)、培养组(Culturome)分析流程、数据分析网站(EVenn、ImageGP) 和R包(amplicon、ggClusterNet)等,目标是全面打造宏基因组领域方法学基础设施,推动微生物组学发展。以(共同)第一或通讯作者在Nature Biotechnology、Nature Microbiology、iMeta等期刊发表论文30余篇。合作在Science、Cell Host & Microbe、Microbiome等期刊发表论文20余篇,累计发表论文50余篇,被引用17000+次。主编《微生物组实验手册》专著,由300多位同行参与,共同打造本领域长期更新的中文百科全书。创办宏基因组公众号,16万+同行关注,分享原创文章3千余篇,累计阅读量超4千万,打造本领域最具影响力的科学传播平台。发起《iMeta》期刊,联合全球千位专家共同打造宏基因组学、微生物组和生物信息学顶刊,解决我国本领域期刊出版卡脖子问题。课题组长期招聘博士后、客座研究生,有兴趣可加微信yongxinliu详谈。

杨海飞,青岛农业大学,生物信息学硕士在读,基因组所刘永鑫组客座硕士。负责本次版本的更新和测试。

Reference

https://docs.qiime2.org/2024.2/

Evan Bolyen, Jai Ram Rideout, Matthew R. Dillon, Nicholas A. Bokulich, Christian C. Abnet, Gabriel A. Al-Ghalith, Harriet Alexander, Eric J. Alm, Manimozhiyan Arumugam, Francesco Asnicar, Yang Bai, Jordan E. Bisanz, Kyle Bittinger, Asker Brejnrod, Colin J. Brislawn, C. Titus Brown, Benjamin J. Callahan, Andrés Mauricio Caraballo-Rodríguez, John Chase, Emily K. Cope, Ricardo Da Silva, Christian Diener, Pieter C. Dorrestein, Gavin M. Douglas, Daniel M. Durall, Claire Duvallet, Christian F. Edwardson, Madeleine Ernst, Mehrbod Estaki, Jennifer Fouquier, Julia M. Gauglitz, Sean M. Gibbons, Deanna L. Gibson, Antonio Gonzalez, Kestrel Gorlick, Jiarong Guo, Benjamin Hillmann, Susan Holmes, Hannes Holste, Curtis Huttenhower, Gavin A. Huttley, Stefan Janssen, Alan K. Jarmusch, Lingjing Jiang, Benjamin D. Kaehler, Kyo Bin Kang, Christopher R. Keefe, Paul Keim, Scott T. Kelley, Dan Knights, Irina Koester, Tomasz Kosciolek, Jorden Kreps, Morgan G. I. Langille, Joslynn Lee, Ruth Ley, Yong-Xin Liu, Erikka Loftfield, Catherine Lozupone, Massoud Maher, Clarisse Marotz, Bryan D. Martin, Daniel McDonald, Lauren J. McIver, Alexey V. Melnik, Jessica L. Metcalf, Sydney C. Morgan, Jamie T. Morton, Ahmad Turan Naimey, Jose A. Navas-Molina, Louis Felix Nothias, Stephanie B. Orchanian, Talima Pearson, Samuel L. Peoples, Daniel Petras, Mary Lai Preuss, Elmar Pruesse, Lasse Buur Rasmussen, Adam Rivers, Michael S. Robeson, Patrick Rosenthal, Nicola Segata, Michael Shaffer, Arron Shiffer, Rashmi Sinha, Se Jin Song, John R. Spear, Austin D. Swafford, Luke R. Thompson, Pedro J. Torres, Pauline Trinh, Anupriya Tripathi, Peter J. Turnbaugh, Sabah Ul-Hasan, Justin J. J. van der Hooft, Fernando Vargas, Yoshiki Vázquez-Baeza, Emily Vogtmann, Max von Hippel, William Walters, Yunhu Wan, Mingxun Wang, Jonathan Warren, Kyle C. Weber, Charles H. D. Williamson, Amy D. Willis, Zhenjiang Zech Xu, Jesse R. Zaneveld, Yilong Zhang, Qiyun Zhu, Rob Knight & J. Gregory Caporaso#. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 2019, 37: 852-857. https://doi.org/10.1038/s41587-019-0209-9

宏基因组推荐

本公众号现全面开放投稿,希望文章作者讲出自己的科研故事,分享论文的精华与亮点。投稿请联系小编(微信号:yongxinliu 或 meta-genomics)

猜你喜欢

iMeta高引文章 fastp 复杂热图 ggtree 绘图imageGP 网络iNAP
iMeta网页工具 代谢组MetOrigin 美吉云乳酸化预测DeepKla
iMeta综述 肠菌菌群 植物菌群 口腔菌群 蛋白质结构预测

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树 必备技能:提问 搜索  Endnote

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流快速解决科研困难,我们建立了“宏基因组”讨论群,己有国内外6000+ 科研人员加入。请添加主编微信meta-genomics带你入群,务必备注“姓名-单位-研究方向-职称/年级”。高级职称请注明身份,另有海内外微生物PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

点击阅读原文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值