9文一览：近期必读微生物组生信论文-CSDN博客

今天是第2061期日报。

Nature子刊：使用GT-Pro快速准确地对人体肠道菌群进行宏基因分型

Nature Biotechnology[IF:54.908]

① 作者开发了GT-Pro，使用高质量基因组，构建了 909 个人类肠道物种中 1.04 亿个 SNPs 的目录，并使用针对该目录的独特 k-mers 表征来自 7,459 个样本的肠道菌群的全球种群结构；② GT-Pro 避免了计算成本高的短读长对齐，并以更高的准确性执行宏基因分型，尤其是对于低覆盖率物种；③ 在服务器上使用 GT-Pro 进行大规模人类全基因组关联研究在计算上是可行的，并且可以在个人计算机上分析中等规模的队列。

Fast and accurate metagenotyping of the human gut microbiome with GT-Pro
2021-12-23, doi: 10.1038/s41587-021-01102-3

【主编评语】本研究开发了GenoTyper for Prokaryotes(GT-Pro)，这是一套对来自基因组的 SNP 进行编目，并使用独特的 k-mers 对来自宏基因组的这些 SNPs进行快速基因分型的方法，与使用读长对齐的方法相比，GT-Pro 更准确，速度快两个数量级，作者构建了一个GT-Pro数据库，基于大约25,000个宏基因组样本，并展示了GT-Pro如何用于数千种菌群的菌株水平探索。（@刘永鑫-中科院-宏基因组）

Naure子刊：从复杂的菌群中生成谱系分辨率的、完整的宏基因组组装基因组

Nature Biotechnology[IF:54.908]

① 微生物群落可能包括密切相关生物的不同谱系，其使宏基因组组装复杂化并阻止完整宏基因组组装基因组 (MAGs) 的产生；② 作者表明使用长 (HiFi)读长结合 Hi-C 分箱的深度测序可以解决这一挑战；③ 为了解决密切相关的菌株（谱系），开发了 MAGPhase，它通过区分数百千碱基基因组序列中的变异单倍型来分离相关生物的谱系；④ 解析复杂菌群中密切相关的微生物的能力，提高了生物合成基因簇的鉴定以及将移动遗传元件分配给宿主基因组的精度。

Generating lineage-resolved, complete metagenome-assembled genomes from complex microbial communities
01-03, doi: 10.1038/s41587-021-01130-z

【主编评语】本研究作者提出了一项原理验证研究，将 HiFi 测序应用于复杂菌群，使用来自寄生虫感染的羔羊的粪便样本的极深测序，并结合来自同一样本的 Hi-C 数据。作者记录并量化了具有 HiFi 读长的 MAGs 组装的改进，并提出了一种称为 MAGPhase 的计算方法来对这些 MAGs中的替代单核苷酸多态性 (SNP) 单倍型进行定相，以提供更精细的样本后代谱系变异分辨率。作者进一步表明，HiFi 组件极大地提高了将移动遗传元件分配给宿主基因组的精度，以及从宏基因组数据推断完整的生物合成基因簇。（@刘永鑫-中科院-宏基因组）

Nature子刊：使用mako快速灵活地分析关联的菌群数据

Nature Methods[IF:28.547]

① Mako 是一款将菌群数据和网络转化为图形数据库并将查询结果可视化的软件工具，从而允许没有编程知识的用户进行基于网络的查询；② Mako 附带一个数据库，该数据库由 60 项菌群研究汇编而成，其可以轻松地被扩展到用户自己的数据；③ Mako 软件支持将表格和其他文件格式上传到 Neo4j 数据库；④ 该软件包括命令行界面 (CLI)、图形用户界面 (GUI) 和应用程序接口（API）；⑤ Mako 工具箱仍有改进空间，比如其并没有充分发挥图数据库的潜力。

Fast and flexible analysis of linked microbiome data with mako
2021-12-09, doi: 10.1038/s41592-021-01335-9

【主编评语】本研究，作者展示了 mako（微生物关联目录），其能够从菌群数据和元数据快速简单地构建网络数据库。Mako 通过基于语义网络本体的数据库模式提供标准菌群格式和 Neo4j 图数据库之间的接口，该软件包包括一系列与 Neo4j 数据库和基于模式的查询语言 Cypher 交互的方法，只需要基本的计算技能。此外，mako 包括一个 60 个从 QIITA6 下载的独立数据集衍生的精选数据库，QIITA6 是一个用于托管微生物研究的平台，有助于进行这种规模的宏分析。（@刘永鑫-中科院-宏基因组）

宁康等：利用同源序列解码菌群生态位关联，准确预测靶向蛋白结构

PNAS[IF:11.205]

① 作者提出了一个基于来自四个主要生物群落（肠道、湖泊、土壤和发酵罐）的 42.5 亿个菌群序列的 MetaSource 模型，以解码微生物生态位与蛋白质同源家族的内在联系；② 从单个 MetaSource 生物群系构建的具有多序列比对的微生物群靶向方法使用少于三倍以上的计算机内存和 CPU（中央处理单元）处理时间；③ “边际效应”分析表明，特定生物群落对补充不同 Pfam 家族的同源序列的影响大不相同；④ 其结果验证了重要的菌群-序列-Pfam 关联。

Decoding the link of microbiome niches with homologous sequences enables accurately targeted protein structure prediction
2021-12-07, doi: 10.1073/pnas.2110828118

【主编评语】近期，华中科技大学宁康团队与合作者在PNAS发表研究。作者假设微生物生态位和蛋白质家族之间存在固有的进化联系，可用于构建精确的多序列比对（MSAs）。为了检验这个假设，作者建立了一个包含42.5亿个序列的四个主要生物群落的模型库，开发了一个名为MetaSource的机器学习模型来预测目标蛋白质的源生物群落，其可以显著提高联系图和3D结构模型的准确性，同时使用少于三倍以上的计算机内存和CPU时间。研究的结果验证了重要的生物组-序列-Pfam关联，这可以为基于菌群的蛋白质结构和功能预测的靶向方法提供更高的效率和有效性。（@刘永鑫-中科院-宏基因组）

细菌基因组和宏基因组中逆转录酶的鉴定和分类

Nucleic Acids Research[IF:16.971]

① 本研究构建了一个计算工具 myRT，其被用来识别和分类原核逆转录酶(RTs)；② 其提供了有关每个RT的基因组邻域的信息，提供了潜在的功能线索；③ 作者应用该工具预测了所有完整和草图细菌基因组中的RTs，并创建一个可用于探索假定RTs及其相关蛋白质域的集合；④ 将myRT应用于宏基因组表明，与参考基因组的集合相比，肠道宏基因组按比例编码了更多与多样性生成逆转录元件 (DGRs) 相关的 RTs，数量超过与逆转录相关的RTs。

Identification and classification of reverse transcriptases in bacterial genomes and metagenomes
2021-12-14, doi: 10.1093/nar/gkab1207

【主编评语】目前缺乏用于表征和分类逆转录酶 (RTs) 的工具，本研究中，作者提供了第一个用于预测细菌 RTs 及其类别的工具 myRT，并伴随着基因组邻域信息和可视化。MyRT 既可作为独立软件 (https://github.com/mgtools/myRT) 使用，也可通过网站 (https://omics.informatics.indiana.edu/myRT/) 使用，且通过 https://omics.informatics.indiana.edu/myRT/ 上的 myRT 网络服务器可以轻松访问作者在所有完整细菌基因组中预先计算的假定 RTs 集合。参考基因组和选定宏基因组中的 RTs 预测可在https://omics.informatics.indiana.edu/myRT/collection.php上获得。（@刘永鑫-中科院-宏基因组）

宏基因组测序对微生物生长动态的准确和稳健推断揭示了个性化的生长速率

Genome Research[IF:9.043]

① 作者提供的理论表明，无论潜在的动态模型如何，峰谷比 (PTRs)都能测量DNA合成速率和生成时间；② 作者为PTRs推导出了两个估计量，一个用于完整参考基因组，一个用于组装草图；③ 作者将其估算器组合在一个名为 CoPTR（Compute PTR）的易于使用的工具中；④ CoPTR为其用户提供了大量的文档、教程和预先计算的参考数据库；⑤ 作者证明 CoPTR 比当前最先进的技术更准确，并以对炎症性肠病研究的 1304 个宏基因组样本数据集的大规模应用得出结论。

Accurate and robust inference of microbial growth dynamics from metagenomic sequencing reveals personalized growth rates
01-05, doi: 10.1101/gr.275533.121

【主编评语】本研究中，作者介绍了 CoPTR（Compute PTR）：一种从完整的参考基因组和组装计算峰谷比 (PTRs)的工具。CoPTR 比当前最先进的技术更准确，同时总体上也提供了更多的 PTR 估计，作者进一步发展其理论，形成了PTRs的生物学解释。作者展示了 PTR 如何与相对丰度和代谢组学相结合，以研究它们对菌群的影响。总之，作者的研究表明，PTRs可以为研究群落相互作用、将多组测量与菌群联系起来，以及研究菌群动态与疾病之间的关系提供新的方法。（@刘永鑫-中科院-宏基因组）

单基因长读长测序阐明了人类肠道菌群中的大肠杆菌菌株动态

Cell Reports[IF:9.423]

① 鞭毛蛋白基因是描绘菌群菌株水平组成的良好标记，作者设计了一个方案，通过鞭毛蛋白基因的扩增子测序来识别具有高分辨率和高数量的选定物种中的菌株；② 作者将该方案应用于一项针对大肠杆菌的人类饮食试验的粪便样本，发现大肠杆菌在人体肠道中具有动态而复杂的种群结构；③ 在人类肠道中，主要的大肠杆菌菌株伴随着许多卫星菌株；④ 基于鞭毛蛋白基因的方法可被用于潜在的病原体检测和追踪。

Single-gene long-read sequencing illuminates Escherichia coli strain dynamics in the human intestinal microbiome
01-11, doi: 10.1016/j.celrep.2021.110239

【主编评语】肠道菌群因其与健康和疾病的密切关系而备受关注。细菌的基因含量通常不同，导致物种内的功能变异，因此，在生态学和临床意义上，需要比物种水平方法更高的分辨率。本研究中，作者使用高度多样化的细菌鞭毛蛋白基因作为长读长测序中的标记，开发了一种以高分辨率分析菌群中菌株组成的方案，并阐明了人类肠道中详细的种群结构和主要的大肠杆菌菌株更新。（@刘永鑫-中科院-宏基因组）

IMG/VR v3：一个用于查询未培养病毒基因组的综合生态和进化框架

Nucleic Acids Research[IF:16.971]

① IMG/VR v3是目前公开的最大的病毒基因组集合，总共有2,332,702个基因组；② IMG/VR UViGs（未培养的病毒基因组）使用IMG管道进行功能注释，并使用新的CheckV工具评估其质量；③ IMG/VR UViGs的病毒分类现在反映了最新的ICTV框架，并根据与培养物基因组和宏基因组组装的基因组的序列相似性以及与预测的CRISPR间隔的匹配性提供计算机宿主预测；④ 一个重新设计的界面允许使用序列或注释查询，快速和直观地浏览和搜索IMG/VR数据库。

IMG/VR v3: an integrated ecological and evolutionary framework for interrogating genomes of uncultivated viruses
2021-01-08, doi: 10.1093/nar/gkaa946

【主编评语】本研究中，作者提出了IMG/VR的第三个版本，其由18,373个培养的病毒基因组和2,314,329个未培养的病毒基因组(UViGs)组成，与之前的版本相比，序列总数几乎增加了两倍。新的IMG/VR界面使用户能够根据基因组特征和/或序列相似度有效地浏览、搜索和选择UViG。IMG/VR v3可在 https://img.jgi.doe.gov/vr 登入，基础数据可在 https://genome.jgi.doe.gov/portal/IMG_VR 下载，完整的 IMG/VR 数据库可在 https://genome.jgi.doe.gov/portal/pages/dynamicOrganismDownload.jsf?organism=IMG_VR 上下载。（@刘永鑫-中科院-宏基因组）

吉林大学团队开发了基于深度学习方法的宏基因组病毒序列分类方法Virtifier

Bioinformatics[IF:6.937]

① Virtifier是一种基于深度学习的用于识别宏基因组数据中病毒序列的分类器；② 它包括一个名为Seq2Vec的核苷酸序列编码方法和一个带有基于注意力的长-短期记忆(LSTM)网络的病毒序列预测器；③ Seq2Vec利用一个经过充分训练的嵌入矩阵来编码密码子，它可有效地提取核苷酸序列中密码子之间的相互关系；④ 与注意层相结合，LSTM神经网络可进一步分析密码子关系并筛选对最终特征有贡献的部分；⑤ Virtifier能够准确地识别宏基因组中的短病毒序列。

Virtifier: a deep learning-based identifier for viral sequences from metagenomes
2021-12-15, doi: 10.1093/bioinformatics/btab845

【主编评语】为了进一步提高从宏基因组数据中识别短病毒序列的性能，本文提出了一种基于深度学习的方法Virtifier。Virtifier在CAMI数据集和真实人体肠道宏基因组中的应用证明，它在识别长度小于500bp的病毒序列方面优于VirFinder、DeepVirFinder和PPR Meta。宏基因病毒序列检测是病毒分析的第一步，它对接下来的病毒分析工作有重大影响。Virtifier将在病毒分类和病毒性疾病检测领域发挥重要作用。Github上提供了Virtifier的Python实现和为本研究开发的Python代码 https://github.com/crazyinter/Seq2Vec 。（@刘永鑫-中科院-宏基因组）

感谢本期日报的创作者：白蓝木，刘永鑫-中科院-宏基因组

系列教程：微生物组入门 Biostar 微生物组宏基因组

专业技能：学术图表高分文章生信宝典不可或缺的人

一文读懂：宏基因组寄生虫益处进化树

必备技能：提问搜索 Endnote

文献阅读热心肠 SemanticScholar Geenmedical

扩增子分析：图表解读分析流程统计绘图

16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun

在线工具：16S预测培养基生信绘图

科研经验：云笔记云协作公众号

编程模板: Shell R Perl

生物科普: 肠道细菌人体上的生命生命大跃进细胞暗战人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份，另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍未解决群内讨论，问题不私聊，帮助同行。