一文详解基因组denovo组装原理和实战

JaneMarple️

已于 2022-02-24 14:16:18 修改

阅读量4k

点赞数 2

分类专栏：生物医疗健康数据分析文章标签：数据挖掘数据分析 big data 生物信息学

于 2022-02-17 20:16:14 首次发布

本文链接：https://blog.csdn.net/weixin_49533584/article/details/122990794

版权

关于更多生物医疗大数据分析工具和软件的介绍和使用请看六点了官网[1]。

图文：心如止水编辑 marple

大家好，这是我们六点了给大家介绍生物信息大数据分析基因组数据分析系列文章第一篇。我们会持续为大家分享关于生物医疗大数据处理相关的知识和案例，希望帮助大家更好地进行自己项目中生物医疗健康大数据处理工作。本篇文章主要四部分来为大家介绍基因组的denovo的知识和以及详细应用案例。①基因组组装、 ②基于De-Bruijn Graph的组装算法、 ③SOAPdenovo的安装和使用说明：安装、说明、配置、运行，以及 ④SOAPdenovo案例实战：数据下载、配置、运行、输出。

1. 基因组组装

基因组组装 (Genome assembly)是生物信息学领域的核心问题, 想要深入研究一个生物体，获得参考基因组是第一步也是必须的一步。基因组组装是将原始的下机序列还原成DNA序列片段、以至于整个物种全基因组序列的过程。

基因组组装是基因组分析的关键，对物种起源与进化，挖掘功能基因进而研究疾病发生和发展具有重大意义。

然而由于目前市面上广为应用的二代测序技术获得的测序序列一般都较短，因此如何通过短片段组装成完整的基因组成了亟待解决的问题。

基因组组装可分为基于参考基因组的组装（Mapping assembly）和从头组装（denovo assembly）。两者主要的区别在于是否存在已知的基因组参考序列作为参照。本文我们主要介绍的是denovo组装，即不依赖任何基因组参考序列相关信息而进行的序列组装。目前，应用于主流的基因组denovo组装的算法主要有两个[1]：OLC方法 (Overlap-Layout-Consensus)和 DBG方法 (De-Bruijn Graph)[2]。

而DBG方法的核心思想是将序列拼接问题转化为人们所熟知的欧拉图（Euler Graph）问题[3]。

DBG方法内存消耗相对较低，运算速度快，且准确率高。

目前主流的基因组装算法都是基于DBG方法改进设计的。

2.基于De-Bruijn Graph的组装算法

前面我们说到基因组denovo组装两种方法，下面主要展开说说基于De-Bruijn Graph的组装算法的基本原理。此处，就以目前使用比较广泛，由华大基因团队开发的SOAPdenovo[4]为例。软件的参考文献[5]有兴趣可以在参考资料看一下读读。

A：基因组DNA打断成小的片段，进行建库和双端测序。150~500bp的进行直接双端测序，长的片段2-10kb的则先进行环化再进行双端测序。

B：组装的核心部分，进行De-Bruijn Graph的构建。构建De-Bruijn图的第一步是将测序read k-mer化，而所谓的k-mer是指将reads分成包含k个碱基的字符串，即拿一个k长度的窗口在整个read上1个碱基一个碱基的滑动，每次滑动窗口内部都会产生一个k大小的序列,即为一个k-mer，因此一般长短为m的reads可以分成m-k+1个k-mers。其中k一定是奇数，如果是偶数遇到回文序列可能会产生完全相同的k-mers。我们将k-mers作为图的节点，如果两个节点有 K-1个共同重叠子集，就把两个节点连接在一起，这样就会形成De-Bruijn Graph，可以看到该图可以很好地展现出序列的顺序信息。

C：进行图结构的精简。尽管前面步骤已经初步构建出图形，但是实际上由于测序错误，重复，杂合等原因，图上会出现很多类似翼尖（tips）、气泡（bubbles）

最低0.47元/天解锁文章

JaneMarple️

关注

2
点赞
踩
40

收藏

觉得还不错? 一键收藏
0
评论
一文详解基因组denovo组装原理和实战

面向未来生物医疗数据挖掘应用场景下，如何实现数据计算或挖掘的可扩展性，可重用性，可视性，伸缩性，高保真性。关于更多生物医疗大数据分析工具和软件的介绍和使用请看六点了官网[1]。图文：心如止水编辑 marple目录1、基因组组装2、基于De-Bruijn Graph的组装算法3、SOAPdenovo的安装和使用说明：安装、说明、配置、运行4、SOAPdenovo案例实战：数据下载、配置、运行、输出写在前面大家好，这是我们六点了给大家介绍生物信息大数据分析基因组数据分.
复制链接

扫一扫