一文详解基因组denovo组装原理和实战

关于更多生物医疗大数据分析工具和软件的介绍和使用请看六点了官网[1]。

图文:心如止水  编辑 marple

目录

1、基因组组装

2、基于De-Bruijn Graph的组装算法

3、SOAPdenovo的安装和使用说明:安装、说明、配置、运行

4、SOAPdenovo案例实战:数据下载、配置、运行、输出

写在前面

大家好,这是我们六点了给大家介绍生物信息大数据分析 基因组数据分析系列文章第一篇。我们会持续为大家分享关于生物医疗大数据处理相关的知识和案例,希望帮助大家更好地进行自己项目中生物医疗健康大数据处理工作。本篇文章主要四部分来为大家介绍基因组的denovo的知识和以及详细应用案例。①基因组组装、 ②基于De-Bruijn Graph的组装算法、 ③SOAPdenovo的安装和使用说明:安装、说明、配置、运行,以及 ④SOAPdenovo案例实战:数据下载、配置、运行、输出。

1. 基因组组装

基因组组装 (Genome assembly)是生物信息学领域的核心问题, 想要深入研究一个生物体,获得参考基因组是第一步也是必须的一步。基因组组装是将原始的下机序列还原成DNA序列片段、以至于整个物种全基因组序列的过程。

基因组组装是基因组分析的关键,对物种起源与进化,挖掘功能基因进而研究疾病发生和发展具有重大意义。

然而由于目前市面上广为应用的二代测序技术获得的测序序列一般都较短,因此如何通过短片段组装成完整的基因组成了亟待解决的问题。

基因组组装可分为基于参考基因组的组装(Mapping assembly)和从头组装(denovo assembly)。两者主要的区别在于是否存在已知的基因组参考序列作为参照。本文我们主要介绍的是denovo组装,即不依赖任何基因组参考序列相关信息而进行的序列组装。目前,应用于主流的基因组denovo组装的算法主要有两个[1]:OLC方法 (Overlap-Layout-Consensus)和 DBG方法 (De-Bruijn Graph)[2]。

而DBG方法的核心思想是将序列拼接问题转化为人们所熟知的欧拉图(Euler Graph)问题[3]。

DBG方法内存消耗相对较低,运算速度快,且准确率高。

目前主流的基因组装算法都是基于DBG方法改进设计的。

2.基于De-Bruijn Graph的组装算法

前面我们说到基因组denovo组装两种方法,下面主要展开说说基于De-Bruijn Graph的组装算法的基本原理。此处,就以目前使用比较广泛,由华大基因团队开发的SOAPdenovo[4]为例。软件的参考文献[5]有兴趣可以在参考资料看一下读读。

A:基因组DNA打断成小的片段,进行建库和双端测序。150~500bp的进行直接双端测序,长的片段2-10kb的则先进行环化再进行双端测序。

B:组装的核心部分,进行De-Bruijn Graph的构建。构建De-Bruijn图的第一步是将测序read k-mer化,而所谓的k-mer是指将reads分成包含k个碱基的字符串,即拿一个k长度的窗口在整个read上1个碱基一个碱基的滑动,每次滑动窗口内部都会产生一个k大小的序列,即为一个k-mer,因此一般长短为m的reads可以分成m-k+1个k-mers。其中k一定是奇数,如果是偶数遇到回文序列可能会产生完全相同的k-mers。我们将k-mers作为图的节点,如果两个节点有 K-1个共同重叠子集,就把两个节点连接在一起,这样就会形成De-Bruijn Graph,可以看到该图可以很好地展现出序列的顺序信息。

C:进行图结构的精简。尽管前面步骤已经初步构建出图形,但是实际上由于测序错误,重复,杂合等原因,图上会出现很多类似翼尖(tips)、气泡(bubbles)

  • 2
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值