基于WGS和CBC测序策略的DNA序列拼接算法研究(三)

本文介绍了基因组测序的两种主要方法:BAC和WGS策略,以及DNA序列拼接的重要性。在DNA测序技术的限制下,拼接算法成为解决随机片段整合成完整序列的关键。文章探讨了基于Hamilton路径和Euler路径的拼接算法,并分析了两类算法在速度和准确度上的挑战。
摘要由CSDN通过智能技术生成

第一章                          基因组测序与DNA序列拼接简介

 

2.1     基因组测序与序列拼接算法研究

 

2.1.1  基因组的概念

 

众所周知,生物由细胞组成,而细胞中含有一种与遗传有关的高分子化合物,称为脱氧核糖核酸(DNA)。DNA的基本组成单位为腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶四种核苷酸,分别由AGCT四个字母(称为碱基)表示,这些核苷酸按照一定的顺序和方向排列,就形成了DNA的序列。一般的DNA分子都有两条互补的分子链,两条链间通过A-TG-C间的配对形成了双螺旋结构(如图2.1)。

在解旋酶的作用下,DNA两条链分离开,分别作为一个模板,又在聚合酶的作用下合成一条新链。这个过程称为DNA的复制(如图2.2)。

 

在解旋酶的作用下,DNA两条链分离开,分别作为一个模板,又在聚合酶的作用下合成一条新链。这个过程称为DNA的复制(如图2.2)。

 

核糖核酸(RNA)是与DNA相似的一种高分子化合物,它的组成中以尿嘧啶(用字母U表示)替代胸腺嘧啶,并只形成单链结构。

 

通过一定化学作用下的A-UG-C间的配对,一段RNA序列可以获取DNA部分离散区域(称为编码区或基因)的序列信息,这个过程称为转录。RNA序列中连续的三个字母可以确定唯一的氨基酸,而氨基酸的序列进一步确定了蛋白质的组成进而决定蛋白质的功能,这一过程称为翻译。

 

生命活动始终遵循从DNA序列到RNA序列,再从RNA序列到蛋白质这一规律,考虑到蛋白质是生命活动的基本单位,因此,DNA序列在某种程度上“主宰”了生命活动,这便是分子生物学中著名的中心法则(如图2.3),

 

它指出,生物活动都是通过由DNA序列转录成为RNA序列再由RNA序列翻译成为蛋白质这一过程进行的,即DNA序列蕴含了包括遗传在内的生物体所有活动的秘密。

 

基因是DNA上具有特定功能的一个片断,负责一种特定性状的表达。一般来讲,一个基因只编码一个蛋白质。

 

任何一条染色体上都带有许多基因,一条高等生物的染色体上可能带有成千上万个基因。一个细胞中的全部基因序列(包括编码区和非编码区)及其间隔序列统称为基因组(genomes, 我们可以认为基因组就是生物所含DNA分子的全部序列。

 

可以看出,基因组在生物的生命活动中起着基础性作用,因此基因组DNA测序工作就显得尤为重要。

 

 

2.2    基因组测序方法简介

 

DNA快速测序的方法有两种:

1、链终止法:这一方法的原理是,通过合成与单链DNA互补的多核苷酸链来读取待测DNA分子的顺序,合成可在不同位置随机终止反应。

2、化学降解法:双链DNA分子被化学试剂处理,可在特定的核苷酸位点产生切口。用同位素标记测序碱基,以此确定DNA分子的序列。

由于链终止法更易自动化,所以,基因组的测序一般都使用链终止法。但是,一次测序反应只能测得几百个碱基。而复杂生物的DNA序列通常都在1M 碱基以上,有的甚至几十亿碱基。因此,不可能用测序仪一次测定全基因组的序列。现代大规模基因组测序普遍使用了shotgunBAC方法.下面将就着两种算法的流程进行说明与介绍。

 

 

2.2.1  BAC简介

 

       BAC算法简单来说就是把基因组打碎成200300kb的片段,并制成BAC文库,再选择一些BAC进一步打碎成3kb左右的小片段,测序并拼接。

       如图2.4是一个BAC测序的流程图:

 

2.2.2  WGS

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值