2.1 基因组测序与序列拼接算法研究
众所周知,生物由细胞组成,而细胞中含有一种与遗传有关的高分子化合物,称为脱氧核糖核酸(DNA)。DNA的基本组成单位为腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶四种核苷酸,分别由A、G、C和T四个字母(称为碱基)表示,这些核苷酸按照一定的顺序和方向排列,就形成了DNA的序列。一般的DNA分子都有两条互补的分子链,两条链间通过A-T、G-C间的配对形成了双螺旋结构(如图2.1)。
在解旋酶的作用下,DNA的两条链分离开,分别作为一个模板,又在聚合酶的作用下合成一条新链。这个过程称为DNA的复制(如图2.2)。
在解旋酶的作用下,DNA的两条链分离开,分别作为一个模板,又在聚合酶的作用下合成一条新链。这个过程称为DNA的复制(如图2.2)。
核糖核酸(RNA)是与DNA相似的一种高分子化合物,它的组成中以尿嘧啶(用字母U表示)替代胸腺嘧啶,并只形成单链结构。
通过一定化学作用下的A-U、G-C间的配对,一段RNA序列可以获取DNA部分离散区域(称为编码区或基因)的序列信息,这个过程称为转录。RNA序列中连续的三个字母可以确定唯一的氨基酸,而氨基酸的序列进一步确定了蛋白质的组成进而决定蛋白质的功能,这一过程称为翻译。
生命活动始终遵循从DNA序列到RNA序列,再从RNA序列到蛋白质这一规律,考虑到蛋白质是生命活动的基本单位,因此,DNA序列在某种程度上“主宰”了生命活动,这便是分子生物学中著名的中心法则(如图2.3),
它指出,生物活动都是通过由DNA序列转录成为RNA序列再由RNA序列翻译成为蛋白质这一过程进行的,即DNA序列蕴含了包括遗传在内的生物体所有活动的秘密。
基因是DNA上具有特定功能的一个片断,负责一种特定性状的表达。一般来讲,一个基因只编码一个蛋白质。
任何一条染色体上都带有许多基因,一条高等生物的染色体上可能带有成千上万个基因。一个细胞中的全部基因序列(包括编码区和非编码区)及其间隔序列统称为基因组(genomes), 我们可以认为基因组就是生物所含DNA分子的全部序列。
可以看出,基因组在生物的生命活动中起着基础性作用,因此基因组DNA测序工作就显得尤为重要。
2.2 基因组测序方法简介
DNA快速测序的方法有两种:
1、链终止法:这一方法的原理是,通过合成与单链DNA互补的多核苷酸链来读取待测DNA分子的顺序,合成可在不同位置随机终止反应。
2、化学降解法:双链DNA分子被化学试剂处理,可在特定的核苷酸位点产生切口。用同位素标记测序碱基,以此确定DNA分子的序列。
由于链终止法更易自动化,所以,基因组的测序一般都使用链终止法。但是,一次测序反应只能测得几百个碱基。而复杂生物的DNA序列通常都在1M 碱基以上,有的甚至几十亿碱基。因此,不可能用测序仪一次测定全基因组的序列。现代大规模基因组测序普遍使用了shotgun和BAC方法.下面将就着两种算法的流程进行说明与介绍。
BAC算法简单来说就是把基因组打碎成200-300kb的片段,并制成BAC文库,再选择一些BAC进一步打碎成3kb左右的小片段,测序并拼接。
如图2.4是一个BAC测序的流程图: