接下来是测序环节,ILLUMINA 平台的测序原理简单来说就是桥式PCR+4色荧光可逆终止+激光扫描成像。即桥式PCR扩增技术,添加有叠氮基团和不同荧光标记的DNTP终止反应,用荧光信号收集系统去记录荧光信号。接下来我们介绍ILLUMINA 平台的文库扩增方式和测序方式:我们这里应用的扩增方式为桥式PCR,在之前我们提到,建库过程中我们在DNA链的两端加入了能够与流动池上的核苷酸链链互补的核苷酸序列,在桥式PCR这一环节中这些小核苷酸链就发挥作用了,我们把我们混样之后的样本加入到我们流动池的lane中,需要注意的是虽然不同的样本可以混入到相同的lane里,但我们不能把index相同的样本加到一条lane里,否则我们将无法区分这两个样本的数据且这些数据还会相互影响。(Flow cell是有 2 个或 8 个 lane的玻璃板,每个 lane 可以测一个样本或者多样本的混合物,且随机布满了能够与文库两端接头分别互补配对或一致的寡核苷酸。一个 lane 包含两列,每一列有 60 个 tile,每个 tile 会种下不同的 cluster,每个 tile 在一次循环中会拍照 4 次。)这些小DNA片段在加入到流动池中后便能够被固定在流动池中了,接下来的反应均是通过调控测序试剂在流动池中的流动来进行。这里我们需要了解到我们的样本的状态,这样更便于我们对接下来流程的理解,我们首先对样本进行混样,对数据量相近且index不同的样本,我们认为是能够加入到flow cell的同一lane中的,且样本在上机测序前进行了稀释(这与我们之前在建库和捕获两次扩增并不矛盾),我们可以认为我们的同一样本均匀的分散在了flow cell的各部分,(之所以需要数据量相近,是为了避免在此环节中数据量大的样本抢占数据量小的样本的位置,以至于某些样本的测序质量不佳,我们普遍认为测序质量与诸多影响因素有关,但测序深度仅与片段长度有关)当然,这些小DNA片段与lane中寡核苷酸链的连接方式不同时包括正向与反向,我们拿一个样本举例,某一样本正向连接后P7与lane上的寡核苷酸链结合,上端依旧保持着单链的状态,然后我们加入DNA双链合成所需的材料,在适应条件下合成为DNA双链,然后我们向flow cell中加入碱性物质,让我们刚刚合成的双链解开,然后我们的模板连在这个时候就随着碱液被冲出我们的流动池了,单链DNA弯曲并于另一种寡核苷酸链结合,这时我们再次加入合成所需材料并用碱液冲洗,由于此时的DNA两条链都有一端与flow cell结合,所以这步只会造成解链我们合成的DNA链不再会被冲出flow cell了,我们将这样的操作看做一个循环,得到了一个原链的互补链,我们在N个循环后就得到了2(N-1)个片段,这里我们并没有考虑互补链的信息,因为在不同目的的捕获中我们主观选择保留或不保留互补链。关于循环数,我们普遍认为在25到28次之间,但实际的情况会因为片段本身原因以及仪器的更新发生调整,在N个循环结束之后,我们得到的结果为最初样本的互补链在flow cell里分散存在,形成类似于菌落般的结构:这不是没有理由的,一方面我们需要让信号足够强,即DNA簇足够大;另一方面我们要尽可能消除可能会影响后续测序的因素。接下来我们需要将所有反向DNA链切掉,因为双端接头的不同,且这一环节反向链均为DNA原链而并非互补链,所以我们不要担心在切除反向链的过程中原链的互补链受到影响。接下来就可以开始测序了,ILLUMINA 平台采用的是荧光定量PCR,边合成边测序的方法(华大平台应用的原理与之相同,但有自己的优缺点,如过程更加复杂,但读段更长),我们在体系中加入引物底物酶这些常规成分,但是这一环节的底物与以往不同的是它的3’位置连接有叠氮基团,使得在引物和酶的作用下只有一个NTP可以连接在DNA链上,然后我们洗掉体系中未被用到的有荧光标记的DNTP来避免干扰,此时荧光信号收集系统可以记录NTP上的荧光标记,接下来用巯基试剂去掉3’位阻断的叠氮基团,用TCEP去掉荧光基团,进入下一个碱基的测序反应,(我们需要知到为什么测序长度是会受到限制的:首先我们的荧光基团是通过一些强化学键连接在dNTP上的,我们在去除荧光基团的过程中不会连同这些强化学键一起去除,这会导致我们新合成的链上存在这各种不稳定的分子间作用力,会影响到我们DNTP的后续连接,其次我们的叠氮基团并不稳定,在逐个添加碱基的过程中会存在上步添加的碱基的叠氮基团未被洗掉,或者本次添加的碱基上没有叠氮基团而一次性添加了两个碱基的情况,这些情况均为偶然现象,但我们需要大量的DNA链发出相同荧光以保证信号足够强且可以被记录,在偶然现象积累到一定数量时我们的荧光信号会受到干扰,这样的情况下我们没办法确保我们的测序结果的准确性,而以上两种情况均会在读长增加的情况下累积,这也是二代测序读长有限和双端测序的原因)在N个碱基被测序之后,我们读取index片段来确定这个样本。(这里强调一点,我们读取的index是与正向链末端连接的index,因为上端index前没有引物,我们没办法读取到)接下来是反向测序,因为上述原因,我们如果只进行单向测序并全部测完,那么末端得到的测序结果必然是混乱的,且这不是我们单纯堆样本基数能够解决的问题,我们先加入读取index2的酶,读取我们DNA片段上的index2,这里与正向测序不同的是我们先读取index,然后再进行测序,我们按照之前的流程,加入荧光标记的DNTP,记录荧光信号,洗去DNTP,经过数个循环,就可以得到需要测序的片段的反向读段信息了,然后我们可以通过对计算机数据的分析,将荧光信号收集系统将收集到的信号按时间顺序进行叠加,再通过对应index识别,就能得到完整读段的碱基序列了。(这里补充说明;我们双端测序所得到的两部分读段在组合后将和人源基因组进行对比,在经过生信分析后的,将整个片段的信息解析出来)通过对这些数据的分析,我们可以得到包括以下方面的内容:
- 基因结构变异,如SNV(单个或多个碱基突变)中的同意突变(单个碱基改变但是不影响蛋白质的翻译),错意突变(单个碱基突变并影响蛋白质的翻译,即某一氨基酸被替换并在一定程度上影响蛋白质的结构功能),移码突变(插入或缺失碱基导致该区段外显子转录全部发生错位,这是影响较大的一种突变),提前终止(某一碱基被替换致使该密码子成为终止子,提前结束转录翻译,也被叫做无义突变),延长(终止子突变),无法起始(起始密码子突变),剪切位点异常(区别内含子与外显子的部分发生突变,对转录翻译的影响主要体现在一整段外显子缺失);CNV(基因拷贝过程中的重复或缺失:单一或两条染色体重复或缺失);Fusions(基因融合);InDel(插入缺失)
※基因的点突变或者重组会导致肿瘤携带有异常的转录因子,其中由重组基因产生的具有促癌特征的融合转录因子又被称为肿瘤嵌合因子(OCTF)
- NCCN指南以及建议的基因检测
- MRD(微小残留病灶)
- 免疫检查点,如TMB(肿瘤分期),MSI(微卫星不稳定,即短重复序列在转录中出现的SNV),HLA(临床肿瘤分型),PD-L1(细胞程序性死亡受体),原癌基因突变(存在于正常细胞,对细胞增生和分化进行生理性调节的基因,其编码的产物往往是对正常细胞生长十分重要的细胞因子。原癌基因可在多种因素的作用下被激活成癌基因,能够促进细胞自主生长,发生恶性转化。癌基因编码的蛋白谓癌蛋白,可持续转化靶细胞,使得靶细胞自主生长,不再需要生长因子或其他刺激信号,并具有逃避细胞周期检查点的能力。)抑癌基因突变(其编码的产物组成一个网络,能监测有害的变化,并在细胞生长、増殖调控中发挥重要的负性调节作用。肿瘤抑制基因的产物可作为转录因子、细胞周期抑制因子、信号转导分子等发挥作用)
- 临床意义未明或潜在的用药位点(是否可以使用PARP抑制剂),如SNP(单核苷酸多态性)。
然后,我们简单说一下华大测序,我们建库,富集,纯化之后的样本在测序之前还有一些对样本的处理环节:变性,环化,酶切,制备DNB,即将我们纯化之后的样本用高温的方式解链,然后在酶和双端互补配对的条件下,使其形成环状结构,对于那些没有成环或者自身首端与其他链末端连接起来的样本,我们在下面的环节中会直接被处理掉,我们使用酶在特定位置切断成环的DNA,用磁珠进行一步纯化,然后在体系中添加各类引物底物酶,然后利用PCA(滚环扩增)技术进行滚环复制,形成DNA球,一般情况下,我们可以让一个DNA片段进行500次左右的复制。在纯化后对DNB进行质控,对于浓度低或高的我们排查前端实验流程判断出错原因并解决问题或者对样本进行稀释,因为我们在PCA过程的每次复制均是以最初的链为模板,所以对于得到的DNB我们能够保证其准确性与信号强度,接下来将制备好的DNB加入到flow cell中,我们通过仪器气液系统将纳米球泵如到芯片中,DNB在酸性条件下带有负电,在正负电荷的相互作用下,DNB被固定在带有正电的活化位点,(这里相较于桥式PCR我们省去了成簇的过程,因为每个DNB携带大量的目标区段,且每个碱基所能产生的荧光信号也更强,在这一环节华大平台可以省去相当多的时间)接下来是比较晦涩的部分,华大平台的测序手段被称为“组合探针锚合成技术”(CPAS)。我们让测序引物与DNB的接头特异性结合,相较于ILLUMINA 平台的多个片段同时产生荧光信号,我们这里使用的方法是让一个DNB在N个位点同时产生相同荧光信号,(我个人认为这种方式相较于ILLUMINA 平台的读段方式确实是比较不错的)在荧光标记的添加方面,二者也存在不同,华大平台将荧光标记添加在抗体上,这样既不会导致强力化学键残留,又可以读到更强的荧光信号(Cool MPS),是一种无损的碱基合成技术,与ILLUMINA 平台相同的是我们使用的DNTP依旧是单次只能进行一个碱基的补充的NTP,然后再让特殊的抗体携带着阻塞延申的基团被冲出flow cell,在N次循环后,我们得到的就是待测序片段的正向读段数据。在正向测序结束后,DNA会继续延伸,此时处于上游的DNA链在遇到下游紧邻的正向测序引物延伸的双链时,已经合成的双链会被其从模板上置换下来,然后上游DNA链继续延伸。当被置换下来的延伸链长度超过1copies,则会暴露未端的反向测序的引物结合位点,通常一段完整DNA片段测序结束后,DNTP会继续向前合成延伸3-5 个copies,被置换的大量单链DNA即为反向测序的模板,此时反向测序引物就可以结合在被置换出来的延伸链上进行反向CPAS测序,在这种条件下,被置换下来的单链数量大且长度较长,反向测序产生的荧光信号也会比正向测序信号更强,我们将其称为多位点置换扩增技术(MDA)。以illumina为例目前的测序技术基本都是运用边合成边测序的技术,碱基的合成依靠的是化学反应,这使得碱基链可以不断地从5'端一直往3端合成并延伸下去。但在这个合成的过程中随着合成链的增长,DNA聚合酶的效率会不断下降,特异性也开始变差,这会导致越到后面碱基合成的错误率就会越高,这也是为何当前NGS测序读长普遍偏短的一个原因。