第五章 新一代测序NGS
5.4 关于回帖、变异鉴定的补充材料
- BWT算法是BWA软件所使用的压缩算法,它可以对数据进行无损压缩,它对字符串乱转后得到的字符矩阵进行排序和变换,使数据更容易被压缩。
- BWT算法利用逆字符的方法去检验是否存在相同(匹配)的区域,它不能处理gap。
- L列和F列的两个性质:
- L列的序列是其所对应的F列的序列在原始序列中的前一位。
- L列中字母出现的顺序和F中的相同。
- 如果对想要寻找的reference序列以BWA算法的原理获得对应的F行和L行,并建好索引的话,我们可以很快的进行mapping。
- 这种方式没有办法区分头和尾,所以如果输入的序列是跨入头和尾,那么将没办法区分。
- 可以在序列结尾处加入一个“$”符号,解决上述问题。
- samtools是较早出现的一个通用工具,主要用来处理sam/bam文件,即NGS测得的reads贴回参考基因组的结果文件。它也相应发展了基于bam文件的检出变异、确定基因型的算法,利用程序mpileup和bcftools可以完成这个任务。
- 确定基因型的算法大多数是基于贝叶斯统计的。
- GATK是1000基因组计划中发展出来的较新的工具,常用于一个或许多正常人基因组测序数据的变异的检出。
- 目前GATK网站上个列出的常用的variant caller主要有UnifiedGenotyper和HaplotypeCaller,前者可能用得更多一些。
5.5 关于基因型鉴定的补充材料
- Likelihood function
- a function of the parameters of a statistical model
- Bayesian approach
- 统计模型在实际应用中并没有对错之分,只是依据对数据的拟合、刻画能力,以及看实际结果的正确率,可以自己感觉出好坏。
- 由于实际数据中有时存在不符合经典简单模型的假设的情况,所以真实使用的模型常常会显得较为复杂。
- MAQ
- Data: a pile of bases, with baseQ
- Goal: call genotype
- 实际中:(1)实际测序数据的baseQ并不全一样;(2)碱基测错概率相互不独立;(3)genotype的出现概率不是均等的。
- SNVMix是call癌症基因组SNV(即单碱基变异)和genotype的工具。
- 概率图模型展示概率决定关系。
- SNVMix模型相对就比MAQ使用的模型更为复杂,加入了许多根据数据可以进行拟合、估计的不可测量的参数,估计这些隐参数的具体方法是使用了EM算法。
5.6 Ion Torrent PGM测序介绍
- Ion Torrent测序仪所采用的Ion Torrent半导体测序技术是2011年上市的一套完全不依赖光学成像系统的新一代测序仪。
- 相比较于HiSeq测序技术,Ion Torrent最大的优势在于两点:(1)成本低;(2)速度快,从文库构建到测序完成仅需2到3天。