《生物信息学:导论与方法》----新一代测序NGS:重测序的回帖和变异鉴定----听课笔记(九)

第五章  新一代测序NGS

5.4 关于回帖、变异鉴定的补充材料

  • BWT算法是BWA软件所使用的压缩算法,它可以对数据进行无损压缩,它对字符串乱转后得到的字符矩阵进行排序和变换,使数据更容易被压缩。
  • BWT算法利用逆字符的方法去检验是否存在相同(匹配)的区域,它不能处理gap。
  • L列和F列的两个性质:
  1. L列的序列是其所对应的F列的序列在原始序列中的前一位。
  2. L列中字母出现的顺序和F中的相同。
  • 如果对想要寻找的reference序列以BWA算法的原理获得对应的F行和L行,并建好索引的话,我们可以很快的进行mapping。
  • 这种方式没有办法区分头和尾,所以如果输入的序列是跨入头和尾,那么将没办法区分。
  • 可以在序列结尾处加入一个“$”符号,解决上述问题。
  • samtools是较早出现的一个通用工具,主要用来处理sam/bam文件,即NGS测得的reads贴回参考基因组的结果文件。它也相应发展了基于bam文件的检出变异、确定基因型的算法,利用程序mpileup和bcftools可以完成这个任务。
  • 确定基因型的算法大多数是基于贝叶斯统计的。
  • GATK是1000基因组计划中发展出来的较新的工具,常用于一个或许多正常人基因组测序数据的变异的检出。
  • 目前GATK网站上个列出的常用的variant caller主要有UnifiedGenotyper和HaplotypeCaller,前者可能用得更多一些。

5.5 关于基因型鉴定的补充材料

  • Likelihood function
  1. a function of the parameters of a statistical model
  2. L(\theta )=P(Data|\theta)
  • Bayesian approach
  1. P(\theta|Data )\propto P(\theta)*P(Data|\theta)
  2. posterior\propto prior*likelihood
  • 统计模型在实际应用中并没有对错之分,只是依据对数据的拟合、刻画能力,以及看实际结果的正确率,可以自己感觉出好坏。
  • 由于实际数据中有时存在不符合经典简单模型的假设的情况,所以真实使用的模型常常会显得较为复杂。
  • MAQ
  1. Data: a pile of bases, with baseQ
  2. Goal: call genotype
  3. 实际中:(1)实际测序数据的baseQ并不全一样;(2)碱基测错概率相互不独立;(3)genotype的出现概率不是均等的。
  • SNVMix是call癌症基因组SNV(即单碱基变异)和genotype的工具。
  • 概率图模型展示概率决定关系。
  • SNVMix模型相对就比MAQ使用的模型更为复杂,加入了许多根据数据可以进行拟合、估计的不可测量的参数,估计这些隐参数的具体方法是使用了EM算法。

5.6 Ion Torrent PGM测序介绍

  • Ion Torrent测序仪所采用的Ion Torrent半导体测序技术是2011年上市的一套完全不依赖光学成像系统的新一代测序仪。
  • 相比较于HiSeq测序技术,Ion Torrent最大的优势在于两点:(1)成本低;(2)速度快,从文库构建到测序完成仅需2到3天。
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值