欢迎关注"生信修炼手册"!
蛋白质是生命活动的基本单位,研究位于编码区的基因组变异,最重要的一点就是分析该变异是否会影响蛋白质的结构与功能。之前的文章中介绍了SIFT软件,本篇介绍另外一款软件PolyPhen-2。
PolyPhen-2 是Polymorphism Phenotyping v2 的缩写,从命名也可以看出,研究的是核苷酸多态和表型之间的关系,这里的核苷酸多态性指的就是SNP位点,而且是非同义突变nonsynonymous SNP位点,简称nsSNPs。表型指的就是蛋白质的结构和功能了,需要注意的一点就是,这款软件只针对human,不研究其他的物种。
官网链接如下
http://genetics.bwh.harvard.edu/pph2/
PolyPhen-2在预测氨基酸替换对蛋白质的影响时,会结合多序列比对的结果和蛋白质的三维结构等信息。它基于一个有监督的机器学习模型,计算出氨基酸替换改变蛋白质结构和功能的可能性。提供了两套数据用于建模,分别是HumDiv
和HumVar
。
HumVar
适用于评估孟德尔遗传病相关的突变位点,而HumDiv
适用于评估复杂疾病或者表型的突变位点。两种模型最终都会给出三个值,蛋白质结构和功能发生改变的概率值,假阳性率FPR
,真阳性率TPR
。
在对突变位点分类时,除了概率值以外,还需要关注假阳性率FPR。每种模型对于FPR值定义了不同的阈值。HumDiv
模型的阈值为5%/1