双序列比对的基础之PAM矩阵

双序列比对的基础之PAM矩阵

 PAM矩阵的记分方法是基于蛋白序列中单点可接受(point accepted mutation, PAM)的概念,通过对蛋白质进化模式的研究而建立的。 PAM矩阵是由Dayhoff等人构建了与71个家族的序列关联的假想系统发育树,其中每对序列间的差异不超过它们残基总数的15%,用简约法建树,统计相似序列比对中的替换发生率来得到的。即,构建一个序列间相似度很高(通常大于85%)的比对。接着计算每个氨基酸a的相对突变率 Σ c A a c \Sigma _ { c } A _ { a c } ΣcAac
。相对突变率仅仅就是某种氨基酸被其他任意氨基酸替换的次数。然后我们针对每个氨基酸对a和b,计算氨基酸b被氨基酸a替换的次数 A a b A _ { a b } Aab
。最后将以上替换次数( Aij 的值)除以对应的相对替换率,利用每个氨基酸出现的频度对其进行标准化,并将以上计算结果取常用对数,于是得到了PAM矩阵。这种矩阵被称作对数几率矩阵,因为其中的元素是根据每个氨基酸替换率的对数值来得到的。即,P(b|a)= B a , b B_{a,b} Ba,b= A a b A _ { a b } Aab/ Σ c A a c \Sigma _ { c } A _ { a c } ΣcAac

 Dayhoff等人定义,如果替换次数的期望值为1%,即 ∑ a ≠ b q a q b B a , b \sum _ { a \neq b } q _ { a } q _ { b } B _ { a , b } a=bqaqbBa,b=0.01,则成此替换矩阵为PAM-1矩阵。注意PAM矩阵的值是随着进化时间而变化的。进化时间是体现在序列间残基的等同率,因为当两条序列不久前才由共同祖先分化而来时,这两条序列的多数残基是等同的。而PAM-1的1表示序列间的残基差异率是1%,表示这些序列才进化了很短时间,它们相距了1个PAM距离。
 而将PAM-1矩阵进行自乘,如自乘n次就得到了PAM-N矩阵。一个PAM-N矩阵元素(i,j)的值反映两条相距N个PAM单位的序列中第i种氨基酸替换第j种氨基酸的概率。
我们可以根据序列的长度以及序列间的先验相似程度来选用特定的PAM矩阵,应用与序列比对。PAM-1矩阵适于用来比较亲缘关系非常近的序列,而PAM-1000矩阵可以用来比较亲缘性非常远的序列。实践中用的最多的且比较折衷的矩阵是PAM-250。
  本篇总结:
本篇主要介绍了PAM矩阵,也许这时又有疑问:为啥PAM-1矩阵自乘n次,就得到了相距n个进化距离序列替换矩阵。其实涉及了一些马氏链的概念,由于参加数模时学过马氏链,所以将在以后的博文进行介绍。

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值