双序列比对的基础之PAM矩阵
PAM矩阵的记分方法是基于蛋白序列中单点可接受(point accepted mutation, PAM)的概念,通过对蛋白质进化模式的研究而建立的。 PAM矩阵是由Dayhoff等人构建了与71个家族的序列关联的假想系统发育树,其中每对序列间的差异不超过它们残基总数的15%,用简约法建树,统计相似序列比对中的替换发生率来得到的。即,构建一个序列间相似度很高(通常大于85%)的比对。接着计算每个氨基酸a的相对突变率
Σ
c
A
a
c
\Sigma _ { c } A _ { a c }
ΣcAac
。相对突变率仅仅就是某种氨基酸被其他任意氨基酸替换的次数。然后我们针对每个氨基酸对a和b,计算氨基酸b被氨基酸a替换的次数
A
a
b
A _ { a b }
Aab
。最后将以上替换次数( Aij 的值)除以对应的相对替换率,利用每个氨基酸出现的频度对其进行标准化,并将以上计算结果取常用对数,于是得到了PAM矩阵。这种矩阵被称作对数几率矩阵,因为其中的元素是根据每个氨基酸替换率的对数值来得到的。即,P(b|a)=
B
a
,
b
B_{a,b}
Ba,b=
A
a
b
A _ { a b }
Aab/
Σ
c
A
a
c
\Sigma _ { c } A _ { a c }
ΣcAac
Dayhoff等人定义,如果替换次数的期望值为1%,即
∑
a
≠
b
q
a
q
b
B
a
,
b
\sum _ { a \neq b } q _ { a } q _ { b } B _ { a , b }
∑a=bqaqbBa,b=0.01,则成此替换矩阵为PAM-1矩阵。注意PAM矩阵的值是随着进化时间而变化的。进化时间是体现在序列间残基的等同率,因为当两条序列不久前才由共同祖先分化而来时,这两条序列的多数残基是等同的。而PAM-1的1表示序列间的残基差异率是1%,表示这些序列才进化了很短时间,它们相距了1个PAM距离。
而将PAM-1矩阵进行自乘,如自乘n次就得到了PAM-N矩阵。一个PAM-N矩阵元素(i,j)的值反映两条相距N个PAM单位的序列中第i种氨基酸替换第j种氨基酸的概率。
我们可以根据序列的长度以及序列间的先验相似程度来选用特定的PAM矩阵,应用与序列比对。PAM-1矩阵适于用来比较亲缘关系非常近的序列,而PAM-1000矩阵可以用来比较亲缘性非常远的序列。实践中用的最多的且比较折衷的矩阵是PAM-250。
本篇总结:
本篇主要介绍了PAM矩阵,也许这时又有疑问:为啥PAM-1矩阵自乘n次,就得到了相距n个进化距离序列替换矩阵。其实涉及了一些马氏链的概念,由于参加数模时学过马氏链,所以将在以后的博文进行介绍。