双序列比对的基础（2）之替换（计分）矩阵系列

最新推荐文章于 2024-08-17 21:30:16 发布

隔壁王同学啊

最新推荐文章于 2024-08-17 21:30:16 发布

阅读量5k

点赞数 2

分类专栏：计算生物学

本文链接：https://blog.csdn.net/weixin_43770577/article/details/104023846

版权

计算生物学专栏收录该内容

23 篇文章 6 订阅

订阅专栏

双序列比对的基础（2）之替换（计分）矩阵系列

主要以BLOSUM矩阵与PAM矩阵的介绍为主。声明：该部分书中内容介绍有点少，所以我上网搜索到几篇文献和和国外大学的相关课件（从一个研究生博主处获得）。
那本篇文章就先介绍BLOSUM矩阵吧
BLOck SUBstitution Matrix：BLOSUM矩阵。详细的来说，它们来自一组蛋白质家族中联配上的无空位区域，这些蛋白家族源于BLOCKS数据库。¹

BLOSUM62矩阵广泛应用于双序列比对，也是BLAST程序默认调用的计分矩阵。
62是什么意思嘞？
BLOSUM62 is derived from Blocks containing >62%
identity in ungapped sequence alignment.²

也就是说BLOSUM62矩阵来自于序列间等同残基比超过62%的blocks(区块)。而block就是序列间联配上的无空位区域。
小小的总结：1.先定一个阈值L,比如你最后想得到BLOSUM62矩阵，就把L定为62。2 . 前往蛋白质序列数据库，将符合序列间等同残基比大于L的序列归为一类。3.将得到的类里面的序列作多序列比对(用PAM矩阵进行的多序列对比）。4. 对比后，将保守无空位的区域划分为block。5.在block内统计频率，一个block相当于一个匹配模型。运用对数几率比得出s(a,b)。

例如： undefined

上图的深色部分就是一个block。下面我们就以该block为例子计算残基对之间的联配的分值s(a,b)。
计算的核心就是上一篇文章提到的对数几率比（log odds ratio）即 $\log \left( \frac { p _ { a b } } { q _ { a } q _ { b } } \right)$ 。用统计得的归一化频率来代表概率。
计算流程：

$c _ { i i } ^ { ( k ) }$ = $C _ { n _ { i } } ^ { 2 }$
$c _ { i j } ^ { ( k ) }$ = $n _ { i }$ * $n _ { j }$
$\sum _ { k }c _ { i j } ^ { ( k ) }$

$c _ { i j } ^ { ( k ) }$ :第k列内残基对（i，j)被观测到的次数。
$n _ { i }$ :该列中残基i被观测到的次数。

T=W* $C _ { N } ^ { 2 }$
$\frac { c _ { i j } } { T }$

W:列数，N：行数。归一化的频率表示概率。

$\sum _ { j = i } \frac { q _ { i j } } { 2 }$

$p _ { i }$ :残基i在该block中出现的概率。

$e _ { i i } = p _ { i } ^ { 2 }$
$e _ { i j } = 2 p _ { i } p _ { j }$

$e _ { i j }$ :残基对（i，j）随机出现的概率

$\log_ { 2 } \frac { q _ { i j } } { e _ { i j } }$ 、

最后BLOSUM矩阵[i,j]=2*s(i,j),并取最邻近的整数。
本篇总结：
看到此处相信你已经对计分矩阵的建立有了一定的了解。但是，如果仔细想想会有一个疑问。直接用观测到的联配的归一化频率表示匹配模型M中的概率参数（在自然界中各残基之间的联配概率。），也就是说用一个样本的观测数据直接估计为总体的概率参数。是不是得进行最大似然估计才能估计总体的参数？是不是没进行最大似然估计？
也许看下几篇文章会得到解答。
This is a BLOSUM62矩阵.