BLAST原理和用法总结（一）

withbeginner

已于 2022-04-12 16:05:34 修改

阅读量1.2w

点赞数 14

分类专栏： Linux生物信息技术笔记文章标签： linux

于 2022-04-12 16:05:02 首次发布

本文链接：https://blog.csdn.net/withbeginner/article/details/124125746

版权

Linux生物信息技术笔记专栏收录该内容

2 篇文章

订阅专栏

本文详细介绍了序列比对的基本概念，包括BLOSUM62打分矩阵、起始空位与延伸空位罚分，以及needle和water算法。接着，重点讲解了BLAST算法的工作流程，如seeding、findneighborhoodwords、indexdatabase和extending，并提到了统计显著性检验中的Evalue。最后，简述了PSI-BLAST如何利用第一次搜索结果构建PSSM矩阵进行迭代搜索，以找到更远亲缘关系的序列。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

BLAST原理

1.序列比对

序列比对的目的：相似的序列→相似的结构→相似的功能，以此推断未知序列的功能

或者：相似的序列→同源性，演化分析中用于构建演化树

双序列比对有多种可能的结果，例如对于两段蛋白序列：

在这里插入图片描述

有多种可能的比对方式：

在这里插入图片描述

判断哪种比对方式更好，我们需要用到打分矩阵 $M a t r i x$

2.打分矩阵，起始空位，延伸空位

$B L O S U M 62$ ：

在这里插入图片描述

根据打分矩阵可以给每一对匹配上的氨基酸一个分数，

对于空位，分为起始空位罚分和延伸空位罚分，

起始空位罚分( $gap\ openning$ ):首次出现空位需要减去的分数

延伸空位罚分( $gap\ extending$ ):随后的延伸空位需要减去的分数

因为对于连续的空位，进化上我们倾向于认为这是作为一个片段同时丢失或插入的，而不是单个的丢失或插入组合形成了连续的空位（概率非常低），因此会有起始空位罚分和延伸空位罚分的区别。

有了以上规则，可以对每一个比对结果给出确定的分数( $s c o r e$ ):

在这里插入图片描述

3.needle算法

对于两段序列比对，如果采用枚举法，得到的结果数量十分庞大，例如对于序列长度n=300

可能的比对方式有：

在这里插入图片描述

约为目前宇宙中可见原子数量的一亿倍

采用动态规划算法：

最好的比对=之前最好的比对+当前最好的比对

在这里插入图片描述

$i$ 代表第一条序列的第 $i$ 个碱基/氨基酸， $j$ 代表第二条序列的第 $j$ 个碱基/氨基酸，

$F (i, j)$ 代表到第 $i$ 个和第 $j$ 个碱基/氨基酸位置，最好的比对分数

$s (i, j)$ 代表新一对碱基/氨基酸根据 $M a t r i x$ 得到的分数

$d$ 代表空位罚分

对于上述算法的理解，即 $F (i, j)$ 只有三种可能的来源，从这三种来源中找到最好的，所得到的结果即是最好的，对每一步都采取这样的算法，最终结果可以认为相对来讲也是最好的

可以用一个矩阵具体理解：

在这里插入图片描述

4.water算法

两个序列之间可能只有局部有很高相似性，而全长不具有，此时needle算法不再适用，

使用water算法：

在这里插入图片描述

与needle算法基本相同，区别只在于多了一个来源 $0$

此时相当于可以重新定义比对起点，找到局部相似性：

在这里插入图片描述

5.BLAST算法

seeding

将query序列分为长度为k的seeds：

在这里插入图片描述

对于字长 $word\_size$ ,k对于蛋白质一般为3，对于DNA一般为11，种子越短，灵敏度越高，用时越长。

find neighborhood words

找到与seed相近/相似的words，这一步的依据就是needle/water算法，将seed与相似字串进行比对

在这里插入图片描述

最终比对得分高于某一个临界值 $t h r e s h o l d$ 的字串，我们可以将其作为邻居字串

index database

对数据库中的序列查找上述字串，如果能够找到，称为一个 $h i t$

多个连续的 $h i t$ 可以组成一个 $h i t s$

如下图所示

在这里插入图片描述

与对角线平行的 $h i t s$ ,证明这一区域与 $q u e r y$ 序列相似度很高。

extending

对上述 $h i t s$ 继续向两端延伸，应用water算法打分，延伸至得分低于某一个特定值

在这里插入图片描述

这样就找到了相似区域HSP

最终的比对结果：

在这里插入图片描述

运用之前寻找hits的方法，可以在整个数据库中较快地找到所有的相似序列

统计显著性检验

由于序列的随机性，两条随机产生的序列也可能有一定相似性

使用 $E v a l u e$ 评估
Evalue如何推导可以参考资料中Karlin论文

$E v a l u e$ : 随机情况下，获得当前或者比当前更高比对分数的可能比对条数

在这里插入图片描述

显著性水平：
$p=1-e^{-E}$

PSI-BLAST

Position-Specific Iterated BLAST，流程如下：

在这里插入图片描述

即根据第一次BLAST的搜索结果，由搜索到的序列构建PSSM，再以PSSM为打分矩阵，进行下一轮BLAST

使用PSI-BLAST能够找到亲缘关系更远的序列

PSSM(Position-Specific Scoring Matrix)构建方法：

1.（蛋白质为例）统计每个氨基酸在每个位点的出现频率，如下图I在2位点频率为0.67：
在这里插入图片描述

2.取极限：
$\hat{Freq}=\frac{Freq\times\sum N_{obs}+1}{\sum N_{obs}+20}$
在这里插入图片描述

3.计算score：

在这里插入图片描述

PSSM构建完成

参考资料

生物信息学方法，北京大学高歌

BLAST算法，降帅

Needleman, S. B. & Wunseh, (3. D. (1970). J. Mol. Biol.48, 443-453.

Waterman, M. S. (1984). Bull. Math. Biol. 46, 473-500.

Altschul, S. F., et al. Basic Local Alignment Search Tool. Journal of Molecular Biology 215, 403–410
(1990) doi:10.1016/S0022‑2836(05)80360‑2

Karlin, S. and S. F. Altschul (1990). “METHODS FOR ASSESSING THE STATISTICAL SIGNIFICANCE OF MOLECULAR SEQUENCE FEATURES BY USING GENERAL SCORING SCHEMES.” Proceedings of the National Academy of Sciences of the United States of America 87(6): 2264-2268.
ll. Math. Biol. 46, 473-500.