文章目录
BLAST原理
1.序列比对
序列比对的目的:相似的序列→相似的结构→相似的功能,以此推断未知序列的功能
或者:相似的序列→同源性,演化分析中用于构建演化树
双序列比对有多种可能的结果,例如对于两段蛋白序列:
有多种可能的比对方式:
判断哪种比对方式更好,我们需要用到打分矩阵 M a t r i x Matrix Matrix
2.打分矩阵,起始空位,延伸空位
B L O S U M 62 BLOSUM62 BLOSUM62:
根据打分矩阵可以给每一对匹配上的氨基酸一个分数,
对于空位,分为起始空位罚分和延伸空位罚分,
起始空位罚分( g a p o p e n n i n g gap\ openning gap openning):首次出现空位需要减去的分数
延伸空位罚分( g a p e x t e n d i n g gap\ extending gap extending):随后的延伸空位需要减去的分数
因为对于连续的空位,进化上我们倾向于认为这是作为一个片段同时丢失或插入的,而不是单个的丢失或插入组合形成了连续的空位(概率非常低),因此会有起始空位罚分和延伸空位罚分的区别。
有了以上规则,可以对每一个比对结果给出确定的分数( s c o r e score score):
3.needle算法
对于两段序列比对,如果采用枚举法,得到的结果数量十分庞大,例如对于序列长度n=300
可能的比对方式有:
约为目前宇宙中可见原子数量的一亿倍
采用动态规划算法:
最好的比对=之前最好的比对+当前最好的比对
i i i代表第一条序列的第 i i i个碱基/氨基酸, j j j代表第二条序列的第 j j j个碱基/氨基酸,
F ( i , j ) F(i,j) F(i,j)代表到第 i i i个和第 j j j个碱基/氨基酸位置,最好的比对分数
s ( i , j ) s(i,j) s(i,j)代表新一对碱基/氨基酸根据 M a t r i x Matrix Matrix得到的分数
d d d代表空位罚分
对于上述算法的理解,即 F ( i , j ) F(i,j) F(i,j)只有三种可能的来源,从这三种来源中找到最好的,所得到的结果即是最好的,对每一步都采取这样的算法,最终结果可以认为相对来讲也是最好的
可以用一个矩阵具体理解:
4.water算法
两个序列之间可能只有局部有很高相似性,而全长不具有,此时needle算法不再适用,
使用water算法:
与needle算法基本相同,区别只在于多了一个来源 0 0 0
此时相当于可以重新定义比对起点,找到局部相似性:
5.BLAST算法
seeding
将query序列分为长度为k的seeds:
对于字长 w o r d _ s i z e word\_size word_size,k对于蛋白质一般为3,对于DNA一般为11,种子越短,灵敏度越高,用时越长。
find neighborhood words
找到与seed相近/相似的words,这一步的依据就是needle/water算法,将seed与相似字串进行比对
最终比对得分高于某一个临界值 t h r e s h o l d threshold threshold的字串,我们可以将其作为邻居字串
index database
对数据库中的序列查找上述字串,如果能够找到,称为一个 h i t hit hit
多个连续的 h i t hit hit可以组成一个 h i t s hits hits
如下图所示
与对角线平行的 h i t s hits hits,证明这一区域与 q u e r y query query序列相似度很高。
extending
对上述 h i t s hits hits继续向两端延伸,应用water算法打分,延伸至得分低于某一个特定值
这样就找到了相似区域HSP
最终的比对结果:
运用之前寻找hits的方法,可以在整个数据库中较快地找到所有的相似序列
统计显著性检验
由于序列的随机性,两条随机产生的序列也可能有一定相似性
使用
E
v
a
l
u
e
Evalue
Evalue评估
Evalue如何推导可以参考资料中Karlin论文
E v a l u e Evalue Evalue: 随机情况下,获得当前或者比当前更高比对分数的可能比对条数
显著性水平:
p
=
1
−
e
−
E
p=1-e^{-E}
p=1−e−E
PSI-BLAST
Position-Specific Iterated BLAST,流程如下:
即根据第一次BLAST的搜索结果,由搜索到的序列构建PSSM,再以PSSM为打分矩阵,进行下一轮BLAST
使用PSI-BLAST能够找到亲缘关系更远的序列
PSSM(Position-Specific Scoring Matrix)构建方法:
1.(蛋白质为例)统计每个氨基酸在每个位点的出现频率,如下图I在2位点频率为0.67:
2.取极限:
F
r
e
q
^
=
F
r
e
q
×
∑
N
o
b
s
+
1
∑
N
o
b
s
+
20
\hat{Freq}=\frac{Freq\times\sum N_{obs}+1}{\sum N_{obs}+20}
Freq^=∑Nobs+20Freq×∑Nobs+1
3.计算score:
PSSM构建完成
参考资料
生物信息学方法,北京大学 高歌
BLAST算法,降帅
Needleman, S. B. & Wunseh, (3. D. (1970). J. Mol. Biol.48, 443-453.
Waterman, M. S. (1984). Bull. Math. Biol. 46, 473-500.
Altschul, S. F., et al. Basic Local Alignment Search Tool. Journal of Molecular Biology 215, 403–410
(1990) doi:10.1016/S0022‑2836(05)80360‑2
Karlin, S. and S. F. Altschul (1990). “METHODS FOR ASSESSING THE STATISTICAL SIGNIFICANCE OF MOLECULAR SEQUENCE FEATURES BY USING GENERAL SCORING SCHEMES.” Proceedings of the National Academy of Sciences of the United States of America 87(6): 2264-2268.
ll. Math. Biol. 46, 473-500.