【学习笔记】山东大学生物信息学-02 序列比较

原创

已于 2022-06-08 15:21:04 修改 · 5.4k 阅读

46 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #矩阵 #线性代数

于 2022-06-08 01:03:10 首次发布

本文介绍了生物信息学中序列比较的基础知识，包括序列相似性、替换记分矩阵（如PAM和BLOSUM矩阵）以及序列比对方法（全局比对与局部比对）。此外，还探讨了在线工具如BLAST和多序列比对工具的应用，以及如何寻找保守区域。

课程地址：山东大学生物信息学

文章目录

二、序列比较

二、序列比较

2.1 认识序列

sequence 就是个字符串 string。

FASTA 格式：
第一行：大于号加名称或其他注释
第二行以后：每行 60 个字母（也有 80 的，不一定）

2.2 序列相似性

相似的序列 → 相似的结构 → 相似的功能
可预测未知结构和功能的蛋白质的结构和功能
序列一致度与相似度：

◆ 一致度（identity）：如果两个序列长度相同，那么它们的一致度定义为它们对应位置上相同的残基的数目占总长度的百分比。

◆ 相似度（similarity）：如果两个序列长度相同，那么它们的相似度定义为它们对应位置上相似的残基与相同的残基的数目和占总长度的百分比。

残基两两相似的量化关系被替换记分矩阵所定义。

2.3 替换记分矩阵

● 替换记分矩阵（substitution matrix）：反映残基之间相互替换率的矩阵，它描述了残基两两相似的量化关系。分为 DNA 替换记分矩阵和蛋白质替换记分矩阵。

★ 3 种常见 DNA 序列的替换记分矩阵

等价矩阵（unitary matrix）：最简单的替换记分矩阵，其中，相同核苷酸之间的匹配得分为 1，不同核苷酸间的替换得分为 0。由于不含有碱基的理化信息和不区别对待不同的替换，在实际的序列比较中较少使用。
转换-颠换矩阵（transition-transversion matrix）：核酸的碱基按照环结构特征被划分为两类，一类是嘌呤（A/G），有两个环；另一类是嘧啶（C/T），只有一个环。如果 DNA 碱基的替换保持环数不变，则为转换；如果环数发生变化，则成为颠换。在进化过程中，转换发生的频率远比颠换高。为了反映这一情况，通常该矩阵中转换的得分为-1，而颠换的得分为-5。
BLAST 矩阵：经过大量实际对比发现，如果使被比对的两个核苷酸相同时得分为+5，反之为-4，则比对效果较好。这个矩阵广泛地被 DNA 序列比较所采用。

★ 3 种常见蛋白质序列的替换记分矩阵

等价矩阵（unitary matrix）：与 DNA 等价矩阵道理相同，相同氨基酸之间的匹配得分为 1。不同氨基酸间的替换得分为 0。在实际的序列比对中较少使用。
PAM 矩阵（Dayhoff 突变数据矩阵）：PAM 矩阵基于进化原理。如果两种氨基酸替换频繁，说明自然界易接受这种替换，那么这对氨基酸替换得分就应该高。PAM 矩阵是目前蛋白质序列比较中最广泛使用记分方法之一，基础的 PAM-1 矩阵反映的是进化产生的每一百个氨基酸平均发生一个突变的量值（统计方法得到）。PAM-1 自乘 n 次，可以得到 PAM-n，即发生了更多次突变。（根据要比较的序列之间亲缘关系远近来选择适合的 PAM 矩阵，如果亲缘关系远，即有很多突变，n 就越大，反之 n 越小。）
◆ PAM-250 矩阵：对角线上的数值为匹配氨基酸的得分；其他位置上，≥0 的得分代表对应氨基酸对为相似氨基酸。
BLOSUM 矩阵（blocks substitution matrix）：BLOSUM 矩阵是通过关系较远的序列来获得矩阵元素的。PAM-1 矩阵是基于相似度较高（>85%）的序列比对计算产生的，那些进化距离较远的矩阵，如 PAM-250 是通过 PAM-1 自乘得到的。即，BLOSUM 矩阵的相似度是根据真实数据产生的，而 PAM 矩阵是通过矩阵自乘外推来的。和 PAM 矩阵一样，BLOSUM 矩阵也有不同编号，如 BLOSUM-80 代表该矩阵是由一致度≥80% 的序列计算而来。同理，BLOSUM-62 指该矩阵由 一致度≥62% 的序列计算而来。
◆ BLOSUM-62：对角线上的数值为匹配氨基酸的得分；其他位置上，≥0 的得分代表对应氨基酸对为相似氨基酸。

Q1: 选 PAM-1 还是 PAM-250?

在这里插入图片描述

Q2: 选 PAM-? 还是 BLOSUM-?

在这里插入图片描述

对于关系较远的序列之间的比较，由于 PAM-250 是推算而来，所以其准确度受到一定限制，BLOSUM-45 更具优势。
对于关系较近的序列之间的比较，用 PAM 或 BLOSUM 矩阵做出的比对结果，差别不大。
最常用的：BLOSUM-62

★ 其他 2 种蛋白质序列比对的替换记分矩阵

遗传密码矩阵 (genetic code matrix, GCM) : 遗传密码矩阵通过计算一个氨基酸转换成另一个氨基酸所需的密码子变化的数目而得到，矩阵的值对应为据此付出的代价。
◆ 如果变化一个碱基就可以使一个氨基酸的密码子转换为另一个氨基酸的密码子，则这两个氨基酸的替换代价为 1;
◆ 如果需要 2 个碱基的改变，则替换代价为 2;
◆ 再比如从 Met 到 Tyr 三个密码子都要变，则代价为 3。
◆ 遗传密码矩阵常用于进化距离的计算，其优点是计算结果可以直接用于绘制进化树，但是它在蛋白质序列比对（尤其是相似程度很低的蛋白质序列比对）中，很少被使用。
疏水矩阵: 根据氨基酸残基替换前后疏水性的变化而得到得分矩阵。若一次氨基酸替换疏水特性不发生太大的变化，则这种替换得分高，否则替换得分低。

2.4 序列两两比较：打点法

在这里插入图片描述

打点法：相同的打点。
连续的对角线、对角线的平行线，代表两条序列中相同的区域。
可以用一条序列自己对自己打点，从而可以发现序列中的重复片段。这样的打点矩阵必然是对称的，并且有一条主对角线。在横向或纵向上，与主对角线平行的短平行线所对应的序列片段就是重复的部分；包括主对角线在内的平行线出现的次数就是重复次数。
发现串联重复序列 (tandem repeat)：
如 Seq1: FASABCABCABCTHE
◆ 重复次数：在半个对角线内，包括主对角线在内的所有等距平行线的个数。
◆ 重复单元：最短的平行线对应的序列。
◆ 短串联重复序列 (short tandem repeat, STR) 也叫做微卫星 DNA, 是一类广泛存在于真核生物基因组中的 DNA 串联重复序列。它由 2-6bp 的核心序列组成，重复次数通常在 15-30 次。STR 具有高度多态性，即存在重复次数的个体间差异，而且这种差异在基因遗传过程中一般遵循孟德尔共显性遗传规律，所以它被广泛用于法医学个体识别、亲子鉴定等领域。
Dotlet 在线打点工具：Dotlet 需要安装 java。
详见视频：序列两两比较：打点法-02 P34

2.5 序列两两比较：序列比对法（定量）

序列比对 (alignment)，也叫对位排列、联配、对齐等。运用特定的算法找出两个或多个序列之间产生最大相似度得分的空格插入和序列排列方案。
序列 s 和 t 的比对：把 s 和 t 这两个字符串上下排列起来，在某些位置插入空格（空位，gap)，然后依次比较它们在每一个位置上字符的匹配情况，从而找出使这两条序列产生最大相似度得分的排列方式和空格插入方式。

最低0.47元/天解锁文章