《Protein Actions Principles and Modeling》-《蛋白质作用原理和建模》
本人能力有限,如果错误欢迎批评指正。
第八章 Bioinformatics: Insights from Protein Sequences
(生物信息学:来自蛋白质序列的见解)
-如何构建一个系统发育树?
我们一旦对其了序列并且获得了对应的分数,就意味着我们已经拥有了蛋白质之间剧烈的基本结果。这个时候,我们需要构建一个进化树(又称为系统发育树)。进化树是一种代表成对进化距离(a collection of pairwise evolutionary distances)集合的图形表示方式。目前,构建系统发育树的方式有几种。每种方法所依赖的理论假设都有所不同。如前所述,我们通常首先假设简约性,即序列的变化遵循与观察到的序列一致的最短路径。
系统发育树有两种类型:有根的和无根的(: rooted and unrooted)。在有根的树中,这些链接都是指向从祖先到后代的定向箭头,将单个根节点固定为共同的祖先。有根的树中的链接长度可以表示从祖先到后代的进化时间。在一个无根的树中,这些链接不是定向的,也没有关于祖先或共同祖先的假设。一般来说,系统发育树在基本遗传学中对于理解基因复制等事件以及对于理解疾病的起源等实际问题都具有重要意义。大规模基因测序技术的出现使现在的许多事情成为可能。例如,确定西半球的西尼罗河病毒起源于纽约和新英格兰。
在BOX8.2中,我们给出了一个具有算术均值(UPGMA)的非加权对组方法的例子。这种方法假设存在一个恒定的进化速率。它是生成一个有根的树的最简单的方法之一,由 Sokal和Michener于1959年提出。该方法根据链接的点会形成对应的序列簇。它是获取任何成对数据集的关系图的一种常见方法。
================================================
BOX 8.2 这里有一种生成基于距离的有根的树的方法
我们开始绘制序列A-E的进化树吧!在这个过程中,我们不需要这些序列具体的组成部分,只需要知道他们的之间的相互距离即可。在这过程中,我们需要假设已经定义了一些测量方式并且通过图8.13A的矩阵给出序列对之间的距离。该矩阵具有对称性:A到B的距离和B到A的距离是一样的。所以,矩阵是具有对称性的。所以我们只需要保持对角线上方的部分进行分析。
图8.13 UPGMA系统发育树生成的第一步。5个序列的(A)对距离。(B)和(C)选择最近的节点对来创建一个新的节点。将在下一个图中继续执行此过程。
首先,我们需要找到一对最相近的残基对。在这种情况下,最相近的是A和D,而这的距离为1.这个时候,A和D的之间插入一个新的节点并且命名为a,这个节点与A和D的直接的距离皆为0.5。图8.13B显示了一个标记了距离的横轴。距离只沿着水平线,而不是垂直线。所以,从A到D的距离是0.5 + 0.5 = 1,作为水平线的长度之和。
现在,从距离矩阵中删除序列A和序列D(见图8.13C),转而关注位于它们之间的中点节点a。计算剩余序列与节点之间的新距离。请注意,a到每个剩余序列(B、C和E)的距离只是A和D到B、C和E的距离的平均值。
在这个新的矩阵里边,我们可以搜索到新的一对最近的残基。这个时候,对应的节点就是a和E,二者的距离为2。所以,再次在a和E之间添加一个新的节点b。E和节点b之间的距离是1。因此,这就得到了图8.13D。现在,剩下的最短距离为4,在B和C之间,得到图8.13E中的矩阵和图8.14A中的树。
图8.14 图8.13. (A)将新节点c连接节点B和C。(B)由图8.13A中的对数据生成的最终系统发育树。
最后,将树的两个未连接的分支连接起来。要做到这一点,请查看原始的距离矩阵。我们可以看到B或C和A、D或E之间的距离都是6。因此这意味着应该将垂直连接条放置在x轴值3处,从而生成图8.14B中的最终根树。您可以检查此树中的所有距离是否与我们的起始距离矩阵完全一致(参见图8.13)。
================================================
-进化过程中保存了一些氨基酸,并改变了其他的氨基酸
用序列熵表示残基保守性的程度
随着时间的推移,蛋白质的进化,它的一些残基会比其他残基更保守。如果一个氨基酸在蛋白质的进化过程中没有变化,那么它就是保守的氨基酸残基。例如,在一个包含蛋白质及其近亲的集合中,如果序列中的第26位置一直都是甘氨酸,那么这个氨基酸在这个位子就可以被认为是保守氨基酸。在蛋白质中,高度保守的氨基酸位置可以表明对蛋白质的作用、稳定性或结合或组装特性很重要的位点。
为了计算氨基酸的保守程度,我们首先需要制造一个MSA。衡量序列中位置i的氨基酸保守程度的指标为序列熵 (Sequence entropy S(i)):
其中,x = 1,2,3,……,20表示20种氨基酸类型中的一种,p(xi)是该氨基酸类型x出现在MSA的特定位置i上的概率。对每个序列位置i的所有20种氨基酸类型进行总和。熵是一个分布函数的平坦度(BOX8.3)。S (i) = 0表示i位置具有最低可能熵,因此该位置给定类型的氨基酸的完美的保守性(即p(xi)该特定类型氨基酸的=1,所有19种其他类型的氨基酸在i位置为0)。S (i) = ln 20≈3表示该位点熵的最大值,表示所有20个氨基酸在那里出现的概率相等。一个给定序列的总熵是通过简单地对所有序列位置的公式8.3相加,并相对于随机序列进行归一化,即,
当随机序列被定义为每个位置i上的任何氨基酸(即S0(i) = 3)的概率相等时,各项S0(i)的和等于3N。或者,我们可以将不同类型氨基酸的自然发生概率视为评估s0的“先验”概率。
================================================
Box 8.3 序列熵告诉你残基分布的“平坦性”
如图8.15A所示,如果所有20个氨基酸在一个给定的蛋白质位点上以相同的概率(1/20)出现在一起,则该位置具有最大可能的序列熵,S = 3。如果,如图8.15B所示,这20个氨基酸出现的频率不同,序列熵将会更小,表明一个位点“更有序”或“更保守”。
图8.15 氨基酸在一个给定的蛋白质位点上以不同的频率出现。较高的频率为绿色,平均频率为蓝色,较低的频率为红色。(A)具有相同出现次数的所有氨基酸的频率的平坦分布。(B)发生频率的残留特异性分布。
================================================
影响氨基酸进化保护的物理因素和生物学因素
序列保守性可以提供各种不同的信息。首先,它可以表明一个氨基酸在蛋白质的稳定性或生物作用中所起的作用。图8.16显示,甘氨酸、半胱氨酸、组氨酸和色氨酸是最保守的残基类型。这种保守性可以在物理基础上得到证明:半胱氨酸是二硫桥形成所必需的;他通常需要发挥催化作用;甘氨酸对于蛋白质中需要额外的灵活性或二面角主干自由的区域非常重要;当需要与大的平面疏水表面结合时,色氨酸是必不可少的。通常占据核心区的疏水残基往往是保守的。带有庞大侧链的带电残基,如谷氨酸或赖氨酸,往往位于蛋白质表面,而且不那么保守。
图8.16 在其自然运动中受到限制的残基倾向于进化保守。(蓝色)保守的程度,基于序列熵。(红色)剩余运动,由它们的均方波动决定,从他们的PDB结构获得。氨基酸在蛋白质的天然结构中所经历的运动越少,它的进化保护就越大。限制可以来自于被埋在蛋白质核心中,或来自于内在的侧链自由或其他因素
其次,图8.16还显示,蛋白质结构中的保守残基通常位于波动最小的位点,因此构象受限最大。这一点从图8.17A中也可以明显看出,这表明位于蛋白质密集区域的氨基酸往往是保守的。此外,图8.17B显示,最保守的残基通常是最被埋藏的残基,无论它们是否具有极性。
图8.17进化倾向于保存在蛋白质中密集排列和/或埋藏的核心区域的氨基酸。(A)序列熵随着氨基酸密度的增加而减少(如核心中的残留埋藏)。更容易获得溶剂的(B)残基往往进化得更快,因此不那么保守。
第三,由于蛋白质的生物机制,氨基酸有时是保守的。直接参与特定活动(例如,配体结合或催化)的位点是至关重要的,并且不能在不损害生物体功能的情况下进行突变。图8.18显示了一个例子:DNA糖基化酶蛋白上的几个位点在整个进化过程中被高度保守,也恰好是对蛋白质的生物学功能最重要的位点,即与DNA结合。ConSurf网络服务器支持计算和可视化整个蛋白质结构的保守性。进化过程中的保守性可以让你深入了解进化过程发生的速度有多快。
图8.18 结合位点和催化位点在进化过程中趋于保守。(A)DNA糖基化酶结构中与DNA结合的氨基酸(灰色)。颜色显示了残基的进化保守性(蓝色是最保守的,红色是最可变的)。(B)残基着色显示了突变对糖基化酶功能造成的损伤量。(A)和(B)之间颜色的相似性表明,进化保留了对该蛋白质功能至关重要的位点。
进化变异有时在序列中是相关的
蛋白质中的一些氨基酸与其他氨基酸共同进化。假设你从不同的生物体中制造出一种特定类型的蛋白质的msa。也许你可以观察到,当序列中的第20个残基发生变化时,第46个残基也会发生变化(图8.19)。这被称为相关突变或者补偿突变(correlated mutations, or compensatory mutations.)
图8.19 相关突变可以提供有关蛋白质结构的信息。左边的MSA表示两个相关的位点(列)。例如,当左残差是R时,右残差是D。对齐显示,当其中一个位置发生变化时,另一个位置会有一个补偿变化。这种共同进化模式可以表明这些位置是蛋白质天然结构中的邻居。这对于预测蛋白质结构中的氨基酸接触对是很有用的。
相关突变可以帮助你深入了解蛋白质的结构或功能。在序列中距离较远的两个氨基酸可以折叠起来彼此靠近,并直接在天然结构中相互作用。它们可能被打包在蛋白质的天然结构中,这样,当一个残基被一个较小的氨基酸取代时,另一个残基必须被一个较大的残基取代,受到几何结构的限制。而在酶催化过程中共同作用的残基通常是保守的。图8.20显示了与其机制相关的蛋白质相关突变网络。
图8.20 蛋白质中相关突变的网络。通过对残基对的相关突变分析显示,牛视紫质中的红色区域描述了一个由47个残基组成的连接网络。这个网络恰好通过蛋白质传递信息。视黄醇配体(绿色)在与视紫质结合时通过网络触发信号传导。
相互信息(MI)衡量了成对氨基酸共同进化的趋势
您可以通过使用相互信息(MI)来测量突变的相关程度,MI是序列熵的一个近亲(公式8.3)。MSA中第ih列和第j列之间的互信息定义为
其中p(xi,yj)表示在i位置观察x型氨基酸和在j位置观察y型氨基酸的联合概率。这里的间隙被视为第21种氨基酸类型。相关性越好,这个公式的值越大。由于目前有成千上万的基因组序列可用,相关性分析是推断结构和功能的主要方法
总结
使用生物信息学方法,我们可以将两个或多个序列彼此对齐,并分配反映它们序列相似性的分数。如果您有一个查询序列,则可以搜索大型数据库以找到其他类似的序列。我们可以发现某些序列位置是否比其他序列位置更频繁地保留一种特定类型的氨基酸,也就是说,它们是否在进化过程中保持保守。我们还可以发现一个序列位置的变化是否与另一个序列位置的变化相关。这些方法对于推断蛋白质的结构、功能和进化是很有用的。而大规模的序列比较则可以用来构建生命的进化树。
第八章完
-------------------------------------------
欢迎点赞收藏转发!
下次见!