蛋白质结构比对

蛋白质结构比对的目的和意义

结构比对就是对蛋白质三维空间结构的相似性进行比较,它是蛋白质结构分析的重要手段之一。与蛋白质序列比对相比,蛋白质结构比对算法要复杂很多。一个标准的蛋白质结构比对结果包括以下信息:①产生一个参数来衡量蛋白质结构之间的相似性;②产生两个蛋白质的序列比对结果,同意比对位置上的氨基酸意味着它们在空间结构上具有相似性;③产生结构叠加后的蛋白质结构文件(PDB文件格式),可以根据叠加后的结构文件通过合适的蛋白质结构图形显示软件,具体观测两个蛋白质结构的相似性

蛋白质结构比对通常可用于以下几个方面

  • 结构比对可用于探索蛋白质进化及同源关系,特别是那些结构相似而序列不相似的弱同源蛋白,结构比对是分析它们之间进化关系的重要手段之一。
  • 结构比对能够改进序列比对的精度。结构比对往往被当做是序列比对的金标准。人们通过对大量
  • 结构比对能够对蛋白质结构预测提供帮助。目前一些蛋白质结构预测方法,都是通过结构比对来获得相应模版蛋白质结构上的一些保守信息,并把这些信息应用于折叠识别中衡量待测序列和模板结构的相容性
  • 结构比对为蛋白质结构分类提供依据。比如之前的CATH数据库是用一种半自动化的方式对蛋白质结构进行分类,匪类过程中用到了结构比对算法SSAP。另外,FSSP数据库则是采用结构比对方法DALI对蛋白质结构进行自动分类
  • 蛋白质结构的比对还为一些以结构为基础的蛋白质功能注释方法提供帮助。蛋白质通过特定的三维结构行使其生物学功能,有相似结构的蛋白质往往具有相似的或进化上有联系的功能

蛋白质结构比对的基本原理

进行蛋白质结构比对最直接的方法就是通过蛋白质空间结构图形显示软件,采用手动的方法讲一个蛋白质结构移到另外一个蛋白质结构上,然后观测两个结构相似的部分。这种方法仅局限于两个结构非常相似的蛋白质。目前,已开发的蛋白质结构比对方法中最常用的策略就是启发式的方法:首先对两个蛋白质结构定义结构相似的部分(equivalent set,或称共同子结构);然后通过多次迭代策略来调整共同子结构,直到找出优化的结构比对,即找到两个蛋白质空间上最大的重叠部分。

定义初始共同子结构方法:动态规划法、距离矩阵比较法和最大共同子图检测法等

对初始共同子结构进行优化采用的方法:动态规划法、蒙特卡罗模拟、模拟退火、遗传算法和优化路径的组合扩张方法

在共同子结构寻优及评价两个蛋白质最终结构比对的相似性的方法中,都需要一个打分函数来定量衡量两个蛋白质的共同子结构部分的相似性。打分函数主要分为两类:①分子间距离;②分子内距离。分子间距离常用的是分子间均方根偏差(root mean square deviation,RMSD或cRMS),它表示的是两个优化叠加的子结构中对应的原子对间的距离差值的平方的平均值,再开方,即

cRMS = \sqrt{\sum_{i=1}^{N}(\left | \right |x(i)-y(i)\left | \right |^{2}) \over{N} }

 式中,N为蛋白质A和蛋白质B共同子结构中的原子数目;x(i)为蛋白质A中的第i个原子经刚体转化后的坐标;y(i)为蛋白质B中对应的第i个原子的坐标

所谓刚体转化,就是将蛋白质A中的结构经过平移和旋转操作,叠加到蛋白质B的结构上,使得cRMS最小(即优化叠加)。必须指出的是,比对那些序列相似性很低的蛋白质结构的时候,通常不考虑侧链,因为这些侧链的相似性往往很低。

常用的分子内距离打分函数是分子内均方根距离,它衡量的是两个子结构中对应的距离矩阵的相似性,即

dRMS = \sqrt{​{\sum_{i=1}^{N-1}\sum_{j=i+1}^{N}{(d_{ij}^{A}-d_{ij}^{B} )^2 }\over N(N-1)} }

式中,两个d分别为A与B中原子i及原子j的距离。

此外,现有开发的算法还采用了其他打分函数,但不外乎以上两种类型,目前还无法判断哪一种方法更具优势。相比较而言,分子内距离打分函数在对共同子结构寻优的过程中可绕过分子叠加的过程,但要直观显示最终结果比对的结果,仍然需要分子叠加。

书籍:生物信息学第四版 陈铭

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值