文章题目:Secondary Structure and Contact Guided Differential Evolution for Protein Structure Prediction
最近看了师兄的论文,打算写个博客记录一下,免得几个月后又忘记了。好记性不如烂笔头,这个懒不能偷,血的教训,去年把杨建益老师的trRosetta理解了一遍,放了4个月的寒假,再拿起来看,脑子里全是问号,好生气!
目前,主要有两个问题严重地限制了蛋白质结构预测的准确性。
1.在巨大的构想空间中寻找接近天然态的蛋白质结构。
2.缺乏精确的能量模型来表征蛋白质结构。
这两个问题导致构想空间采样中定义接近天然态的结构非常困难。
在这项研究中,提出了一种改进的具有二级结构和残基接触信息的差分进化方法,即SCDE,用于蛋白质结构预测。即基于二级结构的选择策略和基于contact的选择策略来指导构想空间搜索,提高预测精度,减少搜索空间,并且通过一个概率分布函数来平衡这两个选择策略。
首先了解一下片段组装,什么是片段组装?
片段组装:在蛋白质中,一小段氨基酸序列对该区域的局部结构有很大影响。对于要预测的查询序列,查询中残基的每个片段插入窗口对应于一组已知结构的蛋白质特定片段。通常将片段组装成查询窗口需要三个步骤:
1.随机选择一个片段插入窗口
2.在片段库中随机选择一个片段并将其插入该窗口
3.使用能量函数评分功能对Metropolis准则下的新结构进行评估
基于二级结构的选择策略:
对于每个试验构象,首先通过DSSP获得二级结构信息,通过公式计算二级结构相似性评分
L:序列长度
:使用PSIPRED预测的查询序列的第l个残基的二级结构
:使用DSSP计算的试验构象的第l个残基的二级结构
越大,试验构象和查询序列之间的二级结构相似性越高。
如果,试验构象的二级结构的相似性得分高于种群已经存在的构象的最小二级结构相似度得分,则试验构象直接作为的替代品,否则允许试验构象以玻尔兹曼接纳概率进入下一代。
:温度比例因子
玻尔兹曼接受概率的作用:允许具有较低二级结构相似性评分的试验构象进入种群。在一定程度上可以减轻二级结构预测偏差对预测精度的影响。
基于contact的选择策略
在基于二级结构选择策略的指导下,构象将形成合适的二级结构,为了生成低能量的紧凑构象,提出了一种基于contact的选择策略。
对于试验构象,首先预测为contact的两个残基之间的距离,然后计算试验构象的contact评估分数
N:具有contact的残基对的个数
k:第k个残疾对
:第i个残基和第j个残基为contact的概率(由RaptorX-contact获得)
:第i个残基和第j个残基碳原子之间的距离
:8A(最大接触距离)
在这种选择策略中,如果试验构象的大于整个种群中最小的,则将最小的构象替换为试验构象,否则,拒绝试验构象进入下一代。计算连续地拒绝次数,当拒绝次数达到150次时,则许多预测为contact的残基对在试验构象中并未接触。对于这些残基,计算真是距离与8A之间残基对的距离偏差。根据距离偏差,设计玻尔兹曼接受概率,来确定试验构象能否被下一代接受。
n:预测出来是contact,但是试验构象距离大于8A的残基对的数量
未完待续...