摘要
给一串氨基酸的序列,去预测他的结构是什么样的
蛋白质的折叠问题
alphaFold精度不够
这里可以达到原子精度的预测
CASP14 精度
- 这个是什么问题
- 是不是解决了问题
模型的结果并不重要
导论
摘要故事的详细版本
在写论文的时候,可以这样写:达到了原子精度的结果
此时就是一个里程碑式的结果,换算成一个大家可以理解的概念
PDB数据集:目前为止所有了解的蛋白质的结构
模型和训练
分为三个部分
- 特征抽取
- 编码器
- 解码器
特征抽取
- MSA 多序列比对
把人、鱼、鸡相似的蛋白质拿出来比对;同一个氨基酸在不同蛋白质的表现;去基因数据库中搜索与当前人的氨基酸序列有没有相似的序列
- 氨基酸之间的关系
氨基酸之间的关系,构建一个矩阵,每一对的项是每两个氨基酸之间的关系
得到两大特征:
- 氨基酸序列特征
- 氨基酸对之间的特征
encoder
两大特征矩阵进入evoformer
不再是序列的关系,而是二维关系
输入是两个不同的张量
编码器里有48个block,用的transformer架构
编码器的输出很好的表征了每个氨基酸的关系
一块处理的是按行的序列信息、一块处理的是按列的序列信息
自注意力
编码器中有48个块
多头自注意力、MLP
两个特征之间存在信息交互
在MSA中按行拿出一个序列,做attention;按列
用每一行,做sigmoid,去打造一个门,0/1
对偏移:每一个氨基酸对的关系,作为一个偏移加进去,再进去softmax,这样的自注意力分数可以有关系的信息
MLP模块
做信息的提炼
解码器
重构蛋白质的结构
对每个氨基酸去预测他在3D中的位置
编码器的输出和解码器的输出,回收,传回输入,再做一次精调
回收机制就相当于把模型复制了三次,但权重还是基于前面的
都是相对位置
主干网络
欧几里得变换
对蛋白质的全局结构做旋转或者位移,不会影响局部的变换
进入IPA的模块,氨基酸的表示有了位置的信息
氨基酸对的信息、不断更新的序列信息、主干信息
经过8个IPA,每一次在结构中做不断的调整
慢慢地到我们要的氨基酸的形状
预测模块:做一个线性的投影层就可以得到输出
结论
在前人的基础上做10-20点改进
把所有的东西积累在一起,最后憋一个大招