【论文阅读】AlphaFold2阅读笔记

摘要

给一串氨基酸的序列,去预测他的结构是什么样的

蛋白质的折叠问题

alphaFold精度不够

这里可以达到原子精度的预测

CASP14 精度

  • 这个是什么问题
  • 是不是解决了问题

模型的结果并不重要

导论

摘要故事的详细版本

在写论文的时候,可以这样写:达到了原子精度的结果

此时就是一个里程碑式的结果,换算成一个大家可以理解的概念

PDB数据集:目前为止所有了解的蛋白质的结构

模型和训练

分为三个部分

  • 特征抽取
  • 编码器
  • 解码器

特征抽取

  • MSA 多序列比对

把人、鱼、鸡相似的蛋白质拿出来比对;同一个氨基酸在不同蛋白质的表现;去基因数据库中搜索与当前人的氨基酸序列有没有相似的序列

  • 氨基酸之间的关系

氨基酸之间的关系,构建一个矩阵,每一对的项是每两个氨基酸之间的关系

得到两大特征:

  • 氨基酸序列特征
  • 氨基酸对之间的特征

encoder

两大特征矩阵进入evoformer

不再是序列的关系,而是二维关系

输入是两个不同的张量

编码器里有48个block,用的transformer架构

编码器的输出很好的表征了每个氨基酸的关系

一块处理的是按行的序列信息、一块处理的是按列的序列信息


自注意力

编码器中有48个块

多头自注意力、MLP

两个特征之间存在信息交互

在MSA中按行拿出一个序列,做attention;按列

用每一行,做sigmoid,去打造一个门,0/1

对偏移:每一个氨基酸对的关系,作为一个偏移加进去,再进去softmax,这样的自注意力分数可以有关系的信息

MLP模块

做信息的提炼

解码器

重构蛋白质的结构

对每个氨基酸去预测他在3D中的位置

编码器的输出和解码器的输出,回收,传回输入,再做一次精调

回收机制就相当于把模型复制了三次,但权重还是基于前面的


都是相对位置

主干网络

欧几里得变换

对蛋白质的全局结构做旋转或者位移,不会影响局部的变换

进入IPA的模块,氨基酸的表示有了位置的信息

氨基酸对的信息、不断更新的序列信息、主干信息

经过8个IPA,每一次在结构中做不断的调整

慢慢地到我们要的氨基酸的形状

预测模块:做一个线性的投影层就可以得到输出

结论

在前人的基础上做10-20点改进

把所有的东西积累在一起,最后憋一个大招

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值