整体架构解读
这是一个alpha fold2模型架构
-
输入序列: 这是模型的输入数据,可以是DNA、RNA或蛋白质序列。
-
遗传数据库搜索: 这部分会检查输入序列在遗传数据库中是否存在匹配的结构。
-
配对表示: 这是用来表示蛋白质序列中残基之间的相互作用。
-
模板搜索:搜索已有生成好的残基结构。
-
MSA (Multiple Sequence Alignment): 这一步会对输入序列进行多序列比对,找出保守区域。
-
MSA 表示: 生成MSA矩阵其中s是物种个数,r是残基个数,c残基的通道数(可以看成三维中长方体厚度)
-
Evodormer 模块: 这是用来生成蛋白质三维结构模型的关键部分,由48个预定义的结构块组成。
-
结构模块: 这个模块会综合前面的信息生成最终的三维结构预测。
-
结构预测: 最终输出的是预测的三维蛋白质结构。
Evoformer解读
下面进行他的每一个模块的解读
第一部分是一个按行的带门的添加pair偏移的自注意力
据提它是将cm维度的向量投影成(h,c)其中h为多头注意力的头数,而c为上述所说残基维数。
值得注意的是他将残基的矩阵pair representation中的信息加入到qk相乘的部分,在进行softmax,这样就可以把残基之间的关系融入其中,进而达到pair bias。
最上方将cm投影的(h,c)进行sigmoid从而达到门的效果最后将结果在线性表示回cm进而达到更新行的操作。
第二部分是一个按列的带门的自注意力
与上述几乎相同只是他采取的是按列的自注意力机制,且没有添加pair偏移。
第三部分是Transition layer
将MSA矩阵的cm维度拉长四倍,然后进行一个relu激活函数的操作,之后我们在其变为之前的维度。
第四部分是Outer product mean
第四部分是一个外积求均值的部分。
线性 cm-c 转换: 这个模块会将 MSA 表示转换成一种更简洁的线性表示。
Outer product: 这个模块会根据 cm到c 的线性表示生成一个"Outer product"。这个Outer product包含了一些相关的蛋白质性质信息。
均值 s: 这个模块会计算 将s求均值,然后的到二维(c,c)
最终会将pair矩阵中i行j列元素进行更新。
第五部分是外向的三角形边更新
上述流程图可以解释为i到j的位置关系可以由i到k和j到k的关系来进行修正。
starting node解释为i到j的关系可以有i到其他的关系汇总过来进行修正i到j的关系。
decode解读
-
输入表示:
- 单个残基表示 (Single repr. (r,c))
- 配对表示 (Pair representation (r,r,c))
- 这两种表示形式都作为输入进入模型。
-
IPA 模块:
- 这个核心模块会根据输入的单个残基表示和配对表示,预测出相对旋转和平移信息。
- 这些相对变换信息将用于生成最终的三维结构。
-
预测步骤:
- 首先根据相对变换信息预测出各原子的角度和位置。
- 然后利用这些角度和位置信息来生成backbone frames,也就是蛋白质主链的坐标框架。
-
输出:
- 最终输出的是两组backbone frames,分别对应输入的两种表示形式。
- 这些backbone frames就是模型预测的三维蛋白质结构。