1.第一步还是最直接的特征提取,
第一个是64 128 128维度的,第二个是128 64 64 维度的 第三个是 256 32 32 维度的。
2.
然后,经过作者提出的cross attention之后。
维度是不变的,让我们看看这个cross attention是干啥的。
3.
对两个时态的输入求注意力,但是这个注意力的计算方式是q是两个的映射的合并,其他的k和v都是自己单独的。
到最后返回的东西,第一个是out1和out2进行cat,然后卷积的。第二个和第三个都是out2和out3都是单独的。