Learning Joint Spatial-Temporal Transformations for Video Inpainting
该算法在STTN的基础上改进,去掉了multi-layer的结构(实验也证明multi-layer用处微乎其微,见下图黄色部分),引入soft split和soft combine(即stride小于kernel size),实验结果相较于STTN有了提升。相较于STTN,FuseFormer的主要区别在于将transformer中的MLP模块换成了 Fusion Feed Forward Network (F3N),即在两个全连接层中加入一对soft combine和soft split 操作,sof



