主要参考:https://zhuanlan.zhihu.com/p/78018142(论文作者知乎发的专栏)
https://blog.csdn.net/qq_34914551/article/details/100927668(其他博主对EMANET的理解)
代码:https://github.com/XiaLiPKU/EMANet
目录
(1)Expectation-Maximization Algorithm (EM)
(2)Gaussian Mixture Model (GMM)
Expectation-Maximization Attention
(1)Responsibility Estimation Responsibility(E)
Abstract
自注意机制已广泛应用于各种任务中。它通过将所有位置的特征加权求和来计算每个位置的表示。因此,它可以捕捉计算机视觉任务的远程关系。然而,它在计算上是有限的。因为注意力图是计算w.r.t所有其他位置。在这篇论文中,我们将注意力机制表述为期望最大化的方式,并在此基础上对注意力图进行了更紧凑的估计。通过对这些基的加权求和,得到的表示是低秩的,并且反对输入的噪声信息。所提出的期望最大化注意(EMA)模块对输入的方差具有较强的鲁棒性,并且在内存和计算方面也很友好。建立了基地维护和规范化的方法,稳定了基地的培训流程。我们在PASCAL VOC、PASCAL Context和COCO 等常用的语义分割数据集上进行了大量的实验.
Introduction
本文所提出的期望最大化注意力机制(EMA),摒弃了在全图上计算注意力图的流程,转而通过期望最大化(EM)算法迭代出一组紧凑的基,在这组基上运行注意力机制,从而大大降低了复杂度。其中,E步更新注意力图,M步更新这组基。E、M交替执行,收敛之后用来重建特征图。本文把这一机制嵌入网络中,构造出轻量且易实现的EMA Unit。其作为语义分割头,在多个数据集上取得了较高的精度。
Contributions
本文的主要贡献如下:
(1)将自我注意机制重新表述为期望最大化迭代方式,这种迭代方式可以学习更紧凑的基集,大大降低计算复杂度。本文是第一个将EM迭代引入注意机制的研究。
(2)将提出的期望最大化作为神经网络的一个轻权模块,并建立了具体的基维护和归一化方法。
(3)在PASCAL VOC、PAS- CAL Context和COCO等三个具有挑战性的语义分割数据集上进行了大量的实验,证明了我们的方法相对于其他最先进的方法的优越性。