POSTER V2 一个更简单且更强大的面部表情识别网络-CSDN博客

本文链接：https://blog.csdn.net/weixin_46831727/article/details/141299607

这里写自定义目录标题

研究背景
POSTER++的改进

论文标题：POSTER V2: A simpler and stronger facial expression recognition network

论文地址：https://arxiv.org/pdf/2301.12149v2

这篇论文主要提出了一种名为POSTER++的改进版面部表情识别（FER）网络，相较于原有的POSTER方法，POSTER++在性能和计算效率上都有显著提升。以下是论文的主要内容和贡献的总结：

研究背景

面部表情识别是人机交互中一个重要的研究领域。POSTER方法通过结合面部关键点和图像特征，在FER任务中取得了良好的效果，但其复杂的架构导致了较高的计算成本。

POSTER++的改进

1. 二流设计简化：

在原始的POSTER架构中，二流设计包括两个关键的交叉分支：

图像到关键点分支（image-to-landmark branch）：图像特征作为查询，用于与关键点特征进行交叉注意力计算。
关键点到图像分支（landmark-to-image branch）：关键点特征作为查询，用于与图像特征进行交叉注意力计算。

这两个分支旨在解决面部表情识别中的类内差异和类间相似性问题。

为了评估这两个分支对FER性能的贡献，作者进行了消融实验，分别移除了图像到关键点的分支和关键点到图像的分支。
结果显示：在这里插入图片描述

移除图像到关键点分支后，准确率仅有小幅下降，表明此分支对整体性能的影响较小。相比之下，移除关键点到图像分支后的性能下降更为明显，表明这个分支在面部表情识别中发挥了更为关键的作用。

尽管图像到关键点的分支在某种程度上对FER有帮助，但它带来了较大的计算资源消耗。这个分支需要额外的计算来处理从图像特征到关键点特征的查询，这会增加模型的复杂度和推理时间。

鉴于消融实验的结果和计算资源的考虑，作者决定在POSTER++中移除图像到关键点的分支。通过这种简化，POSTER++在保持高效性能的同时，大幅降低了计算复杂度。

2. 基于窗口的交叉注意力机制：

传统的注意力机制（如Transformer中的自注意力机制）在计算注意力时，会对整个输入序列或图像的所有部分进行全局计算。这种全局自注意力机制虽然能够捕捉到长距离依赖关系，但其计算复杂度是平方级的，具体来说，计算复杂度为 $O(N^2 \cdot D)$ ，其中 N 是输入序列的长度（或图像中token的数量），𝐷 是特征的维度。这种全局计算导致的计算成本极高，难以实际应用。因此，窗口注意力机制被提出。核心思想是在图像或特征图中划分出多个不重叠的局部窗口，然后在每个窗口内独立地应用自注意力机制。具体步骤如下：

1. 划分窗口：

图像特征矩阵 $X_{\text{img}} \in \mathbb{R}^{N \times D}$ ，其中 N 是token数量，假设一个图像被表示为100个token，N=100 。 D是每个token的特征维度：每个token都包含D维度的特征。
将整个图像的100个token划分为10个窗口，每个窗口包含 $\frac{N}{10}$ 个token。这意味着每个窗口的形状为 $Z_{\text{img}} \in \mathbb{R}^{M \times D}$ ，其中 M = 10 。这10个窗口共同覆盖了整个图像的100个token，每个窗口专注于图像的一部分。

2. 应用局部自注意力：

在每个窗口内部独立地应用self-attention机制。对于每个窗口执行与标准self-attention机制相同的操作，包括，Query、Key、Value的计算，以及注意力得分的计算。
基本符号和概念：

$z_{\text{lm}}$ 和 $z_{\text{img}}$ ：分别代表关键点特征和图像特征的局部窗口。

$w_q, w_k, w_v, w_o$ ：这些是线性映射矩阵，用于将输入特征映射到查询（query）、键（key）、值（value）和输出（output）空间。

$\theta(\cdot)$ ：表示 softmax 函数，通常用于将分数转换为概率分布。

$b$ ：这是相对位置偏置矩阵，帮助模型在不同位置之间引入相对位置信息。
具体操作步骤

线性映射：

$z_{\text{lm}} w_q$ ：关键点特征通过线性映射得到查询向量 $q$ 。

$z_{\text{img}} w_k$ ：图像特征通过线性映射得到键向量 $k$ 。

$z_{\text{img}} w_v$ ：图像特征通过线性映射得到值向量 $v$ 。

计算注意力得分：

$o^{(i)} = \theta\left(\frac{q^{(i)} k^{(i)T}}{\sqrt{d}} + b\right) v^{(i)}$ ：

对于每个注意力头 $i$ ：
首先计算查询向量 $q^{(i)}$ 和键向量 $k^{(i)}$ 的点积，然后除以 $\sqrt{d}$ （这里 $d$ 是查询/键的维度，用于缩放分数）。
将这个点积加上相对位置偏置 $b$ ，并应用 softmax 函数 $\theta(\cdot)$ 转换为权重。
这些权重用于加权值向量 $v^{(i)}$ ，从而得到输出向量 $o^{(i)}$ 。