表情识别论文调研

文章目录

表情识别模型分类结果(不完全统计)

methodAffectNet-7AffectNet-8RAF-DBFER+SFEW
APVIT(2022)66.91----91.9890.86
Face2Exp(2022)64.2388.54
AMP-Net(2022)64.5761.4089.25
VTFF(2022)88.4188.81
EAC(2022)65.3290.35
Poster(2022)67.3163.3492.05
PIDVIT(2022)65.8062.5290.71
PFVIT(2023)67.2364.1092.0791.16
FER-former(2023)91.3090.9662.18
Laten-OFER(2023)63.989.6
SimFLE ResNet-101(2023)63.5460.1489.4188.9458.24
FST-WMOS(2023)63.3390.38
DAN(2023)65.6962.0989.7
FG-AGR(2023)64.9190.81
Poster++(2023)67.4963.7792.21
FAML-FGA-T2V(6)/(8)(2023)66.63/—63.27/—91.59/91.75
PACVT(2023)88.2188.72
FFDNet(2023)88.5088.75
MA-Net(2023)60.0289.9988.34
GFFT(2023)67.4663.6292.0591.04
Ada-CM()
DENet()59.7487.3589.9058.03
ARBEx(2023)92.4793.09

自监督表情识别相关文章

1.Revisiting Self-Supervised Contrastive Learning for Facial Expression Recognition

解决问题

大多数面部表情识别需要很多标签数据集,但是获取准确的标签存在困难。另一方面,自监督对比学习由于其简单有效的判别训练策略可能会避免标签问题,且instance-level discrimination仍然存在缺点。

解决方法

在本文中,重新学习了自监督对比学习的使用,并探索了三种核心策略,以加强特定表情的表征,并最大限度地减少来自其他面部属性的干扰,如身份和面部风格。
在这里插入图片描述

模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.SimFLE: Simple Facial Landmark Encoding for Self-Supervised Facial Expression Recognition in the Wild(2023)

概述

人脸图像有复杂性和模糊性。因此,提出了一种自监督的简单面部landmark编码(SimFLE)方法,该方法可以学习面部landmark的有效编码,这是提高FER-W性能的重要特征,且不需要太多标签。FaceMAE模块:FaceMAE通过语义掩码来重构掩码的面部图像。语义掩码是基于backbone中处理的信道信息进行的,因此可以探索信道的丰富语义。此外,语义掩码过程是完全可训练的,使FaceMAE能够引导backbone学习 细粒度面部landmark的空间细节和上下文属性。
在这里插入图片描述

模型

在这里插入图片描述
在这里插入图片描述

实验

在这里插入图片描述

3.Occluded Facial Expression Recognition using Self-supervised Learning

解决问题

遮挡面部表情识别的研究通常需要完全表情标签的数据;

解决方法

为解决这个问题,提出了一种通过自监督学习的遮挡面部表情识别方法,该方法利用大量可用的无标签面部图像来探索鲁棒的面部特征。具体来说,通过在未标记的面部图像上随机添加遮挡来生成各种遮挡的面部图像。然后,将遮挡预测定义为表示学习的 pretext task 。然后采用对比学习来使面部图像的面部特征及其与合成遮挡的变化接近。最后训练一个表情分类器用于下游任务。

网络框架

在这里插入图片描述

4. MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition

概述

根据掩mask自编码器(如VideoMAE),本文提出了MAE-DFER,这是一种新的自监督方法,利用对大量未标记数据的大规模自监督预训练,在很大程度上推动了DFER的发展。由于VideoMAE中使用的普通视觉转换器(ViT)在微调过程中需要大量计算,因此MAE-DFER开发了一种高效的局部全局交互转换器(LGI-Former)作为编码器。此外,除了VideoMAE中独立的外观内容重建外,MAEDFER 还引入了显式的时间面部运动建模,以鼓励LGI-Former挖掘静态外观和动态运动信息。

在这里插入图片描述
在这里插入图片描述

局部和全局特征融合相关文章

——————————————表情识别相关特征融合文章————————————————————

1.Learning from Synthetic Data: Facial Expression Classification based on Ensemble of Multi-task Networks

概述

从合成数据中学习”(LSD)。在本文中,提出了一种基于多任务学习的面部表情识别方法,该方法由可以共享所有面部信息的情绪和外表学习分支组成。

模型

在这里插入图片描述
纯拼多多!!

2.Multi-Relations Aware Network for In-the-Wild Facial Expression Recognition

解决问题

不同照明、姿势变化和面部遮挡。目前FER方法在深度神经网络中部署注意力机制来提高性能。然而,这些模型只捕捉到有限的注意力特征和关系。

解决方法

本文提出了多关系感知网络(MRAN),它可以关注全局和局部注意力特征,学习局部区域之间、全局局部特征之间和不同样本之间的多层次关系,以获得有效的情绪特征。具体来说,首先将空间注意力施加在整个人脸和局部区域上,以同时学习全局和局部显著特征。然后,部署区域关系transformer来捕捉局部面部区域之间的内部结构,并设计全局-局部关系transformer来学习不同面部表情的全局特征和局部特征之间的融合关系。随后部署了一个样本关系transformer来关注训练样本之间的内在相似关系,这促进了每个表情的不变特征学习。最后,设计了一种联合优化策略来有效地优化模型。

网络框架

在这里插入图片描述
多关系感知网络(MRAN)总体框架。方法包括四个关键组成部分:全局和局部空间注意力特征学习、区域关系变换器(RRT)、全局-局部关系变换器和样本关系变换器。它们详细结构如图2所示。具体来说,在给定训练人脸图像的情况下,我们首先使用ResNet-18[15]的前三层作为主干,获得大小为128×28×28的初步特征图。然后,将特征图馈送到两个分支模块,以提取全局空间注意力特征xG和局部空间注意力特征x L={xL1,…,xLm},其中m是图像中局部区域的数量。之后,在RRT模块中输入局部特征XL,以探索局部区域的内部结构,从而获得特征zL={zL1,…,zLm}。随后,zL和xG被同时馈送到GLRT模块,以通过探索全局和局部特征与面部表情之间的关系来获得融合特征ZF。在训练阶段,我们将每批融合特征zF={zF1,…,zFn}输入到SRT模块中,SRT模块可以学习有用的样本关系,以提高模型的可推广性。特别地,SRT Z S={zS1,…,zS n}的输出和融合特征Z F在训练阶段共享相同的分类器。最后部署了一个联合优化策略来优化模型。
在这里插入图片描述

3. GFFT: Global-local feature fusion transformers for facial expression recognition in the wild

(2023年已发表,Elsevier Image and Vision Computing )

解决问题

以前通过全局或相对粗糙的局部方法来识别表情,只捕获有限的特征,并且容易受到影响。

解决方法

本文提出了以自注意融合为核心的分层全局局部特征融合变换网络(HFFT),解决人脸遮挡和姿态变化的问题。首先,全局上下文信息感知(GCIP)旨在融合全局和局部特征,学习它们之间的关系。之后,提出了人脸特征感知(FSFP)模块,利用人脸landmark特征进一步捕捉人脸相关的特征,引导融合特征理解人脸特征的关键区域。此外,构建了多尺度特征融合(MFF),将不同阶段的融合特征相结合,以降低深度网络对面部遮挡的敏感性。

模型

在这里插入图片描述在这里插入图片描述

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4. POSTER V2: A simpler and stronger facial expression recognition network

解决问题

POSTER通过两流金字塔交叉融合设计,结合了面部地标和图像特征,从而在FER中实现了最先进的(SOTA)性能。为了减轻POSTER的计算压力,本文提出了POSTER++。

解决方法

在三个方向上改进了POSTER:交叉融合、双流和多尺度特征提取。在交叉融合中,使用基于窗口的交叉注意机制来代替普通交叉注意机制。在双流设计中删除了image到landmark分支。对于多尺度特征提取,POSTER++将图像与landmark的多尺度特征相结合,以取代POSTER的金字塔设计。
在这里插入图片描述
怎么看着代码跟上面一篇基本没啥变化呀!

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.Facial Expression Recognition Methods in the Wild Based on Fusion Feature of Attention Mechanism and LBP

6. Symmetric Multi-Scale Residual Network Ensemble with Weighted Evidence Fusion Strategy for Facial Expression Recognition

在这里插入图片描述
预处理后的图片区域分别进行模型特征提取啥的,用WEF进行决策级融合

7. Multi Loss-based Feature Fusion and Top Two Voting Ensemble Decision Strategy for Facial Expression Recognition in the Wild

概述

既适用于单个模型的内部特征融合,也适用于多个网络之间的特征融合,以及集成策略。本文提出了一个新的单一模型R18+FAML,以及一个集成模型R18+FAML-FGA-T2V。基于ResNet18(R18)的结构,R18+FAML将内部特征融合和三个注意力块使用多损失函数(FAML)相结合,以提高特征提取的多样性。为了提高R18+FAML的性能,我们提出了一种基于遗传算法(FGA)的网络间特征融合方法,该方法可以融合卷积核用于多个网络的特征提取。在R18+FAML和FGA的基础上,我们提出了一种集成策略,即前两名投票(T2V)来支持FER的分类,它可以综合考虑更多的分类信息。结合以上策略,R18+FAML-FGA-T2V可以专注于主要的表情感知区域
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

实验

在这里插入图片描述
在这里插入图片描述

8. A new multi-feature fusion based convolutional neural network for facial expression recognition

概述

提出的模型使用图像分支从整个输入图像中提取中级和高级全局特征,并使用补丁分支从原始图像的16个图像补丁中提取局部特征。在MFFCNN中,基于L2范数进行特征选择,以获得更具判别力的局部特征。采用联合调谐来集成两个分支和融合特征
在这里插入图片描述
直观上来看,就是两部分特征,一个是全局,一个是经过各种重叠裁剪后得到的patch作为局部特征,最后 进行融合送到分类器中预测

9. Feature refinement: An expression-specific feature learning and fusion method for micro-expression recognition

概述

提出了一种新的基于表情特征学习和融合的微表情识别特征细化方法。它旨在获得特定表情的特征,并通过融合这个特征来预测表情。FR由一个具有注意力机制的表情模块和一个分类分支组成。首先,设计了一个基于光流的初始模块,以获得表情共享特征。其次,为提取特定表情的特征,将表情共享特征输入到具有注意力因素和建议损失的表情建议模块中。最后,在分类分支中,通过融合特定表情的特征来预测类别的标签。

模型

在这里插入图片描述
在这里插入图片描述

10. EMERSK -Explainable Multimodal Emotion Recognition with Situational Knowledge

概述

利用(CNNs)和编码器-解码器式注意力机制的双流网络架构来从人脸图像中提取深层特征。类似地,细胞神经网络和具有长短期记忆(LSTM)的递归神经网络(RNN)被用于从姿势和步态数据中提取特征。我们还将背景中的深层特征作为学习过程的上下文信息。使用早期融合网络来融合来自每个模块的深层特征。此外,我们利用从场景中提取的位置类型和形容词-名词对(ANP)得出的情景知识,以及情绪的时空平均分布,来生成解释。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

11.Adaptive Multilayer Perceptual Attention Network for Facial Expression Recognition

解决问题

光照变化、面部遮挡和姿势变化。为了解决鲁棒性问题,提出了一种自适应多层感知注意力网络(AMP-Net)。AMP Net提取具有不同细粒度特征的全局、局部和显著面部情绪特征,以学习面部情绪的潜在多样性和关键信息。

解决方法

AMP-Net可以自适应地引导网络关注多个更精细、可区分的局部patch,对遮挡和变化姿态具有鲁棒性,提高了学习潜在面部多样性信息的有效性。此外,提出的全局感知模块可以学习全局感知域中的不同感受野特征,AMP-Net还基于先验知识补充了具有高情绪相关性的显著面部区域特征,以捕捉关键纹理细节,避免重要信息丢失。https://github.com/liuhw01/AMP-Net。

网络框架

在这里插入图片描述
特征map被输入到三个分支模块中(GP LP AP)去提取不同感知野特征。GP是全局感知模块,LP是局部感知模块,AP是注意力感知模块,最后通过融合特征和决策级获得识别结果。
在这里插入图片描述

12.MASK-BASED ATTENTION PARALLEL NETWORK FOR IN-THE-WILD FACIAL EXPRESSION RECOGNITION

解决问题

姿态和遮挡。以前大多数基于注意力的方法在准确定位关键的表情相关区域和全面捕捉有用的面部表情特征方面作用较弱。

解决方法

提出了一种新的基于掩码的注意力并行网络(MAPNet)。设计的并行网络将基于掩模的注意力模块嵌入到不同的层中,以获取全面的面部表情特征。第三,将提取的并行特征从空间维度划分为多个独立的块,独立预测人脸表情。最后,通过结合并行网络的两个预测来获取表情标签,并设计了一个新的损失函数来衡量不平衡的面部表情分布。

网络框架

在这里插入图片描述
MAPNet包含蓝色主网和绿色辅助网。主网在第四层嵌入了基于掩模的注意力模块,以增强高级特征提取,而辅助网在第一层嵌入了注意力模块,增强了低级特征提取。然后从高度和宽度维度对这两个分支进行拆分,以独立地预测表情标签。通过将每个分支的标签组合在一起来获得最终预测。

13. Identity- and Pose-Robust Facial Expression Recognition through Adversarial Feature Learning

概述

提出一种对抗性特征学习方法同时解决身份偏差和姿势变化问题。提出方法由五个部分组成:编码器、表情分类器、姿势判别器、subject判别器和生成器。encoder和表情分类器是协同训练的。姿势鉴别器和subject鉴别器分别从提取的特征表示中对姿势和subject进行分类。使用编码器进行对抗性训练。因此,所提取的特征对于姿势和subject(身份)是鲁棒的。生成器重建面部图像以进一步支持特征表示。

模型

在这里插入图片描述
算法流程如下:
在这里插入图片描述

14. pose-invariant face recognition via facial landmark based ensemble learning

通过使用集成学习和局部特征描述器,提出一个新的方法进行人脸识别。

15. MCF-Net: Fusion Network of Facial and Scene Features for Expression Recognition in the Wild

在这里插入图片描述
融合表情分支和场景分支

16.FFDNet:Fine-Grained Facial Expression Recognition in Challenging Environments

解决问题

遮挡和姿势变化等

解决方法

提出了一个用于面部表情识别、特征融合和特征分解网络的框架。具体来说,针对人脸区域尺度的差异,在特征提取阶段采用多尺度特征融合,获得不同尺度的区域特征。细粒度模块将特征分解为多个细粒度特征,编码器用于捕获具有判别能力和小差异的特征。为了提高特征多样性和减少冗余,提出了多样性特征损失来驱动模型提取低相关性的特征,并挖掘出更丰富的细粒度特征。

网络框架

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

17.FG-AGR: Fine-Grained Associative Graph Representation for Facial Expression Recognition in the Wild

解决问题

自然环境中存在遮挡和头部姿势的变化问题。以往的方法倾向于通过整体方法或基于粗糙局部的方法来提高面部表情识别性能,而忽略了局部细粒度的特征结构知识和特征之间的相关性。
在这里插入图片描述

解决方法

提出了一种细粒度关联图表示(FGAGR)框架,该框架可以捕获局部细粒度的面部表情表示。首先,设计了一种自适应显著区域诱导(ASRI),用于结合空间位置信息自适应地突出面部表情的局部显著区域。在此基础上,引入了一种基于视觉变换器的局部细粒度特征提取(LFFE),以进一步提取显著区域的精细但有判别力的细粒度特征。第三,构造了一种基于图卷积网络的自适应图关联推理(AGAR)来学习相关的细粒度特征组合。

网络框架

在这里插入图片描述
引入ASRI来自动减少或消除遮挡和不相关区域的影响
总体来说就是一张图片输入后通过不同的网络分别提取到所谓的 global特征和local特征 然后利用GCN把两部分特征联系起来。

18. GLFF: Global and Local Feature Fusion for AI-synthesized Image Detection

概述

提出了一个全局和局部特征融合(GLFF)框架,通过将来自整个图像的多尺度全局特征与来自信息块的局部特征相结合,用于人工智能合成图像检测。GLFF融合了来自两个分支的信息:全局分支提取多尺度语义特征,局部分支选择信息patch进行详细的局部伪影提取。由于缺乏模拟真实世界应用程序的合成图像数据集进行评估,创建了一个假图像数据集,名为DeepFakeFaceForensics(DF3),其中包含6个最先进的生成模型和各种后处理技术,以接近真实世界的场景。

模型

在这里插入图片描述
在这里插入图片描述

19.Local Learning with Deep and Handcrafted Features for Facial Expression Recognition

概述

卷积神经网络(CNN)学习的特征和视觉单词袋(BOVW)模型计算的手工特征相结合,以在面部表情识别中获得最先进的结果。为了获得自动特征,对多种CNN架构、预训练模型和训练过程进行了实验,例如密集稀疏密集。在融合了这两种类型的特征后,使用局部学习框架来预测每个测试图像的类标签。局部学习框架基于三个步骤。首先,应用k个最近邻居模型,以便为输入测试图像选择最近的训练样本。其次,在所选择的训练样本上训练一对一支持向量机(SVM)分类器。最后,SVM分类器仅用于预测其训练的测试图像的类标签。

模型

在这里插入图片描述

实验

在这里插入图片描述

20. Joint Local and Global Information Learning With Single Apex Frame Detection for Micro-Expression Recognition

解决问题

峰值帧传达了面部表情中的更多情感信息。然而,目前尚不清楚单个峰值帧是如何对微表情识别起作用的。

解决方法

为了缓解这一问题,提出了一种方法,通过估计频域中的像素级变化率来检测峰值帧。有了频率信息,它在峰值帧定位上比目前现有的基于时空变化信息的峰值帧定位方法更有效。其次,在峰值帧下,提出了一种耦合局部和全局信息的联合特征学习架构来进行MEs(微表情识别),因为并非所有区域对MEs的识别都有相同的贡献,有些区域甚至不包含任何情感信息。更具体地说,所提出的模型涉及从贡献主要情绪信息的面部区域学习的局部信息和从整个面部学习的全局信息。利用局部和全局信息使我们的模型能够学习有区别的ME表示,并抑制不相关区域对ME的负面影响。

模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

21.Local and Global Perception Generative Adversarial Network for Facial Expression Synthesis

概述

提出了一种新的端到端面部表情合成方法,称为两级级联结构的局部和全局感知生成对抗性网络(LGP-GAN),用于提取和合成关键面部区域的细节。LGP-GAN可以将全局网络和局部网络生成的结果组合成相应的面部表情。在第一阶段,LGP-GAN利用局部网络捕捉关键面部区域的局部纹理细节,生成局部面部区域,充分挖掘面部表情中的关键面部区域域信息。然后,LGP-GAN在第二阶段中使用全局网络来学习整个面部信息,以基于第一阶段的局部生成结果生成最终的面部表情。

模型

在这里插入图片描述

22.LEARNING DIVERSIFIED FEATURE REPRESENTATIONS FOR FACIAL EXPRESSION RECOGNITION IN THE WILD

概述

提出了一种机制可使CNN层提取的特征多样化,以增强模型学习判别特征能力。将这一机制纳入了两个最新模型中,以(i)在基于注意力的模型中使局部/全局特征多样化,以及(ii)在基于集成的模型中让不同学习者提取的特征多样化
在这里插入图片描述

模型

在这里插入图片描述

实验

在这里插入图片描述
在这里插入图片描述

23.LipFormer: Learning to Lipread Unseen Speakers based on Visual-Landmark Transformers

概述

由于训练库中扬声器的数量有限,以及不同扬声器嘴唇的形状/颜色造成的明显视觉变化,将这些方法推广到看不见的扬声器会导致性能下降。因此,仅仅依靠嘴唇的可见变化往往会导致模型过拟合。

解决方法

为了解决这个问题,在视觉和地标之间使用多模态特征,这可以描述嘴唇的运动,而与说话者的身份无关。然后开发了一个基于视觉地标转换器的句子级唇读框架,即LipFormer。具体来说,LipFormer由嘴唇运动流、面部标志流和跨模态融合组成。来自两个流的嵌入是由自注意力产生的,它们被馈送到交叉注意力模块,以实现视觉效果和地标之间的对齐。最后,可以通过级联seq2seq模型对得到的融合特征进行解码以输出文。
在这里插入图片描述

模型

在这里插入图片描述
在这里插入图片描述

24.DER-GCN: Dialogue and Event Relation-Aware Graph Convolutional Neural Network for Multimodal Dialogue Emotion Recognition

解决问题

MDER旨在识别不同对话场景中不同模态(如文本、视频和音频)中包含的情感信息。然而,现有的研究侧重于对说话人之间的上下文语义信息和对话关系进行建模,而忽略了事件关系对情绪的影响。

解决方法

为了解决上述问题,提出了一种新的用于多模式情绪识别的对话和事件关系感知图卷积神经网络(DER-GCN)方法。它模拟说话者之间的对话关系,并捕捉潜在的事件关系信息。具体来说,构建了一个加权的多关系图,以同时捕捉对话中说话者和事件关系之间的依赖关系。此外,还引入了一种自监督掩码图自动编码器(SMGAE)来提高特征和结构的融合表示能力。接下来,设计了一种新的多重信息转换器(MIT)来捕捉不同关系之间的相关性,它可以更好地融合关系之间的多元信息。最后,提出了一种基于对比学习的损失优化策略,以提高少数类特征的表示学习能力。
在这里插入图片描述

模型

在这里插入图片描述
在这里插入图片描述

24. FERGCN: facial expression recognition based on graph convolution network

概述

本文提出了一种基于图卷积网络(FERGCN)的深度神经网络,它可以在复杂环境中有效地提取面部表情信息。FERGCN包括三个重要部分。首先,设计了一个特征提取模块,从具有三重注意力的卷积神经网络分支获得全局特征向量,从关键点引导注意力分支获得局部特征向量。然后,基于关键点的拓扑图,所提出的图卷积网络利用全局特征和局部特征之间的相关性来增强非遮挡部分的表情信息。此外,图匹配模块利用图像之间的相似性来增强网络区分不同表情的能力。

模型

在这里插入图片描述
在这里插入图片描述

实验

在这里插入图片描述
在这里插入图片描述

Stepwise Feature Fusion: Local Guides Global

(MICCI 2022已发表)

概述

因息肉图像的结构和息肉形状的变化,现有模型容易对当前数据集进行过度拟合。因此,该模型可能无法处理看不见的结肠镜检查数据。为了解决这一问题,提出了一种医学图像分割模型,即SSFormer,它使用金字塔变换器编码器来提高模型的泛化能力。具体来说,提出的渐进局部解码器可以适用于金字塔变换器主干,以强调局部特征并限制注意力分散。

模型

在这里插入图片描述

———————————————下面是非表情识别领域特征融合————————————————

25.Multi-frequency PolSAR Image Fusion Classification Based on Semantic Interactive Information and Topological Structure

解决问题

与单频多极化SAR图像分类技术的快速发展相比,对多频极化SAR图像的土地覆盖分类研究较少。此外,用于MF-PolSAR分类的深度学习方法主要基于CNN,只考虑了局部空间性,而忽略了非局部关系。

解决方法

本文基于语义交互和非局部拓扑结构,提出了MF语义和拓扑融合网络(MF-STFnet),以提高MF-PolSAR的分类性能。在MF-STFnet中,每个频带实现了两种分类,即基于语义信息的分类(SIC)和基于拓扑性质的分类(TPC)。它们在MF-STFnet训练过程中协同工作,不仅可以充分利用波段的互补性,还可以结合局部和非局部空间信息,提高不同类别之间的区分能力。对于SIC,嵌入了所设计的交叉频带交互式特征提取模块(CIFEM),以显式地对频带之间的深层语义相关性进行建模,从而利用频带的互补性使地面对象更加可分离。对于TPC,使用图样本和聚合网络(GraphSAGE)来动态捕捉土地覆盖类别之间的非局部拓扑关系的表示。这样,通过结合非局部空间信息,可以进一步提高分类的鲁棒性。最后,提出了一种自适应加权融合(AWF)策略来融合来自不同波段的推理,从而做出SIC和TPC的MF联合分类决策。

模型

在这里插入图片描述
在这里插入图片描述

26. ICIF-Net: Intra-scale Cross-interaction and Inter-scale Feature Fusion Network For Bi-temporal Remote Sensing Images Change Detection

概述

为了联合获取局部全局特征,并避免传统骨干网络中逐步下采样操作引起的错位问题,我们提出了一种尺度内交叉交互和尺度间特征融合网络(ICIFNet),明确挖掘了集成CNN和Transformer的潜力。具体而言,通过使用线性化的Conv Attention模块,分别由CNN和Transformer提取的局部特征和全局特征以相同的空间分辨率进行交互通信,这促使对方在保留其自身特征的同时瞥见另一分支的表示。此外,通过引入两种基于注意力的尺度间融合方案,包括基于掩模的融合和空间对齐,可以在不同的分辨率下实现信息集成。最后,将集成的特征输入到传统的变化预测头中以生成输出。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

27. Weighted Feature Fusion of Convolutional Neural Network and Graph Attention Network for Hyperspectral Image Classification

概述

卷积神经网络(CNN)和图神经网络(GNN),如图注意力网络(GAT),是两种经典的神经网络模型,分别应用于网格数据和图数据的处理。它们在高光谱图像分类领域取得了卓越的性能,引起了人们的极大兴趣。然而,CNN一直面临着小样本的问题,GNN必须支付巨大的计算成本,这限制了两个模型的性能。在本文中,我们利用基于超像素的GAT和基于像素的CNN的特性,提出了卷积神经网络和图注意力网络(WFCG)的加权特征融合用于HSI分类,这被证明是互补的。我们首先借助于基于超像素的编码器和解码器模块来建立GAT。然后结合注意力机制构建CNN。最后,将两个网络模型的特征进行加权融合。

模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

28. Asymmetric Feature Fusion Network for Hyperspectral and SAR Image Classification

概述

提出了一种基于不对称特征融合的分类方法,称为不对称特征融合网络(AsyFFNet)。首先,利用权重共享残差块进行特征提取,同时保留单独的批处理归一化(BN)层。在训练阶段,当前信道的冗余度由BN中的缩放因子自行确定,当缩放因子小于阈值时,由另一个信道代替。为了消除不必要的通道并提高泛化能力,对部分比例因子施加了稀疏约束。此外,还设计了特征标定模块,利用多源特征的空间相关性,提高识别能力。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

MFFN: Multi-view Feature Fusion Network for Camouflaged Object Detection

概述

多视角特征融合网络(MFFN),它模仿了人类在图像中发现模糊物体的行为,即从多个角度、距离和视角进行观察。具体来说,它背后的关键思想是通过数据扩充生成多种观察方式(多视图),并将其作为输入应用。MFFN通过比较和融合提取的多视图特征来捕获关键边界和语义信息。此外,MFFN利用了视图和渠道之间的依赖性和互动性。具体来说,通过一个称为多视图共同注意力(CAMV)的两阶段注意力模块,利用不同视图之间的互补信息。设计了一个称为通道融合单元(CFU)的局部整体模块,以迭代的方式探索不同特征图的通道上下文线索。

模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Transformer相关的文章

1. LEARNING VISION TRANSFORMER WITH SQUEEZE AND EXCITATION FOR FACIAL EXPRESSION RECOGNITION

在这里插入图片描述

2. VISION TRANSFORMER EQUIPPED WITH NEURAL RESIZER ON FACIAL EXPRESSION RECOGNITION TASK

在这里插入图片描述

3.Vision Transformer with Attentive Pooling for Robust Facial Expression Recognition

解决问题

基于transformer方法进行表情识别性能差主要是因为新提出的模块由于缺乏inductive bias(感应偏差)而难以从头开始很好地收敛,并且容易集中在遮挡和噪声区域。TransFER通过multi-branch attention dropping 来缓解这种情况,但带来过多计算。

解决方法

本文提出了两个注意池化(AP)模块来直接池化噪声特征。AP模块包括Attentive Patch Pooling (APP) and Attentive Token Pooling (ATP)。它们引导模型强化具鉴别力的特征,同时减少不太相关的特征的影响。所提出的APP用于选择CNN特征上信息量最大的patch,ATP丢弃ViT中不重要的令牌。APP和ATP实现简单,无需学习参数,直观地降低了计算成本,同时只追求最具鉴别力的特征。
在这里插入图片描述
图1 左边是transfer中的注意力map,右边是app的注意力池化结果,直接放弃了背景特征,减少额外的影响

网络架构

在这里插入图片描述
图3 APViT模型的总体架构,由CNN提取特征,然后注意力模块计算注意力map,APP模块选择相应的informative tokens,选择好的tokens被flattened并送到M个堆叠的ATP增强transformer块中(附加 class token)。与app一样,atp块通过多头自注意力机制进一步选择最具有判别力的token,因此锁着保留的patch token数量的逐渐减少,patch信息将被收集到class token中,最后从class token中利用mlp头生成分类结果。左下角蓝色虚线矩形表示从特征信息流的角度来看池化过程,app和atp选择最明显的patch和token,避免将噪声和遮挡区域传递给下游计算。

实验

在这里插入图片描述
在这里插入图片描述

4.PIDViT: Pose-Invariant Distilled Vision Transformer for Facial Expression Recognition in the Wild

解决问题

片面考虑正面面部图像或靠近正面的面部图像、照明、姿势控制;
在这里插入图片描述

解决方法

本文提出了一种基于师生模型的PIDViT(Pose Invariant Distilled Vision Transformer),用于正面和多姿态人脸面部表情的概率分布,解决了表情识别中的姿态变化和遮挡问题。首先,从原始FairFace构建多姿态人脸数据集FairFace-3D,然后用于在PIDViT上训练姿态不变性。PIDViT是两阶段训练,阶段1是训练PIDViT以实现正面人脸和多姿态人脸之间的面部表情一致性,阶段2是使用在阶段1中预训练的学生模型,并在目标数据集上进一步训练面部表情。

网络框架

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.ARBEx: Attentive Feature Extraction with Reliability Balancing for Robust Facial Expression Learning

概述

ARBEx是vit驱动的新的注意力特征提取框架,具有可靠性平衡,以应对面部表情学习(FEL)任务中较差的类分布、偏差和不确定性。加强了几种数据预处理和细化方法,以及基于窗口的交叉注意力ViT,以压缩最佳数据。还在嵌入空间中使用具有标签分布的可学习锚点和多头自注意机制,通过可靠性平衡来优化针对弱预测的性能,这是一种利用锚点、注意力得分和置信值来增强标签预测弹性的策略。为确保正确的标签分类并提高模型的鉴别力,引入了锚点损失,这鼓励了锚点之间的大裕度。此外,多头自注意机制也是可训练的,在识别准确标签方面有作用。
在这里插入图片描述

模型

在这里插入图片描述
在这里插入图片描述

实验

在这里插入图片描述

6.Facial Expression Recognition with Visual Transformers and Attentional Selective Fusion

概述

对于这些信息不足的区域和复杂的背景,真实世界的遮挡、不同的头部姿势和其他问题无疑增加了FER的难度。

认为将人脸图像转换为视觉单词序列并从全局角度进行表情识别是可以的。因此,提出了具有特征融合的视觉变换器(VTFF),通过两个主要步骤来解决野外FER问题。首先,提出了利用两个分支细胞神经网络生成的两种特征图的注意选择性融合(ASF)。ASF通过将多个特征与全局局部注意力融合来捕获判别信息。然后将融合的特征图展平并投影到视觉单词序列中。其次,用transformer种自注意力机制建立关系模型

模型

在这里插入图片描述
在这里插入图片描述

实验

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

7. Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers

存在问题

情绪标签普遍存在的模糊性 不利于基于传统监督表示学习的方法。同时,直接学习从面部表情图像到情绪标签的映射缺乏对面部细节的明确监督。

解决方法

在本文中,提出了poker(无表情)脸视觉转换器或PF-ViT,通过生成其对应的poker脸,在不需要配对图像的情况下,从静态面部图像中分离和识别干扰不可知的情绪。在这里,受面部动作编码系统的启发,我们将表情脸poker脸(即无表情脸)上一组面部肌肉运动的综合结果。
在这里插入图片描述

模型

所提出的PF-ViT利用了普通的视觉转换器,并首次在没有情绪标签的大型面部表情数据集上作为mask自动编码器进行预训练,获得了很好的表示。主要由五部分组成:1)编码器将面部表情映射到完整的表示,2)分离器将表示分解为情感分量和正交残差,3)生成器可以重建表情面部并合成poker脸,4)鉴别器区分生成器生成的假脸,使用编码器和生成器进行对抗性训练,5)识别情绪的分类头。
在这里插入图片描述

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
效果是有一点的

8.FER-former: Multi-modal Transformer for Facial Expression Recognition

概述

为解决现有方法的局限性(如狭窄的感受野和同质的监控信号),提出了一种新的用于野外FER的多种监控转向变压器。其特点是多粒度嵌入集成、混合自注意方案和异构领域指导监督。具体而言,为了深入挖掘主流细胞神经网络和Transformers提供的特征组合的优点,设计了一种混合主干,以同时级联两种类型的学习范式。其中,设计了一种特定于FER的转换器机制,以并行地表征传统的硬单热标签聚焦和基于CLIP的面向文本的标记,用于最终分类。为了缓解注释歧义的问题,提出了一种异构域指导监督模块,通过监督图像特征和文本特征之间的相似性,使图像特征也具有文本空间语义相关性。在各种token的协作之上,捕获了具有多模态语义线索的各种全局感受域。

模型

在这里插入图片描述
在这里插入图片描述

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

基于遮挡的人脸表情相关文章

1.Latent-OFER: Detect, Mask, and Reconstruct with Latent Vectors for Occluded Facial Expression Recognition(可看)

解决问题

当意外物体遮挡面部时,FER网络很难提取面部特征并准确预测面部表情。遮挡FER(OFER)先前关于遮挡感知FER的研究通常需要完全注释的面部图像来进行训练。

解决方法

方法LatentOFER可以检测遮挡,将面部被遮挡的部分恢复为未遮挡的部分,并对其进行识别,从而提高FER的准确性。该方法包括三个步骤:首先,基于ViT的遮挡patch检测器,通过使用支持向量数据描述算法仅训练来自未遮挡块的patch的潜在向量。其次,混合重建网络使用ViT和卷积神经网络(CNN)将遮挡位置生成为完整图像。最后,表情相关潜在向量提取器通过应用基于神经网络的类激活图(class activation map)来检索和使用来自所有潜在向量vector的表情相关信息。这种机制在防止因看不见的物体遮挡而导致性能下降方面具有显著优势。https://github.com/leeisack/Latent-OFER.

网络架构

在这里插入图片描述
提出了解决OFER的多阶段方法,包括检测、遮挡和重建遮挡以识别面部表情。该方法通过协同学习从图像重建过程中提取的ViT潜在特征和现有的CNN特征来提高识别精度。将面部图像划分为多个patch,将每个patch分类为遮挡或未遮挡,并重建遮挡的patch以进行去遮挡。随后用重建的图像和表情相关的潜在向量去预测人脸表情。

2. Attention-Mechanism-Based Models for Unconstrained Face Recognition with Mask Occlusion

解决问题

在不受约束的戴口罩条件下学习有区别的人脸特征

解决方法

提出了ECA Inception Resnet Caps,这是一个基于Inception-Resnet-v1的新框架。首先,将(SE)模块和有效通道注意力(ECA)模块应用于Inception-Resnet-v1,以增加对未遮挡人脸区域的关注,从而消除特征提取过程中遮挡的负面影响。其次,比较分析了两种注意力机制对InceptionResnet-v1中不同模块的影响,为进一步构建ECAInceptionResnet Caps框架奠定了基础。最后,通过使用胶囊模块改进Inception-Resnet-v1,获得了ECA Inception-Resnet Caps,以在减少遮挡的负面影响后提高模型的可解释性和通用性。

网络模型

在这里插入图片描述

3.Complete Face Recovery GAN: Unsupervised Joint Face Rotation and De-Occlusion from a Single-View Image

解决问题

遮挡和极端姿势。现有的人脸旋转或去遮挡方法只强调了每个问题的方面。此外,缺乏高质量的配对数据仍然是这两种方法的障碍 (三维人脸重建)
在这里插入图片描述

解决方法

在这项工作中,我们提出了一种称为Swap-R&R的自我监督策略,以完全无监督的方式克服联合面部旋转和去遮挡标签缺乏的问题。为了生成用于自监督的输入对,我们将遮挡从图像中的人脸转移到估计的3D人脸,并创建受损的人脸图像,就像通过用大致消除遮挡的人脸从不同的姿势旋转两次一样。此外,我们提出了完全人脸恢复GAN(CFR-GAN),通过利用两个渲染图像之间的结构和纹理差异来恢复塌陷的纹理和消失的遮挡区域。
以前的工作选择了无遮挡的图像来获得标签,本方法不需人工干预和配对数据。本方法可以从被遮挡的轮廓人脸图像生成被遮挡的正面人脸图像。

网络框架

在这里插入图片描述
在这里插入图片描述

4.Objective Class-Based Micro-Expression Recognition Under Partial Occlusion Via Region-Inspired Relation Reasoning Network

解决问题

MER(Micro-expression recognition)会发生遮挡,本文研究了遮挡MER。

解决方法

为研究真实世界遮挡条件下的MER,创建了合成的遮挡微表情数据库。其次,为了抑制遮挡的影响,提出了一种基于区域启发的关系推理网络(RRRN)来对不同面部区域之间的关系进行建模。RRRN由骨干网络、区域启发(RI)模块和关系推理(RR)模块组成。具体地说,骨干网络旨在从不同的面部区域提取特征表示,RI模块被设计为基于面部区域本身的非结构化性和重要性来计算自适应权重,以使用注意力机制来抑制遮挡的影响,并且RR模块通过执行图卷积来利用这些区域之间的渐进交互。

网络框架

在这里插入图片描述
如图1所示,1,RRRN架构主要由三个重要模块组成:骨干网络、区域启发模块(RI)和关系推理(RR)模块。为了抑制遮挡对MER的影响,RRRN试图自适应地提取RI模块中面部区域的重要性,并合理地建模不同面部区域之间的互补关系,以学习RR模块中的鲁棒特征。所有模块都通过目标函数损失(Eq.(10))进行联合训练,目标函数损失由区域偏置损失(Eq。(8))[9]、交叉熵损失(Eq.(7))和引入的相关损失(Eq。(9))[13]组成。在预处理中,对于每个微表情序列,从起始帧和顶点帧计算TVL1[51]光流。受[9]的启发,给定每个光流的水平和垂直分量,首先通过固定位置裁剪将它们裁剪成多个区域。随后,裁剪的区域与原始光流区域一起被馈送到主干中,在主干中输出一些区域特征。接下来,通过使用RI为每个区域分配注意力权重。然后,RR通过推理各个区域特征之间的关系,将区域特征表示为关系区域特征,以进一步捕获内容感知的全局图嵌入。最后,我们使用加权区域特征和全局图表示来预测微观表达式。

5.Research on Multi-pose Face Recognition basedon Block Occlusion

解决问题

针对不同姿态遮挡条件下人脸识别精度低的问题

解决方法

提出了一种基于特征点提取的分块遮挡多姿态人脸识别方法。首先,根据遮挡区域将人脸划分为多个块。采用自适应加权方法对不同的人脸块赋予不同的权值。利用卷积神经网络完成遮挡人脸识别,可以有效减少姿态变化和遮挡对人脸识别的影响

网络框架

在这里插入图片描述

6.SCN-SAM: A Modified Self-Cure Network for Facial Expression Recognition Under Face Masks

解决问题

在这里插入图片描述

解决问题

戴口罩的人的表情(遮挡)

解决方法

为了解决上面问题,自修复网络(SCN)有效地抑制了网络对大规模面部表情数据集中标记不确定的图像的过度拟合。然而,尚不清楚SCN在多大程度上抑制了戴口罩的面部表情图像的不确定性。本文验证了SCN对戴口罩者图像的识别能力,并提出了一个自调整模块来进一步改进SCN(称为SCNSAM)。首先,在掩码的面部表情数据集上实验证明了SCN的有效性。然后,在没有对SCN进行大量修改的情况下添加了一个自调整模块,并证明SCN-SAM在添加合成噪声的FER数据集中优于最先进的方法。

网络框架

在这里插入图片描述
在这里插入图片描述

7.Seg-DGDNet: Segmentation based Disguise Guided Dropout Network for Low Resolution Face Recognition

解决问题

处理遮挡区域,并使用从可见区域提取的特征。当输入图像是低分辨率的或在远处拍摄时,Disguise问题进一步加剧;
在这里插入图片描述

解决方法

本文提出了一种新的基于Segmentation的伪装引导丢弃网络(Seg-DGDNet)来识别被遮挡的面部特征,并通过非遮挡的生物特征来识别人。提出的Seg DGDNet有两个任务:1)使用分割模型识别参与者面部中的非遮挡像素;2)借助所提出的引导丢弃引导识别模型集中于可见面部特征。

网络框架

在这里插入图片描述

8.WGAN-Based Robust Occluded Facial Expression Recognition

解决问题

遮挡的人脸表情图像

解决方法

提出了一种新的基于Wasserstein生成对抗性网络的方法来执行遮挡FER。在用复杂的面部表情信息补充人脸遮挡图像后,通过学习图像的面部表情特征来实现识别。该方法包括一个发生器G和两个鉴别器D1和D2。生成器在加权重建损失lwr、三重损失lt的三重约束下自然地补充表情图像中的遮挡,和对抗性损失la。我们优化鉴别器D1,通过基于Wasserstein距离在生成的互补图像、原始未遮挡图像和小尺度遮挡图像之间构建对抗性损失la来区分真实和虚假。最后,通过将分类损失lc引入D2来完成FER。

网络框架

在这里插入图片描述

9.Occlusion-Adaptive Deep Network for Robust Facial Expression Recognition

解决问题

识别部分遮挡人脸的表情

解决方法

提出了一个引导注意力分支,以发现并丢弃遮挡区域中的损坏特征,从而使其不用于识别。首先生成注意力图来指示特定面部是否被遮挡,并引导我们的模型关注非遮挡区域。为了进一步提高鲁棒性,我们提出了一个面部区域分支,将特征图划分为不重叠的面部块,并让每个块独立地预测表情。这导致了更多样化和歧视性的特征,使表情识别系统能够在面部被部分遮挡的情况下恢复。

网络框架

在这里插入图片描述

引入无标签人脸数据相关文章

1. Efficient Facial Expression Recognition With Representation Reinforcement Network and Transfer Self-Training for Human–Machine Interaction

概述

本文提出了一种基于表示增强网络(RRN)和转移自训练(TST)的高效FER方法。我们设计的RRN主要由两个模块组成,即表面表示增强(SurRR)模块和语义表示增强(SemaRR)模块。SurRR模块融合了不同维度的人脸特征,并在特征图中突出了关键的特征消息节点。SemaRR模块在空间和通道维度上建立全局面部区域的深层语义表示

模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

实验

在这里插入图片描述

2. Towards Semi-Supervised Deep Facial Expression Recognition with An Adaptive Confidence Margin

概述

对于大多数半监督学习方法,只选择未标记数据的一部分来训练模型,其置信度得分通常高于预定义的阈值(即置信度)。我们认为,应该通过充分利用所有未标记的数据来进一步提高识别性能。在本文中,我们学习了一种自适应置信区间(Ada-CM),以充分利用所有未标记的数据进行半监督深度面部表情识别。通过将所有未标记样本的置信度得分与每个训练时期的自适应学习置信度裕度进行比较,将其划分为两个子集:(1)子集I,包括置信度得分不低于裕度的样本;(2) 子集II包括置信度得分低于裕度的样本。对于子集I中的样本,我们将它们的预测约束为匹配伪标签。同时,子集II中的样本参与特征级对比目标,以学习有效的面部表情特征。
在这里插入图片描述

模型

在这里插入图片描述
在这里插入图片描述

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3. Exploring Large-scale Unlabeled Faces to Enhance Facial Expression Recognition

概述

提出了一种半监督学习框架,该框架利用未标记的人脸数据来有效地训练表情识别模型。我们的方法使用动态阈值模块(DTM),该模块可以自适应地调整置信阈值,以充分利用人脸识别(FR)数据生成伪标签,从而提高模型对面部表情建模的能力。

模型

在这里插入图片描述
引入了人脸数据,通过网络训练得到伪标签,结合人脸数据及其伪标签,从而达到补充表情数据的目的。

4.FLEPNet: Feature Level Ensemble Parallel Network for Facial Expression Recognition

解决问题

用于FER问题的传统DCNN有两个重要问题:训练数据不足,导致过拟合,以及类内面部外观变化。本文提出了一种基于纹理的FER特征级集成并行网络FLEPNet,并证明它可以解决上述问题。

解决方法

并行网络FLEPNet使用基于多尺度卷积和多尺度残差块的DCNN作为构建块。首先,我们考虑了改进的同态滤波来有效地归一化照明,这使类内差异最小化。然后,通过对面部表情图像使用纹理分析来识别多个属性,来保护深度网络免受训练数据不足的影响。提取了四个纹理特征,并将其与图像的原始特征相结合。最后,利用两个网络检索到的综合特征对七种面部表情进行分类。
在这里插入图片描述
在这里插入图片描述

模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6. The devil is in the face: Exploiting harmonious representations for facial expression recognition

概述

通过在FER判别学习约束下动态传播图消息,并最小化表达式不可知的转换实例特征对的距离,展示了特征表示学习的优势。具体来说,我们提出了一种新的和谐表示学习(HRL)模型,用于联合学习地标引导的图消息传播,以及仅使用通用匹配度量的空间不变特征学习。

模型

在这里插入图片描述
在这里插入图片描述

实验

在这里插入图片描述
在这里插入图片描述

7.Face2Exp: Combating Data Biases for Facial Expression Recognition

解决问题

面部表情识别(FER)由于数据收集引起的类别不平衡而具有挑战性。现有研究仅使用标记的面部表情数据集来解决数据偏差问题。与现有的FER方法正交,我们建议利用大型未标记人脸识别(FR)数据集来增强FER。然而,这引发了另一个数据偏差问题——FR和FER数据之间的分布不匹配。
在这里插入图片描述

解决方法

为了克服上述数据间分布不匹配,提出了Meta-Face2Exp框架,该框架由基础网络和自适应网络组成。基础网络学习关于类平衡FER数据的先验表情信息,同时训练自适应网络以拟合由基础模型生成的FR数据的伪标签。为了解决FR和FER数据之间的不匹配问题,Meta-Face2Exp使用了电路反馈机制,该机制利用自适应网络的反馈改进了基础网络。实验表明,我们的MetaFace2Exp实现了与最先进的FER方法相当的精度,基线使用了10%的标记FER数据。我们还证明了电路反馈机制成功地消除了数据偏差

模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

实验

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

1.Unconstrained Facial Expression Recognition with No-Reference De-Elements Learning

概述

大多数无约束人脸表情识别方法都是以原始人脸图像为输入,通过精心设计的损失函数来学习判别特征,不能反映人脸中的重要视觉信息。尽管现有的方法已经探索了受约束的面部表情的视觉信息,但对于什么视觉信息对不受约束的FER是重要的,还没有明确的建模。为了找出无约束面部表情的有价值信息,我们提出了一个新的无参考元素学习问题:我们将任何无约束的面部图像分解为面部表情元素和一个没有相应中性人脸参考的中性人脸。重要的是,该元素提供了可视化结果来理解重要的面部表情信息,并提高了特征的辨别能力。此外,我们提出了一种简单而有效的去元素网络(DENet)来学习元素,并引入适当的约束来克服去元素学习过程中相应中性面的非真实性。
在这里插入图片描述
在这里插入图片描述

模型

在这里插入图片描述

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

8.Learn From All: Erasing Attention Consistency for Noisy Label Facial Expression Recognition

概述

由于类间相似性和注释模糊性,噪声标签人脸表情识别(FER)比传统的噪声标签分类任务更具挑战性。最近的工作主要通过过滤掉大的损失样本来解决这个问题。在本文中,我们从一个新的特征学习的角度探讨了处理有噪声的标签。FER模型通过关注可以被认为与噪声标签相关的部分特征而不是从导致潜在真相的整个特征中学习来记住噪声样本。受此启发,提出了一种新的擦除注意一致性(EAC)方法来自动抑制训练过程中的噪声样本。具体来说,首先利用人脸图像的翻转语义一致性来设计一个不平衡的框架。然后,我们随机擦除输入图像,并使用翻转注意力一致性来防止模型聚焦于部分特征。

模型

在这里插入图片描述

实验

在这里插入图片描述
在这里插入图片描述

few-shot相关的文章

1. FedAffect: Few-shot federated learning for facial expression recognition

在这里插入图片描述

2. The Study of Few-Shot Learning for Facial Expression Recognition

各种few-shot方法:initialization-based approaches, distance metric learning based approaches and hallucination-based approaches
这是一篇很短很一般的few-shot人脸表情综述文章

3. When Facial Expression Recognition Meets Few-Shot Learning: A Joint and Alternate Learning Framework

本文中研究了跨域少few-shot学习环境中的复合FER,其中只需要来自目标域的新类的一些图像作为参考。特别是,目标是使用在易于访问的基本表情数据集上训练的模型来识别看不见的复合表情。为了缓解FER任务中基类有限的问题,提出了一种新的基于两阶段学习框架的情感引导相似性网络(EGS-Net),该网络由情感分支和相似分支组成。具体而言,在第一阶段,以多任务的方式将相似性分支与情感分支联合训练。通过情绪分支的正则化,防止相似性分支过度拟合到在不同事件中高度重叠的采样基类。在第二阶段,情感分支和相似分支进行“两学生游戏”,交替学习,从而进一步提高相似分支对看不见的复合表情的推理能力
在这里插入图片描述

44. Meta-Learning for Multi-Label Few-Shot Classification

在这里插入图片描述

5. Learning to Augment Expressions for Few-shot Fine-grained Facial Expression Recognition

提出了一个新的数据集F2ED。为了解决这种few-shot任务,提出了一个统一的任务驱动框架——合成生成对抗性网络(Comp-GAN)学习来合成面部图像,从而增强few-shot表情类的实例。从本质上讲,Comp-GAN由两个生成器组成:一个用于编辑具有所需表情的人脸,另一个用于更改人脸姿势;因此,它可以在保持身份特征的同时,根据指定的姿势和表情信息生成更多高质量的人脸图像。
在这里插入图片描述

6. Learn-to-Decompose: Cascaded Decomposition Network for Cross-Domain Few-Shot Facial Expression Recognition

代码: https://github.com/zouxinyi0625/CDNet.

该任务只需要目标域中的几个复合表情样本。具体来说,我们提出了一种新的级联分解网络(CDNet),该网络基于顺序分解机制级联多个具有共享参数的学习分解模块,以获得可转移的特征空间。为了缓解我们任务中由有限基类引起的过拟合问题,设计了一种部分正则化策略,以有效地利用情景训练和批量训练的最佳效果。通过在多个基本表情数据集上进行类似任务的训练,CDNet学习了learn-to-decompose的能力,该能力可以很容易地用于识别看不见的复合表情。
在这里插入图片描述
在这里插入图片描述

7.Revisiting Few-Shot Learning for Facial Expression Recognition

没有啥创新性,就是进行了few-shot泛化训练,做了一点实验,不推荐!

  • 24
    点赞
  • 46
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值