[论文阅读]FER-YOLO-Mamba

(预印本)论文:《FER-YOLO-Mamba: Facial Expression Detection and Classification Based on Selective State Space》

地址:https://arxiv.longhoe.net/abs/2405.01828

这篇文章首创性的将Mamba融入到了YOLO架构中,构建了一个高效的YOLO-Mamba框架,并且在FER任务中达到了很好的效果。相比于YOLOv8以及YOLOX在检测精度上有一个很大的提高。

1. 这篇论文解决了什么问题?

作者创新性地开发了一个FER-YOLO-Mamba模型,搭建了基于SSM的特征提取模块用于Neck结构中。这是将SSM驱动的架构集成到面部表情检测和分类领域的一次开创性尝试,首次探索了该模型在这一领域的研究。

2.其它学者提出了哪几类的解决方案,有何缺陷?

YOLO-Mamba设计初衷是为了利用SSM在解决序列中长期依赖关系的广泛潜力,以此来弥补纯CNN局部窗口在捕捉全局信息时的不足。而且Mamba相较于Transformer具有计算量和复杂度大大减小的优点。(SSM利用HiPPO方法建立长距离依赖,使得模型将历史信息更好的保存在矩阵A中)

关于Mamba的发展:

在医学图像处理领域,Yue等人引入了MedMamba模型,这是首个专为医学图像分类设计的Mamba特定模型。此外,Ma等人提出了U-Mamba模型,通过结合U-Net架构和Mamba模型的优势,有效提升了生物医学图像分割的性能。Ruan等人提出的VM-UNet模型将视觉Mamba与U-Net结合,用于医学图像分割任务,通过整合多尺度特征信息,增强了分割的准确性和鲁棒性。Liu等人展示了Swin-UMamba模型,该模型将Swin Transformer与Mamba结合用于预训练,进一步提升了生物医学图像分割的准确性。Yang等人引入了Vivim模型,为医学视频目标分割提供了一种新颖的方法。Gong等人展示了nnMamba模型的卓越性能,该模型通过结合深度学习与SSM的优势,在处理复杂的3D图像数据方面表现出色。最后,Guo等人提出了MambaMorph模型,为可变形MR-CT配准任务提供了一种新的解决方案。

3. 作者围绕该问题,是如何构建解决思路的?

最主要的问题是利用什么样的结构在YOLO中结合Mamba的CNN。作者借鉴了VM-UNET中提出的VSSBlock设计了一个双分支结构——特征细化模块(FRM)分支和全方位状态空间(OSS)分支(FER-YOLO-VSS)

这个是作者提出的新结构,首先通过Split变为两个分支,一个分支通过FRM结构(第一个卷积降低通道数,通过具有空间注意力特性的(GAP)MLP结构获得通道维度权重图,与输入相乘得到加权后的特征图,在经过1*1的卷积进行升维还原通道数)进行特征提取;另一个分支则是通过OSS模块进行全局特征提取,其中SSM从输入特征图的8个方向进行扫描,使模型可以高效的学习输入数据特征。(OSS结构与VMUNET中的VSSBLOCK完全一致,知识将其中的SS2D换成了OSSM,下面回顾一下VSSBLOCK)

                       

            

再回顾一下ABMLP的伪代码,可以看到其实就是在MLP的基础上多了一个GAP,作者的目的是为了获取其在通道维度上的权重。

最后,学习一下整体YOLO-Mamba网络结构。

结构中的改进之处:

  1. 使用AFPN结构改进Neck
  2. 使用YOLOXHead改进Head
  3. 在backbone部分多加一个CspLayer

4. 从结果(含曲线)上看,作者是如何有力地证明他解决了问题?

从两方面来展示FER-YOLO-Mamba的效果:精度和模型大小。实验使用了一大一小两个数据集RAF-DB(大的)和SFEW(小的)。

1.模型检测精度

从结果上来看,新的模型在检测效果少似乎比V7和V8都高了很多,但是其实baseline是YOLOX,仔细看的话发现再大的数据集上相比于YOLOX涨了1.91个点,在小数据集上相比于YOLOX涨了2.65个点。其实并没有那么明显。(但是最后的结果却是很好看,比V7,V8高了好多)

2.模型检测大小

  • 7
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值