[论文阅读]FER-YOLO-Mamba

每天都在深度学习

已于 2024-05-24 15:56:51 修改

阅读量656

点赞数 9

分类专栏：论文阅读文章标签：论文阅读 YOLO

于 2024-05-19 09:00:36 首次发布

本文链接：https://blog.csdn.net/weixin_58875151/article/details/139035214

版权

论文阅读专栏收录该内容

4 篇文章 0 订阅

订阅专栏

（预印本）论文：《FER-YOLO-Mamba: Facial Expression Detection and Classification Based on Selective State Space》

地址：https://arxiv.longhoe.net/abs/2405.01828

这篇文章首创性的将Mamba融入到了YOLO架构中，构建了一个高效的YOLO-Mamba框架，并且在FER任务中达到了很好的效果。相比于YOLOv8以及YOLOX在检测精度上有一个很大的提高。

1. 这篇论文解决了什么问题？

作者创新性地开发了一个FER-YOLO-Mamba模型，搭建了基于SSM的特征提取模块用于Neck结构中。这是将SSM驱动的架构集成到面部表情检测和分类领域的一次开创性尝试，首次探索了该模型在这一领域的研究。

2.其它学者提出了哪几类的解决方案，有何缺陷？

YOLO-Mamba设计初衷是为了利用SSM在解决序列中长期依赖关系的广泛潜力，以此来弥补纯CNN局部窗口在捕捉全局信息时的不足。而且Mamba相较于Transformer具有计算量和复杂度大大减小的优点。（SSM利用HiPPO方法建立长距离依赖，使得模型将历史信息更好的保存在矩阵A中）

关于Mamba的发展：

在医学图像处理领域，Yue等人引入了MedMamba模型，这是首个专为医学图像分类设计的Mamba特定模型。此外，Ma等人提出了U-Mamba模型，通过结合U-Net架构和Mamba模型的优势，有效提升了生物医学图像分割的性能。Ruan等人提出的VM-UNet模型将视觉Mamba与U-Net结合，用于医学图像分割任务，通过整合多尺度特征信息，增强了分割的准确性和鲁棒性。Liu等人展示了Swin-UMamba模型，该模型将Swin Transformer与Mamba结合用于预训练，进一步提升了生物医学图像分割的准确性。Yang等人引入了Vivim模型，为医学视频目标分割提供了一种新颖的方法。Gong等人展示了nnMamba模型的卓越性能，该模型通过结合深度学习与SSM的优势，在处理复杂的3D图像数据方面表现出色。最后，Guo等人提出了MambaMorph模型，为可变形MR-CT配准任务提供了一种新的解决方案。

3. 作者围绕该问题，是如何构建解决思路的？

最主要的问题是利用什么样的结构在YOLO中结合Mamba的CNN。作者借鉴了VM-UNET中提出的VSSBlock设计了一个双分支结构——特征细化模块（FRM）分支和全方位状态空间（OSS）分支。（FER-YOLO-VSS）

这个是作者提出的新结构，首先通过Split变为两个分支，一个分支通过FRM结构（第一个卷积降低通道数，通过具有空间注意力特性的（GAP）MLP结构获得通道维度权重图，与输入相乘得到加权后的特征图，在经过1*1的卷积进行升维还原通道数）进行特征提取；另一个分支则是通过OSS模块进行全局特征提取，其中SSM从输入特征图的8个方向进行扫描，使模型可以高效的学习输入数据特征。（OSS结构与VMUNET中的VSSBLOCK完全一致，知识将其中的SS2D换成了OSSM，下面回顾一下VSSBLOCK)

再回顾一下ABMLP的伪代码，可以看到其实就是在MLP的基础上多了一个GAP，作者的目的是为了获取其在通道维度上的权重。

最后，学习一下整体YOLO-Mamba网络结构。

结构中的改进之处：

使用AFPN结构改进Neck
使用YOLOXHead改进Head
在backbone部分多加一个CspLayer

4. 从结果（含曲线）上看，作者是如何有力地证明他解决了问题？

从两方面来展示FER-YOLO-Mamba的效果：精度和模型大小。实验使用了一大一小两个数据集RAF-DB（大的）和SFEW（小的）。

1.模型检测精度

从结果上来看，新的模型在检测效果少似乎比V7和V8都高了很多，但是其实baseline是YOLOX，仔细看的话发现再大的数据集上相比于YOLOX涨了1.91个点，在小数据集上相比于YOLOX涨了2.65个点。其实并没有那么明显。（但是最后的结果却是很好看，比V7，V8高了好多）

2.模型检测大小

每天都在深度学习

关注

9
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
[论文阅读]FER-YOLO-Mamba

此外，Ma等人提出了U-Mamba模型，通过结合U-Net架构和Mamba模型的优势，有效提升了生物医学图像分割的性能。从结果上来看，新的模型在检测效果少似乎比V7和V8都高了很多，但是其实baseline是YOLOX，仔细看的话发现再大的数据集上相比于YOLOX涨了1.91个点，在小数据集上相比于YOLOX涨了2.65个点。（但是最后的结果却是很好看，比V7，V8高了好多）这篇文章首创性的将Mamba融入到了YOLO架构中，构建了一个高效的YOLO-Mamba框架，并且在FER任务中达到了很好的效果。
复制链接

扫一扫