每天都在深度学习-CSDN博客

原创 YOLOv10 测试模型性能报错AttributeError: ‘dict‘ object has no attribute ‘shape‘

当我们在运行YOLOv10的val.py时，发现模型报错AttributeError: 'dict' object has no attribute 'shape'。通过在网上查找相关解决办法，发现原来是没有使用YOLOv10版本的val方式，而是使用了默认v8的方式（因为v10是在v8基础上修改的）。

2024-07-08 09:42:56 3876 4

原创 YOLO-Mamba

基于CNN和Transformer目前发展的局限性，CNN的局部特征提取局限性以及Transformer的二次计算复杂度。然而，目前很多学者对于两者的结合工作，例如：MobileViT、EfficientFormer以及EdgeViT等等模型，在性能与速度上的平衡也是一个很大的问题。当下的问题就是利用SSM的优点，既要做到保留全局信息捕捉的能力以弥补CNN的劣势，还要做到具备快速的推理速度以满足检测目标的实时性。本文开发了一个基于SSM结构应用于YOLO框架（具体是YOLOv8）的目标检测模型。

2024-06-28 11:40:49 1936

原创论文阅读《多模态结合Mamba模型》

针对目标检测多模态融合领域，提出了一项基于Mamba与YOLO结合的目标检测模型框架（基于Mamba的backbone和YOLOv8的neck以及head结合）。DSSF模块进一步减少模态差异，通过双方向门控注意力在隐藏状态空间中进行特征融合，以增强融合特征的表示一致性（简而言之就是深层特征融合）。第二点：文章的创新点主要为在借鉴YOLO的Backbone结构，设计了一种新的基于Mamba的多模态数据融合结构。从实验结果上来看，确实取得了不错的检测精度，但多模态检测模型的参数量可能也是一个因素。

2024-06-01 11:02:20 2768 5

原创 [论文阅读]CVPR2024 《Rewrite the Stars》

传统的深度学习学习范式以混合线性投影（即卷积和线性层）和非线性激活构成。在做将输入特征从低维到高维映射时的解决办法为：增加网络的深度（其实也就是提高通道数），这样带来的直接影响就是大大增加了模型的复杂度、计算量（这是一种显示高维特征映射的方法）；那对于这个问题呢，在Transformer中也提出了一种高维特征映射的方法：自注意力机制最显著的特征是将特征映射到不同的空间，然后通过点积运算构建一个注意力矩阵。然而，这种实现并不高效，随着标记数量的增加，注意力复杂度呈二次增长。

2024-05-25 10:45:20 5528 1

原创 [论文阅读]FER-YOLO-Mamba

此外，Ma等人提出了U-Mamba模型，通过结合U-Net架构和Mamba模型的优势，有效提升了生物医学图像分割的性能。从结果上来看，新的模型在检测效果少似乎比V7和V8都高了很多，但是其实baseline是YOLOX，仔细看的话发现再大的数据集上相比于YOLOX涨了1.91个点，在小数据集上相比于YOLOX涨了2.65个点。（但是最后的结果却是很好看，比V7，V8高了好多）这篇文章首创性的将Mamba融入到了YOLO架构中，构建了一个高效的YOLO-Mamba框架，并且在FER任务中达到了很好的效果。

2024-05-19 09:00:36 1876 1

原创 Transformer学习笔记

在实际中，Self-Attention 接收的是输入(单词的表示向量 x组成的矩阵 X) 或者上一个 Encoder block 的输出。将 Encoder 输出的编码信息矩阵 C传递到 Decoder 中，Decoder 依次会根据当前翻译过的单词 1~ i 翻译下一个单词 i+1，如下图所示。QKT 之后，使用 Softmax 计算每一个单词对于其他单词的 attention 系数，公式中的 Softmax 是对矩阵的每一行进行 Softmax，即每一行的和都变为 1。表示单词之间的关系程度。

2024-05-09 10:27:00 675