自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 YOLO-Mamba

基于CNN和Transformer目前发展的局限性,CNN的局部特征提取局限性以及Transformer的二次计算复杂度。然而,目前很多学者对于两者的结合工作,例如:MobileViT、EfficientFormer以及EdgeViT等等模型,在性能与速度上的平衡也是一个很大的问题。当下的问题就是利用SSM的优点,既要做到保留全局信息捕捉的能力以弥补CNN的劣势,还要做到具备快速的推理速度以满足检测目标的实时性。本文开发了一个基于SSM结构应用于YOLO框架(具体是YOLOv8)的目标检测模型。

2024-06-28 11:40:49 741

原创 论文阅读《多模态结合Mamba模型》

针对目标检测多模态融合领域,提出了一项基于Mamba与YOLO结合的目标检测模型框架(基于Mamba的backbone和YOLOv8的neck以及head结合)。DSSF模块进一步减少模态差异,通过双方向门控注意力在隐藏状态空间中进行特征融合,以增强融合特征的表示一致性(简而言之就是深层特征融合)。第二点:文章的创新点主要为在借鉴YOLO的Backbone结构,设计了一种新的基于Mamba的多模态数据融合结构。从实验结果上来看,确实取得了不错的检测精度,但多模态检测模型的参数量可能也是一个因素。

2024-06-01 11:02:20 468

原创 [论文阅读]CVPR2024 《Rewrite the Stars》

传统的深度学习学习范式以混合线性投影(即卷积和线性层)和非线性激活构成。在做将输入特征从低维到高维映射时的解决办法为:增加网络的深度(其实也就是提高通道数),这样带来的直接影响就是大大增加了模型的复杂度、计算量(这是一种显示高维特征映射的方法);那对于这个问题呢,在Transformer中也提出了一种高维特征映射的方法:自注意力机制最显著的特征是将特征映射到不同的空间,然后通过点积运算构建一个注意力矩阵。然而,这种实现并不高效,随着标记数量的增加,注意力复杂度呈二次增长。

2024-05-25 10:45:20 1311

原创 [论文阅读]FER-YOLO-Mamba

此外,Ma等人提出了U-Mamba模型,通过结合U-Net架构和Mamba模型的优势,有效提升了生物医学图像分割的性能。从结果上来看,新的模型在检测效果少似乎比V7和V8都高了很多,但是其实baseline是YOLOX,仔细看的话发现再大的数据集上相比于YOLOX涨了1.91个点,在小数据集上相比于YOLOX涨了2.65个点。(但是最后的结果却是很好看,比V7,V8高了好多)这篇文章首创性的将Mamba融入到了YOLO架构中,构建了一个高效的YOLO-Mamba框架,并且在FER任务中达到了很好的效果。

2024-05-19 09:00:36 608

原创 Transformer学习笔记

在实际中,Self-Attention 接收的是输入(单词的表示向量 x组成的矩阵 X) 或者上一个 Encoder block 的输出。将 Encoder 输出的编码信息矩阵 C传递到 Decoder 中,Decoder 依次会根据当前翻译过的单词 1~ i 翻译下一个单词 i+1,如下图所示。QKT 之后,使用 Softmax 计算每一个单词对于其他单词的 attention 系数,公式中的 Softmax 是对矩阵的每一行进行 Softmax,即每一行的和都变为 1。表示单词之间的关系程度。

2024-05-09 10:27:00 560

原创 目标检测方向国内外知名实验室(小方向:水下目标检测、火灾检测)

主要研究方向包括: 三维成像、语义分割、视觉检测、医疗大数据、智能人机交互系统(机械臂、机器狗)等。主要研究方向包括:模式识别基础理论、图像处理与计算机视觉以及语音语言信息处理。1、清华大学自动化系的计算机视觉与系统实验室(CVS Lab)主要研究方向包括:计算机视觉、自然语言处理、人工智能理论等。主要研究方向:图像处理、生物医学图像计算、计算机视觉等。主要研究方向:计算机视觉、图像处理和机器学习等。(加州大学洛杉矶分校的计算机视觉实验室)(斯坦福大学的计算机视觉实验室)3、华为诺亚方舟实验室。

2024-01-13 17:33:46 546 1

原创 CBAM注意力、计算过程以及代码实现。

针对传统的卷积神经网络只关注特征图的局部信息,往往忽略了全局信息的弊端。作者提出了Convolutional Block Attention Module(CBAM)注意力机制,该注意力模型是一种结合空间(spatial)和通道(channel)的注意力机制模块。相比于SEnet,多了对于空间通道的关注力。1.2 模型网络结构可以看出该网路中有两个重要的模块。

2023-12-21 12:06:53 2061

原创 xml格式文件转txt格式以及解决数据集划分问题

很多小伙伴可能在找到数据集后发现他的label文件是xml格式的,对于xml格式的文件是不能在YOLO中进行识别的,需要转化为txt格式文件。

2023-12-21 10:46:10 2548 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除