CV前沿论文
文章平均质量分 94
毕竟是shy哥
我会将YOLOv8改进到底!!!
山海的浩瀚,宇宙的浪漫,都在我内心翻腾。
展开
-
基于循环神经网络长短时记忆(RNN-LSTM)的大豆土壤水分预测模型的建立
递归神经网络(RNN)在处理时序数据(如时间序列数据)时是非常有效的。然而,早期的神经网络由简单的算法组成,在训练过程中不断遇到梯度消失等问题;这导致RNNs缺乏实用性的长序列。为此,提出了长短时记忆方法(LSTM)来解决长序列的消失梯度问题。为了解决斜坡的拥塞和消光问题,LSTM增加了一个步骤,决定移动到下一个时间点时是否传递隐含层处理过的结果值;即通过每个栅极打开或关闭输入和输出,通过解决斜坡拥挤和消光问题来补充长期依赖关系。原创 2023-12-16 23:49:50 · 852 阅读 · 1 评论 -
对 Vision Transformers 及其基于 CNN-Transformer 的变体的综述
Vision transformers已经成为卷积神经网络(CNNs)的可能替代品,在各种计算机视觉应用中很受欢迎。这些变形金刚能够专注于图像中的全局关系,提供了强大的学习能力。然而,它们可能会受到有限的泛化,因为它们不倾向于在图像中建模局部相关性。最近,在视觉变压器中出现了混合卷积运算和自我注意机制,以利用局部和全局图像表示。这些混合视觉变压器,也称为cnn -Transformer结构,在视觉应用中显示出了显著的效果。鉴于混合视觉变压器数量的迅速增长,对这些混合架构进行分类和解释已成为必要。原创 2023-12-01 22:01:03 · 1279 阅读 · 1 评论 -
细粒度视觉分类的注意内核编码网络
在本文中,我们提出了一种新的深度学习体系结构,名为注意核编码网络(AKEN),用于细粒度图像分类,如图2所示。AKEN将上一卷积层的特征特征图聚合为一个整体的特征表示。具体来说,我们建议应用傅里叶嵌入将特征特征图编码成图像的整体表示。傅里叶嵌入利用核函数强大的非线性学习能力,可以捕获更多有区别的特征进行分类,从而得到高质量的特征表示。图二。这是我们提出的注意核心编码网络(AKEN)的流程图。在对原始图像进行特征提取后,应用级联注意(Cas-Attention)模块对有区别的区域进行高亮显示。原创 2023-12-01 16:13:19 · 383 阅读 · 0 评论 -
EfficientViT:具有级联群体注意力的内存高效Transformer
不断提高的精度是以增加模型尺寸和计算开销为代价的。为了解决这个问题,在本文中,我们探索如何更快地使用视觉变压器,寻找设计高效变压器架构的原则。基于当前流行的视觉转换器DeiT[69]和Swin[44],我们系统地分析了影响模型推理速度的三个主要因素,包括内存访问、计算冗余和参数使用。特别地,我们发现变压器模型的速度通常是内存限制的。换句话说,内存访问延迟阻碍了GPU/ cpu计算能力的充分利用[21,32,72],从而对变压器运行速度产生了严重的负面影响[15,31]。原创 2023-11-27 22:42:43 · 535 阅读 · 0 评论 -
EfficientViT:高分辨率密集预测的多尺度线性注意
我们建议用轻量级 ReLU 线性注意力 [12] 代替低效的 softmax 注意力,以获得全局感受野。通过利用矩阵乘法的关联属性,ReLU 线性注意力可以将计算复杂度从二次降低到线性,同时保留功能。此外,它避免了像softmax这样的硬件效率低下的操作,使其更适合硬件部署。然而,由于缺乏局部信息提取和多尺度学习能力,单独的ReLU线性注意力能力有限。因此,我们提出通过卷积增强ReLU线性注意力,并引入多尺度线性注意力模块来解决ReLU线性注意力的容量限制。原创 2023-11-27 18:22:08 · 735 阅读 · 0 评论 -
Da-transunet:将空间和通道双重关注与Transformer u-net相结合用于医学图像分割
在本文中,我们创新性地提出了一种新的图像分割方法,该方法是在TransUNet的体系结构中将da块与Transformer集成在一起。针对特定图像位置和通道特征的da块被进一步集成到跳跃连接中,以提高模型的性能。我们的实验结果,经过广泛的消融研究的验证,表明模型的性能在不同的数据集,特别是Synapse数据集的显著改善。我们的研究揭示了da块在增强Transformer的特征提取能力和全局信息保持方面的潜力。数据块和Transformer的集成在不产生冗余的情况下,大大提高了模型的性能。原创 2023-11-24 16:46:51 · 2189 阅读 · 2 评论 -
邻里注意Transformer(CVPR2023)
我们提出邻居注意力(NA),第一个有效和可伸缩的滑动窗口的视觉注意机制。NA是一种像素级的操作,将自我注意定位到最近的邻近像素上,因此与SA(自注意力)的二次复杂度相比,具有线性的时间和空间复杂度。与Swin Transformer的窗口自我注意(WSA)不同,滑动窗口模式允许NA的接受域在不需要额外像素位移的情况下增长,并保持平移均方差。原创 2023-11-13 15:27:51 · 840 阅读 · 0 评论 -
使用双动态令牌混合器学习全局和局部动态以进行视觉识别
感应偏置(Inductive bias)是指对学习任务的假设和推断进行约束或偏好的先验知识或假设。它是为了帮助学习算法在未见过的数据上做出合理的预测而引入的一种偏置。CNN假设输入的局部数据存在相关性。原创 2023-11-10 14:32:44 · 1276 阅读 · 2 评论 -
ParCNetV2: Oversized Kernel with Enhanced Attention(超大的内核,增强了注意力)
为了挑战CNN的极限:ParCNetV1通过编码更广泛的空间上下文,成功地提高了cnn的性能。具体来说,parnetv1在cnn中引入了位置感知的圆形卷积(ParC)。采用输入特征图大小(C × H×1, C×1×W)的深度圆形一维卷积实现全局接受域。为了避免全局导致的空间过度平滑,ParCNetV1对特征输入进行了绝对位置编码增强,以保证特征输出仍然是位置敏感的。采用挤压激励块,将关注机构引入框架。图2:圆形卷积与超大卷积的比较。为了便于演示,我们只展示了水平卷积。原创 2023-10-09 10:17:20 · 428 阅读 · 0 评论 -
DiffusionDet:第一个用于物体检测的扩散模型(DiffusionDet: Diffusion Model for Object Detection)
有没有一种更简单的方法,甚至不需要可学习查询的代理?为了回答这个问题,我们设计了一个新的框架,它可以直接从一组随机盒子中检测对象。从纯随机盒子开始,不包含训练阶段需要优化的可学习参数,我们期望逐步细化这些盒子的位置和大小,直到它们完美覆盖目标对象。原创 2023-10-08 12:25:25 · 1789 阅读 · 8 评论