- 博客(52)
- 收藏
- 关注
原创 小样本语义分割(HDMNet网络)
小样本语义分割(FSS)的目的是形成类不可知的模型分割看不见的类,只有少数的注释。现有的基于语义特征和原型表示的分割方法存在分割粒度过粗和训练集过拟合的问题。本文基于Transformer架构设计了分层解耦匹配网络(HDMNet)挖掘像素级支持度相关。自注意模块用于辅助建立层次密集特征,作为完成查询和支持特征之间的级联匹配的手段。此外,我们提出了一个匹配模块,以减少训练集过拟合和引入相关蒸馏利用语义对应从粗分辨率,以促进细粒度分割。该方法在实验中取得了较好的效果。
2024-11-03 18:32:53 246
原创 小样本语义分割(MSDNet网络详解)
小样本语义分割解决了在查询图像中分割对象的挑战,只有少量的注释示例。然而,许多现有技术的方法要么必须丢弃复杂的局部语义特征,要么遭受高计算复杂度的困扰。为了克服上述缺陷,本文提出一种新的基于Transformer架构的小样本语义分割框架。我们的方法引入了空间Transformer解码器和上下文掩码生成模块,以提高支持图像和查询图像之间的关系理解。此外,我们还引入了一个多尺度解码器,通过以分层方式合并来自不同分辨率的特征来细化分割掩模。
2024-10-27 19:59:20 628
原创 论文阅读(第二周)
局部特征提取是计算机视觉中处理图像匹配和检索等关键任务的常用方法。大多数方法的核心理念是图像经历仿射变换,忽略了诸如非刚性形变等更复杂的效果。此外,针对非刚性对应的新兴工作仍然依赖于为刚性变换设计的特征点检测器,这由于检测器的局限性而限制了性能。我们提出了DALF(Deformation-Aware Local Features,可变形感知局部特征),一种新颖的可变形感知网络,用于联合检测和描述关键点,以处理匹配可变形表面的挑战性问题。所有网络组件通过特征融合方法协同工作,确保描述子的独特性和不变性。
2024-10-20 20:23:34 1003
原创 OmniGlue论文详解(特征匹配)
图像匹配领域不断涌现出新颖的可学习特征匹配技术,其性能在传统基准测试中不断提高。然而,我们的研究表明,尽管有这些优点,它们在现实世界中的应用潜力受到限制,因为它们有限的泛化能力,以新的图像领域。本文首先介绍了OmniGlue,它是第一个以泛化为核心原理设计的可学习图像匹配器。OmniGlue利用来自视觉基础模型的广泛知识来指导特征匹配过程,从而将泛化提升到训练时未发现的领域。此外,我们提出了一种新颖的关键点位置引导注意机制,该机制能够解开空间和外观信息的纠缠,从而增强匹配描述符。
2024-09-15 17:05:40 1354
原创 Efficient LoFTR论文阅读(特征匹配)
本文提出了一种有效产生跨图像半密集匹配的新颖方法。之前的无检测器匹配器LoFTR在处理大视点变化和纹理贫乏的场景中表现出了出色的匹配能力,但效率较低。我们重新审视其设计选择,并在效率和准确性方面进行了多项改进。一个关键的观察是,由于共享本地信息,在整个特征图上执行变换器是多余的,因此我们提出了一种具有自适应标记选择的聚合注意力机制以提高效率。此外,我们发现LoFTR的精细相关模块中存在空间方差,这不利于匹配精度。提出了一种新颖的两级相关层来实现精确的子像素对应以提高精度。
2024-08-29 21:41:56 1311
原创 LoFTR源码详解+个人对LoFTR的细节之处的理解
本文主要是针对LoFTR架构,对其源码进行debug详细分析,从而更进一步加深对LoFTR架构的理解。
2024-08-23 10:20:20 647
原创 LoFTR论文详解(特征匹配)
本文提出了一种新的局部图像特征匹配方法,该方法首先建立粗粒度特征匹配,然后再细化粗粒度特征,与传统方法不同,传统方法是依次执行图像特征检测、描述和匹配。与使用代价体积来搜索对应的密集方法相比,我们在Transformer中使用自注意层和交叉注意层来获得以两幅图像为条件的特征描述符,在低纹理区域特征检测器通常难以产生可重复的兴趣点,Transformer提供的全局感受域使我们的方法能够在低纹理区域产生密集匹配。在室内和室外数据集上进行了实验,结果表明,LoFTR算法能有效提高分类性能,优于其他方法。
2024-08-21 15:48:33 1382 1
原创 SuperGlue网络+FPN+SIFT(特征匹配)
本文主要讲解了FPN特征金字塔、SuperGlue网络、SIFT检测器的具体思路与方法。SuperGlue展示了基于注意力的图神经网络在局部特征匹配方面的强大功能。自我注意力,它增强了局部描述符的接受域;交叉注意力,它实现了跨图像通信,并受到人类在匹配图像时来回观看的方式的启发作者的方法地处理部分分配和闭塞点,通过解决最优运输问题。
2024-07-30 15:39:49 1026
原创 OPAM模型(细粒度图像分类)
在细粒度图像分类的背景下,寻找对象和有区别的部分可以被视为两级注意力过程,其中一个是对象级,另一个是部分级。一个直观的想法是使用对象注释(即对象的边界框)进行对象级注意,使用零件注释(即零件位置)进行零件级注意。大多数现有方法依赖于对象或部分注释来查找对象或有区别的部分,但这种标记非常耗费人力。OPAM模型综合了两个层次的注意模型:对象层定位图像对象,局部层选择对象的区分部分。这两个层面的关注共同促进了多视角、多尺度的特征学习,增强了它们之间的相互促进作用。本文将详细介绍OPAM模型。
2024-06-30 21:40:35 563
原创 细粒度图像分类论文阅读笔记
本周阅读了SCI二区的文章 Aggregate attention module for fine‑grained image classification,该论文解决了以往网络中的参数过多、计算过多的问题,提出了一种名为聚合注意力模块的注意力机制,可以用更少的参数对细粒度图像进行准确分类。所提出的注意力模块将通道注意力与空间注意力并行结合,有效地学习关键特征,并且可以轻松扩展到其他神经模型。本文将详细介绍该模型。注意力机制对于聚合特征和发现有区别的局部细节非常有用。网络中参数的增加会导致不必要的计算。
2024-06-23 22:04:04 1454 2
原创 论文阅读笔记(通道注意力)
本周阅读了 Squeeze-and-Excitation Networks 这篇文献,该文献提出了SENet架构,SENet(Squeeze-and-Excitation Networks)是一种深度学习架构,它通过引入注意力机制来增强卷积神经网络(CNN)的特征学习能力。其核心是SE模块,它通过显式地建模特征通道之间的相互依赖关系,使网络能够自适应地调整每个通道的响应。SE模块通过学习每个特征通道的重要性权重,然后根据这些权重对特征进行重标定,从而提升有用的特征并抑制无关的特征。
2024-06-16 18:03:55 1399
原创 多粒度特征融合(细粒度图像分类)
本周阅读了 Two-stage fine-grained image classification model based onmulti-granularity feature fusion 这篇 sci 2区论文,本文提出了一种基于Transformer多粒度特征融合的细粒度图像分类模型。该方法采用目前比较先进的Swin-Transformer模型来提取特征并选择不同分辨率的特征图。通过多粒度特征融合模块,融合不同粒度的特征。并利用注意力机制增强通道和空间二维上的特征。
2024-06-09 16:39:57 1032
原创 AKEN(细粒度图像分类)
本周阅读了 Attentional Kernel Encoding Networks forFine-Grained Visual Categorization 这篇文章,在本文中,作者提出了用于细粒度视觉分类的注意力核编码网络(AKEN)。AKEN 聚合来自 ConvNets 最后一个卷积层的特征图,以获得整体特征表示。通过傅里叶嵌入,它对纵向和横向的特征进行编码,很大程度上保留了空间布局信息。
2024-05-18 20:09:32 1081
原创 VMamba模型
本周阅读了 VMamba: Visual State Space ModelVMamba 这篇文献,VMamba是一种通用视觉主干,具有基于 SSM 的块,用于高效的视觉表示学习。VMamba 在降低注意力计算复杂性方面的有效性很大程度上归功于 S6 模型中存在的选择性扫描机制,也称为选择性 SSM。
2024-05-12 16:57:14 1989
原创 细粒度图像分类论文研读
基于细粒度图像分类的视觉语义嵌入模型是一种深度学习架构,旨在将图像的视觉内容映射到一个高维的语义空间中,其中图像的语义特征被编码为向量表示。这种模型特别适用于细粒度图像分类任务,如不同品种的鸟类或花卉识别,它通过学习图像中的细节特征和全局上下文信息,能够捕捉到图像中微小但具有区分性的视觉差异。这些嵌入向量不仅能够反映图像的视觉属性,还能够表达图像的语义信息,从而使得模型在面对类别间相似性高的挑战时,仍能实现高精度的分类效果。本文将详细介绍基于细粒度图像分类的视觉语义嵌入模型。
2024-05-05 15:27:41 1111
原创 WS-BAN模型(细粒度图像分类)
本周阅读了 Weakly Supervised Bilinear Attention Network for Fine-Grained Visual Classification这篇文献,作者提出了一种新颖的判别部分定位和局部特征提取方法来解决细粒度视觉分类问题, 通过双线性注意力池,判别部分特征矩阵来表示对象。,接下来是弱监督注意力学习,包括注意力正则化和注意力丢失,作者引导每个注意力图关注对象的一个部分并鼓励多重注意力。最终该方法在细粒度视觉分类数据集中实现了最先进的性能。
2024-04-28 17:38:59 1074
原创 Res2Net网络
Res2Net是一种神经网络架构,旨在改善类似ResNet的网络在计算机视觉任务中的性能,特别是在图像分类方面,Res2Net的关键思想是改变网络中特征聚合的方式,从而实现更有效的不同部分之间的信息交换,在标准的ResNet块中,特征在空间维度(高度和宽度)和通道维度上独立地聚合。相比之下,Res2Net引入了一种新的特征图分割操作,沿着通道维度将输入特征图分成多个组。这样可以进行跨组特征聚合,使网络能够捕获更丰富的空间信息。本文将详细介绍Res2Net。在多个尺度上表示特征对于许多视觉任务非常重要。
2024-04-14 20:50:36 3147 1
原创 COTR 网络(图像匹配)
本周学习了图像匹配方向的COTR网络模型,COTR通过使用Transformer来捕获全局和局部先验,该网络可以在给定两幅图像和一幅图像中的查询点的情况下,在另一幅图像中找到其对应点,该网络可以选择只查询感兴趣的点并检索稀疏对应关系,或者查询图像中的所有点并获得密集映射。在推理阶段,通过逐步缩小区域的方式,应用对应网络,形成一种多尺度管线,能够提供高度精确的对应关系。本文将详细介绍COTR网络模型。作者在本文提出了一种基于深度神经网络的COTR网络。
2024-04-07 16:29:51 914
原创 AR-Net网络(图像篡改检测)
AR-Net使用自适应注意力机制来融合位置和通道维度的特征,使网络能够充分利用不同维度的被篡改特征,此外,AR-Net 改进了预测掩模,并在 像素级别定位了被篡改的区域和相应的真实区域,在 CASIAII、COVERAGE 和 CoMoFoD 数据集上进行评估的大量实验表明,AR-Net 的性能优于最先进的算法,并且可以在像素级别定位被篡改的区域和相应的真实区域。本文将详细分析AR-Net网络架构在复制移动伪造中,篡改区域和真实区域的照明和对比度高度一致,
2024-03-31 19:58:18 1957 2
原创 文献阅读笔记(Transformer)
Transformer是一种流行的神经网络架构,用于处理自然语言处理(NLP)任务。它由"Attention is All You Need"一文中提出,相对于传统的循环神经网络(RNN)模型,Transformer采用了自注意力机制(self-attention),使得模型能够更好地捕捉输入序列中各个位置之间的关系。它通过同时考虑输入序列中的所有位置信息,而无需像RNN那样逐个位置地进行处理,大大提高了训练和推理的效率。Transformer的成功部分得益于其并行计算的能力和深层网络的表示能力。
2024-03-24 11:58:23 1063
原创 文献阅读笔记:SAM大模型(Segment Anything)
本周学习了SAM大模型,该大模型用于图像分割的新任务、模型和数据集。该模型的设计和训练具有快速性,因此它可以将零样本转移到新的图像分布和任务。通过评估SAM在众多任务上的能力,该大模型的零样本性能与之前完全监督的结果相媲美甚至优于之前的结果。本文将详细介绍SAM模型。作者在这篇文献中介绍了SAM大模型:该大模型用于图像分割的新任务、模型和数据集。作者构建了迄今为止最大的分割数据集,在 1100 万张许可且尊重隐私的图像上包含超过 10 亿个mask。该模型的设计和训练具有快速性,因此它可以将零样本。
2024-03-17 21:31:21 5647 1
原创 文献阅读笔记:全卷积神经网络
本周学习了全卷积神经网络,全卷积神经网络(Fully Convolutional Network,FCN)是深度学习在语义分割领域的开山之作,其特点在于将传统卷积神经网络(CNN)中的全连接层替换为卷积层,使得网络的输出为热力图而非类别,这种设计使得FCN可以接受任意尺寸的输入图像,并对其进行像素级的分类,从而解决了语义级别的图像分割问题,FCN的主要优势在于其灵活性和高效性。由于去除了全连接层,FCN可以适应任意尺寸的输入,这在处理不同尺寸的图像时非常有用。本文将详细介绍全卷积神经网络。
2024-03-10 19:42:11 1319
原创 第三十周:文献阅读
深度可分离卷积是一种卷积神经网络(CNN)中的卷积操作,其设计目的是在保持性能的同时减少参数量和计算复杂度。这种卷积操作通常分为两个步骤:深度卷积(Depthwise Convolution)和逐点卷积(Pointwise Convolution)。由于深度卷积只在每个通道上进行卷积,而不是在所有通道上同时进行,因此参数量大大减少。这有助于减小模型大小,提高模型在资源有限的环境中的可用性。
2024-03-03 19:15:50 379
原创 第二十九周:文献阅读笔记(DenseNet)+ pytorch学习
本周阅读了由黄高、刘壮和Laurens van der Maaten在他们2017年的论文 Densely Connected Convolutional Networks 这篇文献,DenseNet的关键思想是以前馈方式密集连接各层。在传统CNN中,信息顺序地从一层传递到下一层,每一层仅从前一层接收输入。而在DenseNet中,每一层与所有其他层都密集连接。这种密集连接有助于促进特征的重复使用,鼓励特征的传播,并在训练期间实现更好的梯度流。本文将详细介绍DenseNet网络架构。
2024-01-28 16:23:57 844
原创 第二十九周:文献阅读笔记(ResMLP)+ pytorch学习(Resnet代码实现)
MLP是多层感知机是一种常用的神经网络模型。MLP可以用于分类、回归和聚类等任务,并且具有良好的泛化能力,MLP由多层感知器组成,感知器是一种线性分类器,可以学习并识别简单的模式,通过将多个感知器组合在一起,MLP可以学习并识别更复杂的模式。而本文介绍的ResMLP(Residual MLP)是一种对MLP的改进模型,主要针对MLP的缺点进行了优化,通过引入残差连接,使得模型在训练过程中更容易跳出局部最小值,提高了模型的收敛速度和稳定性。
2024-01-21 16:11:49 1591
原创 第二十八周:文献阅读笔记(弱监督学习)+ pytorch学习
弱监督学习是一种机器学习方法,其训练过程中使用的标签信息相对不完整或不精确。与传统的监督学习不同,弱监督学习可以利用不完全的标记信息来进行模型训练,这些信息可能是不精确的、嘈杂的或者只有部分标注的数据。本文将通过 A brief introduction to weakly supervised learning 这篇文献,了解弱监督学习。监督学习技术通过从大量训练示例中学习来构建预测模型,其中每个训练示例都有一个指示其真实输出的标签。
2024-01-14 17:24:49 1565
原创 第二十七周:文献阅读笔记
DenseNet(密集连接网络)是一种深度学习神经网络架构,由Kaiming He等人在2017年提出。相较于传统的卷积神经网络(CNN),DenseNet具有更加密集的连接方式,每一层都与其前面所有层直接相连。这种结构有助于缓解梯度消失问题,并且可以促进信息和梯度的流动,有助于提升训练深度网络的效果。DenseNet在一些图像识别、物体检测和图像分割等领域取得了很好的效果。本文将详细介绍DenseNet网络,让我们来深入了解。
2024-01-07 15:15:05 1067
原创 第二十六周:学习笔记
全卷积神经网络(Fully Convolutional Network,FCN)是一种用于图像分割和语义分割任务的深度学习模型。与传统的卷积神经网络(Convolutional Neural Networks,CNN)不同,FCN中的全卷积层(Fully Convolutional Layer)可以接受任意大小的输入,并输出相应大小的特征图,而不仅仅是对固定大小的输入进行分类。FCN通常由卷积层和转置卷积层组成,以实现特征提取和上采样。
2023-12-31 15:14:07 1236
原创 第二十五周:文献阅读笔记(swin transformer)
Swin Transformer(Swin-Transformer)是一种基于注意力机制的深度学习模型,用于解决计算机视觉领域的任务,如图像分类、目标检测和语义分割等。与传统的Transformer架构不同,Swin Transformer采用了跨尺度的分层注意力机制,使得模型能够更好地捕获图像中不同尺度的信息。这一结构使得Swin Transformer在处理大尺度图像时表现出色,并在多个计算机视觉任务上取得了竞赛的优异成绩。Swin Transformer的出现为图像处理领域带来了新的思路和性能突破。
2023-12-24 19:45:04 974
原创 第二十四周:文献阅读笔记(VIT)
VIT是一种基于Transformer模型的视觉处理方法。传统上,卷积神经网络(CNN)在计算机视觉任务中表现出色,但Transformer在自然语言处理任务中取得了很大的成功,VIT的目标是将Transformer模型应用于计算机视觉领域,以处理图像数据,其使用了一种将图像数据转换为序列数据的方法。它将输入的图像分割成一系列的图像块,然后将这些图像块展平为一维向量序列。随后,VIT引入了Transformer的编码器部分,来对这个一维序列数据进行处理。本文我们将详细介绍VIT。
2023-12-17 19:57:17 937
原创 第二十三周:深度学习基础和pytorch学习
TensorBoard是TensorFlow开发团队提供的一个可视化工具,用于帮助开发人员理解和调试TensorFlow计算图模型。TensorBoard可以显示训练过程中的实时图像,可视化网络模型结构、参数分布、训练和测试指标等。本文将介绍如何使用TensorBoard,以及对于数据集的基本处理,Dataset、DataLoader的使用。
2023-12-10 13:07:43 924
原创 第二十二周:深度学习基础
在本文中,我们将探讨卷积神经网络中常用的两个核心概念:卷积和1x1卷积。卷积是一种有效的操作,可以提取输入图像的局部特征,通过卷积层的堆叠,网络可以学习到更复杂的特征表示。我们将详细介绍卷积的原理和常见的卷积操作,以及如何选择合适的卷积核大小和步幅。另外,我们将了解迁移学习。迁移学习是指将已经训练好的模型应用于新任务或新数据集,以加速训练过程并提高模型性能。我们将介绍迁移学习的基本原理,并提供实际案例和实现方法,帮助读者更好地理解和应用迁移学习技术。最后,将介绍数据扩充在深度学习中的重要性和应用。
2023-12-03 15:58:39 1024
原创 第二十一周:机器学习和深度学习基础回顾
本周复习回顾了Transformer、GAN、RMSProp优化算法,Transformer 模型由 Vaswani 等人在 2017 年提出,引发了自然语言处理领域的一系列重要突破,相比于传统的循环神经网络(RNN)和卷积神经网络(CNN),Transformer 模型使用了自注意力机制(self-attention mechanism),能够更好地捕捉文本中的长距离依赖关系。Transformer 模型的基本组成部分是多层的自注意力层和前馈神经网络。
2023-11-26 16:25:32 1031
原创 第二十周:文献阅读笔记
上周我们了解到了AlexNet 网络,深度神经网络是一种特征递进式得学习算法,尽管深度神经网络在特征提取上表现得十分优秀,但是在深度卷积神经网络、RNN网络中,随着梯度得不断更新,会出现梯度消失和梯度爆炸的现象,而本周学习的 ResNet 网络能够有效的解决此问题,接下来我们将通过 ResNet 经典论文来进一步了解 ResNet 的网络架构以及原理。深层神经网络尽管在图像特征提取上表现的很优秀,但是训练过程中极易出现网络退化现象,因此更深层次的神经网络更难训练。
2023-11-19 15:00:11 136
原创 第十九周:文献阅读笔记
本周阅读了AlexNet 经典论文,AlexNet是一种深度卷积神经网络,由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton在2012年ImageNet图像分类竞赛中提出。其基本结构包括输入层、多个卷积层和池化层、全连接层以及输出层。其中,卷积层和池化层是交替进行的,卷积层用于提取图像特征,池化层则用于下采样,减少特征图的大小并增加模型的稳定性。全连接层用于将提取的特征与先验知识相结合,输出层则将网络输出转化为概率值,用于预测图像的类别。
2023-11-12 20:42:31 193 1
原创 第十八周:CNN基础回顾
CNN 的核心思想是通过卷积层来捕捉图像的局部特征,并通过池化层进行空间降采样,从而减少计算量和参数。全连接层则用于将提取到的特征映射到对应的类别或标签。对于大规模的图像数据集,CNN 可以通过反向传播算法进行训练,自动学习到适用于不同任务的特征表示。本文将介绍了CNN在不同方面的改进,包括卷积层、池化层、激活函数、正则化,以此确保读者进一步加深对CNN网络的理解。
2023-11-05 17:14:31 259 1
原创 第十七周:机器学习基础回顾
本周回顾了机器学习基础,以及了解了Transformer在计算机视觉领域的应用。二分类是计算机视觉中常见的任务之一,通过将图像划分为两个类别,我们可以实现诸如图像分类、目标检测等任务。借助深度学习的方法,我们能够有效地训练分类模型,以进行高精度的图像分类。随机初始化是深度学习中的一个重要步骤。通过在网络中引入随机性,我们能够更好地突破局部最优解,从而提高模型的泛化能力,并避免陷入过拟合的问题。正则化是提高模型泛化能力的一种常用方法。
2023-10-29 18:20:41 140 1
原创 第十六周:Transformer架构编码器代码实现(pytorch)
在自然语言处理领域,Transformer 模型是一种非常流行的深度学习模型。其核心部分是 Transformer 编码器,它通过自注意力机制和前馈神经网络实现了对输入序列的编码。本文将介绍 Transformer 编码器的核心实现代码。通过实现 Transformer 编码器的核心部分代码,我们可以深入理解 Transformer 模型的原理和实现细节。
2023-10-22 17:46:17 290 1
原创 第十四周:pytorch入门(手写数字辨识)
本周我使用PyTorch框架成功实现了手写数字识别模型。手写数字识别是计算机视觉领域的重要任务之一,具有广泛的应用前景。在本文中,我将介绍如何使用PyTorch构建一个简单的神经网络模型来识别手写数字。首先,我将解释数据集的准备过程,然后详细讲解模型的架构和参数设置。接下来,我会介绍训练过程,包括损失函数的选择和优化器的使用。最后,我会展示一些测试结果。通过这个项目,可以了解如何使用PyTorch构建和训练一个简单但有效的手写数字识别模型以及对于pytorch中的数据加载、迭代数据集。
2023-10-08 22:11:00 766 1
原创 第十三周:深度学习基础
本文主要介绍了双向RNN模型原理、词汇表特征。其中双向RNN模型是一种深度学习模型,它不仅可以从输入数据中学习到输出的映射关系,还可以从输出数据中学习到输入的映射关系,传统的神经网络只能在一个方向上进行信息传递,而双向神经网络可以通过引入反向传播的方式,从输出端反向传递信息到输入端,以进一步优化模型的性能,相对于我们上周了解的GRU、LSTM而言,双向神经网络能够更好地处理长期依赖关系,拥有更强的建模能力,虽然双向神经网络具有这些优点,但在某些情况下可能会增加计算量和模型复杂度。
2023-10-01 00:07:33 107
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人