![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
分割
文章平均质量分 85
Chaoy6565
一只小白!
展开
-
学习记录——BiFormer
作为视觉转换器的核心组成部分,注意力是捕捉长期依赖关系的有力工具。然而,这样的能力是有代价的:当计算跨所有空间位置的成对令牌交互时,它会产生巨大的计算负担和沉重的内存占用。一系列的作品试图通过引入手工制作和内容不可知的注意力稀疏性来缓解这个问题,例如将注意力操作限制在局部窗口,轴向条纹或扩展窗口内。与这些方法相比,我们提出了一种新的动态稀疏注意,通过双层路由实现更灵活的内容感知计算分配。原创 2023-12-30 11:45:23 · 1059 阅读 · 0 评论 -
学习记录——BiSeNet V2
在语义分割中,低级细节和高级语义都是必不可少的。然而,为了加快模型推理的速度,目前的方法几乎总是牺牲底层的细节,这导致精度大大降低。我们建议将这些空间细节和范畴语义分开处理,以实现高精度和高效率的实时语义分割。为此,我们提出了一种高效的架构,在速度和精度之间进行了良好的权衡,称为双边分割网络(BiSeNet V2)。该架构包括:(i)一个细节分支,具有宽通道和浅层,用于捕获低级细节并生成高分辨率特征表示;(ii)语义分支,通道窄,层次深,获取高级语义上下文。原创 2023-12-29 17:37:34 · 1008 阅读 · 0 评论 -
学习记录——StyleGAN2+SA-UNet
IterNet网络利用U-Net,通过将多个小U-Net连接起来,取得了优势。IterNet的工作方式是首先生成粗糙的分割地图,然后通过在小区域上应用小型U-Net来改进分割地图。SA-UNet的主要优势在于它结合了U-Net、SD-UNet和空间注意力块。SA-UNet的架构与U-Net非常相似,但SA-UNet的参数更少,因此训练过程更短,过拟合问题更不容易发生。在SA-UNet中,Dropout被DropBlock取代,DropBlock会丢弃感兴趣区域,而不是随机丢弃权重。原创 2023-10-08 21:41:45 · 325 阅读 · 0 评论 -
学习记录——MC-Net
2022 用于医学CT图像分割的多尺度上下文注意网络编码器-解码器卷积神经网络在编码过程中丢失了细节,从而限制了准确性的提高。为了解决这个问题,本文提出了一种(MC-Net)。其关键思想是探索用于医学。通过引入多尺度和上下文注意力模块,。为了进一步提高分割准确性,本文根据像素是否属于目标赋予它们不同的权重。原创 2023-09-11 11:36:22 · 266 阅读 · 0 评论 -
学习记录——VAN LKA、LSKA
2022 大核注意力机制LKA在本文中,提出了一种新的大核注意力large kernal attention(LKA)模型, LKA吸收了卷积和自注意的优点,包括局部结构信息、长程依赖性和适应性。同时,避免了忽略在通道维度上的适应性等缺点。原创 2023-09-10 21:35:01 · 1046 阅读 · 0 评论 -
学习记录——关UNet、特征图add、cat、相乘、三个 注意力
通俗的来讲就是在网络的高层(就是U型的上部分),获取了图形的细节信息(因为这时候图片很大,很多细节可以得以保留)。特征图拼接的优点是能够保留两个特征图的所有信息,适用于需要同时考虑不同特征的任务。通过add操作,会得到新的特征,这个新的特征可以反映原始特征的一些特性,但是原始特征的一些信息也会在这个过程中损失。这部分有利于将下采样的各个阶段的信息在上采样过程中进行整合,就是在上采样的过程中,结合了各个层次的结构信息。特征图相乘的优点是可以增强共同出现的特征并减弱不重要的特征,适用于需要突出共同特征的任务。原创 2023-09-10 19:53:18 · 552 阅读 · 0 评论 -
学习记录——Efficient MOdel轻量化主干模型(iRMB、EMO)、CATnet
结合 CNN 和 Transformer 的倒残差移动模块设计ICCV-2023实例化了一个面向移动端应用的iRMB基础模块(Inverted Residual Mobile Block,倒残差移动模块),其,并进一步设计了仅由iRMB构成的EMO, Efficient MOdel轻量化主干模型。结合CNN/Transformer结构的优点来构建类似IRB的轻量级基础模块。原创 2023-08-31 09:37:57 · 908 阅读 · 1 评论 -
学习记录——FeatEnHancer
一种适用于任意低光照任务增强方法ICCV 2023 提出了FeatEnHancer,一种用于低光照视觉任务的增强型多尺度层次特征的新方法。提议的解决方案重点增强相关特征,通过提供强大的语义表示,使其优于现有的低光照图像增强方法。该方法不仅改进了单个特征的质量,而且还有效地结合了来自不同尺度的特征,确保在诸如物体检测和分割等任务上达到更好的性能。 FeatEnHancer的模块,该模块借鉴了多头注意力机制,层次性地结合多尺度特征。这种方法确保了网络能够提取更具代表性和判别行的增强特征。具体地,该方法着眼原创 2023-08-25 19:18:38 · 1004 阅读 · 1 评论 -
学习记录——FLatten Transformer
ICCV 2023聚焦式线性注意力模块。原创 2023-08-18 10:20:12 · 707 阅读 · 0 评论 -
学习记录——SegNetr、EGE-UNet、R2AU-Net、PHNet、CFNet
GAB。原创 2023-08-02 10:15:49 · 775 阅读 · 0 评论 -
学习记录——TransNormerLLM、SRFormer、PLG-ViT、EfficientViT
2023Transformer 存在局限。首要的一点,它们有着对于序列长度的二次时间复杂度,这会限制它们的可扩展性并拖累训练和推理阶段的计算资源和时间效率。TransNormerLLM 是首个基于线性注意力的 LLM。其中值得格外注意的一项改进是将 TransNormer 的,从而可提升全局的互动性能。研究者还。原创 2023-07-31 22:21:14 · 749 阅读 · 1 评论 -
学习记录——Octave Convolution、LSK
自然世界中的图像存在高低频,卷积层的输出特征图以及输入通道,也都存在高、低频分量。低频分量支撑的是整体轮廓,高频分量则关注细节,显然,低频分量是存在冗余的,在编码过程中可以节省。下图直观地展示了八度卷积的卷积核,可以看出四个部分共同组成了大小为 k*k 的卷积核。其中,in和out分别表示输入和输出特征图的相关属性,在这篇文章中,输入的低频占比、通道数量都和输出的一致。八度卷积的思想是为处理输入数据提供两个单独的路径:一个用于高频(细粒度)信息,另一个用于低频(粗粒度)信息。原创 2023-07-31 21:19:23 · 315 阅读 · 0 评论 -
学习记录——SCConv、DSConv
GAB。原创 2023-07-24 20:04:22 · 2267 阅读 · 0 评论 -
学习记录——SAM、SPM
能分割一切的模型 2023 SAM是一个提示型模型,其在1100万张图像上训练了超过10亿个掩码,实现了强大的零样本泛化。许多研究人员认为「这是 CV 的 GPT-3 时刻,因为 SAM 已经学会了物体是什么的一般概念,甚至是未知的物体、不熟悉的场景(如水下、细胞显微镜)和模糊的情况」,并展示了作为 CV 基本模型的巨大潜力。 2023年4月6号,Meta AI公开了Segment Anything Model(SAM),使用了有史以来最大的分割数据集Segment Anything 1-Bill原创 2023-07-18 22:20:58 · 986 阅读 · 0 评论 -
学习记录——SpectFormer、DilateFormer、ShadowFormer、MISSFormer
SpectFormer结合了光谱注意力和多头注意力。原创 2023-07-18 22:20:32 · 1608 阅读 · 0 评论 -
学习记录——语义分割、实时分割和全景分割的区别、几个Norm的区别、Dice 、BCE
语义分割(Semantic Segmentation):语义分割是将图像分割成多个语义区域的任务,即将图像中的每个像素分配给特定的语义类别。每个像素都被标记为属于不同的类别,例如人、汽车、树等。语义分割关注的是像素级别的分类,目标是理解图像中不同物体的位置和边界。实时分割(Real-Time Segmentation):实时分割是指能够在实时或接近实时的速度下进行图像分割的任务。实时分割通常要求在处理连续的视频帧时保持高帧率,以实现实时的交互或应用。原创 2023-07-18 11:05:19 · 677 阅读 · 0 评论 -
学习记录——BiSeNetV1、BiSeNetV2、BiSeNetV3、PIDNet、CMNeXt
Spatial Path: 用了三层stride为 2 的卷积,卷积+BN+RELU模块。最后提取了相当于原图像 1/8 的输出特征图。由于它利用了,所以可以,并生成高分辨率特征图。Contex Path: 上下文路径的backbone可以替换成任意的轻量网络,比如 Xception,ShuffleNet 系列,MobileNet 系列。可以看到,为了准确率考虑,Context Path 这边使用了类似 U-shape 结构的设计,最终进行了32倍下采样。原创 2023-07-12 20:52:07 · 840 阅读 · 0 评论 -
学习记录——Transformer、ViT、Swin-Transformer、SegFormer、TopFormer、Seaformer
在原论文中,作者说参考BERT,在刚刚得到的一堆tokens中插入一个专门用于分类的[class]token,这个[class]token是一个可训练的参数,数据格式和其他token一样都是一个向量,以ViT-B/16为例,就是一个长度为768的向量,与之前从图片中生成的tokens拼接在一起,Cat([1, 768], [196, 768]) -> [197, 768]。如上面的框架图所示,该网络先对图像进行1/2、1/4和1/8的下采样,再分别用两个分支进行处理,红色的是上下文分支,蓝色的是空间分支。原创 2023-07-12 15:36:51 · 1284 阅读 · 0 评论