![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
图像处理+python+深度学习
文章平均质量分 84
图像处理+python,深度学习
wuling129
豫北某不著名学堂的修理地球/灵魂魔法师,门外汉兼乞丐一枚!工作极度平凡,家里地位边缘,丑男一个!鉴定完毕!
展开
-
[转载]Open-Set Domain Adaptation for Semantic Segmentation
无监督域适应(Unsupervised domain adaptation,UDA)用于语义分割旨在将像素级的知识从带标签的源域传递到未带标签的目标域。然而,当前的UDA方法通常假设源域和目标域之间有一个共享的标签空间,这在目标域可能涌现出新类别的现实世界中限制了它们的应用性。在本文中,作者首次引入了针对语义分割的开放集域适应(Open-Set Domain Adaptation for Semantic Segmentation,OSDA-SS),其中目标域包含未知类别。转载 2024-07-09 10:30:15 · 3 阅读 · 0 评论 -
【转载】GitHub:数据增广最全资料集锦
CVer 陆续分享了GitHub上优质的AI/CV资料集锦,如图像分类、目标检测等,之前的分享详见文末。很多同学反映这个系列很棒,因此系列将继续更新。本文将分享的内容是:转载 2024-06-24 20:56:39 · 20 阅读 · 0 评论 -
[转载]归一化 总结和代码实现
数据归一化是一种预处理步骤,就是想要将不同尺度和数值范围的数据转换到统一的尺度上。这个过程通常涉及对原始数据进行调整,使其符合特定的标准,如使数据的范围落在0到1之间或具有标准正态分布的特性。归一化的主要目的是提高算法的性能和精度,特别是在涉及多个特征且这些特征的度量单位或数值范围不同的情况下。下面咱们从代码层面,说说几种不同的归一化方法,以及归一化带来的效果。转载 2024-06-23 10:24:27 · 41 阅读 · 0 评论 -
Investigating the effectiveness of data augmentation from similarity and diversity: An empirical stu
数据扩充已成为一种广泛采用的技术,用于提高深度神经网络的泛化能力。然而,仅基于模型训练来评估数据增强方法的有效性在计算上要求很高,并且缺乏可解释性。此外,缺乏定量标准阻碍了我们对数据增强方法的潜在机制和新技术的发展的理解。。所提出的相似性度量描述了原始数据集和增强数据集之间的总体相似性,而多样性度量则根据类别量化了原始数据集中和增强数据集中固有复杂性的差异。重要的是,我们提出的措施与模型训练无关,确保了计算的效率。原创 2024-05-28 08:11:55 · 1031 阅读 · 0 评论 -
【转载】AdaAugment: A Tuning-Free and Adaptive Approach to Enhance Data Augmentation
AdaAugment的主要目标是通过对DA(数据增强)强度在训练过程中的自适应调整,来减轻欠拟合和过拟合的风险。这种自适应调整可以形式化为基于每个样本的决定性问题,从而无需手动制定度量标准。图2展示了AdaAugment的双重模型框架:在训练目标网络的同时,引入了一个策略网络,以动态优化增强过程中DA操作的幅度。这个双重模型框架联合优化两个网络,无需单独重新训练目标网络,并根据目标网络的训练进度实现增强强度的实时调整。具体来说,策略网络在当前训练周期的样本 Level 上优化这些幅度。转载 2024-05-27 17:10:53 · 46 阅读 · 0 评论 -
【转】一文了解Numpy核心语法和代码梳理
Numpy是一个用python实现的科学计算的扩展程序库,包括一个强大的N维数组对象Array;比较成熟的(广播)函数库;用于整合C/C++和Fortran代码的工具包;实用的线性代数、傅里叶变换和随机数生成函数。numpy和稀疏矩阵运算包scipy配合使用更加方便。矩阵数据类型、矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。转载 2024-05-27 11:14:40 · 29 阅读 · 0 评论 -
【论文解读】OpenMix+: Revisiting Data Augmentation for Open Set Recognition
本文指出结构风险与开放空间风险的平衡是开集识别的关键,并将其转化为开集结构风险。这为闭集识别和开集识别之间的一般关系提供了一个新的视角,而不是一般的直觉,即一个好的闭集分类器总是有利于开集识别。具体地说,我们从理论和实验上证明了最近的基于混合的数据增强方法是激进的闭集正则化方法,它以牺牲开放空间风险为代价降低了结构风险。此外,我们还发现,现有的用于降低开放空间风险的负数据扩充也忽略了结构风险和开放空间风险之间的权衡问题,从而限制了它们的性能。提出了一种高效的负数据扩充策略self-mix和相应的OpenMi原创 2024-05-22 22:01:33 · 673 阅读 · 0 评论 -
[转]万字长文超全总结Pytorch核心操作!
创建自定义神经网络层是PyTorch中常见的做法。# 创建线性层# 创建ReLU激活函数# 创建输出线性层(如果需要的话,例如对于分类任务)# 应用线性变换# 应用ReLU激活函数# 如果需要,可以添加更多的操作,例如另一个线性层return x其中,CustomLayer类继承自nn.Module,并在__init__方法中定义了两个线性层(一个输入层和一个输出层)以及一个ReLU激活函数。转载 2024-05-14 22:25:31 · 27 阅读 · 0 评论 -
[转]17 种加速 PyTorch 训练的方法
学习率 schedule 的选择对模型的收敛速度和泛化能力有很大的影响。Leslie N. Smith 等人在论文《Cyclical Learning Rates for Training Neural Networks》、《Super-Convergence: Very Fast Training of Neural Networks Using Large Learning Rates 》中提出了周期性(Cyclical)学习率以及 1Cycle 学习率 schedule。转载 2024-04-23 09:39:41 · 107 阅读 · 1 评论 -
[转]Batch Size对网络模型训练的影响
theta 代表模型参数m 是训练数据样本的数量i 的每个值代表一个单一的训练数据样本J_i 表示应用于单个训练样本的损失函数通常,这是使用梯度下降来完成的,它计算损失函数相对于参数的梯度,并在该方向上迈出一步。随机梯度下降计算训练数据子集 B_k 上的梯度,而不是整个训练数据集。B_k 是从训练数据集中采样的一批,其大小可以从 1 到 m(训练数据点的总数)。这通常称为批量大小为 |B_k| 的小批量训练。转载 2024-04-22 17:19:42 · 156 阅读 · 0 评论 -
深度学习应用篇-计算机视觉-图像增广[1]:数据增广、图像混叠、图像剪裁类变化类等详解
在图像分类任务中,图像数据的增广是一种常用的正则化方法,主要用于增加训练数据集,让数据集尽可能的多样化,使得训练的模型具有更强的泛化能力,常用于数据量不足或者模型参数较多的场景。而对归一后之后的数据进行操作,裁剪的区域会是纯黑或纯白。在 RandAugment 中,作者提出了一种随机增广的方式,不再像 AutoAugment 中那样使用特定的概率确定是否使用某种子策略,而是所有的子策略都会以同样的概率被选择到,论文中的实验也表明这种数据增广方式即使在大模型的训练中也具有很好的效果。结果如 图13 所示。转载 2024-04-21 17:51:13 · 145 阅读 · 0 评论 -
【转载】神经网络常见评价指标超详细介绍(ROC曲线、AUC指标、AUROC)
考虑标签label和预测值pred,其数值如下:其散点图如下:怎样才能通过概率得到预测的类别呢?通常我们需要设置一个阈值,这里以0.5为例,当概率大于等于0.5时,分类器认为这个为真实类别;当概率小于0.5时,分类器认为这个不是真实类别,如下图所示:我们可以根据这个图得到当阈值为0.5时的混淆矩阵:实际上阈值可以取[0,1)之间的任意值,理论上可以取无数个混淆矩阵,而把所有的混淆矩阵表示在同一个二维空间中的方法称为ROC曲线。转载 2024-04-12 21:18:33 · 642 阅读 · 0 评论 -
【转载】为什么要做特征归一化/标准化?
原文链接:为什么要做特征的归一化/标准化?Feature scaling,常见的提法有“特征归一化”、“标准化”,是数据预处理中的重要技术,有时甚至决定了算法能不能work以及work得好不好。谈到feature scaling的必要性,最常用的2个例子可能是:特征间的单位(尺度)可能不同,比如身高和体重,比如摄氏度和华氏度,比如房屋面积和房间数,一个特征的变化范围可能是[1000, 10000],另一个特征的变化范围可能是[−0.1,0.2],在进行距离有关的计算时,单位的不同会导致计算结果的不同,尺度大转载 2024-04-02 21:20:01 · 40 阅读 · 0 评论 -
[转载]STN:Spatial Transformer Networks 空间变换网络
卷积神经网络缺乏对输入数据保持空间不变的能力,导致模型性能下降。虽然CNN中引入池化层有助于满足这一特性,但这种空间不变性仅能在池化矩阵的范围内才具有平移不变性或者在卷积的深层层次上实现。在这篇文章中,作者提出了一种新的可学习模块,STN。这个可微模块可以插入现有的卷积结构中,使神经网络能够根据特征图像本身,主动地对特征图像进行空间变换,而不需要任何额外的训练监督或优化过程。转载 2024-04-02 10:58:24 · 111 阅读 · 0 评论 -
【转载】OpenCV ECC图像对齐实现与代码演示(Python / C++源码)
作者博客地址:https://blog.csdn.net/LuohenYJ 已关注。原创 2024-04-01 15:44:38 · 727 阅读 · 0 评论 -
【转载】标注工具Labelimg的安装与使用
我们知道,图片标注主要是用来创建自己的数据集,方便进行深度学习训练。本篇博客将推荐一款十分好用的图片标注工具LabelImg,重点介绍其安装以及使用的过程。如果想简便,请直接下载打包版本(下载地址见开头),无需编译,直接打开就能用!这款工具是全图形界面,用Python和Qt写的,最牛的是其标注信息可以直接转化成为XML文件,与PASCAL VOC以及ImageNet用的XML是一样的。转载 2024-03-13 20:00:16 · 76 阅读 · 0 评论 -
[转载]没有思考过 Embedding,不足以谈 AI
这篇文章把我关于语言模型中embedding的理解都介绍完了。但embedding 还不止这些。图像可以有embedding,句子和段落也可以有 embedding —— 本质都是通过一组数来表达意义。段落的 embedding 可以作为基于语义搜索的高效索引,AI 绘画技术的背后,有着这两种 embedding 的互动 —— 未来如果有一个大一统的多模态模型,embedding 必然是其中的基石和桥梁。转载 2024-03-06 11:56:12 · 50 阅读 · 0 评论 -
YOLOV8介绍
有具体部署和训练实现代码(有非常好的参考和启示价值)原创 2024-03-01 20:53:52 · 2994 阅读 · 1 评论 -
YOLOv9简介
YOLO v9转载 2024-02-29 11:56:10 · 2821 阅读 · 0 评论 -
[转载]ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy
作者对于 ConvNet 和 Vision Transformer 架构在 ImageNet 精度之外的模型行为进行了深入分析,每个架构都涵盖了有监督训练范式和 CLIP 训练范式。尽管作者选择的模型具有相似的 ImageNet 精度和计算要求,但本文发现它们在许多其他的方面有所不同:错误类型 (types of mistakes)输出校准 (output calibration)迁移性能 (transferability)特征方差 (feature invariance)转载 2024-02-27 09:50:46 · 71 阅读 · 0 评论 -
[转载]扩散模型的原理及实现(Pytorch)
本文讲述扩散模型的发展、原理及代码实践。转载 2024-02-25 10:16:19 · 261 阅读 · 0 评论 -
[转载]谈谈目标检测中,正负样本背后的本质问题
本篇不讲任何正负样本定义的方法以及各种采样的方法,只从实际训练角度结合量产经验思考正负样本背后的本质问题。转载 2024-02-22 10:14:58 · 70 阅读 · 0 评论 -
DHFormer: A Vision Transformer-Based Attention Module for Image Dehazing
在这篇论文中,提出了一种使用残差学习和视觉Transformer在注意力模块中结合的方法。该方法本质上包含两个网络:在第一个网络中,网络将雾图像的比例与近似传输矩阵估计残差图。第二个网络将这个残差图像作为输入,通过卷积层处理后,再将其叠加到生成的特征图上。然后通过全局上下文和深度感知Transformer编码器获得通道注意力。注意力模块在生成最终无雾图像之前推理空间注意力图。转载 2024-01-31 14:08:53 · 132 阅读 · 0 评论 -
Shift-ConvNets: Small Convolutional Kernel with Large Kernel Effects
最近的研究表明,视觉 Transformer (ViTs)出色的性能得益于大的感受野。因此,大的卷积核设计成为使卷积神经网络(CNNs)再次强大的理想解决方案。然而,典型的大的卷积核实际上是硬件不友好的运算符,导致各种硬件平台的兼容性降低。因此,简单地扩大卷积核大小是不明智的。在本文中,作者揭示了小卷积核和卷积操作可以达到大的卷积核的近似效果。然后,作者提出了一种移位操作符,通过稀疏机制帮助卷积神经网络捕捉长程依赖关系,同时保持对硬件的友好性。转载 2024-01-30 17:27:38 · 243 阅读 · 0 评论 -
Focaler-IoU开源,关注困难样本,YOLOv5涨点1.9%,YOLOv8涨点0.3%
在这篇文章中,作者分析了困难样本和容易样本分布对目标检测的影响。当困难样本占主导地位时,需要关注困难样本以提高检测性能。当简单样本的比例较大时,相反的情况是正确的。接下来,提出 Focaler-IoU 方法,通过线性区间映射重构原始 IoU 损失,以实现关注困难样本和容易样本的目标。最后,比较实验证明了所提出的方法可以有效地提高检测性能。转载 2024-01-28 16:11:17 · 442 阅读 · 0 评论 -
模型压缩:CNN和Transformer通用,修剪后精度几乎无损,速度提升40%
深度学习模型在目标检测的性能上取得了重大突破。然而,在传统模型中,例如Faster R-CNN和YOLO,由于计算资源有限和功率预算紧张,这些网络的规模使其难以部署在嵌入式移动设备上。研究者提出了一种新的有效模型深度修剪方法。新方法为子网提出了一种新的块修剪策略和渐进训练方法。此外,将修剪方法扩展到视觉Transformer模型。转载 2024-01-27 17:14:00 · 186 阅读 · 1 评论 -
转载:Global Feature Pyramid Network
视觉特征金字塔在目标检测任务中证明了其有效性和效率。然而,当前的方法往往过于强调层间特征交互,忽视了层内特征调整这一关键方面。经验强调了在增强目标检测任务方面,层内特征交互的重要优势。虽然一些方法试图通过注意力机制或视觉 Transformer 学习压缩的层内特征表示,但它们忽视了全局信息交互的整合。这种忽视导致了增加误检和遗漏目标。为了解决这一关键问题,本文引入了全局特征金字塔网络(GFPNet),这是对PAFPN的增强版,集成了全局信息以提高目标检测。转载 2024-01-03 15:45:07 · 164 阅读 · 1 评论 -
转载:理解 U-Net
U-Net 简介转载 2023-12-20 17:58:29 · 78 阅读 · 0 评论 -
转载:DAS: A Deformable Attention to Capture Salient Information in CNNs解读
卷积神经网络(CNNs)在局部空间模式识别方面表现出色。对于许多视觉任务,如物体识别和分割,显著信息也存在于CNN核边界之外。然而,由于CNN的受限制的感受野,它们在捕获这种相关信息时感到力不从心。自注意力机制可以提高模型获取全局信息的能力,但同时也增加了计算开销。作者提出了一种快速简单的全卷积方法DAS,它有助于将注意力集中在相关信息上。该方法使用了可变形卷积来表示相关图像区域的位置,并使用了可分卷积来实现效率。DAS可以插入到现有的CNN中,并使用门控机制传播相关信息。原创 2023-12-02 16:15:09 · 1122 阅读 · 2 评论 -
转载:YOLOv8改进全新Inner-IoU损失函数:扩展到其他SIoU、CIoU等主流损失函数,带辅助边界框的损失
目标检测是计算机视觉中的基本任务,包括目标分类和定位。边界框回归损失函数是检测器定位分支的重要组成部分,检测器的定位精度在很大程度上取决于边界框回归,在当前的检测器中发挥着不可替代的作用。在BBR中,IoU损失可以准确描述预测边界框与GT框之间匹配的程度,确保模型在训练过程中可以学习到目标的位置信息。作为现有主流边界框回归损失函数的基本部分,IoU定义如下:B和分别代表预测框和GT框。定义IoU之后,相应的损失可以定义如下:至今,基于IoU的损失函数逐渐成为主流并占据主导地位。原创 2023-11-16 07:52:17 · 3165 阅读 · 0 评论 -
转载:SBCFormer:一种新型CNN-VIT轻量级混合网络, 首次以1 FPS 速度在SBC上实现 80% 的top-1 精度
文章地址:https://arxiv.org/ftp/arxiv/papers/2311/2311.03747.pdf项目地址:https://github.com/xyongLu/SBCFormer。转载 2023-11-15 22:12:29 · 325 阅读 · 0 评论 -
转载:TransXNet:聚合全局和局部信息的全新CNN-Transformer视觉主干,表现强大!
在微小版本中,注意组的数量固定为2个,以保证合理的计算成本,而在更深的小模型和基础模型中,使用越来越多的注意组来提高IDConv的灵活性,这类似于MHSA模块的头部数量随着模型的深入而增加。然而,本文方法在全局和局部动态以及多尺度token聚合的支持下,不仅在小目标上取得了优异的效果,而且在中大型目标上也明显优于先前的方法。由上式可知,STE的FLOPs为HWC(2C/r + 9),在实际操作中,将信道缩减比r设为8,但要保证压缩的信道数不小于16,这样得到的FLOPs明显小于1×1卷积的FLOPs,即。转载 2023-11-09 09:43:47 · 1765 阅读 · 0 评论 -
转载:计算机视觉Paper with code-2023.10.31
13.【超分辨率重建】(NeurIPS2023)Efficient Test-Time Adaptation for Super-Resolution with Second-Order Degradation and Reconstruction。22.【多模态】TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language Understanding。转载 2023-11-08 12:16:43 · 134 阅读 · 0 评论 -
转载:2023年9月-10月带有开源代码的OCR论文汇总
基于这些观察结果,作者更深入地研究了专用OCR模型的必要性,并探讨了充分利用GPT-4V等预训练通用LMM,将其用于OCR下游任务的策略,为今后将LMM用于OCR任务的研究提供了重要的参考。需要特别指出的是,EffOCR还允许简单、高效的样本定制,它包含一个简单的模型训练接口,由于其具有比较高的样本效率,因而只需要较少的标记需求。基于这些基本功能,DocXChain还实现了文档解析的整个流程,即文本读取、表解析和文档结构化,以驱动现实场景中与文档相关的各种应用程序。,使用XAI来理解STR的模型预测。转载 2023-11-08 12:19:32 · 303 阅读 · 0 评论 -
转载:ICCV2023 | SPIN:超像素聚类与Transformer结合的轻量级图像超分辨率网络,性能SOTA
提出了一种新的超级token交互网络(SPIN)。该方法利用超像素对局部相似像素进行聚类,形成可解释(因为只有相似的区域相互补充,不相似的区域被排除在外。)的局部区域,并利用超像素内关注实现局部信息交互。转载 2023-10-30 11:32:56 · 851 阅读 · 0 评论 -
转载:【CVPR2023】多视图对抗判别器 MAD :挖掘未知领域目标检测中的非因果因素
论文题目:Multi-view Adversarial Discriminator: Mine the Non-causal Factors for Object Detection in Unseen Domains代码:https://github.com/K2OKOH/MAD这篇论文探讨了一个具有挑战性的问题,即如何在实际应用中将目标检测模型适应到未知的目标领域。在传统的目标检测方法中,通常基于独立同分布(i.i.d.)的假设,即训练和测试数据集具有相同的分布。转载 2023-10-18 15:53:34 · 112 阅读 · 0 评论 -
转载:引入目标之间的先验关系提升目标检测器性能Relational Prior Knowledge Graphs for Detection and Instance
论文标题:Relational Prior Knowledge Graphs for Detection and Instance Segmentation机构:阿姆斯特丹大学、TomTom论文地址:https://arxiv.org/pdf/2310.07573.pdf开源代码(即将开源):https://github.com/ozzyou/RP-FEM关键词:目标检测、实例分割。转载 2023-10-18 15:44:17 · 110 阅读 · 0 评论 -
转载:[PR 2023] 基于部首自信息量的零样本汉字识别新方法Self-information of radicals: A new clue for zero-shot Chinese chara
论文以信息论的视角分析了部首在汉字识别中的重要性,提出了一种基于原型学习的特征提取网络,并针对:(1)基于序列匹配的识别方法,提出了汉字不确定性消除框架(CUE);此外,在ZSCCR任务中,以往的方法通常假设所有部首对模型的识别贡献相等,忽略了罕见部首对识别结果的影响。本文提出的方法基于部首的自信息量(SIR)分析了部首在汉字识别中的重要性,并将SIR方法应用到基于序列匹配的方法和基于属性嵌入的方法中,分别提出了字符不确定性消除框架(CUE)和部首信息嵌入法(RIE)。(3)基于序列匹配的方法(CUE)。转载 2023-10-18 15:11:20 · 264 阅读 · 1 评论 -
转载:超级干货 | 数据平滑9大妙招
对数据进行平滑处理的方法有很多种,具体的选择取决于数据的性质和处理的目的。今天给大家分享9大常见数据平滑方法:移动平均Moving Average指数平滑Exponential Smoothing低通滤波器多项式拟合贝塞尔曲线拟合局部加权散点平滑LoessKalman滤波小波变换Savitzky-Golay滤波转载 2023-10-16 16:59:29 · 4490 阅读 · 0 评论 -
转载:Anchor-Base与KeyPoint-Base相结合,清华+国科大提出,全新涨点思路
导读在计算机视觉中,目标检测是一个关键任务,需要在图像中识别和定位物体。本文提出了Anchor-Intermediate Detector(AID),一种新颖的目标检测架构,结合了Anchor-Base和Anchor-Free的优点。利用角点感知Head提高定位精度,同时使用Anchor-Base的Head缓解角点配对问题。其在多种网络结构上表现出色,并在MS COCO数据集上取得了先进结果。转载 2023-10-16 16:20:35 · 376 阅读 · 0 评论