图像处理+python+深度学习
文章平均质量分 84
图像处理+python,深度学习
wuling129
豫北某不著名学堂的修理地球/灵魂魔法师,门外汉兼乞丐一枚!工作极度平凡,家里地位边缘,丑男一个!鉴定完毕!
展开
-
论文解读:A Survey of the Recent Architectures of Deep Convolutional Neural Networks
深度卷积神经网络(CNN)是一种特殊类型的神经网络,在各种竞赛基准上表现出了当前最优结果。深度 CNN 的超强学习能力主要是通过使用多个非线性特征提取阶段实现的,这些阶段能够从数据中自动学习分层表征。大量数据的可用性和硬件处理单元的改进加速了 CNN 的研究,最近也报道了非常有趣的深度 CNN 架构。近来,深度 CNN 架构在挑战性基准任务比赛中实现的高性能表明,创新的架构理念以及参数优化可以提高 CNN 在各种视觉相关任务上的性能。转载 2024-09-19 18:10:08 · 74 阅读 · 0 评论 -
[转载]十大数据预处理方法
设定窗口大小 w 和步长 s。转载 2024-08-21 20:36:21 · 131 阅读 · 0 评论 -
[转载]nn.CrossEntropyLoss()的具体计算过程
这两天排查代码问题,看到损失具体是如何计算的就看了下。logits 里面保存的是 每个样本 是哪一类的概率,例如 第一个样本的预测结果 tensor([ 0.0815, 0.1693, 0.2274, -0.0068, -0.3081, -0.2758], grad_fn=<SelectBackward0>),分别对应于类别【248135label是样本的类别:4。转载 2024-08-07 17:36:44 · 57 阅读 · 0 评论 -
timm 库介绍
PyTorchImageModels,简称 timm,是一个巨大的 PyTorch 代码集合,旨在将各种 SOTA 模型整合在一起,并具有复现 ImageNet 训练结果的能力。虽然模型架构是 timm 的重点,但它还包括许多数据增强 (data augmentations)、正则化技术 (regularization techniques)、优化器 (optimizers) 和学习率策略 (learning rate schedulers) 的实现。原创 2024-07-23 11:48:02 · 749 阅读 · 0 评论 -
【转载】Pytorch高频使用代码集锦
nn.ReLU(),nn.ReLU(),return out继承torch.nn.Module类写自己的loss。转载 2024-07-19 09:35:54 · 36 阅读 · 0 评论 -
【转载】斯坦福开源学术研究神器!storm
STORM 是一个LLM系统,可以根据互联网搜索从头开始编写类似维基百科的文章。虽然该系统无法生成通常需要大量编辑的可发表文章,但经验丰富的维基百科编辑发现它在预写作阶段很有帮助。转载 2024-07-19 08:42:40 · 195 阅读 · 0 评论 -
【转载】Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively
具体来说,我们介绍了 Open-Vocabulary SAM,这是一种受 SAM 启发的模型,专为同步交互式分割和识别而设计,利用两个独特的知识迁移模块:SAM2CLIP 和 CLIP2SAM。对各种数据集和检测器的大量实验表明,开放词汇 SAM 在分割和识别任务中的有效性,显著优于简单组合 SAM 和 CLIP 的简单基线。前者通过蒸馏和可学习的Transformer适配器将 SAM 的知识融入到 CLIP 中,而后者则将 CLIP 知识迁移到 SAM 中,增强其识别能力。转载 2024-07-17 17:47:59 · 102 阅读 · 0 评论 -
【转载】YOLO进化史:YOLOv5、YOLOv8 与 YOLOv10 的性能分析与边缘部署探讨!
有点意外这种综述也能发论文。这篇论文全面回顾了YOLO(You Only Look Once)目标检测算法的发展历程,重点关注了YOLOv5、YOLOv8和YOLOv10。作者分析了这些版本在架构改进、性能提升以及适用于边缘部署方面的进展。YOLOv5引入了重要的创新,如CSPDarknet Backbone 网和Mosaic增强,平衡了速度和精度。YOLOv8在此基础上加强了特征提取和 Anchor-Free 点检测,提高了灵活性和性能。转载 2024-07-14 17:21:03 · 334 阅读 · 0 评论 -
【转载】CNN一定比Transformer差吗?LeCun新作:神经网络在实践中的灵活性到底有多大?
人工智能在今天百花齐放,大模型靠规模称王,小模型则凭数据取胜。当然我们也希望,可以付出更少的资源,并达到相同的效果。很早之前,谷歌就有相关研究,探索了在固定算力的情况下,如何分配模型参数量和训练数据量,以达到最好的性能。近日,LeCun参与的一项工作从另一个角度向我们展示了,神经网络在实践中的灵活性到底有多大?论文地址:https://arxiv.org/pdf/2406.11463这个灵活性指的是,神经网络拟合训练数据(样本数量)的能力,在实际应用中受到哪些因素的影响。转载 2024-07-14 16:41:33 · 27 阅读 · 0 评论 -
[转载]Open-Set Domain Adaptation for Semantic Segmentation
无监督域适应(Unsupervised domain adaptation,UDA)用于语义分割旨在将像素级的知识从带标签的源域传递到未带标签的目标域。然而,当前的UDA方法通常假设源域和目标域之间有一个共享的标签空间,这在目标域可能涌现出新类别的现实世界中限制了它们的应用性。在本文中,作者首次引入了针对语义分割的开放集域适应(Open-Set Domain Adaptation for Semantic Segmentation,OSDA-SS),其中目标域包含未知类别。转载 2024-07-09 10:30:15 · 49 阅读 · 1 评论 -
【转载】GitHub:数据增广最全资料集锦
CVer 陆续分享了GitHub上优质的AI/CV资料集锦,如图像分类、目标检测等,之前的分享详见文末。很多同学反映这个系列很棒,因此系列将继续更新。本文将分享的内容是:转载 2024-06-24 20:56:39 · 59 阅读 · 0 评论 -
[转载]归一化 总结和代码实现
数据归一化是一种预处理步骤,就是想要将不同尺度和数值范围的数据转换到统一的尺度上。这个过程通常涉及对原始数据进行调整,使其符合特定的标准,如使数据的范围落在0到1之间或具有标准正态分布的特性。归一化的主要目的是提高算法的性能和精度,特别是在涉及多个特征且这些特征的度量单位或数值范围不同的情况下。下面咱们从代码层面,说说几种不同的归一化方法,以及归一化带来的效果。转载 2024-06-23 10:24:27 · 169 阅读 · 0 评论 -
Investigating the effectiveness of data augmentation from similarity and diversity: An empirical stu
数据扩充已成为一种广泛采用的技术,用于提高深度神经网络的泛化能力。然而,仅基于模型训练来评估数据增强方法的有效性在计算上要求很高,并且缺乏可解释性。此外,缺乏定量标准阻碍了我们对数据增强方法的潜在机制和新技术的发展的理解。。所提出的相似性度量描述了原始数据集和增强数据集之间的总体相似性,而多样性度量则根据类别量化了原始数据集中和增强数据集中固有复杂性的差异。重要的是,我们提出的措施与模型训练无关,确保了计算的效率。原创 2024-05-28 08:11:55 · 1060 阅读 · 0 评论 -
【转载】AdaAugment: A Tuning-Free and Adaptive Approach to Enhance Data Augmentation
AdaAugment的主要目标是通过对DA(数据增强)强度在训练过程中的自适应调整,来减轻欠拟合和过拟合的风险。这种自适应调整可以形式化为基于每个样本的决定性问题,从而无需手动制定度量标准。图2展示了AdaAugment的双重模型框架:在训练目标网络的同时,引入了一个策略网络,以动态优化增强过程中DA操作的幅度。这个双重模型框架联合优化两个网络,无需单独重新训练目标网络,并根据目标网络的训练进度实现增强强度的实时调整。具体来说,策略网络在当前训练周期的样本 Level 上优化这些幅度。转载 2024-05-27 17:10:53 · 87 阅读 · 1 评论 -
【转】一文了解Numpy核心语法和代码梳理
Numpy是一个用python实现的科学计算的扩展程序库,包括一个强大的N维数组对象Array;比较成熟的(广播)函数库;用于整合C/C++和Fortran代码的工具包;实用的线性代数、傅里叶变换和随机数生成函数。numpy和稀疏矩阵运算包scipy配合使用更加方便。矩阵数据类型、矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。转载 2024-05-27 11:14:40 · 39 阅读 · 0 评论 -
【论文解读】OpenMix+: Revisiting Data Augmentation for Open Set Recognition
本文指出结构风险与开放空间风险的平衡是开集识别的关键,并将其转化为开集结构风险。这为闭集识别和开集识别之间的一般关系提供了一个新的视角,而不是一般的直觉,即一个好的闭集分类器总是有利于开集识别。具体地说,我们从理论和实验上证明了最近的基于混合的数据增强方法是激进的闭集正则化方法,它以牺牲开放空间风险为代价降低了结构风险。此外,我们还发现,现有的用于降低开放空间风险的负数据扩充也忽略了结构风险和开放空间风险之间的权衡问题,从而限制了它们的性能。提出了一种高效的负数据扩充策略self-mix和相应的OpenMi原创 2024-05-22 22:01:33 · 724 阅读 · 0 评论 -
[转]万字长文超全总结Pytorch核心操作!
创建自定义神经网络层是PyTorch中常见的做法。# 创建线性层# 创建ReLU激活函数# 创建输出线性层(如果需要的话,例如对于分类任务)# 应用线性变换# 应用ReLU激活函数# 如果需要,可以添加更多的操作,例如另一个线性层return x其中,CustomLayer类继承自nn.Module,并在__init__方法中定义了两个线性层(一个输入层和一个输出层)以及一个ReLU激活函数。转载 2024-05-14 22:25:31 · 61 阅读 · 0 评论 -
[转]17 种加速 PyTorch 训练的方法
学习率 schedule 的选择对模型的收敛速度和泛化能力有很大的影响。Leslie N. Smith 等人在论文《Cyclical Learning Rates for Training Neural Networks》、《Super-Convergence: Very Fast Training of Neural Networks Using Large Learning Rates 》中提出了周期性(Cyclical)学习率以及 1Cycle 学习率 schedule。转载 2024-04-23 09:39:41 · 124 阅读 · 1 评论 -
[转]Batch Size对网络模型训练的影响
theta 代表模型参数m 是训练数据样本的数量i 的每个值代表一个单一的训练数据样本J_i 表示应用于单个训练样本的损失函数通常,这是使用梯度下降来完成的,它计算损失函数相对于参数的梯度,并在该方向上迈出一步。随机梯度下降计算训练数据子集 B_k 上的梯度,而不是整个训练数据集。B_k 是从训练数据集中采样的一批,其大小可以从 1 到 m(训练数据点的总数)。这通常称为批量大小为 |B_k| 的小批量训练。转载 2024-04-22 17:19:42 · 369 阅读 · 0 评论 -
深度学习应用篇-计算机视觉-图像增广[1]:数据增广、图像混叠、图像剪裁类变化类等详解
在图像分类任务中,图像数据的增广是一种常用的正则化方法,主要用于增加训练数据集,让数据集尽可能的多样化,使得训练的模型具有更强的泛化能力,常用于数据量不足或者模型参数较多的场景。而对归一后之后的数据进行操作,裁剪的区域会是纯黑或纯白。在 RandAugment 中,作者提出了一种随机增广的方式,不再像 AutoAugment 中那样使用特定的概率确定是否使用某种子策略,而是所有的子策略都会以同样的概率被选择到,论文中的实验也表明这种数据增广方式即使在大模型的训练中也具有很好的效果。结果如 图13 所示。转载 2024-04-21 17:51:13 · 246 阅读 · 0 评论 -
【转载】神经网络常见评价指标超详细介绍(ROC曲线、AUC指标、AUROC)
考虑标签label和预测值pred,其数值如下:其散点图如下:怎样才能通过概率得到预测的类别呢?通常我们需要设置一个阈值,这里以0.5为例,当概率大于等于0.5时,分类器认为这个为真实类别;当概率小于0.5时,分类器认为这个不是真实类别,如下图所示:我们可以根据这个图得到当阈值为0.5时的混淆矩阵:实际上阈值可以取[0,1)之间的任意值,理论上可以取无数个混淆矩阵,而把所有的混淆矩阵表示在同一个二维空间中的方法称为ROC曲线。转载 2024-04-12 21:18:33 · 1016 阅读 · 0 评论 -
【转载】为什么要做特征归一化/标准化?
原文链接:为什么要做特征的归一化/标准化?Feature scaling,常见的提法有“特征归一化”、“标准化”,是数据预处理中的重要技术,有时甚至决定了算法能不能work以及work得好不好。谈到feature scaling的必要性,最常用的2个例子可能是:特征间的单位(尺度)可能不同,比如身高和体重,比如摄氏度和华氏度,比如房屋面积和房间数,一个特征的变化范围可能是[1000, 10000],另一个特征的变化范围可能是[−0.1,0.2],在进行距离有关的计算时,单位的不同会导致计算结果的不同,尺度大转载 2024-04-02 21:20:01 · 52 阅读 · 0 评论 -
[转载]STN:Spatial Transformer Networks 空间变换网络
卷积神经网络缺乏对输入数据保持空间不变的能力,导致模型性能下降。虽然CNN中引入池化层有助于满足这一特性,但这种空间不变性仅能在池化矩阵的范围内才具有平移不变性或者在卷积的深层层次上实现。在这篇文章中,作者提出了一种新的可学习模块,STN。这个可微模块可以插入现有的卷积结构中,使神经网络能够根据特征图像本身,主动地对特征图像进行空间变换,而不需要任何额外的训练监督或优化过程。转载 2024-04-02 10:58:24 · 155 阅读 · 0 评论 -
【转载】OpenCV ECC图像对齐实现与代码演示(Python / C++源码)
作者博客地址:https://blog.csdn.net/LuohenYJ 已关注。原创 2024-04-01 15:44:38 · 764 阅读 · 0 评论 -
【转载】标注工具Labelimg的安装与使用
我们知道,图片标注主要是用来创建自己的数据集,方便进行深度学习训练。本篇博客将推荐一款十分好用的图片标注工具LabelImg,重点介绍其安装以及使用的过程。如果想简便,请直接下载打包版本(下载地址见开头),无需编译,直接打开就能用!这款工具是全图形界面,用Python和Qt写的,最牛的是其标注信息可以直接转化成为XML文件,与PASCAL VOC以及ImageNet用的XML是一样的。转载 2024-03-13 20:00:16 · 111 阅读 · 0 评论 -
[转载]没有思考过 Embedding,不足以谈 AI
这篇文章把我关于语言模型中embedding的理解都介绍完了。但embedding 还不止这些。图像可以有embedding,句子和段落也可以有 embedding —— 本质都是通过一组数来表达意义。段落的 embedding 可以作为基于语义搜索的高效索引,AI 绘画技术的背后,有着这两种 embedding 的互动 —— 未来如果有一个大一统的多模态模型,embedding 必然是其中的基石和桥梁。转载 2024-03-06 11:56:12 · 66 阅读 · 0 评论 -
YOLOV8介绍
有具体部署和训练实现代码(有非常好的参考和启示价值)转载 2024-03-01 20:53:52 · 3947 阅读 · 1 评论 -
YOLOv9简介
YOLO v9转载 2024-02-29 11:56:10 · 3481 阅读 · 0 评论 -
[转载]ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy
作者对于 ConvNet 和 Vision Transformer 架构在 ImageNet 精度之外的模型行为进行了深入分析,每个架构都涵盖了有监督训练范式和 CLIP 训练范式。尽管作者选择的模型具有相似的 ImageNet 精度和计算要求,但本文发现它们在许多其他的方面有所不同:错误类型 (types of mistakes)输出校准 (output calibration)迁移性能 (transferability)特征方差 (feature invariance)转载 2024-02-27 09:50:46 · 100 阅读 · 0 评论 -
[转载]扩散模型的原理及实现(Pytorch)
本文讲述扩散模型的发展、原理及代码实践。转载 2024-02-25 10:16:19 · 292 阅读 · 0 评论 -
[转载]谈谈目标检测中,正负样本背后的本质问题
本篇不讲任何正负样本定义的方法以及各种采样的方法,只从实际训练角度结合量产经验思考正负样本背后的本质问题。转载 2024-02-22 10:14:58 · 95 阅读 · 0 评论 -
DHFormer: A Vision Transformer-Based Attention Module for Image Dehazing
在这篇论文中,提出了一种使用残差学习和视觉Transformer在注意力模块中结合的方法。该方法本质上包含两个网络:在第一个网络中,网络将雾图像的比例与近似传输矩阵估计残差图。第二个网络将这个残差图像作为输入,通过卷积层处理后,再将其叠加到生成的特征图上。然后通过全局上下文和深度感知Transformer编码器获得通道注意力。注意力模块在生成最终无雾图像之前推理空间注意力图。转载 2024-01-31 14:08:53 · 173 阅读 · 0 评论 -
Shift-ConvNets: Small Convolutional Kernel with Large Kernel Effects
最近的研究表明,视觉 Transformer (ViTs)出色的性能得益于大的感受野。因此,大的卷积核设计成为使卷积神经网络(CNNs)再次强大的理想解决方案。然而,典型的大的卷积核实际上是硬件不友好的运算符,导致各种硬件平台的兼容性降低。因此,简单地扩大卷积核大小是不明智的。在本文中,作者揭示了小卷积核和卷积操作可以达到大的卷积核的近似效果。然后,作者提出了一种移位操作符,通过稀疏机制帮助卷积神经网络捕捉长程依赖关系,同时保持对硬件的友好性。转载 2024-01-30 17:27:38 · 319 阅读 · 0 评论 -
Focaler-IoU开源,关注困难样本,YOLOv5涨点1.9%,YOLOv8涨点0.3%
在这篇文章中,作者分析了困难样本和容易样本分布对目标检测的影响。当困难样本占主导地位时,需要关注困难样本以提高检测性能。当简单样本的比例较大时,相反的情况是正确的。接下来,提出 Focaler-IoU 方法,通过线性区间映射重构原始 IoU 损失,以实现关注困难样本和容易样本的目标。最后,比较实验证明了所提出的方法可以有效地提高检测性能。转载 2024-01-28 16:11:17 · 504 阅读 · 0 评论 -
模型压缩:CNN和Transformer通用,修剪后精度几乎无损,速度提升40%
深度学习模型在目标检测的性能上取得了重大突破。然而,在传统模型中,例如Faster R-CNN和YOLO,由于计算资源有限和功率预算紧张,这些网络的规模使其难以部署在嵌入式移动设备上。研究者提出了一种新的有效模型深度修剪方法。新方法为子网提出了一种新的块修剪策略和渐进训练方法。此外,将修剪方法扩展到视觉Transformer模型。转载 2024-01-27 17:14:00 · 235 阅读 · 1 评论 -
转载:Global Feature Pyramid Network
视觉特征金字塔在目标检测任务中证明了其有效性和效率。然而,当前的方法往往过于强调层间特征交互,忽视了层内特征调整这一关键方面。经验强调了在增强目标检测任务方面,层内特征交互的重要优势。虽然一些方法试图通过注意力机制或视觉 Transformer 学习压缩的层内特征表示,但它们忽视了全局信息交互的整合。这种忽视导致了增加误检和遗漏目标。为了解决这一关键问题,本文引入了全局特征金字塔网络(GFPNet),这是对PAFPN的增强版,集成了全局信息以提高目标检测。转载 2024-01-03 15:45:07 · 225 阅读 · 1 评论 -
转载:理解 U-Net
U-Net 简介转载 2023-12-20 17:58:29 · 91 阅读 · 0 评论 -
转载:DAS: A Deformable Attention to Capture Salient Information in CNNs解读
卷积神经网络(CNNs)在局部空间模式识别方面表现出色。对于许多视觉任务,如物体识别和分割,显著信息也存在于CNN核边界之外。然而,由于CNN的受限制的感受野,它们在捕获这种相关信息时感到力不从心。自注意力机制可以提高模型获取全局信息的能力,但同时也增加了计算开销。作者提出了一种快速简单的全卷积方法DAS,它有助于将注意力集中在相关信息上。该方法使用了可变形卷积来表示相关图像区域的位置,并使用了可分卷积来实现效率。DAS可以插入到现有的CNN中,并使用门控机制传播相关信息。原创 2023-12-02 16:15:09 · 1343 阅读 · 2 评论 -
转载:YOLOv8改进全新Inner-IoU损失函数:扩展到其他SIoU、CIoU等主流损失函数,带辅助边界框的损失
目标检测是计算机视觉中的基本任务,包括目标分类和定位。边界框回归损失函数是检测器定位分支的重要组成部分,检测器的定位精度在很大程度上取决于边界框回归,在当前的检测器中发挥着不可替代的作用。在BBR中,IoU损失可以准确描述预测边界框与GT框之间匹配的程度,确保模型在训练过程中可以学习到目标的位置信息。作为现有主流边界框回归损失函数的基本部分,IoU定义如下:B和分别代表预测框和GT框。定义IoU之后,相应的损失可以定义如下:至今,基于IoU的损失函数逐渐成为主流并占据主导地位。原创 2023-11-16 07:52:17 · 3544 阅读 · 0 评论 -
转载:SBCFormer:一种新型CNN-VIT轻量级混合网络, 首次以1 FPS 速度在SBC上实现 80% 的top-1 精度
文章地址:https://arxiv.org/ftp/arxiv/papers/2311/2311.03747.pdf项目地址:https://github.com/xyongLu/SBCFormer。转载 2023-11-15 22:12:29 · 389 阅读 · 0 评论