自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(375)
  • 资源 (3)
  • 收藏
  • 关注

转载 【转载】没有经过任何的论文写作训练,应该如何写论文?

上面说的第一件事其实也跟ResNet有关:真实历史上的ResNet来自于对GoogLeNet的拆解研究,并不是突然发现了“残差学习”的原理才有了ResNet,而是孙剑老师带领的团队先通过拆解GoogLeNet发现shortcut结构好用后思考出来的解释。我们上面设想的“丐版”写法虽然是反映了真实的研究过程的,却并不利于背后原理的深挖和核心思想的传播。这个实例正好能够支持本文的观点:研究怎么做和论文怎么写,是两码事。

2024-07-19 16:25:12 13

转载 【转载】Pytorch高频使用代码集锦

nn.ReLU(),nn.ReLU(),return out继承torch.nn.Module类写自己的loss。

2024-07-19 09:35:54 11

转载 【转载】斯坦福开源学术研究神器!storm

STORM 是一个LLM系统,可以根据互联网搜索从头开始编写类似维基百科的文章。虽然该系统无法生成通常需要大量编辑的可发表文章,但经验丰富的维基百科编辑发现它在预写作阶段很有帮助。

2024-07-19 08:42:40 29

转载 【转载】Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively

具体来说,我们介绍了 Open-Vocabulary SAM,这是一种受 SAM 启发的模型,专为同步交互式分割和识别而设计,利用两个独特的知识迁移模块:SAM2CLIP 和 CLIP2SAM。对各种数据集和检测器的大量实验表明,开放词汇 SAM 在分割和识别任务中的有效性,显著优于简单组合 SAM 和 CLIP 的简单基线。前者通过蒸馏和可学习的Transformer适配器将 SAM 的知识融入到 CLIP 中,而后者则将 CLIP 知识迁移到 SAM 中,增强其识别能力。

2024-07-17 17:47:59 14

转载 【转载】YOLO进化史:YOLOv5、YOLOv8 与 YOLOv10 的性能分析与边缘部署探讨!

有点意外这种综述也能发论文。这篇论文全面回顾了YOLO(You Only Look Once)目标检测算法的发展历程,重点关注了YOLOv5、YOLOv8和YOLOv10。作者分析了这些版本在架构改进、性能提升以及适用于边缘部署方面的进展。YOLOv5引入了重要的创新,如CSPDarknet Backbone 网和Mosaic增强,平衡了速度和精度。YOLOv8在此基础上加强了特征提取和 Anchor-Free 点检测,提高了灵活性和性能。

2024-07-14 17:21:03 35

转载 【转载】CNN一定比Transformer差吗?LeCun新作:神经网络在实践中的灵活性到底有多大?

人工智能在今天百花齐放,大模型靠规模称王,小模型则凭数据取胜。当然我们也希望,可以付出更少的资源,并达到相同的效果。很早之前,谷歌就有相关研究,探索了在固定算力的情况下,如何分配模型参数量和训练数据量,以达到最好的性能。近日,LeCun参与的一项工作从另一个角度向我们展示了,神经网络在实践中的灵活性到底有多大?论文地址:https://arxiv.org/pdf/2406.11463这个灵活性指的是,神经网络拟合训练数据(样本数量)的能力,在实际应用中受到哪些因素的影响。

2024-07-14 16:41:33 10

转载 [转载]Open-Set Domain Adaptation for Semantic Segmentation

无监督域适应(Unsupervised domain adaptation,UDA)用于语义分割旨在将像素级的知识从带标签的源域传递到未带标签的目标域。然而,当前的UDA方法通常假设源域和目标域之间有一个共享的标签空间,这在目标域可能涌现出新类别的现实世界中限制了它们的应用性。在本文中,作者首次引入了针对语义分割的开放集域适应(Open-Set Domain Adaptation for Semantic Segmentation,OSDA-SS),其中目标域包含未知类别。

2024-07-09 10:30:15 21 1

转载 【转载】GitHub:数据增广最全资料集锦

CVer 陆续分享了GitHub上优质的AI/CV资料集锦,如图像分类、目标检测等,之前的分享详见文末。很多同学反映这个系列很棒,因此系列将继续更新。本文将分享的内容是:

2024-06-24 20:56:39 30

转载 [转载]归一化 总结和代码实现

数据归一化是一种预处理步骤,就是想要将不同尺度和数值范围的数据转换到统一的尺度上。这个过程通常涉及对原始数据进行调整,使其符合特定的标准,如使数据的范围落在0到1之间或具有标准正态分布的特性。归一化的主要目的是提高算法的性能和精度,特别是在涉及多个特征且这些特征的度量单位或数值范围不同的情况下。下面咱们从代码层面,说说几种不同的归一化方法,以及归一化带来的效果。

2024-06-23 10:24:27 56

原创 Investigating the effectiveness of data augmentation from similarity and diversity: An empirical stu

数据扩充已成为一种广泛采用的技术,用于提高深度神经网络的泛化能力。然而,仅基于模型训练来评估数据增强方法的有效性在计算上要求很高,并且缺乏可解释性。此外,缺乏定量标准阻碍了我们对数据增强方法的潜在机制和新技术的发展的理解。。所提出的相似性度量描述了原始数据集和增强数据集之间的总体相似性,而多样性度量则根据类别量化了原始数据集中和增强数据集中固有复杂性的差异。重要的是,我们提出的措施与模型训练无关,确保了计算的效率。

2024-05-28 08:11:55 1033

转载 【转载】AdaAugment: A Tuning-Free and Adaptive Approach to Enhance Data Augmentation

AdaAugment的主要目标是通过对DA(数据增强)强度在训练过程中的自适应调整,来减轻欠拟合和过拟合的风险。这种自适应调整可以形式化为基于每个样本的决定性问题,从而无需手动制定度量标准。图2展示了AdaAugment的双重模型框架:在训练目标网络的同时,引入了一个策略网络,以动态优化增强过程中DA操作的幅度。这个双重模型框架联合优化两个网络,无需单独重新训练目标网络,并根据目标网络的训练进度实现增强强度的实时调整。具体来说,策略网络在当前训练周期的样本 Level 上优化这些幅度。

2024-05-27 17:10:53 62 1

转载 【转】一文了解Numpy核心语法和代码梳理

Numpy是一个用python实现的科学计算的扩展程序库,包括一个强大的N维数组对象Array;比较成熟的(广播)函数库;用于整合C/C++和Fortran代码的工具包;实用的线性代数、傅里叶变换和随机数生成函数。numpy和稀疏矩阵运算包scipy配合使用更加方便。矩阵数据类型、矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。

2024-05-27 11:14:40 30

原创 【论文解读】OpenMix+: Revisiting Data Augmentation for Open Set Recognition

本文指出结构风险与开放空间风险的平衡是开集识别的关键,并将其转化为开集结构风险。这为闭集识别和开集识别之间的一般关系提供了一个新的视角,而不是一般的直觉,即一个好的闭集分类器总是有利于开集识别。具体地说,我们从理论和实验上证明了最近的基于混合的数据增强方法是激进的闭集正则化方法,它以牺牲开放空间风险为代价降低了结构风险。此外,我们还发现,现有的用于降低开放空间风险的负数据扩充也忽略了结构风险和开放空间风险之间的权衡问题,从而限制了它们的性能。提出了一种高效的负数据扩充策略self-mix和相应的OpenMi

2024-05-22 22:01:33 681

转载 [转]万字长文超全总结Pytorch核心操作!

创建自定义神经网络层是PyTorch中常见的做法。# 创建线性层# 创建ReLU激活函数# 创建输出线性层(如果需要的话,例如对于分类任务)# 应用线性变换# 应用ReLU激活函数# 如果需要,可以添加更多的操作,例如另一个线性层return x其中,CustomLayer类继承自nn.Module,并在__init__方法中定义了两个线性层(一个输入层和一个输出层)以及一个ReLU激活函数。

2024-05-14 22:25:31 32

转载 [转]17 种加速 PyTorch 训练的方法

学习率 schedule 的选择对模型的收敛速度和泛化能力有很大的影响。Leslie N. Smith 等人在论文《Cyclical Learning Rates for Training Neural Networks》、《Super-Convergence: Very Fast Training of Neural Networks Using Large Learning Rates 》中提出了周期性(Cyclical)学习率以及 1Cycle 学习率 schedule。

2024-04-23 09:39:41 111 1

转载 [转]Batch Size对网络模型训练的影响

theta 代表模型参数m 是训练数据样本的数量i 的每个值代表一个单一的训练数据样本J_i 表示应用于单个训练样本的损失函数通常,这是使用梯度下降来完成的,它计算损失函数相对于参数的梯度,并在该方向上迈出一步。随机梯度下降计算训练数据子集 B_k 上的梯度,而不是整个训练数据集。B_k 是从训练数据集中采样的一批,其大小可以从 1 到 m(训练数据点的总数)。这通常称为批量大小为 |B_k| 的小批量训练。

2024-04-22 17:19:42 206

转载 深度学习应用篇-计算机视觉-图像增广[1]:数据增广、图像混叠、图像剪裁类变化类等详解

在图像分类任务中,图像数据的增广是一种常用的正则化方法,主要用于增加训练数据集,让数据集尽可能的多样化,使得训练的模型具有更强的泛化能力,常用于数据量不足或者模型参数较多的场景。而对归一后之后的数据进行操作,裁剪的区域会是纯黑或纯白。在 RandAugment 中,作者提出了一种随机增广的方式,不再像 AutoAugment 中那样使用特定的概率确定是否使用某种子策略,而是所有的子策略都会以同样的概率被选择到,论文中的实验也表明这种数据增广方式即使在大模型的训练中也具有很好的效果。结果如 图13 所示。

2024-04-21 17:51:13 168

转载 【转载】神经网络常见评价指标超详细介绍(ROC曲线、AUC指标、AUROC)

考虑标签label和预测值pred,其数值如下:其散点图如下:怎样才能通过概率得到预测的类别呢?通常我们需要设置一个阈值,这里以0.5为例,当概率大于等于0.5时,分类器认为这个为真实类别;当概率小于0.5时,分类器认为这个不是真实类别,如下图所示:我们可以根据这个图得到当阈值为0.5时的混淆矩阵:实际上阈值可以取[0,1)之间的任意值,理论上可以取无数个混淆矩阵,而把所有的混淆矩阵表示在同一个二维空间中的方法称为ROC曲线。

2024-04-12 21:18:33 733

转载 [转载]基于YOLOv9+SAM实现动态目标检测和分割(步骤 + 代码)

在本文中,我们使用YOLOv9+SAM在RF100 Construction-Safety-2 数据集上实现自定义对象检测模型。这种集成不仅提高了在不同图像中检测和分割对象的准确性和粒度,而且还扩大了应用范围——从增强自动驾驶系统到改进医学成像中的诊断过程。通过利用 YOLOv9 的高效检测功能和 SAM 以零样本方式分割对象的能力,这种强大的组合最大限度地减少了对大量再训练或数据注释的需求,使其成为一种多功能且可扩展的解决方案。YOLOv9性能图示YOLOv9模型图。

2024-04-10 16:59:37 297

转载 【转载】为什么要做特征归一化/标准化?

原文链接:为什么要做特征的归一化/标准化?Feature scaling,常见的提法有“特征归一化”、“标准化”,是数据预处理中的重要技术,有时甚至决定了算法能不能work以及work得好不好。谈到feature scaling的必要性,最常用的2个例子可能是:特征间的单位(尺度)可能不同,比如身高和体重,比如摄氏度和华氏度,比如房屋面积和房间数,一个特征的变化范围可能是[1000, 10000],另一个特征的变化范围可能是[−0.1,0.2],在进行距离有关的计算时,单位的不同会导致计算结果的不同,尺度大

2024-04-02 21:20:01 41

转载 [转载]STN:Spatial Transformer Networks 空间变换网络

卷积神经网络缺乏对输入数据保持空间不变的能力,导致模型性能下降。虽然CNN中引入池化层有助于满足这一特性,但这种空间不变性仅能在池化矩阵的范围内才具有平移不变性或者在卷积的深层层次上实现。在这篇文章中,作者提出了一种新的可学习模块,STN。这个可微模块可以插入现有的卷积结构中,使神经网络能够根据特征图像本身,主动地对特征图像进行空间变换,而不需要任何额外的训练监督或优化过程。

2024-04-02 10:58:24 129

原创 【转载】OpenCV ECC图像对齐实现与代码演示(Python / C++源码)

作者博客地址:https://blog.csdn.net/LuohenYJ 已关注。

2024-04-01 15:44:38 732

转载 [转载]Out-of-distribution Detection

算是第一次正经的调研吧,之前就做过论文复现和 “不成功” 的调研。至于为什么不成功呢?主要因为我是0基础的科研小白,所以对调研目的的认知错误。其实在年前做过一次关于 Out-of-distribution 的调研了,但是为什么现在又花了差不多一周的时间重新做了一次呢?因为我一开始调研的目的是了解一下这个领域,看看有没有可以用于我当前方向的方法(我当前的方向比较新,只能从类似的任务中借鉴)。所以,我第一次调研的时候,就直接把OOD的方法和我当前的方向做比较,如果没有什么关联就跳过。实际上这是错误的一种调研。

2024-03-20 14:49:37 180 1

转载 【转载】标注工具Labelimg的安装与使用

我们知道,图片标注主要是用来创建自己的数据集,方便进行深度学习训练。本篇博客将推荐一款十分好用的图片标注工具LabelImg,重点介绍其安装以及使用的过程。如果想简便,请直接下载打包版本(下载地址见开头),无需编译,直接打开就能用!这款工具是全图形界面,用Python和Qt写的,最牛的是其标注信息可以直接转化成为XML文件,与PASCAL VOC以及ImageNet用的XML是一样的。

2024-03-13 20:00:16 87

转载 [转载]没有思考过 Embedding,不足以谈 AI

这篇文章把我关于语言模型中embedding的理解都介绍完了。但embedding 还不止这些。图像可以有embedding,句子和段落也可以有 embedding —— 本质都是通过一组数来表达意义。段落的 embedding 可以作为基于语义搜索的高效索引,AI 绘画技术的背后,有着这两种 embedding 的互动 —— 未来如果有一个大一统的多模态模型,embedding 必然是其中的基石和桥梁。

2024-03-06 11:56:12 52

原创 YOLOV8介绍

有具体部署和训练实现代码(有非常好的参考和启示价值)

2024-03-01 20:53:52 3151 1

转载 YOLOv9简介

YOLO v9

2024-02-29 11:56:10 2962

转载 [转载]ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy

作者对于 ConvNet 和 Vision Transformer 架构在 ImageNet 精度之外的模型行为进行了深入分析,每个架构都涵盖了有监督训练范式和 CLIP 训练范式。尽管作者选择的模型具有相似的 ImageNet 精度和计算要求,但本文发现它们在许多其他的方面有所不同:错误类型 (types of mistakes)输出校准 (output calibration)迁移性能 (transferability)特征方差 (feature invariance)

2024-02-27 09:50:46 72

转载 [转载]扩散模型的原理及实现(Pytorch)

本文讲述扩散模型的发展、原理及代码实践。

2024-02-25 10:16:19 266

转载 [转载]谈谈目标检测中,正负样本背后的本质问题

本篇不讲任何正负样本定义的方法以及各种采样的方法,只从实际训练角度结合量产经验思考正负样本背后的本质问题。

2024-02-22 10:14:58 74

转载 DHFormer: A Vision Transformer-Based Attention Module for Image Dehazing

在这篇论文中,提出了一种使用残差学习和视觉Transformer在注意力模块中结合的方法。该方法本质上包含两个网络:在第一个网络中,网络将雾图像的比例与近似传输矩阵估计残差图。第二个网络将这个残差图像作为输入,通过卷积层处理后,再将其叠加到生成的特征图上。然后通过全局上下文和深度感知Transformer编码器获得通道注意力。注意力模块在生成最终无雾图像之前推理空间注意力图。

2024-01-31 14:08:53 144

转载 Shift-ConvNets: Small Convolutional Kernel with Large Kernel Effects

最近的研究表明,视觉 Transformer (ViTs)出色的性能得益于大的感受野。因此,大的卷积核设计成为使卷积神经网络(CNNs)再次强大的理想解决方案。然而,典型的大的卷积核实际上是硬件不友好的运算符,导致各种硬件平台的兼容性降低。因此,简单地扩大卷积核大小是不明智的。在本文中,作者揭示了小卷积核和卷积操作可以达到大的卷积核的近似效果。然后,作者提出了一种移位操作符,通过稀疏机制帮助卷积神经网络捕捉长程依赖关系,同时保持对硬件的友好性。

2024-01-30 17:27:38 266

转载 Focaler-IoU开源,关注困难样本,YOLOv5涨点1.9%,YOLOv8涨点0.3%

在这篇文章中,作者分析了困难样本和容易样本分布对目标检测的影响。当困难样本占主导地位时,需要关注困难样本以提高检测性能。当简单样本的比例较大时,相反的情况是正确的。接下来,提出 Focaler-IoU 方法,通过线性区间映射重构原始 IoU 损失,以实现关注困难样本和容易样本的目标。最后,比较实验证明了所提出的方法可以有效地提高检测性能。

2024-01-28 16:11:17 460

转载 模型压缩:CNN和Transformer通用,修剪后精度几乎无损,速度提升40%

深度学习模型在目标检测的性能上取得了重大突破。然而,在传统模型中,例如Faster R-CNN和YOLO,由于计算资源有限和功率预算紧张,这些网络的规模使其难以部署在嵌入式移动设备上。研究者提出了一种新的有效模型深度修剪方法。新方法为子网提出了一种新的块修剪策略和渐进训练方法。此外,将修剪方法扩展到视觉Transformer模型。

2024-01-27 17:14:00 198 1

转载 转载:Global Feature Pyramid Network

视觉特征金字塔在目标检测任务中证明了其有效性和效率。然而,当前的方法往往过于强调层间特征交互,忽视了层内特征调整这一关键方面。经验强调了在增强目标检测任务方面,层内特征交互的重要优势。虽然一些方法试图通过注意力机制或视觉 Transformer 学习压缩的层内特征表示,但它们忽视了全局信息交互的整合。这种忽视导致了增加误检和遗漏目标。为了解决这一关键问题,本文引入了全局特征金字塔网络(GFPNet),这是对PAFPN的增强版,集成了全局信息以提高目标检测。

2024-01-03 15:45:07 174 1

转载 转载:理解 U-Net

U-Net 简介

2023-12-20 17:58:29 78

原创 转载:DAS: A Deformable Attention to Capture Salient Information in CNNs解读

卷积神经网络(CNNs)在局部空间模式识别方面表现出色。对于许多视觉任务,如物体识别和分割,显著信息也存在于CNN核边界之外。然而,由于CNN的受限制的感受野,它们在捕获这种相关信息时感到力不从心。自注意力机制可以提高模型获取全局信息的能力,但同时也增加了计算开销。作者提出了一种快速简单的全卷积方法DAS,它有助于将注意力集中在相关信息上。该方法使用了可变形卷积来表示相关图像区域的位置,并使用了可分卷积来实现效率。DAS可以插入到现有的CNN中,并使用门控机制传播相关信息。

2023-12-02 16:15:09 1175 2

转载 转载:英文AI论文协作

Abstract是整篇论文的重中之重,一般审稿人都会先看Abstract,所以Abstract的好会很大程度决定了审稿人对这篇论文的第一印象。Abstract的一句话基本对应于Introduction的一段话,一句话只讲一件事,并且每句话之间需要做到逻辑连贯,合情合理。以提出一个方法去解决一个任务的论文为例 [1]:这类文章的Abstract:开头都先一句话介绍自己的任务(定义和挑战是什么)。下一句介绍现有工作如何解决前一句中提到的调整,但存在什么缺陷。(这一句有时候可以省略,如上例)

2023-11-27 15:09:56 224

原创 转载:YOLOv8改进全新Inner-IoU损失函数:扩展到其他SIoU、CIoU等主流损失函数,带辅助边界框的损失

目标检测是计算机视觉中的基本任务,包括目标分类和定位。边界框回归损失函数是检测器定位分支的重要组成部分,检测器的定位精度在很大程度上取决于边界框回归,在当前的检测器中发挥着不可替代的作用。在BBR中,IoU损失可以准确描述预测边界框与GT框之间匹配的程度,确保模型在训练过程中可以学习到目标的位置信息。作为现有主流边界框回归损失函数的基本部分,IoU定义如下:B和分别代表预测框和GT框。定义IoU之后,相应的损失可以定义如下:至今,基于IoU的损失函数逐渐成为主流并占据主导地位。

2023-11-16 07:52:17 3222

转载 转载:SBCFormer:一种新型CNN-VIT轻量级混合网络, 首次以1 FPS 速度在SBC上实现 80% 的top-1 精度

文章地址:https://arxiv.org/ftp/arxiv/papers/2311/2311.03747.pdf项目地址:https://github.com/xyongLu/SBCFormer。

2023-11-15 22:12:29 335

编写你自己的单点登录(SSO)服务

编写你自己的单点登录(SSO)服务 单点登录(Single Sign On),简称为 SSO,是目前比较流行的企业业务整合的解决方案之一。SSO的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。

2013-08-31

详解Vs2008下打包安装程序的一些技巧

详解Vs2008下打包安装程序的一些技巧

2013-08-31

css课件 学习CSS很有帮助

css 课件 css 课件 很好的课件 学习CSS很有帮助 学习CSS很有帮助 学习CSS很有帮助 学习CSS很有帮助

2010-04-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除