- 博客(349)
- 资源 (1)
- 收藏
- 关注
原创 【CVPR 2022】半监督目标检测:Dense Learning based Semi-Supervised Object Detection
本文提出了一种用于无锚框SSOD的半监督学习算法。具体来说,为了对密集学习进行仔细的标签指导,本文首先提出了一种自适应过滤(AF)策略,从而将伪标签划分为三个细粒度的部分,包括背景、前景和可忽略区域。然后使用 MetaNet 对这些伪标签进行细化,以消除分类伪正样本...
2022-07-04 19:51:31
2524
1
原创 【CVPR 2022】目标检测SOTA:DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection
本文提出了DINO(DETR with Improved deNoising anchOr boxes)使用 ResNet50 作为主干网络能够在 COCO 训练 12 轮能达到 48.3 mAP,36 轮能达到 51.0 mAP。与排行榜上的其他模型相比,DINO显著减少了模型大小和训练前的数据大小,同时取得了更好的结果。...
2022-06-30 20:52:12
2300
原创 【ICLR 2021】半监督目标检测:Unbiased Teacher For Semi-Supervised Object Detection
半监督学习,即同时使用有标记和未标记数据的训练网络,最近取得了重大进展。然而,现有的工作主要集中在图像分类任务上,而忽略了目标检测。因此在这项工作中,作者重新讨论了半监督对象检测(SSOD),并确定了SSOD中的伪标记偏差问题。为了解决这个问题,作者引入了无偏见教师模型(Unbiased Teacher),这是一种简单而有效的方法,以互惠互利的方式共同训练学生模型和逐步进步的教师模型。...
2022-06-27 15:51:20
1600
原创 【ICCV 2019】特征超分检测:Towards Precise Supervision of Feature Super-Resolution for Small Object Detection
作者提出了一种新的特征级超分辨率方法,利用适当的高分辨率目标特征作为监督信号训练的SR模型和匹配的相对感受野的训练对输入低分辨率特征和目标高分辨率特性,而且可以与任何基于特征池化的检测器集成。...
2022-06-25 22:30:51
1024
原创 【CVPR 2020】会议版本:A Physics-based Noise Formation Model for Extreme Low-light Raw Denoising
由于缺乏丰富和真实的数据,学习到的单幅图像去噪算法不能很好地推广到不类似于训练所用数据的真实原始图像。虽然噪声合成的异方差高斯模型可以缓解这一问题,但数码相机电子器件引起的噪声源在很大程度上仍被忽视。为了解决这个问题,作者提出了一个基于CMOS光传感器特性的高度精确的噪声形成模型,从而使我们能够合成真实的样本,更好地匹配图像形成过程的物理特性。...
2022-06-23 09:45:55
393
原创 【ICPR 2021】遥感图中的密集小目标检测:Tiny Object Detection in Aerial Images
为了建立一个在航空图像中的微小物体检测的基准,作者还在AI-TOD数据集上评估了最先进的目标检测器。实验结果表明,将这些方法直接应用于AI-TOD会产生次优目标检测结果,因此需要设计新的微型目标检测器。因此,作者提出了一种基于多中心点的学习网络(M-CenterNet)来提高小目标检测的定位性能,实验结果表明,该性能提高显著。...
2022-06-22 15:37:35
3549
原创 【ICCV Workshop 2021】基于密度图的小目标检测:Coarse-grained Density Map Guided Object Detection in Aerial Images
对于每一幅图像,本文的方法的过程可以分为三个阶段。首先,利用密度估计模型预测图像的粗粒度密度图。其次,通过密度连接区域生成初始聚类区域,然后估计目标区域在聚类区域中的比例,并通过分割或扩大操作来调整聚类区域。最后,通过非最大抑制(NMS)来检测并合并所有的聚类区域。...
2022-06-22 11:10:16
1251
原创 【CVPR 2022】高分辨率小目标检测:Cascaded Sparse Query for Accelerating High-Resolution Smal Object Detection
根据低层特征的计算高度冗余和特征金字塔高度结构化,QueryDet首先预测低分辨率特征上小物体的粗略位置,然后使用由那些粗略位置稀疏引导的高分辨率特征来计算准确的检测结果。这样,不仅可以收获高分辨率特征图的好处,而且还可以避免对背景区域进行无用的计算。 此pipeline以级联方式应用,可实现快速,准确的小物体检测。...
2022-06-21 20:43:16
2060
原创 【SPRS J P & RS 2022】小目标检测模块:A Normalized Gaussian Wasserstein Distance for Tiny Object Detection
作者提出了一种新的框间距离的度量方法,用来解决传统的 IoU 度量对于小目标过于敏感的问题,可以直接用于基于锚框的检测器和NMS中。在我自己采集的数据上进行训练发现该方法确实比较好用。...
2022-06-21 16:30:18
1852
1
原创 【CVPR 2020 Oral】极低光去噪论文:A Physics-based Noise Formation Model for Extreme Low-light Raw Denoising
CVPR2020 oral & TPAMI 2021 的很优秀的里程碑式的暗光去噪文章
2022-06-20 16:19:28
936
原创 【微调视觉-语言模型】Learning to Prompt for Vision-Language Models
【微调视觉-语言模型】Learning to Prompt for Vision-Language Models代码地址:论文简介:动机和思路:具体实现:Vision-Language Pre-training:Context Optimization:Unified Context:代码地址:https://github.com/KaiyangZhou/CoOp论文简介:像CLIP这样的大型预训练视觉-语言模型在学习表征方面显示出了巨大的潜力,并且可以将学习到的表征用于下游视觉任务。在这项工作中
2022-05-22 13:44:21
943
原创 【2022】将3D目标检测看作序列预测-Point2Seq: Detecting 3D Objects as Sequences
这篇文章跟Pix2seq基本一致,只不过将每个3D对象视为一系列单词序列,并将3D对象检测任务重新表示为以自回归的方式从3D场景中解码单词
2022-04-22 11:34:16
4445
原创 【CVPR2022】无需示例的类增量学习的自我维持表示扩展
Self-Sustaining Representation Expansion for Non-Exemplar Class-Incremental Learning论文地址:摘要:介绍:论文地址:https://arxiv.org/abs/2203.06359摘要:无示例的类增量学习是指在无法保存旧类样本时,同时识别新旧类。这是一项具有挑战性的任务,因为表示优化和特征保留只能在新类的监督下实现。为了解决这一问题,作者提出了一种新的自维持表示扩展方案,该方案包括一个融合主分支扩展和侧分支更新的结
2022-04-01 12:33:07
3900
原创 Gumbel Softmax数学证明及其应用解析
Gumbel Trick 是一种从离散分布取样的方法,它的形式可以允许我们定义一种可微分的,离散分布的近似取样,这种取样方式不像「干脆以各类概率值的概率向量替代取样」这么粗糙,也不像直接取样一样不可导(因此没办法应对可能的 bp )。
2022-02-23 11:53:19
2648
3
原创 【类增量学习】ICCV 2019:Incremental Learning Using Conditional Adversarial Networks
【类增量学习】ICCV 2019:Incremental Learning Using Conditional Adversarial Networks论文地址:论文地址:https://ieeexplore.ieee.org/document/9009031
2021-11-23 19:34:15
2867
原创 【类增量学习】CVPR 2021:Class-Incremental Learning with Generative Classifiers
【类增量学习】CVPR 2021:Class-Incremental Learning with Generative Classifiers论文地址:代码地址:论文摘要:论文介绍:问题定义:Task-based class-incremental learning:Task-free class-incremental learning:Data storage:Pre-training:论文地址:https://arxiv.org/abs/2104.10093代码地址:https://githu
2021-11-22 16:34:26
2294
原创 【类增量学习综述】 Class-incremental learning:survey and performance evaluation
Class-incremental learning:survey and performance evaluation论文地址:摘要:介绍:相关工作:Task-incremental learning:Online learning:Variational continual learning:Pseudo-rehearsal methods:类增量学习:通用类增量式学习设置:类增量学习的挑战:研究方法:实验评估范围:Regularization approaches:Weight regularizat
2021-11-21 16:29:22
4605
原创 【NeurIPS 2021】Softmax-free Transformer with Linear Complexity(数学概念补充)
【NeurIPS 2021】Softmax-free Transformer with Linear Complexity(数学概念补充)高斯核:正定核:高斯核:线性支持向量机 (Linear-SVM) 被用于线性可分的数据集的二分类问题,而当数据集不是线性可分的时候,需要利用到核函数将数据集映射到高维空间,这样数据在高维空间中就线性可分。例如下面的数据就是线性不可分的:这是一个在当前空间下不可分的情况,我们可以利用核函数将数据映射到高维空间:这个线性平面,返回到原来空间就是一个形状类似椭圆的
2021-10-28 12:38:53
743
原创 【NeurIPS 2021】线性复杂度的 Transformer:SOFT: Softmax-free Transformer with Linear Complexity
【NeurIPS 2021】线性复杂度的 Transformer:SOFT: Softmax-free Transformer with Linear Complexity论文地址:代码地址:论文摘要:具体实现:Softmax-free self-attention formulation:Low-rank regularization via matrix decomposition with linear complexity:对比实验:实验设置:Comparison with existing lin
2021-10-26 17:24:35
750
原创 【NeurIPS 2021】ViT 中增强的 Shortcut Connection:Augmented Shortcuts for Vision Transformers
Augmented Shortcuts for Vision Transformers论文地址:主要工作:方案简介:基本定义:具体实现:Augmented Shortcuts:Efficient Implementation via Circulant Projection:实验结果:论文地址:https://arxiv.org/abs/2106.15941主要工作:主流 Transformer 模型的设计采用了深度体系结构,随着深度的增加,特征多样性会不断减少,即特征崩溃。本文从理论上分析了特征
2021-10-25 17:23:18
597
原创 基于特征距离的采样策略:Sampling Matters in Deep Embedding Learning
Sampling Matters in Deep Embedding Learning论文地址:代码地址:论文摘要:论文简介:论文地址:https://arxiv.org/abs/1706.07567代码地址:https://github.com/suruoxi/DistanceWeightedSampling论文摘要:深度嵌入解决的是衡量图像之间的特征相似读。最突出的方法是优化一个具有适当损失函数的深度卷积网络,如 contrastive loss 和 triplet loss。虽然大量的工
2021-10-23 15:39:30
1107
原创 2021 目标检测知识蒸馏 SOTA:End-to-End Semi-Supervised Object Detection with Soft Teacher
End-to-End Semi-Supervised Object Detection with Soft Teacher论文地址:代码地址:主要工作:具体实现:End-to-End Pseudo-Labeling Framework:Soft Teacher:Box Jittering:实验结果:消融实验:论文地址:https://arxiv.org/abs/2106.09018代码地址:https://github.com/microsoft/SoftTeacher主要工作:当前的半监督目标
2021-10-23 10:18:04
2498
1
原创 2021 Yann LeCun 团队对模型泛化性能的插值和外推理论的探讨:Learning in High Dimension Always Amounts to Extrapolation
Learning in High Dimension Always Amounts to Extrapolation论文地址:主要工作:研究背景:具体实验:The Role of the Intrinsic, Ambient and Convex Hull Dimensions:Real Datasets and Embeddings are no Exception:理论证明:论文地址:https://arxiv.org/abs/2110.09485主要工作:插值和外推( interpolatio
2021-10-21 12:45:03
961
原创 SpotTune-自适应迁移学习的微调方法
SpotTune: Transfer Learning through Adaptive Fine-tuning摘要:当前的问题:主要工作:具体实现:SpotTune Overview:Training with the Gumbel Softmax Policy:Compact Global Policy Variant:实验结果:摘要:迁移学习允许源任务影响目标任务的诱导偏差,在计算机视觉中得到了广泛的应用。利用深度神经网络进行迁移学习的典型方法是使用来自目标任务的数据来微调对源任务进行预训练的模型
2021-10-19 12:58:21
915
原创 ICLR 2022:文本驱动的图像风格迁移:Language-Driven Image Style Transfer
Language-Driven Image Style Transfer论文地址:主要工作:具体实现:LANGUAGE VISUAL ARTIST:CONTRASTIVE REASONING:实验结果:论文地址:ICLR 2022:https://openreview.net/forum?id=f-LuEgBQUg主要工作:提出了一项新任务:language-driven image style transfer,简称 LDIST,目标是以文本为驱动操作图像风格。作者提出了 CLVA 算法,从风格指
2021-10-19 12:56:35
1642
原创 ICLR 2022:语言引导的图像聚类算法:Language-Guided Image Clustering
Language-Guided Image Clustering论文地址:主要工作:具体实现:THE SINGLE-PHRASE PRIOR:REMOVING NON-SPECIFIC PHRASES:CLUSTERING WITH THE SINGLE PHRASE PRIOR:算法优化:THE UNCAPACITATED FACILITY LOCATION PROBLEM:LOCAL SEARCH ALGORITHM:实验结果:论文地址:https://openreview.net/forum?id
2021-10-19 12:53:57
475
原创 密集预测的视觉Transformer:Vision Transformers for Dense Prediction
Vision Transformers for Dense Prediction论文地址:代码地址:主要工作:具体实现:Transformer encoder:Convolutional decoder:实验结果:实验结果:论文地址:https://arxiv.org/abs/2103.13413代码地址:https://github.com/isl-org/DPT主要工作:我们引入了密集的视觉Transformer,这是一种利用视觉Transformer代替卷积网络作为密集的预测任务的主干的架
2021-10-15 20:04:33
1279
1
原创 SIMVLM:简单视觉语言模型,SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION
@[TOC](SIMVLM: SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION)论文地址:[https://arxiv.org/abs/2108.10904](https://arxiv.org/abs/2108.10904)主要工作:随着视觉和文本表示联合建模的最新进展,视觉-语言预训练(VLP)在许多多模态下游任务上取得了令人印象深刻的性能。然而,对昂贵的注释的要求,包括干净的图像标题和区域标签,限制了现有方法的可伸缩性
2021-10-15 20:01:05
1322
原创 MS-CLIP:模式共享的对比语言-图像预训练框架
MS-CLIP: modality-shared contrastive language-image pre-training论文地址:主要工作:主要问题:基本发现:实验结果:论文地址:ICLR 2022: https://openreview.net/forum?id=ROteIE-4A6W主要工作:现在的大规模多模态模型大都为每种模态使用单独的编码器,但是最近的研究表明,Transformer 可以支持跨多种模式的学习。受此启发,作者研究了如何构建一种模式共享的对比语言-图像预训练框架(MS
2021-10-15 19:55:44
815
原创 CLIP-Adapter:利用Adapter微调CLIP适配下游任务
CLIP-Adapter: Better Vision-Language Models with Feature Adapters论文地址:代码地址:主要工作:具体实现:Classifier Weight Generation for Few-Shot Learning:CLIP-Adapter:实验结果:实验结果:论文地址:https://arxiv.org/abs/2110.04544代码地址:https://github.com/gaopengcuhk/CLIP-Adapter主要工作:在
2021-10-15 19:39:41
4676
原创 超越 CLIP 的视觉-语言模型:Scaling Up Visual and Vision-Language Representation Learning
Scaling Up Visual and Vision-Language Representation Learning论文地址:主要工作:数据集:Pre-training on Noisy Image-Text Pairs:实验结果:论文地址:ICML 2021: https://arxiv.org/abs/2102.05918主要工作:在本文中,作者利用了超过10亿对图像-文本对的噪声数据集,该数据集在 Conceptual Captions 数据集中无需昂贵的过滤或后处理步骤即可获得,并使用
2021-10-14 22:10:06
731
原创 大规模 Vision-Language 模型预训练的数据增强:Supervision Exists Everywhere
Supervision Exists Everywhere: A Data Efficient Contrastive Language-Image Pre-training Paradigm论文地址:代码地址:主要工作:核心思想:具体实现:CLIP:DECLIP:实验结果:论文地址:https://arxiv.org/abs/2110.05208代码地址:https://github.com/Sense-GVT/DeCLIP主要工作:CLIP需要使用 400M 的图像-文本对来进行训练,而作者
2021-10-14 19:59:06
633
原创 ICLR 2022:预训练的大规模视觉和语言模型调优:How to Adapt Your Large-Scale Vision-and-Language Model
How to Adapt Your Large-Scale Vision-and-Language Model论文地址:主要工作:主要贡献:具体实现:实验结果:论文地址:ICLR 2022:https://openreview.net/forum?id=EhwEUb2ynIa主要工作:预训练的大规模视觉和语言模型(例如CLIP)在表示和迁移学习方面显示出了良好的结果。作者研究了如何有效地使这些模型适应下游任务的问题。对于图像分类,linear probes 一直是易用性和效率的标准,而对于语言,已
2021-10-14 19:46:19
557
原创 细粒度语言-图像预训练:FILIP: FINE-GRAINED INTERACTIVE LANGUAGE- IMAGE PRE-TRAINING
FILIP: FINE-GRAINED INTERACTIVE LANGUAGE- IMAGE PRE-TRAINING论文地址:主要工作:具体实现:实验结果:论文地址:ICLR 2022:https://openreview.net/forum?id=cpDhcsEDC2主要工作:无监督的大规模视觉语言预训练在各种下游任务上显示出了良好的进展。现有的方法通常通过模拟跨模态交互的相似性,即每个模态的全局特征的相似性,要么使用视觉和文本标记上的交叉/自注意力来模拟更精细粒度的交互。然而,交叉/自注意
2021-10-14 19:43:58
1571
原创 Pix2seq:连接文本和图像的目标检测算法
PIX2SEQ: A LANGUAGE MODELING FRAMEWORK FOR OBJECT DETECTION论文地址:代码地址:主要工作:具体实现:序列构造:模型架构:序列增强:实验结果:论文地址:https://arxiv.org/abs/2109.10852代码地址:(非官方实现)https://github.com/gaopengcuhk/Stable-Pix2Seq主要工作:这篇论文将对象检测转换为基于观察到的像素输入的语言建模任务。对象描述(例如,边界框和类标签)被表示为离散
2021-10-14 13:48:42
939
1
原创 CLIP:连接文本和图像的神经网络
Learning Transferable Visual Models From Natural Language Supervision论文地址:代码地址:主要工作:具体实现:实验结果:论文地址:https://arxiv.org/abs/2103.00020代码地址:https://github.com/OpenAI/CLIP主要工作:作者证明了简单的预训练任务,预测哪个图像的标题是一种有效的和可伸缩的方式,在从互联网收集的4亿(图像-文本对)数据集上从头学习 SOTA 的图像表示。经过预训
2021-10-14 13:46:27
1558
原创 ICLR 2022 语言模型驱动的语义分割算法:Language-Driven Semantic Segmentation
LANGUAGE-DRIVEN SEMANTIC SEGMENTATION论文地址:主要工作:具体实现:Text encoder:Image encoder:Word-pixel correlation tensor:Spatial regularization:实验结果:论文地址:ICLR 2022 open review: https://openreview.net/forum?id=RriDjddCLN主要工作:本文提出了一种新的语言驱动语义图像分割的LSeg模型。LSeg使用一个文本编码器
2021-10-14 13:42:48
1423
原创 Transformer+目标检测,这一篇入门就够了
Vision Transformer for Object Detection本文作者:Encoder-Decoder 简介:Encoder-Decoder 的缺陷:Attention 机制:Self-Attention 机制:Multi-Head Attention:Transformer 结构:图像分类之ViT:图像分类之Pyramid ViT:目标检测之DETR:目标检测之Deformable DETR:本文作者:BIT可达鸭禁止转载Encoder-Decoder 简介:机器翻译是序列转换模
2021-10-03 20:12:40
6078
2
原创 【2021 计算机视觉】CV算法岗面试问题及其答案总结(二)
【2021 计算机视觉】CV算法岗面试问题及其答案总结(二)Anchor Free 对比 Anchor-Based 的算法的主要优点?Roi Align 具体实现及其解决的问题?讲一下Yolo、SSD和Faster-RCNN三种检测算法?如何解决目标检测里类别不均衡的问题?讲一下实例分割任务跟其他任务的区别?讲一下实例分割中的Mask RCNN?Data-Free数据生成的方法有哪些?讲一下Cascade-RCNN的Motivation?介绍一下Triplet Loss?MobileNet系列为什么快?为什
2021-09-11 11:28:28
1978
原创 【2021 计算机视觉】CV算法岗面试问题及其答案总结(一)
【2021 计算机视觉】面试问题及其答案总结(一)BN、LN、IN与GN对比:BN 和 LN 使用场景:熵、交叉熵、KL散度、JS散度:JS散度解决了什么问题:求操作的 FLOPs?过拟合要怎么解决?随机梯度下降相比全局梯度下降好处是什么?L1、L2正则化在什么任务上分别会优先考虑?dropout为什么能解决过拟合 ?卷积有哪些变种?简单介绍一下Deformable convolution:介绍一下GCN中的拉普拉斯矩阵:介绍一下GCN的发展过程?目标检测中IOU是如何计算的,以及介绍一下IOU Loss:
2021-09-09 17:42:28
3371
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅