Civisky-CSDN博客

翻译 FixMatch：简单有效的半监督学习算法

半监督学习(SSL)提供了一种利用无标记数据提高模型性能的有效方法。最近，这一领域取得了快速的进展，但代价是需要更复杂的方法。我们提出了FixMatch方法，对现有的SSL方法进行了大幅简化。首先，FixMatch对无标记图像的弱增强视图进行预测，生成伪标签，并且只有当模型产生高置信度预测时，才会保留伪标签。然后，FixMatch对同一无标记图像的强增强视图进行预测，并且将预测结果与上述伪标签进行匹配，计算损失，以此来训练模型。FixMatch简单易行，并且在各种半监督学习基准上都达到了最先进的性能。

2022-10-22 18:41:42 4473

翻译 EMAN：自监督和半监督学习的指数移动平均归一化

本文提出了一种简单的归一化技术，即指数移动平均归一化(EMAN)，用于基于EMA-teacher框架的半监督和自监督模型。它解决了在EMA-teacher框架中使用标准BN时的cross-sample依赖和参数不匹配的问题。这种简单的设计提高了半监督和自监督模型的性能。这些提高在不同的方法、网络架构、训练时间和数据集上是一致的，证明了EMAN的有效性。

2022-10-11 16:48:18 1174

翻译 Consistent Teacher：一种简单有效的半监督目标检测器

本文系统地研究了半监督目标检测中的三种不一致问题，即匹配不一致、分类-回归子任务不一致和时间不一致。为了缓解上述挑战，我们提出了一种简单有效的半监督目标检测器，称为Consistent-Teacher。我们引入了Consistentanchorassignment和FAM方法，使分类和回归任务保持一致。我们利用高斯混合模型(GMM)动态调整自训练阈值，以解决时间不一致的问题。Consistent-Teacher为一系列SSOD评估提供了新的强大基线。

2022-10-07 12:05:14 803 2

翻译掩码自编码器(MAE)是时空学习者

本文将掩码自编码器(MAE)扩展到了视频的时空表示学习上面。我们随机掩码视频中的时空patches，并训练一个自编码器重建它们。有趣的是，我们的MAE方法可以在几乎没有时空归纳偏置的情况下学到强大的表示，并且随机掩码表现最好。我们观察到，视频的最佳掩码率高达90%，而图像的最佳掩码率为75%。高掩码率将大大提高模型的训练速度。我们报告了在几个挑战性的视频数据集上的结果。我们观察到，MAE可以大大超过有监督的预训练。我们还报告了在现实世界、未经整理的Instagram数据上令人鼓舞的结果。......

2022-08-30 16:11:01 1038

翻译用于医学图像分析的MAE掩码自编码器(速读版)

在本文中，我们证明了MAE预训练可以改善医学图像分类和分割任务的结果。MAEself pre-training在小数据集上优于现有的方法，包括ImageNet迁移学习方法。此外，我们还证明了MAE在CT和MRI医学图像上的有效性，这是以前从未探索过的。总之，MAE可以进一步改善ViT在医学图像分析任务中的性能。......

2022-08-29 17:05:46 1138

翻译 BEiT-3：将图像视为一种外语：用于视觉和视觉-语言任务的BEiT预训练(速读版)

在本文中，我们提出了一个通用的多模态基础模型BEiT-3，它在广泛的视觉和视觉-语言基准上实现了最先进的性能。BEiT-3的核心思想是，将图像视为一种外语，这样我们就可以对图像、文本以及图像-文本对进行统一的掩码“语言”建模。...

2022-08-28 18:42:45 1942

翻译 DINO：一种新的端到端目标检测器(速读版)

在本文中，我们提出了一种强大的端到端Transformer检测器DINO，借助contrastive denoising training、mixed query selection、look forward twice方法，大大提高了模型的训练效率和检测性能。我们进一步尝试在更大的数据集上用更强的骨干网络训练DINO，并在COCO 2017 test-dev数据集上达到了新的SOTA水平，63.3 AP。...

2022-08-26 16:59:52 2896

翻译 ViLT：不用卷积/区域特征监督信号的视觉-语言Transformer(速读版)

在本文中，我们提出了一种极简的VLP架构——视觉-语言Transformer(ViLT)。相比于那些大量配备卷积视觉嵌入网络(如Faster R-CNN和ResNets)的VLP模型，ViLT是有竞争优势的。未来，我们希望更多地关注Transformer模块内部的模态交互。尽管ViLT-B/32很了不起，但它更像是一个概念的证明，即没有卷积和region supervision的VLP模型仍然可以work。...

2022-08-25 23:11:28 365

翻译 CMAE：对比掩码自编码器是更强大的视觉学习者(速读版)

本文提出了一种新的自监督学习框架——对比掩码自编码器(CMAE)，旨在利用对比学习来提高MIM的表示质量。在CMAE中，我们分别从输入生成和体系架构方面提出了两种新颖的设计，以协调MIM和对比学习。大量实验证明，CMAE可以显著提高预训练表示的质量。值得注意的是，在图像分类、语义分割、目标检测三个下游任务上，CMAE取得了最先进的性能。未来，我们将研究把CMAE扩展到更大的数据集上。

2022-08-23 22:39:04 961

翻译 Semi-ViT：半监督学习Vision Transformer(速读版)

在本文中，我们提出了Semi-ViT方法，它在半监督学习上取得了很好的结果，甚至大大超过了之前基于CNN的同类方法。此外，Semi-ViT继承了ViT的可扩展性优势，模型越大，性能越好。这已被证明是半监督学习的一个有前途的方向。Semi-ViT的优势可以很好地泛化到其他数据集上。我们希望这些结果能够鼓励人们在半监督VisionTransformer方面做出更多工作。

2022-08-22 22:40:47 837

翻译 SwAV：通过对比聚类匹配实现视觉特征的无监督学习

在本文中，我们提出了一种online算法SwAV，它利用了对比学习方法的优点，而不需要计算成对的比较。具体来说，SwAV在对数据进行聚类的同时，强化同一图像不同视图的聚类分配之间的一致性，而不是像对比学习那样直接比较特征。简单地说，我们使用“换位”预测机制，从一个视图的表示中预测另一个视图的code。我们的方法可以进行大批量和小批量训练，并且可以扩展到无限量的数据上。与之前的对比方法相比，我们的方法更加高效，因为它不需要大的内存或特殊的动量网络。...

2022-07-23 15:20:27 1967

翻译 ImageNet、CIFAR、MNIST、IMDB、AudioSet等10个数据集中的标签错误分析

本文证明了标签错误在许多用于衡量机器学习进展的基准测试集中普遍存在。传统上，机器学习从业者根据测试精度选择部署哪种模型，我们建议这样做的话要谨慎，在正确标记的测试集上评判模型可能更重要，特别是对于含有更多噪声的真实世界数据集。我们建议考虑校正测试精度和原始测试精度之间的区别，并精心管理数据集，以最大限度地增加高质量的测试标签。...

2022-07-20 18:30:56 804

翻译谷歌大脑团队：ImageNet错误数据分析

在本文中，我们分析了ViT-3B和Greedysoup模型在ImageNet多标签验证集上所犯的每一个错误。我们发布了ImageNet-M数据集，这是一个包含68个示例的多标签评估子集，用于衡量模型解决重大、明确错误的能力。...

2022-07-19 18:59:52 278

翻译 P＞M＞F：基于预训练-元训练-微调流程的小样本学习方法

P>M>F：基于预训练-元训练-微调流程的小样本学习方法

2022-07-12 20:04:36 1492

翻译 DETR：基于Transformer的端到端目标检测方法

我们提出了DETR，这是一种基于Transformer和直接集合预测二分图匹配损失的目标检测系统。该方法在COCO数据集上实现了与Faster R-CNN基线相当的结果。DETR易于实现，具有灵活的架构，可以轻松扩展到全景分割任务上，并且取得了具有竞争力的结果。此外，与Faster R-CNN相比，DETR在大物体上的性能明显更好，这可能要归功于自注意力对全局信息的处理。这种新的架构也带来了新的挑战，特别是在小物体的检测方面。目前的检测器经过几年的改进才能应对类似问题，我们预计未来的工作将成功解决DETR的

2022-07-08 12:01:51 1364 1

翻译 MAE：掩码自编码器是可扩展的视觉学习者 v2

本文证明了掩码自编码器(MAE)是一种可扩展的计算机视觉自监督学习方法。MAE方法很简单：我们对输入图像的patches进行随机掩码，然后重建缺失的像素。MAE基于两个核心设计。首先，我们开发了一个非对称的编码器-解码器架构，其中编码器仅对可见的patches子集(没有掩码的tokens)进行操作，同时还有一个轻量级的解码器，可以从潜在表示和掩码tokens重建原始图像。其次，我们发现对输入图像进行高比例的掩码，例如75%，会产生一项非凡的、有意义的自监督任务。我们将这两种设计结合起来，就能高效地训练大模型

2022-06-22 17:40:41 866

翻译 ViT：Vision Transformer经典论文精读 v2

虽然Transformer架构已经成为NLP任务事实上的标准，但其在计算机视觉中的应用仍然有限。在计算机视觉中，注意力机制要么与卷积网络结合使用，要么用来替换卷积网络的某些组件，同时保持其整体架构不变。我们的研究表明，这种对CNN的依赖是不必要的，直接应用于图像patches序列的纯Transformer可以很好地执行图像分类任务。当在大量数据上进行预训练并迁移到多个中小型图像识别基准任务时，我们提出的Vision Transformer(ViT)相比最先进的卷积网络取得了优异结果，同时需要的计算资源也更少

2022-06-20 19:02:42 1011

翻译 Mask R-CNN论文精读

我们提出了一个简单、灵活、通用的实例分割框架，称为Mask R-CNN。我们的方法能够有效检测图像中的目标，同时为每个实例生成高质量的分割掩码。Mask R-CNN通过添加一个预测对象掩码的分支，与现有的边框识别分支并行，扩展了之前的Faster R-CNN。Mask R-CNN的训练很简单，只为Faster R-CNN增加了一小部分开销，运行速度为5帧/秒。此外，Mask R-CNN很容易泛化到其他任务，如人体姿态估计。我们展示了Mask R-CNN在COCO挑战赛的实例分割、目标检测和人物关键点检测任务

2022-06-12 15:44:17 2340

翻译 VideoMAE：掩码自编码器是用于自监督视频预训练的高效利用数据的学习者

在本文中，我们提出了一种用于视频Transformer预训练的简单且高效的自监督学习方法(VideoMAE)。VideoMAE引入了极高掩码率和tube掩码策略两种关键设计，使视频重建任务更具挑战性。这项艰巨的任务鼓励VideoMAE学习更多有用的特征，并缓解信息泄漏问题。实验结果表明，这种简单算法适用于不同规模的视频数据集。我们只需数千个视频片段就可以得到有效的VideoMAE，这对于数据有限的场景具有重要的实用价值。...

2022-06-03 22:57:44 2424

翻译 ConvMAE：当掩码卷积遇见掩码自编码器

原文：GaoP,MaT,LiH,etal.ConvMAE:MaskedConvolutionMeetsMaskedAutoencoders[J].arXivpreprintarXiv:2205.03892,2022.源码：https://github.com/Alpha-VL/ConvMAEVisionTransformer(ViT)已成为各种视觉任务广泛采用的架构。用于特征预训练的掩码自编码方法和多尺度混合convolution-transformer架构可...

2022-05-25 11:00:07 1055

翻译 CoCa：多模态图像-文本基础模型

原文：YuJ,WangZ,VasudevanV,etal.CoCa:ContrastiveCaptionersareImage-TextFoundationModels[J].arXivpreprintarXiv:2205.01917,2022.探索大规模预训练基础模型在计算机视觉中具有重要意义，因为这些模型可以快速迁移到许多下游任务中。本文提出了对比Captioner模型(ContrastiveCaptioner，简称CoCa)，结合对比损失和captioni...

2022-05-22 18:15:09 3206

翻译 MSN：用于小样本学习的掩码孪生网络

原文：Assran M, Caron M, Misra I, et al. Masked Siamese Networks for Label-Efficient Learning[J]. arXiv preprint arXiv:2204.07141, 2022.源码：https://github.com/facebookresearch/msn我们提出了掩码孪生网络(Masked Siamese Networks，MSN)，这是一种用于图像表示学习的自监督框架。MSN将随机掩码图像的表示与.

2022-05-18 17:29:16 1175

翻译 GLIP：语言-图像关联预训练模型

原文：Li,LiunianHarold,PengchuanZhang,HaotianZhang,JianweiYang,ChunyuanLi,YiwuZhong,LijuanWang,LuYuan,LeiZhang,Jenq-NengHwang,Kai-WeiChangandJianfengGao.“GroundedLanguage-ImagePre-training.”ArXivabs/2112.03857(2021).源码：https:...

2022-04-03 18:24:03 6954

翻译 PAWS：基于支持样本预测视图类别的半监督学习方法

原文：Assran,Mahmoudetal.“Semi-SupervisedLearningofVisualFeaturesbyNon-ParametricallyPredictingViewAssignmentswithSupportSamples.”2021IEEE/CVFInternationalConferenceonComputerVision(ICCV)(2021):8423-8432.源码：https://github.com/face...

2022-04-03 18:14:01 326

翻译 X-VLM：多粒度视觉语言预训练方法

原文：Zeng,Yan,XinsongZhangandHangLi.“Multi-GrainedVisionLanguagePre-Training:AligningTextswithVisualConcepts.”ArXivabs/2111.08276(2021).源码：https://github.com/zengyan-97/x-vlm现有的视觉语言预训练方法大多依赖于通过目标检测提取的以对象为中心的特征，并在提取的特征和文本之间进行细粒度的对齐。我们认...

2022-04-03 18:06:24 1427

翻译 Noisy Student自训练方法

原文：Xie, Qizhe, Eduard H. Hovy, Minh-Thang Luong and Quoc V. Le. “Self-Training With Noisy Student Improves ImageNet Classification.” 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2020): 10684-10695.源码：https://github.com/goo.

2022-04-03 17:54:14 1199

翻译自然语言处理中的自监督表示学习

原文：Amit Chaudhary. “Self Supervised Representation Learning in NLP.” https://amitness.com/2020/05/self-supervised-learning-nlp (2020).近年来，自监督学习在CV领域取得了惊人的进展，但它在NLP领域流行已经有很长一段时间了。自90年代以来，甚至在“自监督学习”被称为“自监督学习”之前，语言模型就已经存在。2013年的Word2Vec论文推广了自监督学习这一范式。NLP领.

2022-04-03 17:32:07 864

翻译 BYOL：一种新的自监督学习方法

原文：Grill,Jean-Bastienetal.“BootstrapYourOwnLatent:ANewApproachtoSelf-SupervisedLearning.”ArXivabs/2006.07733(2020).源码：https://github.com/deepmind/deepmind-research/tree/master/byol我们介绍了一种新的自监督图像表示学习方法BYOL。BYOL依赖于两个神经网络，分别是在线网络和目标网络，它们...

2022-04-03 17:12:45 7485

翻译 MoCo v3：自监督ViT训练的实证研究

原文：Chen, Xinlei, Saining Xie and Kaiming He. “An Empirical Study of Training Self-Supervised Vision Transformers.” ArXiv abs/2104.02057 (2021).源码：https://github.com/facebookresearch/moco-v3虽然标准卷积网络的训练方法已经非常成熟和稳健，但ViT(Vision Transformer)的训练方法还没有建立起来，特.

2022-04-03 16:38:47 1113

翻译 MoCo v2：改进的MoCo基线

原文：Chen,Xinlei,HaoqiFan,RossB.GirshickandKaimingHe.“ImprovedBaselineswithMomentumContrastiveLearning.”ArXivabs/2003.04297(2020).源码：https://github.com/facebookresearch/moco对比无监督学习最近取得了令人鼓舞的进展，例如动量对比(MoCo)和SimCLR。在本文中，我们通过在MoCo框架中实现Si...

2022-01-21 10:58:19 898

翻译 SimCLR v2：大型自监督模型是强大的半监督学习者

原文：Chen,Ting,etal."Bigself-supervisedmodelsarestrongsemi-supervisedlearners."arXivpreprintarXiv:2006.10029(2020).源码：https://github.com/google-research/simclr“无监督预训练+有监督微调”是在充分利用大量无标签数据的情况下，从少数有标签的示例中学习的一种范式。尽管这种范式以任务无关的方式使用无标签的数据，但与计算机视...

2022-01-21 10:40:38 1851

翻译计算机视觉中的半监督学习

原文：AmitChaudhary.“Semi-SupervisedLearninginComputerVision.”https://amitness.com/2020/07/semi-supervised-learning(2020).计算机视觉的半监督学习方法在过去几年中发展地非常迅速。目前最先进的方法是在算法架构和损失函数方面简化之前的工作，或者引入混合方法。本文将通过图表来说明半监督学习方法的关键思想。1.Self-Training1.1Pseudo-label...

2022-01-21 10:29:33 867

翻译 BEiT：图像Transformer的BERT式预训练

Bao,Hangbo,LiDongandFuruWei.“BEiT:BERTPre-TrainingofImageTransformers.”ArXivabs/2106.08254(2021).1.Abstract在本文中，我们介绍了一种自监督视觉表示模型BEiT(BidirectionalEncoderrepresentationfromImageTransformers)。继BERT在自然语言处理领域的发展之后，我们提出了一种掩码图像建模任务来预训练...

2021-12-22 18:22:59 1832

翻译 DINO：自监督ViT的新特性

Caron,Mathilde,HugoTouvron,IshanMisra,Herv'eJ'egou,JulienMairal,PiotrBojanowskiandArmandJoulin.“EmergingPropertiesinSelf-SupervisedVisionTransformers.”ArXivabs/2104.14294(2021).1.Abstract在本文中，我们质疑自监督学习是否能为视觉Transformer(ViT)提...

2021-12-21 17:46:06 2038

翻译 ResNet：图像识别中的深度残差学习

神经网络越深越难训练。我们提出了一个残差学习框架，以简化深层神经网络的训练。我们将层表示为参考层输入的学习残差函数。我们提供了全面的证据，表明这些残差网络更容易优化，并且可以从大幅增加的深度中获得准确性。在ImageNet数据集上，我们评估了152层的残差网络，它比VGG网络深8倍，但复杂性仍然较低。这些残差网络在ImageNet测试集上的误差达到了3.57%。这个结果在ILSVRC2015分类任务中获得了第一名。我们还在CIFAR-10数据集上对100和1000层的神经网络进行了分析。表示的深度对于视觉.

2021-12-21 09:48:21 576

翻译 ViT：一图胜千言，用于大规模图像识别的Transformer

虽然Transformer架构已经成为NLP任务事实上的标准，但其在计算机视觉中的应用仍然有限。在计算机视觉中，注意力机制要么与卷积网络结合使用，要么用来替换卷积网络的某些组件，同时保持其整体结构不变。我们的研究表明，这种对CNN的依赖是不必要的，直接应用于图像补丁序列的纯Transformer可以很好地执行图像分类任务。当在大量数据上进行预训练并迁移到多个中小型图像识别基准任务时，我们提出的VisionTransformer(ViT)相比最先进的卷积网络取得了优异结果，同时需要的计算资源也更少。.

2021-12-21 09:48:04 964

翻译 CLIP：从自然语言监督中学习可迁移的视觉模型

最先进的计算机视觉系统经过训练，可以预测一组固定的预定对象类别。这种受限的视觉监督形式限制了它们的通用性和可用性，因为需要额外的标记数据来指定任何其他视觉概念。直接从原始文本中学习图像是一种很有前途的选择，它利用了更广泛的监督来源。我们展示了一个简单的预训练任务，即预测哪个标题与哪个图像匹配，这是一种有效且可扩展的方法，利用这种方法可以在从互联网收集的4亿对(图像、文本)数据集上从头开始学习SOTA视觉模型CLIP。在预训练之后，我们使用自然语言引用学习到的视觉概念(或描述新的概念)，从而使CLIP模型能够

2021-12-21 09:47:43 752

翻译 Prevalent：视觉语言导航预训练模型

在视觉环境中按照自然语言指令进行导航是一项挑战，因为智能体的多模态输入是高度可变的，并且新任务的训练数据通常是有限的。作者针对视觉语言导航(Vision-and-LanguageNavigation，VLN)任务，提出了遵循预训练和微调范式的VLN模型Prevalent。作者在大量图像-文本-动作三元组数据集上对模型进行了自监督预训练，使其能够提供视觉环境和语言指令的通用表示。Prevalent在新任务上的学习效率更高，在陌生环境中的泛化性能更好。作者在R2R(Room-to-Room)、CVDN(Coo.

2021-12-21 09:47:26 219

翻译 VinVL：视觉语言模型中的视觉表示

以往的视觉语言（VisionLanguage，VL）研究主要关注视觉语言融合模型的改进，而对目标检测模型的改进很少涉及，但是作者发现视觉特征在VL模型中至关重要。因此，作者详细研究了视觉语言模型中的视觉表示（VisualrepresentationsinVision-LanguageModels，VinVL）方法，并提出了一种改进的目标检测模型。与广泛使用的bottom-up和top-down模型相比，作者提出的模型更大，能更好地适应VL任务，并且在大规模“图像-文本”语料库上进行了预训练，可以生...

2021-12-21 09:47:11 296

翻译 Oscar：面向视觉语言任务的对象语义对齐预训练模型

在视觉语言任务中，学习“图像-文本对”跨模态表示的大规模预训练方法越来越流行。而现有方法只是简单地将图像区域特征和文本特征串联起来输入模型进行预训练，并简单粗暴地利用self-attention来学习图像-文本的语义对齐。作者观察到，图像中的显著对象能被准确检测出来，并且在配对的文本中经常被提及。因此，作者提出了一种新的学习方法Oscar，它用图像中检测到的对象标签作为锚点，大大简化了对齐学习。作者在一个有650万个图像-文本对的公共语料库上对Oscar模型进行了预训练，并在下游任务上对其进行了微调。Osc

2021-12-21 09:46:34 553

空空如也

空空如也