BIT可达鸭
北京理工大学计算机科学与技术专业直博,研究方向为 3D 视觉、零样本学习等,获得百度飞桨开发者技术专家、百度飞桨深度学习开发者峰会开源新星奖、小米奖学金等,个人主页:https://sharpiless.github.io/
展开
-
【ECCV 2022】Visual Prompt Tuning
目前采用预训练模型的方法包括更新所有的主干参数,即完全微调。本文则介绍了视觉提示调优(VPT)作为一种有效的大型 Transformer 模型的替代方案。VPT 从有效调优大型语言模型的最新进展中获得灵感,在输入空间中只引入了少量(少于模型参数的1%)的可训练参数,同时保持模型主干冻结。对各种下游识别任务的广泛实验表明,与其他参数高效的调优协议相比,VPT获得了显著的性能提高。最重要的是,在许多情况下,VPT在跨模型容量和训练数据规模的情况下甚至优于完全微调,同时降低了每个任务的存储成本。原创 2022-09-27 21:27:14 · 1568 阅读 · 0 评论 -
【大模型迁移 2022】Exploring Visual Prompts for Adapting Large-Scale Models
本文研究了视觉提示(visual prompting)对适应大规模视觉模型的有效性。根据最近的提示调优(prompt tuning)和敌对抗重编程(adversarial reprogramming)方法,本文提出学习一个单一的图像扰动,然后由这个扰动提示的冻结模型执行一个新的任务。通过全面的实验,本文证明了 visual prompting 对 CLIP 特别有效,并且对分布转移具有鲁棒性,实现了与标准线性探头竞争的性能。本文进一步分析了下游数据集的特性、及时设计和输出转换的适应性性能。原创 2022-09-26 23:25:36 · 1387 阅读 · 6 评论 -
【微调视觉-语言模型】Learning to Prompt for Vision-Language Models
【微调视觉-语言模型】Learning to Prompt for Vision-Language Models代码地址:论文简介:动机和思路:具体实现:Vision-Language Pre-training:Context Optimization:Unified Context:代码地址:https://github.com/KaiyangZhou/CoOp论文简介:像CLIP这样的大型预训练视觉-语言模型在学习表征方面显示出了巨大的潜力,并且可以将学习到的表征用于下游视觉任务。在这项工作中原创 2022-05-22 13:44:21 · 612 阅读 · 0 评论 -
【NeurIPS 2021】Softmax-free Transformer with Linear Complexity(数学概念补充)
【NeurIPS 2021】Softmax-free Transformer with Linear Complexity(数学概念补充)高斯核:正定核:高斯核:线性支持向量机 (Linear-SVM) 被用于线性可分的数据集的二分类问题,而当数据集不是线性可分的时候,需要利用到核函数将数据集映射到高维空间,这样数据在高维空间中就线性可分。例如下面的数据就是线性不可分的:这是一个在当前空间下不可分的情况,我们可以利用核函数将数据映射到高维空间:这个线性平面,返回到原来空间就是一个形状类似椭圆的原创 2021-10-28 12:38:53 · 623 阅读 · 0 评论 -
【NeurIPS 2021】线性复杂度的 Transformer:SOFT: Softmax-free Transformer with Linear Complexity
【NeurIPS 2021】线性复杂度的 Transformer:SOFT: Softmax-free Transformer with Linear Complexity论文地址:代码地址:论文摘要:具体实现:Softmax-free self-attention formulation:Low-rank regularization via matrix decomposition with linear complexity:对比实验:实验设置:Comparison with existing lin原创 2021-10-26 17:24:35 · 565 阅读 · 0 评论 -
2021 Yann LeCun 团队对模型泛化性能的插值和外推理论的探讨:Learning in High Dimension Always Amounts to Extrapolation
Learning in High Dimension Always Amounts to Extrapolation论文地址:主要工作:研究背景:具体实验:The Role of the Intrinsic, Ambient and Convex Hull Dimensions:Real Datasets and Embeddings are no Exception:理论证明:论文地址:https://arxiv.org/abs/2110.09485主要工作:插值和外推( interpolatio原创 2021-10-21 12:45:03 · 717 阅读 · 0 评论 -
ICLR 2022:文本驱动的图像风格迁移:Language-Driven Image Style Transfer
Language-Driven Image Style Transfer论文地址:主要工作:具体实现:LANGUAGE VISUAL ARTIST:CONTRASTIVE REASONING:实验结果:论文地址:ICLR 2022:https://openreview.net/forum?id=f-LuEgBQUg主要工作:提出了一项新任务:language-driven image style transfer,简称 LDIST,目标是以文本为驱动操作图像风格。作者提出了 CLVA 算法,从风格指原创 2021-10-19 12:56:35 · 1366 阅读 · 0 评论 -
ICLR 2022:语言引导的图像聚类算法:Language-Guided Image Clustering
Language-Guided Image Clustering论文地址:主要工作:具体实现:THE SINGLE-PHRASE PRIOR:REMOVING NON-SPECIFIC PHRASES:CLUSTERING WITH THE SINGLE PHRASE PRIOR:算法优化:THE UNCAPACITATED FACILITY LOCATION PROBLEM:LOCAL SEARCH ALGORITHM:实验结果:论文地址:https://openreview.net/forum?id原创 2021-10-19 12:53:57 · 291 阅读 · 0 评论 -
SIMVLM:简单视觉语言模型,SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION
@[TOC](SIMVLM: SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION)论文地址:[https://arxiv.org/abs/2108.10904](https://arxiv.org/abs/2108.10904)主要工作:随着视觉和文本表示联合建模的最新进展,视觉-语言预训练(VLP)在许多多模态下游任务上取得了令人印象深刻的性能。然而,对昂贵的注释的要求,包括干净的图像标题和区域标签,限制了现有方法的可伸缩性原创 2021-10-15 20:01:05 · 1137 阅读 · 0 评论 -
MS-CLIP:模式共享的对比语言-图像预训练框架
MS-CLIP: modality-shared contrastive language-image pre-training论文地址:主要工作:主要问题:基本发现:实验结果:论文地址:ICLR 2022: https://openreview.net/forum?id=ROteIE-4A6W主要工作:现在的大规模多模态模型大都为每种模态使用单独的编码器,但是最近的研究表明,Transformer 可以支持跨多种模式的学习。受此启发,作者研究了如何构建一种模式共享的对比语言-图像预训练框架(MS原创 2021-10-15 19:55:44 · 690 阅读 · 0 评论 -
CLIP-Adapter:利用Adapter微调CLIP适配下游任务
CLIP-Adapter: Better Vision-Language Models with Feature Adapters论文地址:代码地址:主要工作:具体实现:Classifier Weight Generation for Few-Shot Learning:CLIP-Adapter:实验结果:实验结果:论文地址:https://arxiv.org/abs/2110.04544代码地址:https://github.com/gaopengcuhk/CLIP-Adapter主要工作:在原创 2021-10-15 19:39:41 · 3410 阅读 · 0 评论 -
超越 CLIP 的视觉-语言模型:Scaling Up Visual and Vision-Language Representation Learning
Scaling Up Visual and Vision-Language Representation Learning论文地址:主要工作:数据集:Pre-training on Noisy Image-Text Pairs:实验结果:论文地址:ICML 2021: https://arxiv.org/abs/2102.05918主要工作:在本文中,作者利用了超过10亿对图像-文本对的噪声数据集,该数据集在 Conceptual Captions 数据集中无需昂贵的过滤或后处理步骤即可获得,并使用原创 2021-10-14 22:10:06 · 477 阅读 · 0 评论 -
大规模 Vision-Language 模型预训练的数据增强:Supervision Exists Everywhere
Supervision Exists Everywhere: A Data Efficient Contrastive Language-Image Pre-training Paradigm论文地址:代码地址:主要工作:核心思想:具体实现:CLIP:DECLIP:实验结果:论文地址:https://arxiv.org/abs/2110.05208代码地址:https://github.com/Sense-GVT/DeCLIP主要工作:CLIP需要使用 400M 的图像-文本对来进行训练,而作者原创 2021-10-14 19:59:06 · 502 阅读 · 0 评论 -
ICLR 2022:预训练的大规模视觉和语言模型调优:How to Adapt Your Large-Scale Vision-and-Language Model
How to Adapt Your Large-Scale Vision-and-Language Model论文地址:主要工作:主要贡献:具体实现:实验结果:论文地址:ICLR 2022:https://openreview.net/forum?id=EhwEUb2ynIa主要工作:预训练的大规模视觉和语言模型(例如CLIP)在表示和迁移学习方面显示出了良好的结果。作者研究了如何有效地使这些模型适应下游任务的问题。对于图像分类,linear probes 一直是易用性和效率的标准,而对于语言,已原创 2021-10-14 19:46:19 · 396 阅读 · 0 评论 -
细粒度语言-图像预训练:FILIP: FINE-GRAINED INTERACTIVE LANGUAGE- IMAGE PRE-TRAINING
FILIP: FINE-GRAINED INTERACTIVE LANGUAGE- IMAGE PRE-TRAINING论文地址:主要工作:具体实现:实验结果:论文地址:ICLR 2022:https://openreview.net/forum?id=cpDhcsEDC2主要工作:无监督的大规模视觉语言预训练在各种下游任务上显示出了良好的进展。现有的方法通常通过模拟跨模态交互的相似性,即每个模态的全局特征的相似性,要么使用视觉和文本标记上的交叉/自注意力来模拟更精细粒度的交互。然而,交叉/自注意原创 2021-10-14 19:43:58 · 1230 阅读 · 0 评论 -
Pix2seq:连接文本和图像的目标检测算法
PIX2SEQ: A LANGUAGE MODELING FRAMEWORK FOR OBJECT DETECTION论文地址:代码地址:主要工作:具体实现:序列构造:模型架构:序列增强:实验结果:论文地址:https://arxiv.org/abs/2109.10852代码地址:(非官方实现)https://github.com/gaopengcuhk/Stable-Pix2Seq主要工作:这篇论文将对象检测转换为基于观察到的像素输入的语言建模任务。对象描述(例如,边界框和类标签)被表示为离散原创 2021-10-14 13:48:42 · 630 阅读 · 1 评论 -
CLIP:连接文本和图像的神经网络
Learning Transferable Visual Models From Natural Language Supervision论文地址:代码地址:主要工作:具体实现:实验结果:论文地址:https://arxiv.org/abs/2103.00020代码地址:https://github.com/OpenAI/CLIP主要工作:作者证明了简单的预训练任务,预测哪个图像的标题是一种有效的和可伸缩的方式,在从互联网收集的4亿(图像-文本对)数据集上从头学习 SOTA 的图像表示。经过预训原创 2021-10-14 13:46:27 · 1298 阅读 · 0 评论 -
ICLR 2022 语言模型驱动的语义分割算法:Language-Driven Semantic Segmentation
LANGUAGE-DRIVEN SEMANTIC SEGMENTATION论文地址:主要工作:具体实现:Text encoder:Image encoder:Word-pixel correlation tensor:Spatial regularization:实验结果:论文地址:ICLR 2022 open review: https://openreview.net/forum?id=RriDjddCLN主要工作:本文提出了一种新的语言驱动语义图像分割的LSeg模型。LSeg使用一个文本编码器原创 2021-10-14 13:42:48 · 1193 阅读 · 0 评论