计算机视觉
文章平均质量分 90
山上的小酒馆
学习学习
展开
-
CLIP扩展
CLIP扩展原创 2022-09-30 09:00:17 · 1458 阅读 · 0 评论 -
Action CLIIP:A New Paradigm for Video Action Recognition
在图像分类这边使用one-hot编码没有问题,一般来讲一个物体对应一个名词,就存在一种“一一对应”关系。但是在视频这边比如“open the door”对应就是一个短语,对应三个单词,另外,open这个动词可以描述很多动作。这时就有一个trade off(折中),标记很多类,人工标注成本提高,softmax效果也不好,常规的分类算法可能表现都很差。只标注大类,就无法预测细粒度的小类。最理想的方法就是摆脱标签的限制,从大量的视频数据中学好的特征,然后再去zero-shot或者few-shot迁移至下游任务。原创 2022-09-30 08:57:24 · 1466 阅读 · 0 评论 -
视频领域 CLIP4clip:An Empirical Study of CLIP for End to End Video Clip Retrieval
视频检索,CLIP4clip中CLIP指OpenAI的CLIP模型,clip指的是视频中的clip。CLIP模型很适合做Retrieval(检索)任务,因为它就是做图像和文本之间相似性,根据相似性可以去做ranking、matching以及retrieve等任务。而且由于双塔结构(图像文本编码器分开),得到的image embedding和text embedding做一步点乘就可以计算相似度,因此非常容易扩展原创 2022-09-30 08:54:22 · 2493 阅读 · 0 评论 -
CLIP Passo:Semantically-Aware Object Sketching图像生成简笔画
保持语义信息的物体素描:图片变成简笔画的形式,可生成各种层次的主要轮廓并且保留其主要视觉特征。不仅要把原来的物体变成一个非常简单的形象,也要保证观众能不能看出这到底是个什么物体,这就需要模型抓住原来物体最关键的一些特征。原创 2022-09-30 08:51:36 · 1528 阅读 · 0 评论 -
GLIP_V1/V2(Ground Language-Image Pre-train)CVPR2022
vision grounding任务:给你一句话,你去把这句话里的物体在当前图片中定位出来。就类似一个目标检测任务。CLIP是一个图像文本配对任务。将两个任务结合起来,再加入伪标签(self training),这样模型就可以在没有标注过的图像文本对上生成bbox标签。从而扩张整个训练数据集的数量。原创 2022-09-27 21:38:57 · 974 阅读 · 0 评论 -
ViLD(Open-Vocabulary Object Detection via Vision and Language Konwledge Distillation)
基于视觉语言(图像文本)知识蒸馏的目标检测。CLIP模型当成teacher模型,去蒸馏自己的模型,从而达到zero-shot。原创 2022-09-27 21:37:21 · 4268 阅读 · 1 评论 -
Group ViT(Semantic Segmentation Emerges from Text Supervision)
让模型在最初的时候能将周围相邻相似的像素点group起来,变成Segmentation mask。Group ViT的贡献就是在也有的ViT模型中加入Grouping Block,同时加入了可学习的Group Tokens。原创 2022-09-27 16:51:45 · 2336 阅读 · 0 评论 -
Lseg(Language -driven semantic segmentation)
这篇论文的意义在于将文本的分支加入到传统的有监督分割的pipeline模型中。从而在最后推理的时候能使用文本的prompt任意的得到分割的效果。此处密集的图像特征需进一步放大(up scaling)得到新的特征的图与原图大小一致,这一步也是为分割任务的实现。第一行图中,能够完美的将狗和树分开,为了验证模型的容错能力,加一个汽车vehicle的标签,模型中也并没有出现汽车的轮廓。,因为分割任务的数据集都比较小(10-20万),为保证文本编码器的泛化性,就直接使用并锁住CLIP中文本编码器的参数。原创 2022-09-27 16:49:52 · 2261 阅读 · 0 评论 -
ResNeXt 组卷积
普通卷积每个卷积核通道数与输入特征图通道数C_in一致,卷积核个数与输出特征图通道数C_out一致组卷积:参数:k*k*c_in*c_out 使用组卷积:(k*k*c_in/g*c_out/g)*g= k*k*c_in*c_out /g 为什么group数设置为32?消融实验证明,group=32效果最好。block>=3时,构建有意义的block。浅层block意义不大。...原创 2022-04-05 20:44:04 · 253 阅读 · 0 评论 -
swin_transformer----基于移动窗口的层级(多尺度)视觉transformer
swin_transformer提出移动窗口的概念,只在窗口内计算自注意力,可以有效减小序列的长度,并结合移动shift_window,使得相邻窗口间有了信息交互,这就体现出来多尺度的思想。另外,随着patch_merging的使用,使得感受野不断变大,这时计算自注意力,就汇聚了全局信息。即关注了局部特征,也考虑了全局信息(一张图中相距较远的patch也产生了交互)。原创 2022-03-19 13:46:01 · 6691 阅读 · 0 评论 -
Transformer 自注意力机制 及完整代码实现
编码器的每个句子是长为seq_len的语言序列,每个单词(汉字)可化长为d_model=512的向量,输入为batch*512*seq_len(x1,x2,…xn)。编码器可以看到整个输入的句子,将信息(时序)做一次汇聚(多个自注意力),提取特征。输出为batch*512*seq_len(z1,z2,…zn)解码器收到解码指令(start of scentence),开始解码,先做subsequence_mask,看不到当前时刻后的信息(一个单词一个单词翻译),然后进行自注意力机制,然后拿出Q并编...原创 2022-03-16 09:35:41 · 4365 阅读 · 0 评论 -
MoCo中的InfoNCE
data-sample数据样本q,noise-sample噪声样本(k+、k2、k3…),每次拿数据样本和噪声样本作对比(noise contrastive)。为降低计算复杂度,取部分负样本做损失(estimation)。部分负样本越多,近似越精确,也就是MoCo强调字典尽可能大。NCE将超级多分类问题转换为一系列二分类问题,进而使用softmax操作。τ控制分布形状,τ变大,分布相应的值变小,分布平滑。如果τ设的过大,对比损失对所有负样本一视同仁,模型学习没有轻重。如果τ设的过小,模型只关注那些特..原创 2022-03-17 15:13:02 · 11995 阅读 · 0 评论 -
MoCo 动量对比用于无监督视觉表征学习
目录1.前言2.代理任务3.论文摘要4.引言5.相关工作6.具体方法(关于InfoNCEloss的详细介绍见另一篇博文)7.总结1.前言对比学习:将样本通过模型映射到特征空间,在特征空间中拉近同类的样本,并使得不同类的点排斥开。2.代理任务代理任务:学到一个好的数据表征,生成一个自监督的信号充当Ground Truth,作为标签。个体判别,instance discrimination。将一张图xi裁成两部分xi1与xi2,计算xi1与..原创 2022-03-17 15:02:03 · 6791 阅读 · 0 评论 -
MAE 掩码自编码是可扩展的学习
两个要点:一是基于非对称的编码器、解码器架构。编码器只输入没有mask的patch,编码器的输出(语义空间的潜表示latent representation)。二是mask较大比例(例如75%)的patches是一种非显然的有意义的自监督任务,由于输入图片大部分被遮住了,可以加速训练。MAE证明了,在ImageNet-1K data(ImageNet-1K data)、迁移学习、自监督学习等任务中都取得了较好的效果。原创 2022-03-16 09:36:48 · 3482 阅读 · 0 评论 -
softmax回归与交叉熵损失crossentropy的详细推导
(1)softmax对于一个多分类问题,经过隐藏层的计算(式1),输出是对应类别的得分。(1)式中,oi代表对应第i个类别的得分,x代表输入,wi与bi为网络权重与偏置参数,均为学习的参数。假设要解决一个花的四分类问题,四个类别分别为郁金香、玫瑰、向日葵、小雏菊。当输入类别为向日葵时,可计算此时的输入对应四个类别的分别的得分o1、o2、o3、o4。假设由公式(1)计算得分如下表1: o1(郁金香) o2(玫瑰) o3(向日葵) ...原创 2022-03-17 10:37:13 · 951 阅读 · 0 评论 -
ViT 机器视觉transformer
transformer的高效计算(矩阵并行)和可扩展性1.引言(1)CV领域用transformer的局限性:图片尺寸大,参数太多,算法复杂度为序列长度的平方。引文中,有用局部窗口,有的将高和宽独立做两部分attention。本文使用的是标准Transformer架构,做有监督的图像分类任务。(2)优势:随着数据集的增大,transformaer架构并没有表现出饱和性(saturating),在大规模数据集上,vit的效果要好一些。可在大规模数据集上做预训练,然后迁移到小数据集上做微调。(3原创 2022-03-17 14:47:48 · 6503 阅读 · 2 评论 -
MobileNet_V1----MobileNet_V3
MobileNet_v1传统卷积网络,内存需求大,运算量大,无法在移动设备以及嵌入式设备上进行。2017年Goolge提出MobileNet,相比于传统卷积神经网络,准确率小幅降低但大大较少了模型参数与运算量,并具备超参数α,β可根据需求调整精度与计算量。传统卷积对于传统卷积网络,卷积核channels=输入特征矩阵channels;输出特征矩阵channels=卷积核个数DWCNN即depthwise_conv,每个卷积核对应输入特征矩阵一个通道,卷积核channels=.原创 2022-04-05 20:53:09 · 1818 阅读 · 0 评论 -
Beta分布(概率的概率)
目录1.前言2.定义3.Beat分布的概率密度函数(PDF):4.Beat分布的累积密度函数(CDF):1.前言伯努利试验(同样的条件下重复地、相互独立地进行的一种随机试验,其特点是该随机试验只有两种可能结果:发生或者不发生)频率学派的观点(出现次数最多的情况体现了概率的分布),体现了后验Gamma函数:阶乘在实数域的推广。2.定义对于掷硬币或投色子这样的简单模型,我们可以预先明确概率分布情况。但普遍情况下,无法准确得知系统的概率分布。根据频率学派的观点.原创 2022-04-10 15:18:44 · 15419 阅读 · 0 评论 -
EfficientNET_V1
EffcientNet_v1:高效的拓宽卷积网络来达到更好的效率和精度。1.引言在之前的一些论文中,基本都是通过改变3个参数(通道数、网络层数、输入图像的分辨率)中的一个来提升网络的性能,而这篇论文就是同时来探索这三个参数的影响。在论文中提到,本文提出的EfficientNet-B7在Imagenet top-1上达到了当年最高准确率84.3%,与之前准确率最高的GPipe相比,参数数量(Params)仅为其1/8.4,推理速度提升了6.1倍。。下图是EfficientNet与其他网络的对比(注意,原创 2022-04-09 17:13:13 · 2436 阅读 · 0 评论 -
mixup_ratio
目录1.简介2.背景3.mixup_ratio主要工作4.理解5.讨论6.计算loss时,关于label的选择 7.几种数据增强方式8.对数据增强的讨论mixup_ratio个人可以理解为按比例混合两个样本,生成新的样本,是一种数据增强的方式。1.简介大型深度神经网络,损耗巨大的内存以及对对抗样本(干扰)的敏感性一直不太理想。本质上,mixup在成对样本及其标签的凸组合(convex combinations)上训练神经网络。这样做,mixup规范神...原创 2022-04-10 16:05:15 · 3293 阅读 · 0 评论 -
VAN(DWConv+DWDilationConv+PWConv)
1.引言最初自注意力机制(self-attention)的提出是在NLP领域,但是由于其全局特征提取的能力,自注意力机制很快就席卷了CV领域。但是对于2D的图像,self-attention有以下不足:(1)将图像铺成1D序列损失了2D结构信息。(2)平方复杂度使得高分辨率的图片(如800*800)计算开销太大了。(3)仅仅提取了空间上的适应性,而忽视了通道channel维度的适应性。因此,基于LKA(Large Kernel Attention)提出一种新的网络架构VAN。尽管架构比较简单,就是D..原创 2022-04-22 15:02:56 · 6741 阅读 · 5 评论 -
Efficient Net_V2
目录0.论文地址1.引言2.EfficientNetV1中存在的问题3.EfficientNetV2的创新点4.NSA搜索5.EfficientNetV2网络框架6.Progressive Learning渐进学习策略0.论文地址https://arxiv.org/abs/2104.00298https://arxiv.org/abs/2104.002981.引言EfficientNetV2网络不仅Accuracy达到了当前的SOTA(State-Of-.原创 2022-04-09 17:22:25 · 3504 阅读 · 0 评论 -
Shuffle Net_v1-shuffle_v2
shuffleNet结合ResNeXt的组卷积(GConv)与MobileNet的DW卷积。ResNeXt中1*1卷积占用了94.3%的Mdds,引入组卷积GConv减少计算复杂度。进行组卷积时,每组卷积独立进行,因此引入shuffle操作使得Group与Group间信息交互。1.shuffle操作2.计算复杂度对比:相较于ResNet,ShuffleNet_v1对1*1的卷积进行了分组,并且中间3*3卷积使用DW卷积,组数g=通道数m。3.Shuffle Net_v1模型架构以及.原创 2022-04-09 17:00:15 · 832 阅读 · 0 评论 -
ConNeXt
0.引言基于ResNet,使用了ResNext(组卷积)、MobileNet(Inverted倒残差)的技巧,并基于Swin—Transformer的架构来搭建网络。几乎没有新的东西,都是基于之前的技巧,相比于swin—transformer有着更高的精度和更少的FLOPs(更快的推理速度)。In this work, we investigate the architectural distinctions between ConvNets and Transformers and try t原创 2022-04-11 10:03:06 · 509 阅读 · 0 评论 -
t-SNE降维可视化
目录1.高斯分布:2.卡方分布:3.t分布4.t-SNE(t-Distributed Stochastic Neighbor Embedding)(1)在高维空间构建一个概率分布拟合高维样本点间的相对位置关系。(2)在低维空间,也构建一个概率分布,拟合低维样本点之间的位置关系。5.SNE的缺点以及解决措施1.高斯分布:2.卡方分布:若n个相互独立的随机变量, 均服从标准正态分布(独立同分布于标准正态分布),...原创 2022-04-21 20:25:55 · 1755 阅读 · 0 评论 -
CLIP Learning Transferable Visual Models From Natural Language Supervision
目录1.引言2.架构3.Bag of Words和对比型目标函数来加速训练4.伪代码5.prompt engineering and ensembling6.Linear Probe7.CLIP与人对比8.CLIP的局限性1.引言视觉语义与文本语义联系起来,学到的特征非常强,迁移的效果非常好。利用NLP的监督信号,学习一个迁移性能很好的视觉模型。文字图片的多模态工作,文字图片配对。ImageNet128万数据集上CLIP使用zero-shot(不用Imag原创 2022-04-10 16:17:27 · 3040 阅读 · 2 评论 -
DETR:End to End Object Detection with Transformers
之前目标检测中不论proposal based的方法还是anchor based 的方法,都需要nms(非极大值抑制)等候处理的方法筛选bbox(bounding box)。由于nms的操作,调参比较复杂,而且模型部署起来也比较困难。因此,一个端到端的目标检测模型是一直以来所追求的。DERT很好的解决了上述问题,不需要proposal和anchors,利用Transformer全局建模的能力,把目标检测看成集合预测的问题。而且由于全局建模的能力,DETR不会输出太多冗余的边界框,输出直接对应最后bbox,不原创 2022-09-19 15:08:21 · 1938 阅读 · 0 评论 -
ViLT Vision-and-Language Transformer Without Convolution or Region Supervision
Vision and Language Pre-training(VLP)已经已经在视觉语言的多模态下游任务中发展的很好。然而,当前VLP的工作主要集中在图像特征抽取上,一般来讲,图像特征抽取的越好,下游任务中的表现就越好。但是,现在主要有两个问题,一是效率太低,速度太慢,抽取图像特征花费大量时间,比多模态融合都多。我们应该花费更多时间在融合上。第二个是,你用一个预训练好的模型去抽取特征,表达能力受限。目标检测数据集不够大,规模不够大。如果模型不是端到端学习,只是从预训练模型抽取特征,大概率来说不是最优解。原创 2022-09-17 16:39:25 · 818 阅读 · 1 评论 -
DALLE·2(Hierarchical Text-Conditional Image Generation with CLIP Latents)
CLIP已经能够学习到很稳健的特征,比如语义semantics和风格style,如果只是拿来做分类就很可惜,如果能拿来做图像生成任务。两个阶段prior和decode。原创 2022-09-15 16:08:16 · 14709 阅读 · 1 评论