【开放域目标检测】一:Open-Vocabulary Object Detection Using Captions论文讲解

出发点是制定一种更加通用的目标检测问题,目的是借助于大量的image-caption数据来覆盖更多的object concept,使得object detection不再受限于带标注数据的少数类别,从而实现更加泛化的object detection,识别出更多novel的物体类别。

一、背景 & 动机

尽管深度神经网络在目标检测方面具有显著的准确性,但由于监管要求,它们的训练和拓展成本很高。特别是,学习更多的对象类别通常需要按比例增加更多的边界框注释。

例如Faster RCNN及其令人印象深刻的准确性,但训练这样的模型需要昂贵且耗时的人力监督,特别是,需要为每个ROI的对象类别手动标注至少数千个边界框。尽管之前很多机构已经完成了object detection上benchmark的建立,并且公开了这些有价值的数据集,例如Open Images和MSCOCO,这些数据集描述了一些有限的对象类别。但如果我们想将目标检测从600个类别扩展到60000个类别,那么我们需要100倍数据资源的标注,这使得把目标检测拓展到开放世界里变得遥不可及。

然而,人类通过自然监督学会毫不费力地识别和定位物体,即探索视觉世界和倾听他人描述情况。我们人类具有终生学习的能力,我们捕捉到视觉信息后,会将它们与口语联系起来,从而产生了丰富的视觉和语义词汇,这些词汇不仅可以用于检测物体,而且可以用来拓展模型的表达能力。尽管在对象周边绘制边界框不是人类自然学习的任务,但他们可以通过使用少量例子快速学习它,并将其快速泛化到所有类型的对象,而不需要每个对象类的示例,这就是Open Vocabulary Object Detection这一问题的motivation所在。

二、Open-Vocabulary的简单引入

Open-Vocabulary Object Detection (OVD)可以翻译为**“面向开放词汇下的目标检测”,**该任务和zero-shot object detection非常类似,核心思想都是在可见类(base class)的数据上进行训练,然后完成对不可见类(unseen/ target)数据的识别和检测。

弱监督和zero-shot学习技术已经被探索用于在较少监督的情况下将对象检测器扩展到更多类别,但它们还没有像监督模型那样成功和广泛应用。

在本文中,我们提出了一种新的目标检测问题的公式—Open-Vocabulary Object Detection,它比弱监督和zero-shot方法更通用、更实用、更有效。

我们提出了一种新的方法来训练对象检测器,使用限定对象类别的包围框注释,以及以显著较低的成本覆盖更多的图像—标题对。

我们表明,所提出的方法可以检测和定位在训练过程中没有提供边界框注释的对象,其精度明显高于zero-shot方法。

三、Open-Vocabulary / zero-shot /weakly supervised之间的差异

在这里插入图片描述
比较了一下三种setting,OVD和ZSD的区别应该就是在训练时,OVD可能用到target类的embedding信息,当然可能只说这些embedding信息包含在一堆caption中,谁也不知道里面有没有target信息,肯定不能给target类的bbox信息。而zero-shot完全没用到,weakly supervised就更直接了,直接利用子集来训练,从而强化泛化能力。

四、论文的核心

Open-Vocabulary工作的核心是利用image-caption数据来对视觉编码器进行pre-training。

由于caption中存在着丰富的用于图像区域等细粒度特征得描述单词和短语,能够覆盖更多的物体类别,因此经过大规模image-caption的预训练,Vision encoder便能够学习到更加泛化的视觉-语义对应空间。

因此训练好的vision encoder便可以用于替换faster rcnn中的encoder,提高检测模型的zero-shot检测能力。

五、论文流程

在这里插入图片描述
展开讨论预训练流程,整体的预训练流程有些类似于PixelBert,可参考如下:

  • 第一步:学习的视觉与文本的联系。通过训练一个现象变换层来把视觉空间的特征转换到文本空间,来充当一个V2L(vision to language)的模块,负责把视觉特征变换到文本空间去。输入的image-caption对首先各自经过各自模态的encoder,图像则是细分得到每个区域的特征,然后进一步经过V2L变换。之后,两个模态的特征concat起来之后送入多模态的transformer,得到的输出是视觉区域特征以及训练好的BERT,这样的模型具有泛化能力,而图像encoder是常用的resnet50。
  • 第二步:利用常规的目标检测框架:Faster RCNN,进行模型训练。为了保证延续性,backbone采用上一阶段中训练好的renet50,每个proposal的特征经过V2L变换之后又与类别标签的文本特征计算相似度来进行分类。事实上就是把回归问题转换成分类问题。
  • 第三步:把要检测的新类别加入文本的特征向量中做匹配。

一旦预训练结束后,trained vision encoder和trained V2L层,便可以替换至Faster RCNN框架中,通过在base数据集上进行finetune vision encoder,使其适配ROI区域特征,固定V2L层,保持其学习到的泛化的视觉-语义空间,即可进行target类别数据的检测。

总结来看,OVR-CNN通过在image-caption数据集上的预训练,学习到了丰富的文本词汇和图像区域表征,这样泛化的表征空间覆盖的物体类别,是远超过现阶段的带标注的目标检测数据集中物体的类别数。

整个模型框架跟Faster RCNN几乎完全一样,只是将最后的cls head换成了V2L,也就是换成了一个将visual feature投影到text embedding space的投影矩阵。

六、模型结果对比

在这里插入图片描述
可以发现,相较于原有的zero-shot的detection,模型的泛化性能显然是更强的。

根据上表,其实我们可以发现:

  • ZSD的检测效果差(map不高)

主要原因,我认为就是对于没有任何未知类的例子经过训练,OVD 应该是会有部分未知类通过image-caption dataset 训练可得知,因此从现有基类的特征其实很难推出新类。

  • WSD 定位效果不好

个人分析认为,他从没有注释的图片很难学习到特征,就很难像OVD那样通过image-caption那样,至少有图像和文本方向的特征,再通过基类的相关有注释框的图片学习,就能很好的定位。

  • mixed supervision

其实同样存在上面的缺陷,在基类上进行训练,然后使用弱监督学习转移到目标类,这些方法通常会在基类上降低性能相反,Visual grounding和Vision-language transformers 就是来帮助解决作者的设想,通过 Vision-language transformers 可以提取文本和图像的特征,Visual grounding 则就是根据这些特征进行定位。

同时我们也发现,利用这种用image-captioning pair模式训练出来的特征,其中每个类别的特征更加显著,如下图和zero-shot obejct detection的baseline的对比:

在这里插入图片描述

  • 3
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 通过下载 youmi-vocabulary 背单词微信小程序的代码和相关资源文件后,我们可以直接进行设定和定制。 首先,我们可以打开代码文件,然后根据自己的需求对页面布局、颜色、字体等进行修改。如果想要增加新的功能或者修改现有功能,可以找到相应的代码文件进行编辑,如卡片的显示、单词的存储和读取等。 在设定过程中,我们可以对小程序的首页进行设置,比如添加背景图片、修改标题、调整按钮位置等。另外,我们还可以设定各个页面间的跳转关系,如单词卡片页面跳转到单词详情页面、单词详情页面跳转到例句页面等。对于每个页面的样式和交互,可以通过修改代码中的CSS样式和JavaScript代码来实现。 如果想要添加新的单词库或者词典,我们可以在资源文件中添加相应的文件,然后在代码中引用这些文件,以便在小程序中使用。同时,我们还可以根据需要对单词库进行编辑,如添加新的单词、修改释义或者例句等。 在完成设定后,我们可以运行小程序进行调试,检查是否有错误或者不符合预期的地方。如果发现问题,可以根据提示进行修改,直到满足我们的需求为止。 最后,将修改后的代码和资源文件上传到微信小程序开发者工具中,进行编译和发布,即可在微信中使用我们自己定制的 youmi-vocabulary 背单词微信小程序了。 ### 回答2: youmi-vocabulary 背单词微信小程序是一个用于帮助用户背单词的工具。用户只需要将代码及相关资源文件下载后,可以直接设定并使用该小程序。 首先,将代码及相关资源文件下载到本地。可以通过下载链接或者将代码拷贝到本地的方式进行下载。下载完成后,可以将代码放置在合适的位置。 接下来,设定该微信小程序。打开微信开发者工具,选择该项目所在的文件夹,即可进行设定。在设定过程中,可以配置小程序的基本信息、界面设计、功能模块等,以及与服务器的连接方式等。 一旦设定完成,就可以使用该小程序了。用户可以通过微信扫描小程序二维码,或者在微信搜索框中搜索小程序名称,进入小程序页面。在小程序页面上,用户可以进行单词背诵、词义理解、例句听写等功能。小程序会根据用户设定的英语水平、背诵计划等提供个性化的背单词内容和学习进度统计。 此外,youmi-vocabulary 还提供了一些其他功能,例如字典查询、记忆曲线、背单词游戏等,以提高用户的学习效果和学习兴趣。 总结来说,youmi-vocabulary 背单词微信小程序是一个方便用户背单词的工具。用户只需要下载代码及相关资源文件,并进行设定,就可以使用该小程序,并享受它提供的个性化背单词功能和其他学习辅助功能。 ### 回答3: youmi-vocabulary 背单词微信小程序是一个帮助用户背诵并记忆单词的工具。用户可以在微信小程序上下载该小程序的代码和相关资源文件,并进行设置,以便使用该小程序。 通过下载 youmi-vocabulary 背单词微信小程序的代码和资源文件,用户可以获得小程序的完整功能并进行自定义设置。这些代码和资源文件可能包括小程序的前端代码、后端代码、配置文件、图片等。用户可以根据自己的需求修改这些文件,例如更改小程序的界面样式、增加新的功能、调整单词库等。 在设定时,用户可以根据自己的需求进行个性化设置。例如,用户可以选择自己所需的单词库,根据自己的学习进度和水平设定背诵计划,并进行记忆方面的设置,如背单词的方式(英译汉、汉译英、听力等),记忆模式(选择题、填空题等),以及复习频率等。 通过设定,youmi-vocabulary 背单词微信小程序可以根据用户的需求和设置,在背诵单词的过程中提供个性化的学习体验。用户可以根据自己的设定,系统自动提供对应的背诵任务和学习资料,帮助用户高效、有序地记忆单词。同时,用户也可以根据自己的学习情况进行实时调整和优化设定,以达到最佳学习效果。 总之,通过下载 youmi-vocabulary 背单词微信小程序的代码和相关资源文件,并进行设定,用户可以个性化地使用这个小程序,高效记忆单词,提升自己的语言能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

旅途中的宽~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值