【组会论文2023.06.16】Zero-Shot Object Counting阅读笔记

把组会讲过的论文整理一下,留个痕迹.......

组会第三篇论文

目录

摘要

网络结构

损失函数

计数误差

实验

1.定量分析:不可知类计数

​编辑2.定性分析:计数样本和相应的密度图

​编辑3.定量消融实验

4.定性消融分析:预测计数误差

5.基于示例推广:计数样本和相应的密度图 

 6.多类目标计数:计数样本和相应的密度图

总结


零样本目标计数

 论文:https://arxiv.org/abs/2303.02001

源码:https://github.com/cvlab-stonybrook/zero-shot-counting

摘要

为解决类不可知对象计数需要人工注释样本作为输入的问题,本文提出零样本对象计数(ZSC)任务的方法。该方法可以对输入图像中的特定目标物体进行计算,在计数过程中只需要给定物体类名,而不需要给定任何人工注释的示例。在此基础上,本文也提出一种简单有效的patch选择方法,可以在查询图像上准确定位最优patch作为待计数目标。

网络结构

本文模型首先通过生成模型在预训练的特征空间中获得给定类的类原型。在给定输入查询图像的情况下,作者随机抽取若干大小不同的patch,并为每个patch提取相应的特征嵌入。然后作者选择嵌入与类原型最邻近的patch作为类相关patch,对每个选择的类相关patch使用基于样本预训练的计数模型获得中间特征图。误差预测器将特征图作为输入,采用归一化技术预测计数误差,最后系统选择误差最小的patch作为最终的样本patch,并使用它们进行计数。计数模型和误差预测器在FSC-147数据集上进行训练,特征生成器在MS-COCO检测数据集上进行训练。

损失函数

KL散度,衡量两个分布之间的距离,值越小两者越相近,值越大两者差距越大。

计数误差

实验

1.定量分析:不可知类计数

使用在MS-COCO数据集上预训练的Faster RCNN的RPN,并选择对象性得分最高的前3个方案作为样本,并使用人工注释的示例进行完整的比较。当用RPN生成的建议替换人工注释的样本时,所有基于样本的计数方法的性能都会显著下降。最先进的基于样本的方法BMNet显示,与测试MAE相比,误差增加了19.90,与测试RMSE相比,误差提高了40.81。相比之下,当使用本文选择的patch作为示例时,性能差距要小得多,这反映在测试MAE增加1.41,测试RMSE增加6.03。与人类注释的样本相比,当使用我们选择的patch时,测试集上的NAE和SRE甚至减少了。

RPN Region Proposal Network用于生成候选区域,使用在MS-COCO数据集上预训练的Faster RCNN的RPN,并选择对象性得分最高的前三个方案作为示例。

2.定性分析:计数样本和相应的密度图

图4分别展示了使用人工注释示例、随机选择patch和本文选择的patch的计数样本和相应的密度图。右上角是预测的计数结果。本文方法的计数结果与使用人工注释示例的识别结果是相同的,高于随机选择patch的计数结果。

3.定量消融实验

首先评估基线性能,使用3个随机采用patch作为样本,不增加任何步骤;使用类原型选择与类相关的patch,MAE在验证集和测试集上的错误率分别降低了7.19和6.07;应用误差预测器使验证上的MAE提高7.22,测试提高7.57;最后将类原型和误差预测器结合,验证MAE达到26.93,测试达到22.09。总体上来说,类原型和误差预测器结合是非常有效的。

4.定性消融分析:预测计数误差

对于每个输入查询图像,显示了使用生成的原型选择的10个类相关patch,并根据其预测的计数误差(从低到高)进行排序。所有选择的10个与类相关的patch都显示出一些特定于类的特征。然而,并非所有这些补丁都适合用作计数示例,即一些patch只包含对象的一部分,而一些patch包含一些背景。应用误差预测器,可以识别出预测计数误差最小的最合适的patch。

​​​​​​​

5.基于示例推广:计数样本和相应的密度图 

蓝色是使用三个随机采样的补丁的MAE。

橙色是使用类原型来选择与类相关的补丁作为示例的MAE。

绿色是使用类原型和误差预测器来选择最优补丁作为示例的MAE。

基线使用三个随机采样的补丁作为预训练的基于样本的计数器的样本。通过使用生成的类原型来选择与类相关的补丁,在FamNet、BMNet和BMNet+上的错误率分别降低了5.19、8.59和5.60。此外,由于额外采用了误差预测器,FamNet、BMNet和BMNet+上的误差率分别进一步降低了1.76、1.00和1.08。

 6.多类目标计数:计数样本和相应的密度图

RepRPN:无样本计数方法,无法显示所选patch的类别,只是根据重复分数从图像中实例数量最多的类中选择patch。

通过将样本特征向量与预先训练的ImageNet特征空间中的图像特征图相关联来获得热图。

注意,出于计数目的,屏蔽了热图中激活值低于阈值的图像区域。

总结

本文提出一个新的任务,零样本目标计数Zero-Shot Object Counting;用于计算只给定类名的特定类的实例,而不访问任何示例。在预先训练的特征空间中构建一个类原型,并使用该原型来选择包含感兴趣对象的patch;然后使用误差预测器来选择那些具有最小预测误差的patch作为用于计数的最终样本。

鸣谢:

一文理解变分自编码器(VAE) - 知乎 (zhihu.com)

  • 27
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值