RPC笔记

提出了一个相比之前更大的自动贩卖场景最大的模型

包含200个类别,17个超类,83739张图片,包括53739张单物品实例图和30000张超市结算图
在这里插入图片描述对于识别的场景也分为三个难度
在这里插入图片描述在这里插入图片描述

每一个图片的分辨率为25921944
对于每个类别,一共有160个视觉的图片
360/9
4 = 160(4是top virew,45view 30view horizontal view)

评价指标 :
在这里插入图片描述表示为第I张图片的,第K个类别的数量和真实的标注的差值
在这里插入图片描述表示为第I张图片所有的类别和真实标注的差值

在这里插入图片描述
其中,分子是一个二值,如果这张图片的所有类别都正确识别,且数量正确,才是1,否则为0
在这里插入图片描述对于N张图片,其平均数量错误的衡量
在这里插入图片描述在这里插入图片描述了以上四个指标,论文中还引用了 [mAP50] 和 [mmAP] 两个指标来客观验证检测效果的好坏。

baseline

在这里插入图片描述
主要分为3个任务
检测器采用 FPN

分割

在这里插入图片描述

1、对于训练集,都是单个图片,将它们都根据标注的信息抠出来,为了区分前景和背景,需要切割出一个比标注信息大一倍的框,一个根据标注信息切割的框

2、将根据比标注框大一倍的框,假设为 gb ,使用一个叫 Saliency detection 的模型区分前景和背景

3、再将其处理过的gb图和未处理gb图通过 CRF 来抠出真正的mask

4、将mask和标注框的图结合来抠出真正的目标框

合成

在这里插入图片描述将抠出来的目标图置于白色背景中,随机
的放置,放置的商品和位置、角度都是随机,且放置的目标遮挡率不能大于0.5

渲染

合成的图片是不符合现实场景的,有光线、阴影的缺少,这里采用Cycle Gan 来对合成图进行渲染,生成比较真实的摆放图

检测

在文章中,训练的图像,是做了消融实验的,训练检测器的时候,对4个场景的数据进行了分别的训练对比

在这里插入图片描述
文章中认为,因为训练集的场景和真实的结账场景是有差异的,而如果是对每一个类别都穷举训练,是非常困难的,为了减少差异,严格使用单个目标的图像来训练,通过切割、合成和渲染,逐步把任务完成,且文章中也提到了在零售场景,目标物体的更新太快,因此作者也提出了可以使用Online learning 或者说 增量学习来缓解,但是它认为这个方法也会带来别的问题。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值