SFFAI分享 | 李永露:PaStaNet:Toward Human Activity Knowledge Engine

李永露分享了在CVPR2020的工作,提出PaStaNet,一种基于人体局部语义状态的二阶理解范式,用于改善行为理解。现有行为识别方法依赖实例级特征,而PaStaNet通过分解为部位级的“PaSta”,解决了行为理解的性能瓶颈。通过建立HAKE知识库,提供了大量PaSta和行为的标注,助力行为识别和推理。实验表明,PaStaNet在行为识别任务中展现出优越性能,特别是在few-shot情况下。
摘要由CSDN通过智能技术生成

在“以人为中心的计算”中,根据传感器数据来识别和理解人的动作是关键的一环,而基于视觉的行为识别更是人机交互与感知中的关键。已有行为识别的方法大多基于实例级别的特征或知识进行学习,但对于人与物体交互这种复杂的行为,仅靠这种粗粒度的知识是不够的。SFFAI 72期-行为理解专题我们邀请到了来自上海交通大学的李永露同学,分享他在CVPR2020发表的一篇文章,用更细粒度的数据集和两阶段推理方法,对上述问题给出了较好的解决方案。

关注文章公众号

对话框回复"SFFAI72"

入交流群/推荐论文下载/录播视频观看/讲者PPT下载

作者介绍


李永露(https://dirtyharrylyl.github.io/),上海交通大学计算机系三年级在读博士生,研究方向为计算机视觉中的人类行为理解及智能机器人应用,主要的研究问题在于如何利用人类的先验知识和因果推理改善现有的行为理解算法。目前建立了首个大型细粒度人体行为局部语义知识库HAKE(Human Activity Knowledge Engine,http://hake-mvig.cn/),项目主页已有超过25000次访问,包含了多个人类行为识别、人体-物体交互行为检测、物体知识提取,交互人体-物体三维重建等开源项目代码。目前在CVPR、ECCV、ICCV等计算机视觉顶会上发表论文7篇,其中一作5篇,并担任CVPR、NeurIPS、ACCV、WACV、Neurocomputing等会议或期刊的审稿人。

李永露

1

大家好,今天分享的是MVIG lab在cvpr2020的一篇工作,是HAKE(Human Activity Knowledge Engine)项目在行为理解上的第一篇文章,ppt内有我们的项目主页和开源代码、数据的链接,欢迎大家使用。

2

目前大多数的行为理解模型都采用和物体识别类似的范式,即通过DNN直接学习像素到语义概念的映射。但是由于行为理解的特殊性,例如语义的集中性、更严重的long-tail分布,人体结构的连续变化等,从实例级别特征直接映射目前遇到了性能瓶颈。在这篇工作中,我们提出了一种基于人体局部语义状态的二阶理解范式,即先从像素到part state(PaSta)再到行为概念。

3

PaSta的定义如图中骑车的人,他的每个身体部位都在执行不同的子行为,通过整体的配合,得到整体的行为,比如双手握住把手,双脚踏在脚蹬上等等。通过这种分解,我们可以视PaSta为行为的原语(primitive),是行为的基本组成元素,类似字母与单词,氨基酸和蛋白质的关系。

4

那么有了PaSta之后,我们就可以把实例级的语义分解为部位级的语义,并可以通过选择身体部位的attention得到更深层的信息。同时,由于原语的数量远少于它们能组成的行为种类,在同样的数据规模下,PaSta的long-tail程度就好很多,因此更容易识别。行为的种类成千上万,但是原语的数量是有限的,因此,从认知的角度来说,避开直接识别成千上万的组合结果,而是从基本组分出发通过学习组合关系和规则,从而可以生成巨量的行为结果,是更理智的方法。在监督学习范式下,人工标注大量的行为种类是不实际的,所以我们提出了从图像到原语,再推理到组合的思路。

5

举一个toy experiment的例子,假设我们有一个识别图片中数字的任务,目标是识别出一张图中最大的两个数字的和,这个任务和行为理解就很像,不同数字分布的位置和大小就像人的part一样,且能组成一定的整体状态。那么直接将所有像素送入模型,和先根据先验知识识别出part后再组合成整体相比&

  • 4
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值