深度学习:行为识别综述

行为识别综述

E:\学习文件\行为识别\综述类
根据采用不同识别技术,人体行为识别目前主流要分为三大类∶
基于计算机视觉的行为识别、
基于传感器系统的行为识别、
基于多模态数据的行为识别。
(1)基于计算机视觉的行为识别经过多年的研究,国内外学者在计算机视觉在人体检测领域已经构建了多种框架,
主要分为基于视频的方法和基于图像的方法
涉及到关键技术目标检测技术、目标跟踪技术、序列行为分类技术、人体关键点检测技术、手势识别技术、光流分析技术、人体分割技术、属性分析技术和步态识别技术等。随着深度学习的飞速发展,这些关键技术都取得了突破性的进展,基于计算机视觉的行为识别算法已经在各个行业中得到广泛应用。

(2)基于传感器系统的行为识别在人工智能获得强力推广的当下,利用传感器进行人体行为识别已然成为智能化的一个重要分支。这种识别方法主要利用传感器和传感网络来捕捉用户行为。该方法相比利用视觉进行人体行为识别的方式,前期投入少且设备复杂性小,具有更好的空间自由性。

(3)基于多模态数据的行为识别伴随着近年来各式新型传感器的兴起,多模态人体行为识别研究逐渐成为行为识别领域内一个新的研究热点。
概括而言,基本的多模态人体行为识别流程为∶多模态数据集获取、数据预处理、特征提取与选择、人体行为识别算法。该方法与计算机视觉方法框架类型两者融合可行性高,多模态融合分析将能提升行为识别的准确性,为用户带来更好的使用体验。
请添加图片描述

研究方向

中科院

智能感知与计算研究中心网址http://www.cripac.ia.ac.cn/CN/column/column147.shtml

生物启发的智能计算

生物启发的智能计算方向尝试充分模拟和借鉴人及灵长类高等生物的神经结构、认知机制、自主学习和智能进化,研究具有高度鲁棒性、适应性、可解释性的新型人工智能理论与方法,并在多源信息融合与理解、多传感器视觉测量、开放环境场景感知与行为理解、人机共生混合智能等应用问题上开展验证

本方向的研究重点包括三个部分:
1)生物启发的自主学习理论,尝试将发展人工智能和发现人类智能协同研究,从启发建模、机制理解两个方向研究类人自主学习新理论与新方法;

2)开放环境感知与理解,针对开放环境“小样本、弱标注、广类别、变分布”等特点,研究多自由度信息融合与理解、多源异构信息的视觉测量、场景鲁棒感知与行为理解等技术;

3)智能自主进化,模拟生物智能进化轨迹,以“人-机-物”三元博弈为基础,研究智能自主进化技术,突破困扰当前人工智能发展的小数据、无监督、不可解释等问题。本方向近年来在国际权威期刊和高水平会议上发表论文100篇以上,在包括CCF-A类期刊和会议上发表文章20篇以上;荣获国内外多个颇具影响的奖项(包括BICS2016的最佳论文奖等);承担包括国家重点研发计划、自然科学基金重点项目、军事装备预研项目等在内的多个研究项目。本方向未来将面向变革性人工智能技术开展持续和深入的研究,并为军事国防、工业制造、日常生活提供先进的人工智能解决方案。

多模态智能计算

多模态智能计算方向针对文本、图像、视频等大规模多模态数据,开展模式识别、视觉计算、机器学习、数据挖掘等方向的理论及应用研究。
本方向研究主要包括:
(1)基于深度学习的多模态数据智能分析技术。研究基于深度学习的图像、文本、语音的多模态数据融合、跨模态数据检索、跨模态数据生成等方法与应用

(2)基于深度学习的大规模视觉计算方法和应用。研究如何在前馈深度网络中有效地融合自上而下的反馈响应机制、如何在前馈和反馈深度网络中融合主动视觉机制,从而解决大规模视觉数据分析中的一系列视觉任务,如目标识别、目标检测、视频分割、视频理解等。

(3)面向公共安全的视觉智能监控技术。面向大数据环境的海量监控视频的智能分析需求,研究大范围复杂监控场景中的目标检测、运动跟踪、属性识别、跨场景目标再识别、动作-行为-事件识别等关键技术,建立视频大数据解析平台,解决国家公共安全中急需的海量目标检索、异常行为检测等点问题。

(4)面向公共安全和商业智能的网络大数据智能处理技术。面向公共安全和企业应用的实际需求,研究大数据的时序预测、情境建模、用户画像等核心问题,突破大规模网络数据智能分析和处理关键技术,服务国家公共安全和企业商业智能的需求。

改进方向

在基于图卷积的行为识别工作和类似的工作中,研究重点在以下几个方面:

1.如何设计GCN的输入,用一些更加具有识别能力的特征来代替空间坐标,作为网络输入。
2.如何根据问题来定义卷积操作,这是非常硬核的问题。
3.如何设计邻接矩阵
4.如何确定权重分配策略

邻接矩阵和权重矩阵在GCN中非常重要,其中权重矩阵通常情况下是不随图的结构变化的,也就是说不仅在不同的节点之间共享,还会在不同的图结构中共享,这样GCN就能在不同结构的图上训练和测试。
但是行为识别工作是比较特殊的,因为人的骨架通常不会发生变化,而且同一个数据集提供的骨架也是固定不变的,这样的话,我们就不用考虑GCN的在不同结构上的通用性,转而将权重直接指派到每个关节,也就是说,现在每个节点都有一个只属于自己的权重,而不再依赖于label策略和其他节点共享。这么做能让网络能更加差异化地对待每一个关节,从而对那些具有更强识别能力的关节赋予更多的关注
此外,自动学习邻接矩阵也是一个不错的思路,只不过在代码实现上面难度会比较大。

基于空域的图卷积网络目前在NTU RGB+D数据集[7]上已经达到了前所未有的高度,要想再有所提升恐怕会很困难,不过南洋理工大学rose lab已经发布了新的NTU 120+数据集[8],而且越来越多的工作聚焦于基于2D骨骼的姿态识别,与之相对应的Kinetic数据集也更有挑战性,所以这个领域还是非常有研究价值和前景的。此外,谱图卷积在近年也得到了很大的关注,但就目前来看笔者只发现了一篇与姿态识别有关的文章是使用了谱图卷积的,笔者认为主要是谱图卷积相对于空域图卷积而言复杂程度太高,导致很多人望而却步,但越是复杂的东西其性能相对也越好,因此在下一篇文章中,笔者将为大家详细剖析谱图卷积的原理,以及相关的行为识别工作!

从目前顶会文章的发展趋势来看,工作都是越来越复杂的,如果考虑冲击顶会,就要重点研究第1个和第2个思路,如果是次级一些的会议,就可以从第3和第4个思路入手。此外,尽量follow一些已经在顶会上发表了的,被同行检查过的文章,以及有源代码的文章,这样可以有效降低工作难度。

其他研究方向

行为识别其他研究方向
数据增强:有论文说color jitter和随机翻转有一些效果,其他的没有验证过。
domain adaptation(迁移学习的一种)
神经网络搜索(NAS):肉食者谋之,又何间焉
高效模型部署(部署到现实场景中比较困难,应该指的是监控场景):
主要存在的问题:
大多数模型都是在offline的状态下设计训练的,即每次拿到的都是一段视频,而不是在线视频流。
大多数模型不能实时运行。
3D以及其他非标准op很难部署。
很多2D相关技术可以应用到行为识别中,比如模型压缩、量化、剪枝等等。
可能需要更好的数据集以及更合适的性能指标来。
可能可以使用压缩视频来进行,毕竟大多数视频已经被压缩过了。
新数据集:
现有的大多数数据集都是偏向于空间信息,即通过一张图片就能判断行为类别,而不需要动态信息。
youtube不允许单个id下载大量数据……哭了
视频对抗攻击
Zero-shot learning
弱监督学习
细粒度分类
第一视角行为识别
多模态
自监督学习

行人重识别(Person Re-Identification)

多模态

基于骨架的动作识别(Skeleton-based Action Recognition);

  • 8
    点赞
  • 62
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值