本文投稿于AI科技评论公众号。
视频中的人体动作分析是计算机视觉研究领域中的一个重要方向,包括动作分类,时序动作检测,时空动作检测等等方向。前几天日本东京大学在 arXiv 上放出的一篇论文(大概是 CVPR 投稿文章吧)提出了一个新的人体动作分析问题:第一人称视频中的行人轨迹预测问题,并提出了一个新的数据集以及一个新的行人轨迹预测算法。
论文的题目为:Future Person Localization in First-Person Videos [1] ([1711.11217] Future Person Localization in First-Person Videos)。这篇笔记主要对这篇论文进行内容上的提炼和整理,最后附上了自己对这篇论文的讨论。有问题欢迎留言指出~
问题定义
首先,此处所采用的第一人称视频(First-person videos)指可穿戴相机(wearable cameras)所拍摄的视频,比如 GoPro,Google Glass 等。基于第一人称视频相关的研究主要对应的应用领域包括盲人导航,AR 等相关领域。
这篇文章所提出的 Future Person Localization 问题具体而言,就是已知t时刻及之前几帧图像中行人的相关信息,要求算法预测未来几帧中该行人会出现在图像中的什么位置。问题示意图如下图所示。关于这个任务的技术有很多的用途,比如帮助行人避开迎面走来的行人,或是帮助移动机器人来规划运动的路径。