论文笔记：第一人称视角视频中的行人轨迹预测

最新推荐文章于 2024-06-07 09:44:48 发布

Will-Lin

最新推荐文章于 2024-06-07 09:44:48 发布

阅读量4.7k

点赞数 3

分类专栏：计算机视觉文章标签：深度学习计算机视觉人工智能算法行为识别

本文链接：https://blog.csdn.net/wzmsltw/article/details/78915510

版权

这篇论文聚焦于第一人称视频中的行人轨迹预测问题，提出了一种基于1维卷积网络的算法，并构建了First-Person Locomotion (FPL)数据集。通过实验，该方法在预测精度上优于其他基线模型，为第一人称视角下的行人轨迹预测提供了新思路。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文投稿于AI科技评论公众号。

视频中的人体动作分析是计算机视觉研究领域中的一个重要方向，包括动作分类，时序动作检测，时空动作检测等等方向。前几天日本东京大学在 arXiv 上放出的一篇论文（大概是 CVPR 投稿文章吧）提出了一个新的人体动作分析问题：第一人称视频中的行人轨迹预测问题，并提出了一个新的数据集以及一个新的行人轨迹预测算法。

论文的题目为：Future Person Localization in First-Person Videos [1] ([1711.11217] Future Person Localization in First-Person Videos)。这篇笔记主要对这篇论文进行内容上的提炼和整理，最后附上了自己对这篇论文的讨论。有问题欢迎留言指出~

问题定义

首先，此处所采用的第一人称视频（First-person videos）指可穿戴相机（wearable cameras）所拍摄的视频，比如 GoPro，Google Glass 等。基于第一人称视频相关的研究主要对应的应用领域包括盲人导航，AR 等相关领域。

这篇文章所提出的 Future Person Localization 问题具体而言，就是已知t时刻及之前几帧图像中行人的相关信息，要求算法预测未来几帧中该行人会出现在图像中的什么位置。问题示意图如下图所示。关于这个任务的技术有很多的用途，比如帮助行人避开迎面走来的行人，或是帮助移动机器人来规划运动的路径。

最低0.47元/天解锁文章