行为识别I3D+PoTion《PoTion: Pose MoTion Representation for Action Recognition》读后总结

前言

这是一些对于论文《PoTion: Pose MoTion Representation for Action Recognition》的简单的读后总结,首先先奉上该文章的下载超链接:点击这里下载论文

这篇文章是由Inria和NAVER LABS Europe的人员合作完成,作者分别是Vasileios Choutas、 Philippe Weinzaepfel、Jerome Revaud和Cordelia Schmid。该文章是UCF-101的榜首,其在HMDB51上排名第8。该文章仅于双流网络中多加入了一个PoTion流,使得网络性能得到了改善。

文章主要内容与贡献

该文章的贡献为:

  1. 提出PoTion;
  2. 针对PoTion设计了一个与之匹配的简单卷积神经网络;
  3. 做了多个实验验证PoTion的有效性。

提出PoTion

PoTion实际上是Pose moTion的一个结合,作者使用人体关节作为这些关键点和术语,即PoTion姿势运动表现。

下图是PoTion的获取方式以及结果:
在这里插入图片描述
其将视频中人类的一些特定部位的运动轨迹分别分离出来,每个视频都有一组轨迹图,关键的一点就是作者使用颜色来区分轨迹的是怎样运动的。其主要思想是将第一帧染成红色,最后一帧用绿色着色,中间一帧用相同比例(50%)的绿色和红色着色。红色和绿色的确切比例是相对时间t的线性函数。

提取关节热图

提取关节热图部分,作者为每个视频帧运行 Part Affinity Fields

Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh. Realtime multi-person 2D pose estimation using part affinity fields. In CVPR, 2017. 1, 2, 3, 7, 8

,在MS Coco数据集上对关键点定位任务进行了训练。Part Affinity Fields能处理多个人的存在,并且对遮挡和截断具有很强的鲁棒性。得到19个热图:18个人体关节各一个(4个四肢各3个,头部5个,身体中心1个),背景1个。用 H j t H^t_j Hjt表示帧t中连接j的热图。 H j t [ x , y ] H^t_j[x,y] Hjt[x,y]是像素 ( x , y ) (x,y) (x,y)在帧 t t t处包含连接 j j j的似然度。

聚合方案

其有三种不同的聚合方案,如下图所示:
在这里插入图片描述
对于在几个取样点(左图中的圆圈)观测到的联合j的轨迹,用C=3(最好用颜色观察)来说明不同的聚合方案(Uj、Ij和NJ)。作者提出了不同的彩色化方案(即 o ( t ) o(t) o(t)的定义),对应于不同数目的输出通道C。对于C=2,有 o ( t ) = ( t − 1 T − 1 , 1 − t − 1 T − 1 ) o(t)=(\dfrac {t-1}{T-1},1-\dfrac {t-1}{T-1}) o(t)=(T1t1,1T1t1),在时间 t t t处,像素 ( x , y ) (x,y) (x,y)和通道 c c c的连接点 j j j的彩色热图由以下方法给出:

在这里插入图片描述

作者的目标是获得不依赖于视频剪辑持续时间的固定大小表示。因此用不同的方法对着色的热图进行聚集实验。首先计算每个关节j随时间变化的彩色热图之和,从而得到c通道图像 S j S_j Sj:
在这里插入图片描述
请注意, S j S_j Sj的值取决于帧T的数目。为了获得不变量表示,将每个通道c通过除以所有像素上的最大值独立地进行。当使用其他归一化时,实验观察到类似的性能,例如将每个通道除以 T T T ∑ t o ( T ) \sum_t{o}(T) to(T)。如此获得了一个C通道图像 U j U_j Uj,称为PoTion表示:
在这里插入图片描述
上图第二列显示左列上所示轨迹C=3的结果图像。可以观察到,关键点位置的时间演变是由颜色编码的。如果关节在给定的位置停留一段时间,就会积累更强的强度(轨道的中部)。这种现象可能是有害的,所以作者提出了第二种归一化强度的变体。

首先通过计算每个像素的所有通道的值来计算强度图像 I j I_j Ij I j I_j Ij是一个具有单一通道的图像:
在这里插入图片描述
强度图像的示例如上图第三列所示,这种表示没有关于时间顺序的信息,但是编码了一个联合在每个位置停留的时间。通过将 U j U_j Uj除以强度 I j I_j Ij,现在可以得到规范化的PoTion表示。即一个如下的C通道图像 N j N_j Nj
在这里插入图片描述
ϵ = 1 \epsilon=1 ϵ=1避免分母为0。上图最右显示了N的一个示例。在这种情况下,所有位置的运动轨迹都是同等加权的,无论在每个位置花费的时间。实际上,轨迹中的瞬时停止比 U j U_j Uj I j I_j Ij中的其他轨迹位置加权得更多, N j N_j Nj消除了这种影响。

针对PoTion设计了一个与之匹配的简单卷积神经网络

由于PoTion结构简单且尺寸较小,因此作者设计了一个小型的卷积神经网络来训练PoTion,如下图所示:
在这里插入图片描述
当堆叠 U j U_j Uj I j I_j Ij N j N_j Nj的所有关节时,它有 19 × ( 2 C + 1 ) 19\times(2C+1) 19×(2C+1)个通道。19是联合热图的数目, U j U_j Uj I j I_j Ij N j N_j Nj分别具有 C C C 1 1 1 C C C个通道。

做了多个实验验证PoTion的有效性

PoTion参数实验

通道数量

首先研究了药剂表示中通道数的影响。下图显示了在改变颜色通道C的数量时,JHMDB和HMDB的第一次拆分的平均分类精度。
在这里插入图片描述
由上图可知,性能首先明显增加,直到 C = 4 C=4 C=4为止。然后,在HMDB和JHMDB上,性能分别在 C = 6 C=6 C=6 C = 8 C=8 C=8处饱和或下降。在其余的实验中,作者使用C=4,因为它是精确性和紧凑性之间的一个很好的折衷。

聚合技术

作者研究了不同聚合方案对PoTion表示的影响,首先用三种聚合技术训练不同的模型: U U U I I I N N N,性能如下表所示:
在这里插入图片描述
由上可知,对于小数据集JHMDB-1, U + I + N U+I+N U+I+N略逊于 U U U N N N方案,对于稍大的HMDB, U + I + N U+I+N U+I+N略优于单个的方案,考虑到后面的更大的数据集,因此在其余实验中,采用3种叠加聚合方案 U + I + N U+I+N U+I+N

PoTion的CNN架构

数据增强

下表比较了在训练期间增加翻转数据的性能:
在这里插入图片描述
可以观察到,这种数据增强策略是有效的。特别是,在最小的数据集JHMDB上,准确率提高了7%。对较大的HMDB数据集(约1%)的影响不太重要。因此,在随后的所有实验中都使用翻转数据增强。

网络结构

比较了不同的网络架构。一个网络由几个block组成,其中的空间分辨率保持不变,如下表所示:
在这里插入图片描述
由上可知,网络太小导致大数据集过拟合严重,而网络过大导致欠拟合严重。因此选择了每个block 2层卷积层,3个block分别有128、256和512通道的卷积层。

姿态估计的影响

作者分析了由于姿态估计而产生的误差的影响。为了做到这一点,从JHMDB的带注释的木偶中获得了 ground truth 2D姿态,其中注释包括每个木偶关节的 x x x y y y坐标。作者综合地从它们生成联合热图,类似于

Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh. Realtime multi-person 2D pose estimation using part affinity fields. In CVPR, 2017. 1, 2, 3, 7, 8

在训练中使用的热图。

这些热图是通过将高斯集中在带注释的联合位置上得到的。请注意,木偶有15个关节,而Part Affinity Fields提取的热量图有19个。由下表可知:
在这里插入图片描述
使用木偶姿势在JHMDB上获得了大约4%的精度。同时试验了以木偶为中心的帧裁剪版本。此变体允许聚焦于演员并稳定视频,但是仅限于当我们知道是哪个演员在表演,并且我们能追踪到他时。后面的部分中GT-JHMDB指的是使用木偶造型与裁剪框架。

将该文提出的方法与最先进的方法进行了比较

在这里插入图片描述
显而易见,I3D+PoTion的结果都是最好的。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,以下是制作背包的基本思路: 1. 创建一个背包界面,包含物品的图标、名称、数量等信息。 2. 创建一个物品类,用来存储每个物品的信息,包括编号、名称、图标、数量等信息。 3. 在游戏启动时读取text文件中的物品信息,将每个物品的信息存储到物品类中,并将物品类存储到一个数组中。 4. 点击背包界面中的物品图标时,根据物品编号在物品数组中查找对应的物品信息,并在背包界面中显示该物品的详细信息。 5. 可以在背包界面中拖拽物品图标进行交换位置,或者丢弃物品。 下面是一个示例代码,可以参考一下: ```csharp using UnityEngine; using UnityEngine.UI; using System.Collections.Generic; // 物品类 public class Item { public int id; // 物品编号 public string name; // 物品名称 public Sprite icon; // 物品图标 public int count; // 物品数量 public int price; // 物品价格 public int hp; // 恢复生命值 public int mp; // 恢复魔法值 // 从text文件中读取物品信息 public static Item Load(string line) { string[] data = line.Split(','); Item item = new Item(); item.id = int.Parse(data[0]); item.name = data[1]; item.icon = Resources.Load<Sprite>(data[2]); item.count = int.Parse(data[3]); item.price = int.Parse(data[4]); item.hp = int.Parse(data[5]); item.mp = int.Parse(data[6]); return item; } } // 背包界面 public class Backpack : MonoBehaviour { public Image itemIcon; // 物品图标 public Text itemName; // 物品名称 public Text itemCount; // 物品数量 public Text itemPrice; // 物品价格 public Text itemHp; // 恢复生命值 public Text itemMp; // 恢复魔法值 public Transform content; // 背包物品容器 private List<Item> items = new List<Item>(); // 物品列表 // 游戏启动时加载物品信息 private void Start() { TextAsset asset = Resources.Load<TextAsset>("items"); string[] lines = asset.text.Split('\n'); foreach (string line in lines) { Item item = Item.Load(line); items.Add(item); } } // 点击物品图标时显示该物品的详细信息 public void OnItemClick(int id) { Item item = items.Find(x => x.id == id); itemIcon.sprite = item.icon; itemName.text = item.name; itemCount.text = "数量:" + item.count; itemPrice.text = "价格:" + item.price; itemHp.text = "恢复生命值:" + item.hp; itemMp.text = "恢复魔法值:" + item.mp; } // 向背包中添加物品 public void AddItem(int id, int count) { Item item = items.Find(x => x.id == id); if (item != null) { item.count += count; UpdateItem(item); } } // 从背包中移除物品 public void RemoveItem(int id, int count) { Item item = items.Find(x => x.id == id); if (item != null) { item.count -= count; UpdateItem(item); } } // 更新物品信息 private void UpdateItem(Item item) { foreach (Transform child in content) { ItemSlot slot = child.GetComponent<ItemSlot>(); if (slot.itemId == item.id) { slot.UpdateItem(item); break; } } } } // 背包中的物品槽 public class ItemSlot : MonoBehaviour { public Image itemIcon; // 物品图标 public Text itemCount; // 物品数量 public int itemId; // 物品编号 public int itemAmount; // 物品数量 // 更新物品信息 public void UpdateItem(Item item) { itemId = item.id; itemAmount = item.count; itemIcon.sprite = item.icon; itemCount.text = item.count.ToString(); } } ``` 使用方法: 1. 创建一个UI界面,添加上述代码中的Backpack组件。 2. 创建一个TextAsset资源,命名为items,并将物品信息按照示例格式填入。 3. 在UI界面中添加一个ItemSlot预制体,用来显示每个物品的图标和数量。 4. 在UI界面中添加一个拖拽组件,用来实现物品的拖拽和交换。 5. 在代码中调用Backpack组件的AddItem和RemoveItem方法,可以向背包中添加或移除物品。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值