一、研究背景与意义
从人脸视频中进行远程HR估计具有广泛的应用,但由于头部运动、照明和传感器多样性的变化,在约束较少的场景中,这是一个具有挑战性的问题。
1.在本文中,提出了一种端到端的RyhthmNet,用于从人脸进行远程HR估计。在RyhthmNet中,时空分布图表示的来自多个ROI区域的HR信号作为其输入,进行HR估计。
2.还考虑了通过门控循环单元(GRU)从视频序列中获得的相邻HR测量的关系,从而实现高效的HR测量。
3.此外,还构建了一个大规模的多模态HR数据库(命名为VIPL-HR1),包含了107名受试者的2,378个可见光视频(VIS)和752个近红外视频(NIR)。VIPL-HR数据库包含各种变化,如头部运动、照明变化和采集设备变化,为HR估计复制了一个较少约束的场景。该方法在公共领域和我们的VIPL-HR数据库上都优于最先进的方法。
二、研究内容
(1)VIPL-HR数据库
1.数据收集:人脸视频记录条件应涵盖环境照明、受试者姿态、采集传感器以复制日常应用场景。
从直方图中,我们可以看到受试者的最大旋转幅度变化很大,即,最大旋转幅度在偏摆时为104◦ 俯仰时为105◦,滚转时为92◦。
平均灰度强度在60到212之间变化,覆盖了复杂的照明变化
真实HR值从47 bpm到146bpm,这涵盖了典型的HR范围
2.视频压缩:最终的数据压缩解决方案选择“MJPG”编解码器和原图像分辨率2/3,显著减少数据库的大小并且对信号造成损伤小。
(2)Spatial-temporal Map for Representing HR Signals
人脸检测器SeetaFace9来检测人脸并定位81个面部定位点,对每一帧进行人脸检测和定位点检测,再对81个人脸定位点进行移动平均滤波。
使用整个人脸皮肤颜色变化作为信号,首先使用眼中心点进行脸部对齐,然后定义一个脸部边界框,然后对所定义的感兴趣区域进行皮肤分割,去除非人脸区域,如眼睛区域和背景区域。
将对齐后的人脸图像转换到YUV颜色空间。“Y”表示明亮度,也就是灰度值;“U”和“V” 表示的则是色度,描述影像色彩及饱和度,用于指定像素的颜色。
将人脸区域划分为n个ROI块R1、R2、···、Rn,计算每个块内每个颜色通道的颜色平均值。将相同块位置不同帧的每通道平均颜色值拼接成一个序列,即Y1, U1, V1, Y2, U2, V2,···,Yn, Un, Vn。形成大小为T × n × c的时空图。
为了处理主体的头部移动或旋转过快。这将导致hr信号数据和时空表征的缺失这个问题,沿着时间维度随机屏蔽一小部分时空地图来模拟丢失的数据情况,增强网络的鲁棒性。
(3)Temporal Modeling for HR measurement
给定一个输入视频序列,首先将其分成多个短视频片段(v1, v2,···,vt),w帧的固定滑动窗口,每步移动0.5秒,对每一帧进行人脸和地标检测,进行人脸对齐。然后,将每个视频片段对齐后的人脸图像生成时空图来表示HR信号,并训练由卷积层和循环层组成的深度网络来从时空图预测HR。最后,对输入视频序列估计的HR计算为每个视频片段估计的所有HR的平均值。
两个视频片段相邻测量值之间的关系,利用由重置门和更新门组成的门控循环单元(GRU)来建模。从CNN中提取的特征被送到一层GRU结构中。
更新门帮助模型决定到底要将多少过去的信息传递到未来,
重置门主要决定了到底有多少过去的信息需要遗忘
将这两部分的计算结果相加再投入双曲正切激活函数中
前一时间步保留到最终记忆的信息,加上当前记忆保留至最终记忆的信息就等于最终门控循环单元输出的内容
GRU的输出被送入一个完全连接的层,对单个视频片段的HR值进行回归。对于每个人脸视频,计算每个视频片段所有预测HR的平均值作为最终HR结果。
三、总结
研究了基于rPPG原理的遥测式人脸视频心率估计方法RhythmNet。 人脸视频的视觉信号极其微弱,现有的端到端深度学习模型如CNN很难直接从原始人脸视频中学到真正与心率相关的特征表示,为此,提出了利用人脸视频时空上下文信息,先构建底层时空图(spatial-temporal map)将心率的视觉特征信号与大量背景信号有效地分离开来,进而通过CNN-RNN时空联合建模的方法,从时空图中进一步学习心率相关的高层特征表示,最终实现鲁棒的遥测式人脸视频心率估计。 并且系统性地测试了方法在不同颜色空间、不同视频压缩率、不同光照环境等条件下的稳定性。