PhysNet:Remote Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Temporal Netwo

文章提出了一种名为PhysNet的端到端深度学习模型,该模型利用时空网络从面部视频中精确测量rPPG信号,从而获取HR和HRV信息。与传统方法相比,PhysNet在HRV分析和AF检测上表现更优,且具有较好的泛化能力。研究对比了3D-CNN和RNN基的模型,发现3D-CNN在捕捉rPPG特征上更有效。此外,文章强调了HRV的重要性,指出仅仅测量HR对于某些医学应用是不足的。
摘要由CSDN通过智能技术生成

Abstract

现有研究表明HR可以利用rPPG技术从人脸视频中测得,但是对于AF等的医学应用,光知道HR是完全不够的,对于HRV来说从人脸检测准确的rPPG信号是很重要的。
所以我们提出一种测量rPPG信号的方法,这是目前第一个使用深度时空网络来从面部视频中重建出精确rPPG信号的方法。在ground truth pulse curves的趋势一致性的约束下,我们的方法能重建出rPPG信号与精确的pulse peaks。我们在两个benchmark数据集下进行了充分全面的实验,结果表明我们的方法在HR和HRV指标上都能得到比目前SOTA更好的结果。在利用重建出的rPPG信号进行AF detection和 emotion recognition时我们也得到了很promising的结果。

Introduction

Heart pulse是一个在很多场合下都需要被测量的重要的信号,尤其是用于健康和医学目的。心电图学(ECG)和PPG(光电容积脉搏波描记法)是测量心跳活动的两种传统的常见方法。从ECG和PPG信号中,医生不仅可以得到平均心率(average HR),还可以得到IBI的详细信息,这些信号是对于HRV analysis是很重要的并且也可以协助医生诊断。然而,ECG和PPG 传感器需要戴在身上,这会对长期的监测造成不便。为了解决这个问题,面向非接触式的远成心率估计rPPG技术在近些年发展迅速。
在rPPG的早期研究中,大部分方法都可以看作一个两级的流水线,先detect/track face来extract rPPG信号,然后从频率分析中估计相应的平均HR。然而这些方法有两个缺点:
1、这些方法需要以经验为依据划出面部区域,但划出的面部区域不一定是最effective的regions。
2、这些方法包含了人为手动提取的特征和filters,这不能很好的而且会丢失和心率相关的重要信息。
也有利用深度学习方法来远成估计HR的方法。但这些方法都至少有一个以下缺点:
1、HR估计任务被当作一阶段的回归问题并且只有一个简单的平均HR输出,并且丢失了被测量者的pulse peak信息,这限制了他们在大量医疗方面的应用。
2、方法不是一个端到端的系统,还需要包含手工提取特征的pre-processing或post-processing步骤
3、方法是基于2D空间卷积网络的,没有考虑对rPPG测量很重要的时空文本特征。
在这篇文章中,时空模型在面部视频上进行,目的是准确定位每个心跳peak。图1是我们提出方法的framework,被测量的rPPG信号的hearbeat peaks在相应的ECG gound truth信号的R peaks上被准确的定位,我们不仅可以得到平均心率,还可以得到IBI的详细信息和HRV分析 for AF detection and emotion recognition。

文章的主要贡献为:
1、我们为基于视频的rPPG信号测量提出了第一个端到端的时空网络PhysNet,它可以得到被之前工作都忽略的时空信息。
2、对比并研究了大量常用的时空模型,者可以做为未来rPPG估计认为优化工作的基石。
3、与SOTA方法对比,我们提出的PhysNet模型达到了更有点效果,不仅在平均HR上,还在HRV特征上,他们在AF疾病监测和emotion recognition上被证实是effective的。
4、PhysNet模型在新数据上有很强的概括归纳能力。

Related Work

远程光电容积脉搏波描记法(rPPG)测量

在过去几年,好几个传统方法探索了基于视频的rPPG测量通过分析面部感兴趣区域(ROI上微妙的颜色变化,包括盲源分离、最小均方算法、多数投票算法以及自适应矩阵补全。还有其他的传统方法,它们用皮肤上的全部像素来进行rPPG测量,比如基于色度的rPPG(CHROM),与肤色正交的投影平面(POS),以及空间子空间旋转。这些方法需要对于ROI选择/皮肤像素探测/信号处理的复杂知识。这些很难部署,并且很难概括到新数据上。另外,这些方法大部分只能用于获取平均心率,并没有考虑到如何准确的定位每个pulse peak(这是一个更有挑战性的工作)。
近些年来,一些基于深度学习的方法开始应用到平均心率估计。
比如Hsu应用短时傅里叶变换来得到频谱图与应用卷积神经网络(CNN)来预测平均心率。Niu为CNN建立了时空图来预测平均心率,Chen和McDuff利用归一化后的frame difference for CNN来预测pulse signal(顶峰信号)。这些方法都不是端到端的网络,因为它们还是依赖于手工特征或一致的面部图像来作为输入。另外,它们都是基于2DCNN的,这使它们缺少学习facial sequence时序特征的能力,然而这对于rPPG信号的测量是很重要的。

心跳不规律性(HRV)的测量

上面提到的多数研究都关注于平均心率的测量,HR计算给定时间范围内心跳的次数,这是一种非常粗糙的描述心脏活动的方式。在另一方面,HRV特征以一种很精细的方式来描述心脏特征,它是从pulse signal的IBI中计算出来的。常见的HRV特征包括low/high frequency,以及它俩的比率LF/HF。另外,呼吸频率也可以通过分析IBI的frequency power来进行预测。综上所述,与估计平均心率的相比,估计HRV特征更具挑战性,它需要非常精确的对每个pulse peak的时间定位。对于大部分医疗健康的应用来说,平均心率is far from enough。我们需要更进一步来建立一个方法来在HRV层面预测心跳活动。

时空网络

时空网络在很多视频处理任务中发挥着重要重要作用,时空网络有2条mainstream,第一条包含了3DCNN例如(Convolutional 3D, Pseudo 3D, Inflated 3D and Separable 3D),由于它们可以同时捕捉空间和时间信息,所以它们被广泛用于视频理解任务。第二条包含了基于循环卷积网络RNN的框架,比如LSTM和Convolutional LSTM,它们可以在CNN空间特征中捕捉时序信息。
现有的时空网络大部分都用于分析大规模运动,所以它们是否适用于rPPG信号估计任务还是个未知数,因为皮肤颜色的变换是很轻微的。在这篇文章中我们评估了various时空模型和损失函数,这将会为未来的rPPG预测人物的优化打下基础。

Methodology

网络结构

要从面部视频中获取pulse information需要两步,第一步是将RGB投影到具有更强表达能力颜色子空间内,第二步颜色子空间需要被重新投影in order to get rid of无关信息,之后才能获得target signal space。本文提出了一个端到端的时空网络,可以将这两步融合并一步得到最终的rPPG signal。
Step1. 输入:T帧的面部图像with RGB channels
Step2. 在进行一些卷积和池化操作后,形成多通道流体来表达时空特征
Step3. 最终,潜在的流体被投影到信号空间,运用channel-wise卷积操作和111的卷积核来生成预测的rPPG信号with length T。
在这里插入图片描述
f是子空间映射的时空模型,Theta是模型所有卷积过滤器参数的串联,g是为了最终信号映射的channel aggregation,w是它的参数集合。时空模型f有两个主流模型,在这里文章探索和比较了它俩。

(1)3D-CNN based PhysNet
3D-CNN被加在时空模型f中,which采用333的卷积来同时extract空间和时间领域内的语义rPPG特征,这有助于学习更多的鲁棒性文本特征and recover rPPG信号with更少的时间抖动。我们还尝试了一个时间的encoder-decoder(ED)结构PhysNet-3DCNN-ED,它能够利用更多的时间文本and减少时间冗余和噪声。

(2)RNN based PhysNet
部署2DCNN来extract空间特征,然后利用RNN based module进行时间领域内空间特征的增殖,这可能会提升在forward/backward flow中的时间文本特征。LSTM和ConvLSTM如下:
在这里插入图片描述

代表LSTM的乘积与ConvLSTM的卷积操作,O代表哈达玛积。公式里的偏项被省略。i,f,o,c,H,W都是3D张量。在后面的章节中,PhysNet-LSTM代表PhysNet与LSTM,PhysNet-BiLSTM代表PhysNet与bi-directional LSTM,PhysNet-ConvLSTM代表PhysNet与Convolutional LSTM。对于PhysNet-ConvLSTM,在时间传播后采用了全局平均池化。
关于执行的细节:所有的卷积操作步长都为1
11,除最后的卷积层with 111的卷积核之外,其他都采用批归一化与非线性激活函数ReLU进行级联。除了PhysNet-3DCNN-ED之外,所有Maxpool操作的步长都是122。对于PhysNet-3DCNN-ED,第二个和第三个Maxpool的encoder部分步长和卷积核都为22*2,while在Spatial Global Avgpool的decoder部分之前有2个反卷积层,以回到原始的时间长度。除此之外,时间和空间模块的多有卷积层的padding都要保持一致大小,堆叠的LSTM层数为2,因为我们的方法被设计为一个全卷积框架,所以理论上面部图像序列with随意的空间和时间大小作为inputs是可行的。

损失函数

我们想要recover rPPG信号,which符合趋势并且可以准确预测pulse peak的时间位置,这对HRV分析是很重要的。为了最大化趋势相同性,最小化peak location error,negative Pearson相关如下:
在这里插入图片描述

实验

在两个数据集上进行实验,OBF和MAHNOB-HCI。
在OBF上训练。训练的PhysNet首先在OBF数据集上进行HR和HRV的测试精度评估,然后demonstrated for an extended application of AF detection,然后在 MAHNOB-HCI数据集上进行交叉验证并且探索了emotion recognition应用。

数据集&Experimental Settings

(1)OBF dataset
(2)MAHNOB-HCI dataset
(3)Training Settings
Face image:128*128
Length of training clips as T = {32,64,128,256}
Videos & ground truth signals 下采样至30fps & 30Hz
Adam优化器的学习率为1e-4
Epoches:15
(4)Testing Settings and Performance Metrics
Performance Metrics:HR & HRV:SD,RMSE,MAE,ACC
AF:ACC,SP

Experiments on OBF

(1)损失函数
用基于3D-CNN的PhysNet,帧率取T=64,来进行Neg-Pearson与MSE的对比

(2)Spatio-temporal Networks
取T = 64,损失函数为Neg-Pearson,来进行模型对比
首先测试了PhysNet64-2DCNN,并把它当作baseline
然后测试了有或没有ED模块的PhysNet64-3DCNN
还测试了基于RNN的模型,结果表明PhysNet64-LSTM在长时间的上下文聚合方面比PhysNet-2DCNN的性能更好,但没有PhysNet54-3DCNN好。剩下的LSTM和ConvLSTM在同一等级,BiLSTM最差,这表明高层特征的backward information是非必要的。

(3)Clip Length T
T = {32,64,128,256}
对于PhysNet-2DCNN模型来说,更长的输出有更好的效果
PhysNet-3DCNN在更短的输入方面比2DCNN表现更好,因为时间卷积层的过滤器可以在学习时间表达方面提供额外的帮助。
对于PhysNet-LSTM我们只对比了T = {32,64},因为它的长时间传播能力受限,T=32有更好的表现,对于PhysNet-3DCNN来说,HR和HRV在T=128和T=64方面分别得到了更好的表现。

(4)Comparison with Previous Methods
与之前的方法ROI_green,CHROM,POS对比,我们的模型PhysNet128-3DCNN-ED在HR和HRV层面都有更好的功效和鲁棒性。

(5)AF Detection
与之前的方法相比,我们的模型有更好的表现。

Evaluation on MAHNOB

用在OBF数据集上指标最好的PhysNet128-3DCNN-ED在MAHNOB数据集上进行交叉验证来看模型的generalization ability。
虽然从表格上来看SAMC模型看起来表现不错,但这个模型每次输入都需要很很复杂的计算步骤,没有很好的封装,对于实时检测不是很友好。以及我们的模型是一个端到端的系统,在测试用例上运行的非常快。另外后三个模型每个模型都是在不同的数据集上训练的,所以这个结果是在一个总体层面上的。最后一点就是这些模型都需要pre-processing步骤但是我们的不需要,所以我们的模型更好部署。在交叉验证后证实我们的模型在HR测量方面有很好的generalization ability。

专有名词/生词

1、atrial fibrillation(AF) 心房颤动
2、heart rate variability(HRV) 心跳的不规律性,HRV能够反映神经系统的健康。通常来说HRV越高越好。高HRV代表更好的心血管功能和抗压能力,而低HRV意味着更高的焦虑抑郁风险,以及更高的心血管疾病的死亡率。
3、Constraint n.约束
4、Trend-consistency 趋势一致性
5、Promising adj.前途无量的
6、Electrocardiography 心电图学
7、Photoplethysmograph 光电容积描记仪
8、Heart rate 心率,指正常人在安静状态下每分钟心跳的次数,单位为bpm,是计算HRV指标的重要数据
9、inter-beat-interval(IBI) 心跳间隔,指两次连续心跳之间的时间间隔,单位为ms
10、Frequency analysis 频率分析
11、Empirical adj.以经验为依据的
12、Two-stage pipeline 两级流水线
13、Generalize v.概括,归纳
14、Region of interest(ROI) 感兴趣区域
15、blind source separation(BSS) 盲源分离
16、least mean square(LMS) 最小均方算法
17、majority voting 多数投票算法
18、self-adaptive matrix completion 自适应矩阵补全
19、Chrominance n.色差,chroma 是在视频编码系统中指色度值。
20、Luminance n.亮度,luma 是在视频编码系统中指亮度值
21、Projection n.计算, 推测, 投射, 投影, 凸出物, 隆起物
22、Orthogonal adj.正交
23、Tone n.气氛,色彩,色调
24、Spectrogram n.频谱图
25、Exploit v.利用
26、aligned adj.一致的
27、Coarse adj.粗糙的
28、Cardiac n.心脏
29、Respiratory adj.呼吸的
30、Recurrent adj.循环的
31、Simultaneously adj.同时的
32、Customized adj.定制的
33、Rationalize v.合理化
34、Procedure n.程序
35、Illumination n.光照,照明
36、Manifold n.流形
37、Latent adj.潜在的
38、Concatenation n.串联
39、Impose v.迫使,强加
40、Leverage n.杠杆作用,影响力
41、deploy v.部署
42、Propagate v.增殖,传播,propagation n.
43、Peripheral adj.次要的,附带的,周边的
44、bias terms 偏项
45、Omitted adj.省略了的
46、global average pooling 平均全局池化
47、Implementation n.执行
48、Cascade v.像瀑布般冲下或倾泻, n.瀑布,堆叠
49、Synchroized adj.同步的
50、Scenario n.方案
51、efficacy n.功效
52、amplitude n.振幅
53、Protocol n.协议,礼仪
54、replicate v.复制,重复
55、polynomial adj.多项式的

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值