远程PPG(rPPG)算法原理简述(论文:Algorithmic Principles of Remote-PPG)
文章目录
前言
远程光电容积脉搏波 (rPPG) 通过使用多波长 RGB 相机检测人体皮肤表面脉冲引起的细微颜色变化,实现对人体心脏活动的非接触式监测 [1]。近年来,已经提出了几种用于从视频中提取脉冲信号的核心 rPPG 方法。这些包括: (i) 盲源分离(例如,基于 PCA 的 [2] 和基于 ICA 的 [3]),它使用不同的标准将时间 RGB 轨迹分离为不相关或独立的信号源以检索脉冲; (ii) CHROM [4],它通过假设标准化的肤色对图像进行白平衡来线性组合色度信号; (iii) PBV [5],它使用不同波长下血容量变化的特征来明确区分脉冲引起的颜色变化和 RGB 测量中的运动噪声; (iv) 2SR [6],它测量用于脉冲提取的皮肤像素空间子空间的时间旋转。这些 rPPG 方法之间的本质区别在于将 RGB 信号组合成脉冲信号的方式。
在本文中,我们研究了
rPPG 在数学背景下的算法原理,并结合了光学和生理学推理。基于皮肤反射模型的探索表明,rPPG 的不同特性可用于设计脉冲提取的算法解决方案。因此,这项研究不仅对核心 rPPG 方法 [2]-[6] 给出了完整的观点和洞察力,而且还提出了一种新的替代方案,展示了基于理解的易处理算法开发。新方法在用于脉冲提取的时间归一化 RGB 空间中定义了一个与肤色正交的平面,因此被称为“平面正交皮肤”(POS)。本文的主要贡献是深入分析了 rPPG 的工作原理(在数学背景下),这有利于未来新型 rPPG 方法的开发,如本文介绍的 POS 算法所示。
提示:这里可以添加本文要记录的大概内容:
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。
提示:以下是本篇文章正文内容,下面案例可供参考
一、皮肤反射模型
整篇论文中使用以下数学约定。向量和矩阵用黑体字表示,列向量用v表示,单位长度的向量用u表示。变量 t 表示时间; T 表示转置; E{·}表示期望算子;向量 1 表示 (1,1,1)*T。
为了彻底理解 rPPG 方法中脉冲提取的原理,我们从基础开始,定义了一个 rPPG 模型,该模型考虑了皮肤反射的相关光学和生理特性。该模型使我们能够详细分析问题,并指出如何在各种 rPPG 方法中解决这些问题。
如图1所示,考虑一个光源照射一块含有脉动血液的人体皮肤组织和一个记录这幅图像的远程彩色相机。我们进一步假设光源具有恒定的光谱成分,但强度是变化的(在相机处观察到的强度取决于光源到皮肤组织和相机传感器的距离)。相机测量的皮肤有一种特定的颜色(相机测量的肤色是光源(例如强度和光谱)、固有肤色和相机颜色通道灵敏度的组合),这种颜色会随着时间的推移而变化,这是由于运动引起的强度/镜面反射的变化和脉冲引起的细微的颜色变化。这些时间变化与亮度强度水平成正比。
基于二色反射模型,记录的图像序列中每个皮肤像素的反射可以定义为 RGB 通道中的时变函数:
式中,Ck(t)表示第k个皮肤像素在t时刻的像素值;I(t) 表示光照强度, 它由光源本身亮度变化以及光源、 皮肤组织和相机之间的距离决定,它受到 Vs(t) 和Vd(t) 两种反射的调制, 其中,Vs(t) 表示镜面反射, 代表由皮肤发出类似镜面的反射光;Vd(t) 表示漫反射,代表皮肤组织散射和吸收的光;而Vn(t)表示相机的量化噪声。
关于二色反射模型(dichromatic reflection model)参考论文:Using Color to Separate Reflection Components
镜面反射Vs是来自皮肤表面的, 类似于镜面的光照反射, 由于大部分光线均被皮肤表面反射, 只有少部分光线进入皮肤组织内, 因此镜面反射是两种反射成分的主要部分, 且它不包含任何脉搏信息。但由于人体运动会导致光线、 皮肤表面和相机的角度和距离发生变化, 所以镜面反射也包含变化的成分,由此,镜面反射Vs可以定义为:
式中,us代表由相机捕捉的镜面反射光光谱的单位颜色向量, 即红绿蓝三种颜色对镜面反射光强的贡献程度;s0和s(t)分别代表镜面反射的直流部分和交流部分的光强。
漫反射Vd与被皮肤组织吸收和反射的光线有关, 是脉搏信号的主要成分。皮肤组织对光照反射的影响主要与皮肤表皮组织的色素沉着, 如黑色素,胡萝卜素, 以及血液中血红蛋白的浓度有关。其中,黑色素, 胡萝卜素等影响皮肤的固有反射, 随时间保持不变。而血红蛋白浓度随心脏活动而发生周期性变化, 因此, 经血红蛋白反射的光线强度也会产生周期性变化, 从而反映脉搏信息。由此, 漫反射Vd(t)可以定义为:
式中,ud表示皮肤表皮组织的单位颜色向量, 其方向主要由色素沉着决定, 和肤色的深浅有关;d0表示固有的漫反射的强度。由于血液对不同颜色光线的吸收程度不同, 因此up代表脉搏信号中不同颜色通道的贡献程度,p(t)表示脉搏信号的强度。
可以看出, 镜面反射Vs和漫反射Vd中都包含不随时间改变的静止部分和随时间改变的动态部分, 将两种反射的静态部分组合起来, 可表示为:
式中,uc表示皮肤固有反射的单位颜色向量;c0表示固有反射的光照强度。
同样地,I(t) 也可以分为固有光强I0以及随时间变化的光强I0· i(t) ,I0和I0· i(t) 具有相同的方向, 可表示为:
将式(4) 、 (5) 带入原模型, 得到皮肤反射模型如下:
现有的rPPG方法大多是通过对每一帧ROI区域中的像素点进行空间平均来构成时域信号, 而足够像素点的空间平均能有效降低相机的量化噪声(即可忽略Vn(t) )。同时, 相比于相机捕捉的直流分量, 交流分量的强度很小, 因此, 交流分量的乘积项, 如i(t)·s(t)、i(t)·p(t)等可以忽略不计。考虑以上两点, 并将式(6)展开, 可得到:
式中,I0·uc·c0代表信号的大而稳定的直流分量,其大小不随时间变化, 后三项为信号的交流分量。为了获取最终的脉搏信号p(t), 需要除去照明光的直流分量I0· uc· c0以及两个交流分量: 光强变化信号 I0·uc·c0·i(t) 和镜面反射信号I0·us·s(t)的影响。
至此,观测值C(t)变成是三个源信号 i(t)、s(t) 和 p(t) 的线性混合。这意味着通过使用线性投影,我们能够分离这些源信号。因此,从观察到的 RGB 信号中提取脉冲信号的任务可以转化为定义投影平面以分解 C(t),最终得到含有脉搏信号的p(t)。
二、各种分解方法
1.盲源分流(BSS): PCA/ICA
基于BSS的rPPG方法的一般过程可以表示为:
其中 Y(t) 表示由脉冲和噪声组成的分解源信号; W 表示可以通过 PCA [2] 或 ICA [3] 估计的解混合矩阵,即 ICA 中的排序问题由 [18] 引入的基于约束 ICA 的方法进一步解决。 PCA 和 ICA 之间的本质区别在于它们的假设 :关于i(t)、s(t) 和 p(t) 之间的关系,即源信号要么不相关,要么独立。 BSS 操作之后是从 Y(t) 中选择最具周期性的信号作为脉冲。因此,这些方法无法处理运动也是周期性的情况,这通常发生在受试者在健身环境中锻炼时。
此外,PCA 和 ICA 在估计 W 时有不同的局限性:(i)PCA 使用 RGB 信号的协方差来估计 W(即特征向量),这需要脉冲和噪声幅度的变化足够不同才能确定特征向量方向; (ii) ICA 假设 Y(t) 中的分量在推导 W 时在统计上是独立且非高斯的,这要求 C(t) 是一个长信号以实现统计测量。这可能会使分离更加困难,因为也可能包括不同的频率分量(例如,呼吸和迈尔波)。此外,BSS 估计精确 W 的过程是完全盲目的(即黑匣子),这对于算法开发来说是难以处理的。
最重要的是,BSS 技术是一般信号处理问题的统计和计算解决方案,它没有利用可用于解决 rPPG 特定问题的独特和典型的皮肤反射特性。在这方面特别具有说明性的是基于 ICA 的方法,它预先对 RGB 信号的标准偏差(即 交流 分量)进行归一化,从而忽略了 PPG 信号在各个 RGB 通道中引起不同但已知的相对幅度的事实。
2.基于模型的方法:PBV
与基于 BSS 的方法对与源信号相关联的颜色不施加任何假设相比,基于模型的方法 [4]、[5] 使用不同组件的颜色向量的知识解混合.因此,这些方法有一个共同点:消除C(t)对平均皮肤反射颜色(即直流分量)的依赖,包括光源颜色和固有皮肤颜色。这可以通过时间归一化来完成:将 RGB 信号除以其时间平均值,这不会损害交流 分量。在(8)中,时间平均值被认为是一个时间间隔内的大的稳定分量:
时间平均值也被用于唯一定义(对角)归一化矩阵 N:
紧接着 N 用于将 C(t) 时间归一化为:
• Intensity(光照强度):1 · (1 + i(t)) 表示沿 1 方向的光强度变化,这是时间归一化的肤色方向。这通常是 Cn(t) 中最大的分量,即最大的失真(例如,运动引起的强度变化)通常同时且同等地出现在所有三个通道中。
• Specular(镜面反射) : N·us·I0·s(t) 表示沿缩放镜面反射方向的时间变化。在白光条件下,我们有 N·us·I0= N·1·I0,即与肤色的倒数进行缩放。在非白光条件下,us取决于光源光谱和相机灵敏度,而 N 取决于相同的变量,但也取决于皮肤特性(例如,皮肤黑色素的光吸收)。
• Pulse(脉搏): N · up· I0· p(t) 表示脉冲引起的时间颜色变化,即感兴趣的分量。 N·up·I0 是时间归一化RGB 空间中脉冲引起的颜色变化方向。它取决于亮度光谱和相机传感器,但很大程度上与肤色无关 [5]。在广泛的照明光谱和常用的相机灵敏度范围内,G 通道的脉动幅度最大,其次是 B 通道和 R 通道。
在(12)的基础上,我们分别对CHROM和PBV进行了详细的分析,以了解它们如何利用皮肤反射的生理/光学特性来解决信号的解混问题。两种方法都利用去除Cn(t)中的直流分量的方式进行脉冲提取,定义为:
˜Cn(t) 表示表示(零均值)颜色变化信号。
1) PBV:
它选择直接从脉冲分量检索脉冲,通过限制所有的颜色变化到脉冲方向。它是这样做的,将 ˜Cn(t) 投影到单个方向z上,以创建一个估计值 ˆp(t),与p(t)成比例:
式中z为包含组合权值的3×1投影向量;k为比例因子(k ≠ 0)。接下来,假设p(t)(即ˆp(t))与其他信号源不相关:
现在考虑期望值 E{˜Cn(t)·ˆ p(t)}, 有:
此时,PBV假设已知的血容量脉搏向量 upbv(3 × 1列向量)满足:
因此,(16)式变为:
紧接着,投影向量z:
PBV使用3×3时间协方差矩阵代替整体平均值:
其中–{·}为时域求协方差的时间平均算子,取k使z具有单位长度。最后结合(19)和(20),估计出投影向量z:
用于获得(14)中的脉冲信号。由于属于视频内容估计,所以PBV的关键点在于定义血容量脉冲向量upbv(基于卤素灯和UI-2220SE-C相机的光学RGB滤光片的条件,PBV使用的upbv对于RGB通道测量为[0.33,0.77,0.53]T。)
PBV有一个明显的优势:当(17)的假设成立时,估计的投影轴对脉冲检索是最优的。然而,它有两个局限性。首先,当rank(属于˜Σ) < 3时,(21)中的解不存在,即属于˜Σ没有逆。在奇异或近奇异情况下,得到的z是噪声驱动的;对于rank(属于˜Σ) = 1,任何z都是有效解。这是模型中i(t) = s(t) = 0时的典型情况,即,皮肤是在没有畸变的完美条件下测量的。其次,正确抑制噪声需要准确地了解血容量脉冲矢量,即当upbv≠N·I0·up时投影质量下降。算法的结果对PBV的特定参数设置很敏感,而PBV又由(并因此限制于)特定的记录设置定义,这取决于光谱和相机传感器。
2) CHROM:
与直接一步求解PBV不同,CHROM在估计投影方向时引入了灵活性,降低了对脉冲提取先验知识的敏感性。它首先通过消除高光部分来降低分解任务的维数。这是通过只考虑色度信号来实现的,我们将其描述为~ Cn(t)在垂直于镜面变化方向的平面上的投影。为了在不考虑光照颜色的情况下实现正确的功能,该方法采用标准化的肤色向量,从而实现图像的自动白平衡。据此,我们将标准化肤色向量及其映射矩阵定义为:
式中uskin为3×1白光下平均肤色向量(在[4]中进行大规模实验获得);M为对角线映射矩阵,用于将~ Cn(t)映射为:
其中,在白光下,时间归一化的肤色被映射到假定的标准化肤色。将镜面反射矢量N·us·i0近似映射到白光方向:
κ是比例因子。CHROM的下一步是将M·~Cn(t)投影到与1正交的平面Pc上,使其独立于镜面变化(在肤色校正后):
其中:Pc·M·1·i(t)=0
其中Pc是CHROM使用的2×3初始投影矩阵,由行组成的投影轴,它定义了时间归一化RGB空间中的一个平面。注意,Pc·M是CHROM4使用的投影矩阵。
这样的投影矩阵有一个吸引人的特性:它在S(t)中创建两个投影信号,其中运动诱导/脉冲诱导的变化出现在同相/反相中。[4]中没有解释这一现象的原因,但我们将在后面说明。
S(t)中的同相/反相特性允许一种简单的方法来创建一个估计值ˆp(t)来近似p(t),即“alpha-tuning”[4]:
式中,σ(·)为标准差算子;Si是第i个投影信号。当脉动分量占主导时,S1和S2为反相,并呈构造叠加,即ˆp(t)≈2·S1(t)∝p(t)。??当运动引起的扰动占主导地位时,(27)抵消相内运动分量以近似p(t)。只有当运动诱发分量和脉冲诱发分量的强度平衡时,ˆp(t)是p(t)的次最优估计。
CHROM的优点在于它对非白色照明具有一定的鲁棒性。然而,它要求(24)保持,即真实视频内容中测量的镜面分量N·us·i0必须由假定的标准化肤色向量uskin进行补偿。当M·N·us·I0 ≠ κ 1时,投影信号中会出现镜面残差。
3.数据方法:2SR
最近开发的2SR方法[6]创建了一个与主体相关的皮肤颜色空间,并跟踪随时间的色调变化来测量脉冲,其中瞬时色调是根据图像域中皮肤像素的统计分布确定的。通过对[19]中使用不同颜色空间测量脉冲的分析,支持了将色度作为脉冲提取的基本参数的概念。由于色相驱动测量,该方法在早期阶段内在地抑制了所有强度变化。在这个意义上,2SR类似于下一节介绍的方法,该方法定义了一个在时间归一化RGB空间中正交于1的投影平面,用于脉冲提取。然而,2SR构建的子空间轴完全是数据驱动的,没有生理上的考虑。在实践中,当空间测量不可靠时(例如,如果蒙皮有噪声或选择不当),这就意味着性能问题。
4.POS 算法
到目前为止,我们已经展示了不同的rPPG方法与模型之间的关系。在此基础上,我们还能够针对某些应用或效果设计新的算法。我们通过考虑如何将2SR的主要特征引入基于模型(12)的算法来说明这一点。
再次把公式(12)拿过来:
A. 分析
由于2SR的主要特征是考虑色调变化(即忽略强度),因此(12)中对应的是首先消除1方向上的强度变化。因此,我们将Cn(t)投影到正交于1的平面上,其表示为:
式中Pp为2 × 3投影矩阵;Pp,i表示Pp的第i行(投影轴),在我们的定义中,假设它们是相互正交的,因为非正交轴总是在另一个方向上产生单独的分量,因此具有冗余性。在这种情况下,Pp定义了一个在时间归一化RGB空间中正交于1的平面,该平面实际上是一个与时间归一化肤色正交的平面,即与CHROM定义的投影平面不同(通过假设一个标准化的肤色向量,CHROM中的投影平面(即(25)中的Pc·M)与镜面变化方向正交。在我们的例子中,(28)中的Pp正交于强度变化方向。)
从概念上讲,Pp有两个优点:(i)(运动诱导的)强度变化通常是较大的畸变,同时影响所有三个通道; (ii) 不需要对N·us·I0和N·up·I0的准确认识就可以确定当前的主要畸变方向。虽然投影平面的法向量(1)已经确定,但是在Pp平面中实际的投影轴还没有定义。可以考虑定义一个Pp投影面,它可以进一步将Cn(t)投影到平面上与镜面畸变正交的方向上。然而,这不是一个可行的选择,因为N·us·I0和N·up·I0可能不是相互正交的,通常由于不同的运动类型,N·us·I0的定义不明确。相比之下,在测量[5]时,固定光源和相机滤光片时,N·up·I0相对稳定。因此,我们倾向于使用N·up·I0来定义Pp,利用PPG吸收的生理特性。
根据[5],血液脉动在RGB通道中具有不同的相对ppg贡献,可表示为血容量脉冲矢量upbv:
式中upbv©为相机在波长λ∈[400,700]nm处采样的第c色通道的脉动强度(即标量);Hc(λ)为相机的c色通道响应;I(λ)和Ih(λ)表示给定光源和用于测量绝对PPG-振幅(PPG (λ) )的卤素灯的光谱组成;ρs(λ)表示皮肤反射光谱。
为了充分理解投影轴如何影响投影信号S(t)的质量,我们利用upbv研究了平面上投影方向的脉动。假设Pp平面中的一个投影轴为z,则z方向上的脉动为:
式中,z为3×1投影向量;upbv为(30)给出的3×1血容量脉冲矢量;p为z方向上的脉动度,是一个标量,可以是正的,也可以是负的。脉冲强度是p的绝对值,它反映了在z方向上的脉冲变化(交流)的幅值。
下图显示了与 1 正交的平面上作为 z 函数的脉动强度分布。从该图中,我们可以看到投影方向与决定信号质量的脉动(以及脉动强度)高度相关,即不同的 z 可能给出非常不同的投影信号。例如,z1 和 z2 显示负和正脉动,给出反相信号 S1(t) 和 S2(t); z3 显示出低得多的脉动强度,给出了噪声信号 S3(t)。这意味着平面上的投影轴不能任意选择,而应取决于生理推理。
图:脉动强度在与 1 正交的平面上的分布,其中脉动强度是绝对脉动值。投影平面由 360 个(离散)投影轴 z 以 1°差异采样,其中红色/蓝色表示具有较强/较弱脉动强度的区域。我们举例说明了平面上的三个投影轴:z1= [−2,1,1]T, z2= [1,−2,1]T 和 z3= [1,1,−2]T,它们具有脉动强度-0.64、0.68 和 -0.04 根据 (31)。我们将从视频中的皮肤测量的时间归一化 RGB 信号 Cn(t) = [Rn(t), Gn(t), Bn(t)]T 投影到 z1、z2、z3 上并获得 S1(t), S2(t)、S3(t)。
虽然在测量过程中录制设置固定时 upbv 保持稳定,但视频中的光源和相机过滤器通常是未知的,并且在不同的设置中可能会有所不同,这使得很难使用固定的离线 upbv 进行准确的在线测量.受 CHROM [4] 的启发:我们利用血容量脉冲的知识在与时间归一化的肤色方向正交的平面上定义一个粗略的投影区域,并通过实时调谐在平面上细化一个精确的投影方向。
因此,关键点是在平面上定义两个投影轴,它们可以界定最可能的脉动区域(例如,上图 平面上的红色区域),其中通过调谐可以在边界内找到更大的脉动,即通过 S1(t) +S2(t)。根据我们的要求,(28) 中的投影信号可以用这样的一般形式表示:
其中 D(t) = [d1(t), d2(t), d3(t)]T 是一个与 Cn(t) 具有相同条目但顺序不同的向量。 D(t) 中的条目根据 Cn(t) 中 RGB 通道的递减脉动强度排序,即基于 upbv 的递减通道排名。 (32) 中定义的投影轴彼此正交并且也与 1 正交。最重要的是,两个投影轴都表现出正的脉动性,从而产生同相脉冲信号。
以单个光源(如荧光灯)为例,皮肤搏动通常在 G 通道中最大,其次是 B 通道和 R 通道。基于这样的通道排序和我们在(32)中的要求,(28)中的投影轴可以定义为:
它实际上将时间归一化的 RGB 信号组合为:S1(t) = Gn(t) − Bn(t) 和 S2(t) = Gn(t) +Bn(t) − 2Rn(t)。
最后一步是在(32)的有界区域内调整精确的投影方向,其中可以进一步分离(12)中的镜面反射和脉动分量。在调谐之前,需要证明镜面反射失真和脉冲在投影平面上是可物理分离的。为此,我们比较了与 1 正交的平面上这两个分量之间的信号强度分布(即“强度”是指信号变化的幅度)(见下图 )。基于假定的uskin和upbv,可以看出镜面反射分量和脉冲分量在平面上几乎相反的分布,即它们的强度曲线有明显的相移。
最后一步是在(32)的有界区域内调整精确的投影方向,其中可以进一步分离(12)中的镜面反射和脉动分量。在调谐之前,需要证明镜面反射失真和脉冲在投影平面上是可物理分离的。为此,我们比较了与 1 正交的平面上这两个分量之间的信号强度分布(即“强度”是指信号变化的幅度)(见图 3)。基于假定的uskin和upbv,可以看出镜面反射分量和脉冲分量在平面上几乎相反的分布,即它们的强度曲线有明显的相移。
当 N·us·I0 和 N·up·I0 在投影平面上的分布足够不同时,镜面反射分量和脉动分量在算法上是可分离的。从这个意义上说,我们的调整取决于以下假设:镜面反射和脉冲在时间归一化的 RGB 通道中具有不同的相对强度。这种假设在正常条件下似乎是正确的:人体皮肤组织中的血红蛋白和黑色素含量会导致特定的发色团浓度。白光下的肤色(包括深色皮肤)看起来偏红偏蓝,即没有人天生就是蓝脸。因此,镜面反射矢量(例如,时间归一化后肤色的倒数)不太可能与血容量脉冲矢量重合。然而,这种假设是否也适用于极端亮度条件仍然值得怀疑,因为照明光谱会影响镜面反射和脉动分量对 RGB 通道的相对贡献。我们将在实验部分通过使用在具有不同照明光谱的各种照明条件下记录的基准视频来验证这一假设。
暂时假设这样的假设成立,
在(32)中由两个投影轴包围的区域具有大的脉动强度和低的镜面反射强度,因此投影信号具有 (i) 同相脉动分量,以及 (ii) 反相镜面反射分量。与 CHROM 类似,我们将寻找精确投影方向的任务留给了 alpha -tuning [4],它可以表示为:
其中 σ(·) 表示标准差算子。请注意,(34)中的符号与 CHROM 的(27)中的符号不同(即,+而不是 -),因为它取决于两个投影信号的脉动 (考虑upbv=[0.33,0.77,0.53]T在CHROM 中两个投影轴的脉动为-0.55、0.47,这表明两个投影信号是反相的。所以 CHROM 使用 S1(t)−α·S2(t) 在(27)中进行 alpha 调整。相比之下,POS 直接找到给出同相信号的两个投影轴,因此它的 alpha 调整被公式化为 (34) 中的 S1(t)+ α · S2(t) ) 。 [4] 使用的 alpha 调整有一个吸引人的特性:(i) 当脉动变化支配 S(t) 时,S1(t) 和 S2(t) 出现同相。将两个同相信号加在一起将提高结果信号强度,即此时 α 的值并不重要; (ii) 当镜面反射变化支配 S(t) 时,S1(t) 和 S2(t) 反相出现。 α 可以将一个信号的镜面变化强度拉/推到与另一个信号相同的水平,即 σ(S1) = σ(α · S2)。添加两个具有相同幅度的反相信号将抵消镜面反射失真。然而,当脉动强度和镜面反射强度非常接近时,它的性能变得次优,即 α 是由两者的混合驱动的,因此没有明确定义。
假设 h(t) 是从滑动窗口(长度为 L)中的短视频间隔估计的,我们可以通过重叠添加部分片段 h(t)(在使它们是零均值),如 [4] 中所示。因此,H(τ) 是可用于进一步分析的最终输出脉冲信号,例如脉率估计。更具体地说,L 的设置取决于相机帧率,该帧率应包括至少一个心动周期进行处理。最重要的是,较短的L 是首选,因为它可以快速适应 alpha-tuning 以抑制短间隔内的瞬时失真,并避免呼吸等低频分量的影响。叠加长度必须小于L。在我们的例子中,窗口为重叠添加滑动 1 帧(即重叠添加长度因此为 L-1),其中包括更多测量。
B. 算法
为了得到一个完全指定的算法,我们假设在大多数用例中,根据脉动的信道排序相对稳定,即 upbv 中的实际值可能会改变,但它们的顺序不能轻易改变。这在图 4 中显示,其中定性地说明了亮度和肤色的影响。下图 (a) 举例说明了常用的两种截然不同的亮度光谱:白炽灯和荧光灯。由于白炽灯的光谱可以被认为是荧光灯光谱的低通滤波版本,因此预计在这两种照明条件下,upbv 的通道排列不会有很大差异。下图(b)显示了不同肤色的反射光谱。由于它们的形状相当恒定,因此 upbv 的通道排名预计与肤色无关 [5]。为简单起见,我们因此以白炽灯或荧光灯为典型光源来固定投影轴作为基准,这实际上是来自(33)的 Pp=([[0 1 -1],[ -2 1 1 ]])。
虚线红/绿/蓝曲线表示相机R/G/B通道的响应;黑色曲线表示绝对 PPG 幅度;黄色曲线表示皮肤反射光谱;青色/品红色曲线表示白炽灯/荧光灯的光谱。由于 PPG 幅度是固定的,并且相机传感器的 RGB 通道响应顺序不会改变,我们只研究亮度因子和肤色因子:(a) 比较白炽灯(青色曲线)和荧光灯(洋红色曲线)照明条件,以及 (b) 比较不同的肤色(黄色曲线)。
新提出的方法的新颖之处在于在时间归一化的 RGB 空间中使用与肤色正交的平面进行脉冲提取。因此我们将其命名为“Plane Orthogonal-to-Skin”(POS)这也是它区别于现有技术的独特之处。为了突出POS的基本/独立性能,我们尽可能保持其算法简洁,即,甚至不使用常用的带通滤波。 POS的裸核算法如算法1所示,只需几行Matlab代码即可实现:
5.参考文献
[1] W. V erkruysse et al., “Remote plethysmographic imaging using ambient
light,” Opt. Exp., vol. 16, no. 26, pp. 21 434–21 445, Dec. 2008.
[2] M. Lewandowska et al., “Measuring pulse rate with a webcam - a non-
contact method for evaluating cardiac activity,” in Proc. Federated Conf.
Comput. Sci. Inform. Syst. (FedCSIS), Szczecin, Poland, Sept. 2011, pp.
405–410.
[3] M.-Z. Poh et al., “Advancements in noncontact, multiparameter phys-
iological measurements using a webcam,” IEEE Trans. Biomed. Eng.,
vol. 58, no. 1, pp. 7–11, Jan. 2011.
[4] G. de Haan and V . Jeanne, “Robust pulse rate from chrominance-based
rPPG,” IEEE Trans. Biomed. Eng., vol. 60, no. 10, pp. 2878–2886, Oct.
2013.
[5] G. de Haan and A. van Leest, “Improved motion robustness of remote-
PPG by using the blood volume pulse signature,” Physiol. Meas., vol. 35,
no. 9, pp. 1913–1922, Oct. 2014.
[6] W. Wang et al., “A novel algorithm for remote photoplethysmography:
Spatial subspace rotation,” IEEE Trans. Biomed. Eng., vol. 63, no. 9,
pp. 1974–1984, Sept. 2016.
[7] X. Li et al., “Remote heart rate measurement from face videos under
realistic situations,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit.
(CVPR), Columbus, OH, USA, June 2014, pp. 4264–4271.
[8] L. Tarassenko et al., “Non-contact video-based vital sign monitoring
using ambient light and auto-regressive models,” Physiol. Meas., vol. 35,
no. 5, p. 807, May 2014.
[9] W. Wang et al., “Exploiting spatial redundancy of image sensor for
motion robust rPPG,” IEEE Trans. Biomed. Eng., vol. 62, no. 2, pp.
415–425, Feb. 2015.
[10] M. Kumar et al., “DistancePPG: Robust non-contact vital signs moni-
toring using a camera,” Biomed. Opt. Exp., vol. 6, no. 5, pp. 1565–1588,
May 2015.
[11] S. Tulyakov et al., “Self-adaptive matrix completion for heart rate
estimation from face videos under realistic conditions,” in Proc. IEEE
Conf. Comput. Vis. Pattern Recognit. (CVPR), Las V egas, NV , USA,
June 2016, pp. 2396–2404.
[12] A. R. Guazzi et al., “Non-contact measurement of oxygen saturation
with an RGB camera,” Biomed. Opt. Exp., vol. 6, no. 9, pp. 3320–3338,
Sept. 2015.
[13] I. C. Jeong and J. Finkelstein, “Introducing contactless blood pressure
assessment using a high speed video camera,” J. Med. Syst., vol. 40,
no. 4, pp. 1–10, Apr. 2016.
[14] L. K. Mestha et al., “Towards continuous monitoring of pulse rate in
neonatal intensive care unit with a webcam,” in Proc. IEEE Conf. Eng.
Med. Biol. Soc. (EMBS), Chicago, IL, USA, Aug. 2014, pp. 3817–3820.
[15] S. Fernando et al., “Feasibility of contactless pulse rate monitoring
of neonates using google glass,” in Proc. EAI Conf. Wireless Mobile
Commun. Healthcare (Mobihealth), London, UK, Oct. 2015, pp. 198–
201.
[16] J.-P . Couderc et al., “Detection of atrial fibrillation using contactless
facial video monitoring,” Heart Rhythm, vol. 12, no. 1, pp. 195–201,
Jan. 2015.
[17] D. McDuff et al., “Remote measurement of cognitive stress via heart
rate variability,” in Proc. IEEE Conf. Eng. Med. Biol. Soc. (EMBS),
Chicago, IL, USA, Aug. 2014, pp. 2957–2960.
[18] G. R. Tsouri et al., “Constrained independent component analysis
approach to nonobtrusive pulse rate measurements,” J. Biomed. Opt.,
vol. 17, no. 7, p. 077011, July 2012.
[19] G. R. Tsouri and Z. Li, “On the benefits of alternative color spaces
for noncontact heart rate measurements using standard red-green-blue
cameras,” J. Biomed. Opt., vol. 20, no. 4, p. 048002, Apr. 2015.
[20] M. Soleymani et al., “A multimodal database for affect recognition and
implicit tagging,” IEEE Trans. Affect. Comput., vol. 3, no. 1, pp. 42–55,
Jan. 2012.
[21] W. Wang et al., “Quality metric for camera-based pulse rate monitoring
in fitness exercise,” in Proc. IEEE Int. Conf. Image Process. (ICIP),
Phoenix, AZ, USA, Sept. 2016, pp. 2430–2434.
[22] M. Hülsbusch, “An image-based functional method for opto-electronic
detection of skin perfusion,” Ph.D. dissertation (in German), Dept. Elect.
Eng., RWTH Aachen Univ., Aachen, Germany, 2008.