阅读:PipeNet: Selective Modal Pipeline of Fusion Network for Multi-Modal Face Anti-Spoofing

1.论文介绍

该论文为了解决如何提高跨种族和多模态连续数据中人脸反欺骗的泛化能力这一难题,提出了一种基于流水线的新型多流 CNN 架构 PipeNet,用于多模态人脸防欺骗

与之前的工作不同,提出了选择性模态管道 (SMP) 旨在为每种数据模态启用定制的管道,以充分利用多模态数据。一种新方法--有限帧投票(LFV, 以获得稳定可靠的视频分类预测。

2想法来源

2.1过往方法

1. 基于时态的方法:时态信息也可用于增强 CNN 的表示能力。长短期记忆(LSTM)可以通过循环学习特征来获取上下文信息,但由于通信开销大,这种方法很难部署,尤其是在移动设备上。

2. CNN: CNN能有效提取更丰富的深层人脸图像语义特征,用于人脸防欺骗任务的二元分类。但是,单一模态数据输入和监督学习机制使其很难在跨数据集测试中表现出色。

3. 传统的提取特征的方法如尺度不规则特征变换(SIFT)、加速鲁棒特征(SURF),以及及支持向量机(SVM)和线性判别分析(LDA)等传统分类方法,由于泛化能力差,这些方法很难应用于光照变化的环境中。

2.2新的提出

2019年,Zhang发布了用于人脸反欺骗的大规模多模态数据集CASIA-SURF,该数据集包含1000个被试和21000个视频,每个样本包含3种模态数据(即RGB、深度和红外)。

RGB,深度数据模式,红外摄像机

1. RGB 数据可以提供纹理信息,但对表面曲率和材料反射率不敏感。

2. 深度摄像头:深度传感器获取的数据,可提供距离/深度数据。使其更容易区分真实的脸部表面。

3.红外摄像机:用于捕捉物体表面的红外辐射,对不同展示攻击仪器(PAI)的物质反射很敏感。

但这三种模态数据在单独面对3D打印面具和硅胶人脸时,很难将它们与真实人脸区分。

通过图2可以看出非洲人、东亚人和中亚人在3种模态(RGB、深度和IR)下的真实面部裁剪。种族间差异最大的是RGB模态的肤色。HSV(色调(H),饱和度(S),明度(V)), YCbCr和灰度(R=G=B)等其他表示,并选择性能最好的表示。

第一名:他们提出了一种带有多级特征聚合模块的融合网络,可以充分利用不同模态的粗级和细级特征融合

第二名:提出了一种基于补丁的多流融合CNN 架构,该架构基于 Bag-的局部特征。补丁级别图像有助于提取欺骗特定的判别信息,模型特征擦除模块随机擦除一个模态以防止过拟合。

第三名:提出了一种轻量级网络架构,并将其命名为流媒体模块。它们的融合过程基于集成+级联结构,以最大限度地利用每个模态数据。

3. 方法

3.1 整体模型体系结构

PipeNet是以改进的 SENet154 为基础,包含一个用于多模态图像输入的选择性模态流水线(SMP)模块和一个用于视频帧序列输入的有限帧投票(LFV)模块。

输入是3种模式的面部视频,分别是RGB、depth和IR。对于每个模态,我们取一帧作为输入并随机裁剪成补丁,然后将它们发送到相应的模态管道。在每个模态管道中进行数据增强和CNN特征提取。三个管道的输出被连接成一个并发送到融合模块进行进一步的特征提取。线性连接后,我们得到每一帧的预测结果,并将其全部发送给Limited frame Vote模块进行迭代计算,输出的是真实人脸的概率。

3.2不同模态数据的选择性模态管道(SMP)

从ResNet[10]、ResNeXt[33]、XceptionNet[6]、SENet[11]等神经网络中挑选候选者。

通过不同模态的数据输入(RBG,depth,ir),测试出这些候选者的准确率和效率,重复三次并得到平均值,从而找到最适合这些模态数据的模块,这些模块即为管道。 SMP 的输出连接为融合模块的输入。选择性管道结构极大地提高了寻找最合适的结构的准确性和效率。

3.3限制帧投票视频分类(LFV)

输入是视频剪辑格式,因此它是不同长度的连续帧序列。该方法增加了有限帧投票(LFV)模块来获得视频输入的最终统计预测。

使用LFV的原因:

  1. 帧序列顺序的影响不显著:实验结果表明,在融合网络中,帧序列的顺序对预测结果的影响不显著。这可能是因为帧序列的顺序在融合网络中不是一个关键因素。
  2. 数据集帧的不一致性和伪影:即使在基本的清理和面部数据对齐之后,数据集中的帧仍然存在不一致性和伪影。这些因素干扰了上下文信息的准确性。

为了避免异常值,投票应采用帧的部分概率。基于PauTa准则算法创建了以下算法。算法伪代码如下:

3.5训练技巧

训练技巧是为了提高准确率

随机输入裁剪(Random Input Crop):

目的: 将输入的面部图像,随机地进行裁剪,划分为不同的补丁,以便更好地提取整体面部和微小运动的信息。

操作: 对于每个样本视频,从中选择连续的帧,并将这些帧分为小块(补丁),这些补丁作为模型的输入。

模态丢弃(Modal Dropout):

目的: 通过在训练期间随机丢弃某个选择的模态(如RGB、Depth、IR),避免过拟合,更好地利用所有三个模态的特征,提高模型的泛化性能。

操作: 针对每个样本,在训练时以一定的概率随机选择丢弃其中一个模态的信息。

学习率调度策略

梯度下降算法优化目标函数的时候,当越来越接近Loss值的全局最小值时,学习率应该变得更小来使得模型尽可能接近这一点,而余弦退火(cosine annealing)可以通过余弦函数来降低学习率。在训练时梯度下降算法可能陷入局部最小值,此时可以通过突然提高学习率,来“跳出”局部最小值并找到通向全局最小值的路径。

余弦退火重启(Cyclical Cosine Annealing Learning Rate)是一种通过余弦函数的周期性变化来调整学习率的方法。

改进:每个周期,采用了动态学习率(LR)的起始点,而不是使用原始版本中的固定值。动态起始点的采用可能使得模型更容易避免陷入局部最小值,并提高在训练中的收敛性和泛化性。

4.总结

本文提出了一种基于流水线的新型多流 CNN 架构 PipeNet,用于多模态人脸防欺骗。

  1. 设计了选择性模态流水线(SMP),为每种数据模态定制流水线,从而充分利用多种神经网络来识别多模态数据。
  2. 使用有限帧投票(LFV)对每一帧的预测概率进行迭代计算和过滤,最终得到一个稳定的、有限的帧集合。然后,LFV算法会计算这个帧集合中非零概率的数量,并将其分配给总帧数(N),从而得到一个最终的真实人脸概率。

论文地址:

[2004.11744] PipeNet: Selective Modal Pipeline of Fusion Network for Multi-Modal Face Anti-Spoofing (arxiv.org)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值