F3net 商汤Deepfake检测模型

本文介绍了商汤团队在ECCV2020提出的一种利用频域信息检测Deepfake的技术——F3Net。通过FAD(Frequency-Aware Decomposition)和LFS(Local Frequency Statistics)提取频率特征,并使用MixBlock融合双路网络特征,提高了在低质量视频中的Deepfake检测效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

这篇论文是商汤团队在ECCV2020的一个工作:Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues,通过引入两种提取频域特征的方法FAD (Frequency-Aware Decomposition) 和LFS (Local Frequency Statistics) ,并设计了一个 MixBlock 来融合双路网络的特征,从而在频域内实现对Deepfake的检测

介绍

随着Deepfake技术不断迭代,检测合成人脸的挑战也越来越多。虽然已有的基于RGB色彩空间的检测技术准确率不错,但是实际中,这些视频随着流媒体传播,视频通常会被多次压缩,而在较低质量的视频中,要想进行检测就比较困难,这也一定程度上启发我们去挖掘频域内的信息。

那么问题来了,我们如何才能把频域信息引入到CNN中?传统的FFT和DCT不满足平移不变性和局部一致性,因此直接放在CNN可能是不可行的

我们提出了两种频率特征,从一个角度来看,我们可以根据分离的频率分量重组回原来的图片,因此第一种频率特征也就可以被设计出来,我们可以对分离的频率分量经过一定处理,再重组回图片,最终的结果也适合输入进CNN当中。这个角度本质上是在RGB空间上描述了频率信息,而不是直接给CNN输入频率信息。这也启发了我们的第二种频率特征,在每个局部空间(patch)内,统计频率信息,并计算其平均频率响应。这些统计量可以重组成多通道特征图,通道数目取决于频带数目
在这里插入图片描述
如上图,在低质量(Low Quality)图片中,两种图片都很真实,但是在局部的频率统计量(LFS)中,呈现出明显的差异,这也就很自然能被检测出来。

基于上述两种特征,我们设计了 Frequency in Face Forgery Network F 3 N e t F^3Net F3Net),第一个频率特征为FAD(Frequency-aware Image Decomposition),第二个频率特征为LFS(Local Frequency Statistics)。因为这两个特征是相辅相成的,我们还设计了一种融合模块MixBlock来融合其在双路网络中的特征。整体流程如下图所示
在这里插入图片描述

FAD

以往的工作采用的是人工设计频域滤波器,但这无法完全覆盖所有的图像模式,并且固定的滤波器很难自适应的捕捉到图像中伪造的模式。因此我们提出了自适应的滤波方法,具体做法如下:

  • 设计N个二分类滤波器(也就是所谓的掩码mask { f b a s e i } i = 1 N \{ {f_{base}^i}\}_{i=1}^{N} { fbasei}i=1N,将图像的频率分为低,中,高三个频带
  • 为了让其具备自适应能力,我们额外设计三个可学习的滤波器 { f w i } i = 1 N \{ {f_{w}^i}\}_{i=1}^{N} { fwi}i=1
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值