论文阅读《Combining EfficientNet and Vision Transformersfor Video Deepfake Detection》

项目链接: https://github.com/davide-coccomini/
Combining-EfficientNet-and-Vision-Transformers-for-Video-Deepfake-Detection.

论文的整体架构和思路:

将cnn与vit相结合的思路,使用DFDC数据集进行训练和测试

作者提出了cnn与vit结合的两种思路

(a)第一种是使用预训练好的efficientnet b0进行特征提取,然后将图像切分成7*7的patch块经过线性映射,输入到vit中进行下一步处理

efficientnet为输入面部的每个块生成一个视觉特征。每个块是7 × 7像素。在线性投影之后,每个空间位置的每个特征都被视觉转换器进一步处理。添加到线性映射序列后的头部,CLS令牌用于生成二进制分类分数。

(b)将预训练好的模型提取后的特征图,分为两个分支,一个是s分支,将图像划分为7*7的patch块,另一个是L分支,将图像划分为64*64的patch块,这样做的目的是以捕获更丰富的信息和上下文。最后,使用与两个分支的输出相对应的CLS令牌生成两个独立的日志。这些对数被求和,产生最终的概率。

-------------------------------------------------------------------------------

S分支将图像划分为较小的7x7的patch块,以便对图像的局部细节进行分析。这种细粒度的划分可以帮助模型捕获图像中的细微变化、纹理和局部特征。

L分支将图像划分为较大的64x64的patch块,以便对图像的全局特征进行分析。这种粗粒度的划分可以帮助模型捕获图像的整体结构、布局和上下文信息。

与传统的直接得出分类结果不同的是,作者使用投票法得出分类结果

  • 8
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值