论文阅读《Combining EfficientNet and Vision Transformersfor Video Deepfake Detection》笔记

一只发呆的猪

已于 2024-01-03 10:54:47 修改

阅读量385

点赞数 8

文章标签：论文阅读笔记

于 2023-12-31 15:57:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_56180495/article/details/135316302

版权

我觉得这篇论文还是蛮不错的，主要思路就是将卷积神经网络以及vit进行结合的想法

我觉得还可以再添加一个频域模态作为辅助模态

项目链接： https://github.com/davide-coccomini/ Combining-EfficientNet-and-Vision-Transformers-for-Video-Deepfake-Detection.

模型的架构图如下：

1.

作者提出了两个想法：

第一个是使用efficient模型与vit进行拼接

第二个思路是使用CNN模型与vit进行拼接

-----------------------------------------

论文的讲解：

第一个是使用efficient模型与vit进行拼接：

特征图在输入vit之前被划分为7*7的图像块，随后经过线性映射，添加上位置编码再输入到MSA中添加注意力，使用的是efficientnet b0，cnn学习低级和局部信息

第二个是将cnn与vit进行相结合：

卷积交叉ViT使用两个不同的分支:s分支处理较小的斑块，l分支处理较大的斑块，以获得更宽的接受域。

Transformer Encoders从两个分支输出的可视标记通过交叉注意组合在一起，从而允许两条路径之间的直接交互。最后，使用与两个分支的输出相对应的CLS令牌生成两个独立的对数。这些对数被求和，使用softmax函数生成最终的概率。

对于卷积交叉ViT，使用两个不同的CNN主干。前者是EfficientNet B0，对s分支处理7 × 7个图像补丁，对l分支处理54 × 54个图像补丁。

后者是Wodajo等人的CNN, s支路处理7 × 7个图像补丁，l支路处理64 × 64个图像补丁。

数据集：FF++、DFDC

实验结果

一只发呆的猪

关注

8
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
论文阅读《Combining EfficientNet and Vision Transformersfor Video Deepfake Detection》笔记

最后，使用与两个分支的输出相对应的CLS令牌生成两个独立的对数。这些对数被求和，使用softmax函数生成最终的概率。特征图在输入vit之前被划分为7*7的图像块，随后经过线性映射，添加上位置编码再输入到MSA中添加注意力，使用的是efficientnet b0，cnn学习低级和局部信息。前者是EfficientNet B0，对s分支处理7 × 7个图像补丁，对l分支处理54 × 54个图像补丁。卷积交叉ViT使用两个不同的分支:s分支处理较小的斑块，l分支处理较大的斑块，以获得更宽的接受域。
复制链接

扫一扫

一只发呆的猪 CSDN认证博客专家 CSDN认证企业博客

码龄3年

33: 原创

76万+: 周排名

6万+: 总排名

2万+: 访问

: 等级

637: 积分

184: 粉丝

269: 获赞

27: 评论

287: 收藏

私信

关注

热门文章

分类专栏

人工智能 2篇
机器学习 2篇

最新评论

FF++数据集下载脚本代码
一只发呆的猪: 蛮久的，经常中断，不过我只下载了c40的视频
FF++数据集下载脚本代码
m0_62423084: 作者下了多久啊，我换了EU2但是进度一直是0，就这样：0/3068 [00:00<?, ?it/s]
FF++数据集下载脚本代码
Tiamo_wey: 博主，您好。请问数据集下载下来了吗？能否分享一份呢？十分感谢~
FF++数据集下载脚本代码
2301_77487668: 请问博主现在下载好了吗，可以分享一份嘛
关于空频变换的知识点
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。