北京大学 | 基于多模态大语言模型的可解释图像篡改检测定位

今天的文章来自公众号粉丝投稿,是北大视觉信息智能学习实验室(VILLA)在可解释图像篡改检测定位方向的优秀工作FakeShield,该方法不仅能检测图像的真实性并生成篡改区域的掩膜,还可以基于像素伪影和图像语义错误等伪造线索提供合理的解释。

论文介绍

随着生成式AI技术的快速发展,图像伪造和篡改变得越来越普遍,在真实性与安全性方面带来挑战。传统的图像伪造检测与定位(IFDL)方法存在检测原理未知和泛化性较差等问题。为了应对这些问题,本文提出了一种全新的任务:可解释的图像伪造检测与定位(e-IFDL),并设计了一个新颖的多模态伪造检测定位框架:FakeShield。如图1所示,与传统IFDL方法相比,FakeShield不仅能检测图像的真实性并生成篡改区域的掩膜,还可以基于像素伪影和图像语义错误等伪造线索提供合理的解释。此外,我们创建了多模态篡改描述数据集MMTD-Set,并结合数据域标签(domain tag)引导的可解释的伪造检测模块DTE-FDM与多模态伪造定位模块MFLM,以实现细粒度伪造检测与定位。实验结果显示,FakeShield在包含多种伪造方法的测试集上,展现了优越的性能以及出色的鲁棒性,泛化性。

图1:(a)传统IFDL方法,(b)可解释的IFDL方法

MMTD-Set数据集构建:如图2所示,我们根据篡改方法,将篡改图片分为PhotoShop、DeepFake、AIGC-Editing三个数据域。基于现有的IFDL数据集,我们利用GPT-4o生成对于篡改图像的分析与描述,构建“图像-掩膜-描述”三元组,以支持模型的多模态训练。另外,针对不同篡改类型,我们设计了特定的描述提示,引导GPT关注不同的像素伪影和语义错误。

图2:MMTD-Set数据集构建过程

图2:MMTD-Set数据集构建过程

FakeShield框架:如图3所示,该框架包括域标签引导的可解释伪造检测模块(Domain Tag-guided Explainable Forgery Detection Module,DTE-FDM)和多模态伪造定位模块(Multi-modal Forgery Localization Module,MFLM)两个关键部分。DTE-FDM负责图像伪造检测与检测结果分析,利用数据域标签(domain tag)弥合不同伪造类型数据之间的数据域冲突,引导多模态大语言模型生成检测结果及判定依据。MFLM则使用DTE-FDM输出的对于篡改区域的描述作为视觉分割模型的Prompt,引导其精确定位篡改区域。

图3:FakeShield框架图

在实验结果方面,我们从检测,定位,解释三个方面来评价FakeShield的效果,其在多个IFDL测试集中表现出优越性能,定量结果如表1,表2,表3所示,定位性能的定性结果如图4所示。

表1:FakeShield与主流IFDL方法的定位性能比较

表2:FakeShield与主流通用MLLM方法的解释性能比较

表3:FakeShield与主流IFDL方法的定位性能比较

图4:FakeShield与主流IFDL方法的定位性能的定性比较

论文信息

Zhipei Xu, Xuanyu Zhang, Runyi Li, Zecheng Tang, Qing Huang, Jian Zhang*. FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models. arxiv preprint arxiv:2410.02761, 2024. (*张健为通讯作者)

相关链接

arxiv链接:https://arxiv.org/abs/2410.02761

论文网站:https://zhipeixu.github.io/projects/FakeShield/

项目网址:https://github.com/zhipeixu/FakeShield

实验室简介

视觉信息智能学习实验室(VILLA)由张健助理教授于2019年创立并负责,主要围绕“智能可控图像生成”这一前沿领域,深入开展高效图像重建、可控图像生成和精准图像编辑三个关键方向的研究。创立至今已在Nature子刊Communications Engineering、TPAMI、TIP、IJCV、SPM、CVPR、NeurIPS、ICCV、ICLR等高水平国际期刊和会议上发表论文90余篇。

近期工作包括无需GT自监督图像重建SCNet、超低采样率单光子压缩共焦显微成像DCCM、图像条件可控生成模型T2I-Adapter、全景视频生成模型360DVD、拖拽式细粒度图像编辑DragonDiffusion/DiffEditor、精确控制视频内容与运动的编辑ReVideo、面向3DGS动态场景重建与理解HiCoM/OpenGaussian、面向3DGS的隐写框架GS-Hider、面向AIGC内容篡改定位与版权保护的水印技术EditGuard/V2A-Mark等,欢迎关注!

更多信息可访问:

  • VILLA实验室主页(https://villa.jianzhang.tech/)

  • 张健助理教授个人主页(https://jianzhang.tech/)

图像篡改检测领域,准确地识别和定位篡改边界是一个挑战。为了应对这一挑战,你可以参考这篇论文《预训练驱动的多模态边界感知视觉Transformer在图像篡改检测中的应用》。该论文详细介绍了如何通过预训练和多模态技术来提高篡改检测模型的边界识别能力。 参考资源链接:[预训练驱动的多模态边界感知视觉Transformer在图像篡改检测中的应用](https://wenku.csdn.net/doc/2bbib5obe1?spm=1055.2569.3001.10343) 首先,多模态嵌入的使用是关键。通过结合RGB空间域和频域模态,模型能够捕捉到更丰富的特征信息,尤其是在RGB域中难以察觉的细微伪造痕迹。这样不仅可以增强模型对伪造特征的识别,还能帮助模型在复杂的图像篡改场景中更准确地定位篡改区域。 其次,利用ImageNet等大规模数据集进行预训练,可以有效地训练模型的编码器部分,使其学习到通用的视觉特征。这些通用特征对于模型在小样本环境下的快速适应和收敛至关重要,尤其是在面对真实场景中的未知篡改手段时。 此外,将Transformer模块整合到编码器的尾部可以增强模型的表示能力。Transformer强大的长距离依赖捕获能力使其能够同时处理图像的局部空间细节和全局上下文信息,这对于理解图像中的复杂结构和关系至关重要。 最后,边界感知模块的设计也是提高篡改边界检测准确性的关键。通过使用Scharr卷积层捕捉噪声分布,模型能更加关注于边界而不是语义内容,同时,边界残差块的使用强化了模型对边界信息的处理,有助于更精确地定位篡改区域。 综上所述,通过结合多模态信息、预训练技术和边界感知机制,可以显著提升图像篡改检测模型在未知篡改场景下的检测效果和准确性。对于深入理解这一过程,建议深入研究《预训练驱动的多模态边界感知视觉Transformer在图像篡改检测中的应用》这篇论文,它提供了详细的理论依据和实验结果。 参考资源链接:[预训练驱动的多模态边界感知视觉Transformer在图像篡改检测中的应用](https://wenku.csdn.net/doc/2bbib5obe1?spm=1055.2569.3001.10343)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AIGC Studio

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值