Detecting and Grounding Multi-Modal Media Manipulation

paper: https://arxiv.org/pdf/2304.02556.pdf

code: https://github.com/rshaojimmy/MultiModal-DeepFake

Abstract

错误信息已经成为一个紧迫的问题。虚假媒体,无论是视觉形式还是文字形式,都在网络上广泛存在。虽然已经提出了各种深度伪造检测和文本假新闻检测方法,但它们仅针对基于二元分类的单模态伪造而设计,无法对不同模态的细微伪造痕迹进行分析和推理。本文重点研究了多模态伪造媒体的一个新的研究问题,即多模态媒体操纵的检测和定位(DGM4)。DGM4的目的不仅是检测多模态媒体的真实性,而且要对被操纵的内容(即图像边界框和文本标记)进行定位,这需要对多模态媒体操纵进行更深层次的推理。为了支持大规模调查,我们构建了第一个DGM4数据集,其中图像-文本对通过各种方法进行操作,并对各种操作进行了丰富的注释。此外,我们提出了一种新的分层多模态操作推理转换器(HAMMER),以充分捕获不同模态之间的细粒度交互。HAMMER在两个单模态编码器之间进行操作感知的对比学习,作为浅操作推理;通过多模态聚合器进行模态感知的交叉注意,作为深操作推理。基于交互的多模态信息,从浅层到深层集成了专用操作检测和定位。最后,我们为这个新的研究问题建立了广泛的基准和严格的评估指标。综合实验证明了该模型的优越性;还揭示了一些有价值的观察结果,以促进未来对多模态媒体操纵的研究。

1. Introduction

随着深度生成模型的最新进展,越来越多的超现实人脸图像或视频可以自动生成,这导致了各种安全问题[40 - 46,48,57],例如严重的深度伪造问题[8,15,24,39,47]在视觉媒体上传播大量伪造。这种威胁引起了计算机视觉界的高度关注,并提出了各种深度伪造检测方法。随着BERT[7]、GPT[36]等大型语言模型的出现,可以很容易地生成大量文本假新闻[53,58],在文本媒体上恶意传播误导性信息。自然语言处理(NLP)领域非常重视这一问题,并提出了多种文本假新闻检测方法。

与单一模态相比,多模态媒体(以图文对的形式)传播的信息更广泛,对我们的日常生活产生了更大的影响。因此,多模态伪造媒体具有更大的危害性。为了以更可解释的解决方案应对这一新的威胁,本文提出了一个新的研究问题,即检测和定位多模态媒体操纵(DGM4)。如表1和图1所示,DGM4带来了两个挑战:1)当前的深度伪造检测和文本假新闻检测方法都是为了检测单一模态的伪造而设计的,DGM4要求同时检测图像和文本模态是否存在伪造;2)除了像目前的单模态伪造检测那样进行二分类外,DGM4还考虑了定位操纵图像边界框(bboxes)和文本标记。这意味着现有的单模态方法无法用于这一新的研究问题。有必要对两种模式之间的操作特征进行更全面、更深入的推理。请注意,一些多模态错误信息工作[1,29]被开发出来。但它们只需要确定多模态介质的二分类,更不用说操作定位了。

为了便于对DGM4的研究,本文提供了第一个大规模的DGM4数据集。在这个数据集中,我们研究了一种具有代表性的多模态媒体形式——以人为中心的新闻。它通常涉及有关政治家和名人的错误信息,造成严重的负面影响。我们开发了两种不同的图像处理(即人脸交换/属性处理)和两种文本处理(即文本交换/属性处理)方法来形成多模态媒体处理场景。为检测和定位提供了丰富的注释,包括二分类标签、细粒度篡改类型、篡改图像框和篡改文本标记。

与原始图像-文本对相比,被操纵的多模态媒体必然会在被操纵的图像区域和文本标记中留下操纵痕迹。所有这些痕迹一起改变了跨模态相关性,从而导致两个模态之间的语义不一致。因此,图像和文本之间的推理语义相关性为多模态操作的检测和定位提供了提示。为此,受现有视觉语言表示学习工作[19,20,35]的启发,我们提出了一种新的分层多模态操作推理变压器(HAMMER)来解决DGM4。为了充分捕捉图像和文本之间的交互,HAMMER 1)通过两个单模态编码器之间的操作感知对比学习来对齐图像和文本嵌入,作为浅操作推理;2)通过多模态聚合器的模态感知交叉注意来聚合多模态嵌入,作为深操作推理。基于不同层次的交互多模态嵌入,将专用操作检测和定位分层集成,以检测二分类、细粒度操作类型和定位被操纵图像框、被操纵文本标记。这种分层机制有助于更细粒度和全面的操作检测和定位。本文的主要贡献:

我们引入了一个新的研究问题:多模态媒体操作的检测与定位(DGM4),目的是检测和定位以人为中心的新闻图像-文本对中的操作。

我们提供了一个大规模的DGM4数据集,其中包含两种图像处理和两种文本处理方法生成的样本。提供了丰富的注释,用于检测和定位各种操作。

我们提出了一个强大的分层多模态操作推理变压器(HAMMER)。综合基准是基于严格的评估协议和度量标准构建的。大量的定量和定性实验证明了它的优越性。

2. Related Work

DeepFake Detection. 为了检测人脸伪造图像,目前的深度伪造检测方法主要是基于空域和频域。基于空间的深度伪造检测方法利用空间视觉线索,如混合伪影[22]、纹理特征[5,60,62]、3D信息[62]、斑块一致性[61]和噪声特征[13]。基于频率的深度伪造检测方法检测频谱伪影,如从离散傅立叶变换(DFT)中分解的高频分量[11]、从离散余弦变换(DCT)中得到的细微频率差异[34]、隐藏在相位谱中的上采样伪影[26]和基于频率的度量学习[21]。以上大多数深度伪造检测方法仅对图像介质进行二值分类,更不用说跨多模态的操作定位。

Multi-Modal Misinformation Detection.  已有的一些工作研究了多模态错误信息的检测[1,2,16,18,29,54]。其中一些处理小规模的人工生成的多模态假新闻[16,18,54],而另一些处理脱离上下文的错误信息,其中真实图像与另一个交换文本配对,而不进行图像和文本操作[1,2,29]。所有这些方法都只执行基于简单的图像-文本关联的二值分类。相比之下,DGM4研究的是大规模机器生成的多媒体操纵,这在实践中更接近于网络上广泛的错误信息。此外,DGM4不仅需要对二值分类进行操作检测,还需要对多模态操作进行更多解释的操作定位。

3. Multi-Modal Media Manipulation Dataset

现有的错误信息数据集大多集中在单模态图像伪造[8,15,23,39]或文本伪造[49,53,58]。建立了一些多模态数据集,但它们通常包含少量人为生成的假新闻[6,16]或脱离上下文对[2,29],用于二进制伪造检测。为了更好地促进提出的新研究问题,我们提出了DGM4数据集,研究大规模机器生成的多模态媒体操作。DGM4数据集在图像和文本模态上使用多种操作技术构建。所有样本都用丰富的、细粒度的标签进行了注释,使媒体操作的检测和定位成为可能。

3.1. Source Data Collection

在各种形式的多模式媒体中,我们特别关注以人为中心的新闻,因为它具有很大的公众影响力。因此,我们基于VisualNews数据集[25]开发了我们的数据集,该数据集收集了来自现实世界新闻来源(《卫报》、BBC、《美国今日报》和《华盛顿邮报》)的大量图像文本对。为了构建一个以人为中心、上下文有意义的场景,我们进一步对图像和文本模态进行数据过滤,只保留适当的对,形成源池O = {po|po = (Io, To)}进行操作。

3.2. Multi-Modal Media Manipulation

我们在图像和文本模式上使用两种类型的有害操作。“Swap”类型旨在包含相对全局的操作跟踪,而“Attribute”类型引入更细粒度的定位操作。然后将被操纵的图像和文本与原始样本随机混合,形成总共8个假的和一个原始的操纵类。操作类的分布和一些样本如图2 (a)所示。

Face Swap (FS) Manipulation. 在这种操纵类型中,主角的身份会因为与另一个人交换脸而受到攻击。我们采用两种具有代表性的人脸交换方法SimSwap[4]和InfoSwap[12]。对于每个原始图像Io,我们选择两种方法中的一种,将最大的人脸Ifo与CelebA-HQ数据集[17]中的随机源人脸 Ifceleb交换,产生人脸交换操作样本Is。将交换面ybox = {x1, y1, x2, y2}的MTCNN bbox保存为注释进行定位。

Face Attribute (FA) Manipulation.  作为一种更细粒度的图像处理场景,面部属性操作试图在保留主角身份的同时操纵其面部的情感。例如,如果原来的脸是微笑的,我们故意编辑成相反的情绪,例如,一个生气的脸。为了实现这一点,我们首先使用基于cnn的网络预测对齐后的面部表情Ifo的原始面部表情,然后使用基于gan的方法HFGI[52]和StyleCLIP[33]将面部编辑成相反的情绪。在得到被操纵的人脸Ifemo后,我们将其重新渲染回原始图像Io,得到被操纵的样本Ia。同时提供Bbox ybox。

Text Swap (TS) Manipulation.  在这种情况下,通过改变文本的整体语义来操纵文本,同时保留与主要字符有关的单词。给定原始标题To,我们使用Named Entity Recognition(NER)模型提取人名作为查询“PER”。然后,我们从源语料库O中检索包含相同“PER”实体的不同文本样本To',然后选择To'作为操纵文本Ts。请注意,我们使用Sentence-BERT[37]计算每个文本的语义嵌入,并且只接受与To具有低余弦相似度的To'。这样可以确保检索到的文本在语义上不与To对齐,这样就可以操纵所获得的对pm = (Io, Ts)中关于主要字符的文本语义。然后,给定Ts中的M个文本标记,我们用一个M维一维向量ytok = {yi}(i=1...M)来注释它们,其中yi∈{0,1}表示Ts中的第i个标记是否被操纵。

Text Attribute (TA) Manipulation. 虽然新闻是一种相对客观的媒体形式,但我们观察到,相当一部分新闻样本po∈O在文本To中仍然带有情感偏见,如图2 (d)所示。恶意操纵文本属性,特别是其情感倾向,可能更有害,也更难被检测到,因为它比文本交换操纵造成的跨模态不一致更少。为了反映这一具体情况,我们首先使用RoBERTa[27]模型将字幕分为积极、消极和中性情绪语料库:{O+, O−,Oneu}。根据[50],我们将原始文本To的所有情感词替换为在我们自己的语料库{O+, O−}上训练的B-GST模型生成的相反情感文本,得到Ta。与文本交换操作类似,所有文本标注也使用GT向量ytok进行注释。

Combination and Perturbation. 一旦所有单模态操作完成,我们将获得的操作样本Is, Ia, Ts和Ta与原始的(Io, To)对结合起来。这形成了一个具有完整操作类型的多模态操纵媒体池:P = {pm|pm = (Ix, Ty), x, y∈{o, s, a}}。池中的每对pm都提供了一个二类标签ybin、一个细粒度操作类型注释ymul、前面提到的注释ybox和ytok。ybin描述图像-文本对pm是真还是假,ymul = {yj}(j=1...4)是一个四维向量,表示第j个操作类型(即FS、FA、TS、TA)是否出现在pm中。为了更好地反映操作痕迹可能被噪声掩盖的真实情况,我们在50%的媒体池P上使用随机图像扰动,例如JPEG压缩、高斯模糊等。

3.3. Dataset Statistics

DGM4数据集的总体统计情况如图2 (a)所示。该数据集共有230k个新闻样本,其中包括77,426个原始图像-文本对和152,574个被操纵的图像-文本对。被操纵的对包含66,722个人脸交换操作、56,411个人脸属性操作、43,546个文本交换操作和18,588个文本属性操作。将1/3的被处理图像和1/2的被处理文本组合在一起,形成32,693对混合处理对。由于图像和文本属性都可以朝着两个相反的情感方向编辑,我们故意保持一个平衡的比例来创建一个情感平衡的数据集,如图2 (e)所示。此外,从图2 (b)-(c)可以看出,大多数图像的被操纵区域和被操纵的文本标注数量相对较小。这表明,与现有的深度伪造和多模态错误信息数据集相比,DGM4数据集为伪造检测提供了更具挑战性的场景。

4. HAMMER

为了解决DGM4,如图3所示,我们提出了一个分层多模态操作推理变压器(HAMMER),它由两个单模态编码器(即图像编码器Ev,文本编码器Et),多模态聚合器F和专用操作检测和定位头(即二分类器Cb,多标签分类器Cm, BBox检测器Dv和Token检测器Dt)组成。所有这些单模态编码器和多模态聚合器都是基于transformer-based的架构构建的[51]。如上所述,建模语义相关性并捕获两模态之间的语义不一致可以促进多模态操作的检测和定位。然而,存在两个挑战:1)如第3.3节所述,图2 (b)(c)所示,大部分多模态操作都是较小和精细的,定位在一些小尺寸的面孔和几个单词标记;2)在网络上的多模态媒体中存在许多视觉和文本噪声[20]。因此,一些由操作引起的语义不一致可能被被噪声忽略或掩盖。这需要对多模态关联进行更细粒度的推理。为此,我们设计了HAMMER来执行分层操作推理,从浅层到深层探索多模态交互,以及分层操作检测和定位。在浅层操作推理中,我们通过操纵感知对比损失LMAC对图像和文本嵌入进行语义对齐,并在图像操纵定位损失LIMG下进行操纵bbox定位。在深层操作推理中,我们基于多模态聚合器生成的更深层次交互多模态信息,使用二分类损失LBIC检测二值类,采用多标签分类损失LMLC的细粒度操作类型,以及采用文本操纵定位损失 LTMG来定位操作文本标注。通过对上述所有损失进行梳理,分层次进行操作推理,形成如下联合优化框架:

4.1. Shallow Manipulation Reasoning

给定图像-文本对(I, T) ~ P,我们通过图像编码器中的自关注层和前馈网络将图像I拼接并编码为一系列图像嵌入,如Ev(I) = {vcls, vpat},其中vcls为[CLS]标记的嵌入,vpat = {v1,…, vN}为N个对应图像patch的嵌入。文本编码器提取T的文本嵌入序列为Et(T) = {tcls, ttok},其中tcls为[CLS] 标记的嵌入,ttok = {t1,…tM}是M个文本标记的嵌入。

Manipulation-Aware Contrastive Learning.   为了帮助两个单模态编码器更好地利用图像和文本的语义相关性,我们通过跨模态对比学习对齐图像和文本嵌入。然而,一些微小的多模态操作会导致两种模态之间的语义不一致,这很难通过正常的对比学习来揭示。为了强调由操作引起的语义不一致,HAMMER提出了对图像和文本嵌入的操作感知对比学习。与常规的跨模态对比学习将原始图像-文本对的嵌入拉近而将不匹配的图像-文本对的嵌入拉开不同,操纵感知对比学习将被操纵的图像-文本对的嵌入推开,从而进一步强调它们所产生的语义不一致。根据InfoNCE loss[31],我们通过以下方式来表述图像到文本的对比损失:

式中τ为温度超参数,T−= {T−1,…, T−K}是一组与I不匹配的负文本样本,以及属于被操纵的图像文本对。由于[CLS]标记作为整个图像和文本的语义表示,我们使用两个投影头hv和 ˆht将两种模态的[CLS]标记映射到较低维(256)嵌入空间进行相似性计算:S(I, T) = hv(vcls)T ˆht(ˆtcls)。受MoCo[14]的启发,我们分别学习了两种模态的动量单模态编码器( ˆEv)、ˆEt(指数移动平均版本)和动量投影头。两个队列用于存储最近的K个图像-文本对嵌入。这里的 ˆtcls是来自文本动量编码器的[CLS]标记,而ˆht(ˆtcls)表示来自文本动量投影头的投影文本嵌入。同样,文本到图像的对比损失如下:

式中I−= {I−1 , ..., I−K}是一个由K个最近的负图像样本组成的队列,这些样本与T不匹配,并且属于被操纵的图像-文本对。S(T, I) = ht(tcls)T ˆhv(ˆvcls)。受[56]的启发,为了在每个单一模态中保持合理的语义关系,我们进一步在两个模态中进行模态内对比学习。我们将所有的损失合并成如下的操作感知对比损失:

Manipulated Image Bounding Box Grounding.  如上所述,FS或FA交换图像中人脸的身份或编辑属性。这就改变了它们在人名或情感方面与相应文本的相关性。鉴于此,我们认为可以通过寻找与文本嵌入不一致的局部补丁来定位被操纵的图像区域。在这方面,我们在图像和文本嵌入之间进行交叉关注,以获得包含图像-文本相关性的补丁嵌入。注意函数[51]对归一化查询(Q)、键(K)和值(V)特征执行如下:

这里我们将图像嵌入与文本嵌入交叉处理,将Q作为图像嵌入,K和V作为文本嵌入,如下所示:

其中Uv(I) = {ucls, upat}。Upat = {u1,…, uN}为N个与文本信息交互的图像补丁嵌入。与[CLS]标记ucls不同,补丁标记upat是用位置编码[51]生成的。这意味着它们具有更丰富的局部空间信息,因此更适合于处理图像bbox定位。在此基础上,我们提出了局部补丁注意聚合(Local Patch attention Aggregation, LPAA),通过注意机制对upat中的空间信息进行聚合。这种聚合是通过使用upat交叉执行[AGG]标记来执行的,如下所示:

与之前的工作[59]直接使用[CLS]标记进行bbox预测不同,我们基于注意力聚合的嵌入 uagg来执行操纵的bbox定位。具体而言,我们将 uagg输入到BBox检测器Dv中,结合normal  L1损失和广义IoU损失[38]计算图像处理定位损失如下:

4.2. Deep Manipulation Reasoning

操纵标记定位比操纵bbox定位更困难,因为它需要对图像和文本之间的相关性进行更深入的分析和推理。例如,如图3所示,只有当我们意识到消极词汇与I中的积极情绪(即笑脸)不匹配时,我们才能检测到T中的被操纵符号,即“force”和“resign”。此外,我们需要总结多模态信息,以检测细粒度的操纵类型和二分类。这就要求在这个阶段有一个全面的信息摘要。为此,我们提出深度操纵推理。

Manipulated Text Token Grounding.  为了模拟更深层次的多模态交互,如图3所示,我们提出了模态感知交叉注意,通过多模态聚合器F中的多个交叉注意层,进一步引导文本嵌入Et(T)与图像嵌入Ev(I)进行交互。这将生成聚合的多模态嵌入F (Ev(I), Et(T)) = {mcls, mtok}。特别地,mtok = {m1,…, mM}表示T中每个标记对应的更深的聚合嵌入。在这个阶段,T中的每个标记都经过了Et中的多个自注意层和F中的交叉注意层。这样,在mtok中嵌入的每一个标记不仅充分挖掘了文本的上下文信息,而且与图像特征充分交互,这符合被操纵的文本标记定位。此外,定位被操纵的标记等于将每个token标记为真实或虚假。这与NLP中的序列标记任务类似。值得注意的是,与现有的主要研究文本模态的序列标注任务不同,这里的操作文本标记定位可以看作是一种新型的多模态序列标注,因为每个标记都与两个模态信息交互。在这种情况下,我们使用Token检测器Dt来预测mtok中每个Token的标签,并计算交叉熵损失,如下所示:

其中H(·)为交叉熵函数。如前所述,网络上的新闻通常充斥着与配对图像无关的文本[20]。为了缓解对噪声文本的过度拟合,如图3所示,我们进一步分别学习了Multi-Modal Aggregator和Token Detector的动量版本,分别表示为ˆF和 ˆDt。我们可以从动量模块中得到多模态嵌入:ˆF ( ˆEv(I),  ˆEt(T)) = { ˆmcls, ˆmtok}。在此基础上,动量标记检测器通过计算KL-Divergence生成软伪标签来调节原始标记预测,方法如下:

最终文本操作定位损失是如下加权组合:

Fine-Grained Manipulation Type Detection and Binary Classification. 与目前的伪造检测工作主要执行真假二元分类不同,我们期望我们的模型为操纵检测提供更多的解释。如第3.2节所述,在DGM4数据集中引入了两种图像和两种文本处理方法。鉴于此,我们的目标是进一步检测四种细粒度操作类型。由于不同的操作类型可能同时出现在一个图像-文本对中,我们将此任务视为特定的多模态多标签分类。由于[CLS]标记mcls在模态感知交叉注意之后聚合了多模态信息,因此可以作为操作特征的综合总结。因此,我们在其上连接一个多标签分类器Cm来计算多标签分类损失: 

当然,我们也会基于mcls进行正常的二元分类,如下所示:

5. Experiments

有关实施细节和严格的评估指标设置,请参阅附录。

5.1. Benchmark for DGM4

Comparison with multi-modal learning methods. 我们将两种SOTA多模态学习方法应用于DGM4设置进行比较。具体来说,CLIP[35]是最流行的双流方法之一,其中两种模态不在输入级连接。为了适应,我们使两个流的输出通过交叉注意层相互作用。检测和定位头进一步集成在它们之上。此外,ViLT[19]是一种代表性的单流方法,其中跨模态交互层是在图像和文本输入的串联上操作的。我们还通过在模型的相应输出上连接检测头和定位头来适应它。我们将比较结果列在表2中。结果表明,该方法在所有评价指标方面都明显优于两种基线。这表明,分层操作推理能够更准确、全面地建模图像和文本之间的相关性,并捕获由操作引起的语义不一致,有助于更好地进行操作检测和定位。

Comparison with deepfake detection and sequence tagging methods.  我们将我们的方法与竞争的单模态方法分别在两个单模态伪造数据分割中进行比较。为了公平比较,除了二元分类的原始GT外,我们进一步将操作定位头集成到具有相应定位注释的单模态模型中。对于图像模态,我们将与两种SOTA深度伪造检测方法的比较列于表3。对于文本模态,我们比较了NLP中两种广泛使用的序列标记方法与定位操作标记以及二元分类。我们在表4中报告了比较结果。表3和表4显示,HAMMER在单模态伪造检测方面的性能比单模态方法要好得多。这表明我们的方法在多模态介质训练下也能在每个单一模态下获得很好的操作检测和定位性能。

5.2. Experimental Analysis

Ablation study of two modalities.   为了验证多模态相关性对我们模型的重要性,我们通过仅保留相对于图像(our - image)或文本(our - text)模态的相应输入和网络组件来进行消融研究。我们将结果列在表5和表6中,显示了我们模型的完整版本的性能超过了其消融部分,特别是在文本模态方面。这表明,如果没有跨模态交互,一旦两种模态中的一种缺失,性能就会下降。也就是说,通过我们的模型利用两种模态之间的相关性,可以挖掘出它们之间更多的互补信息来促进我们的任务。特别是,这种相关性对于文本模态的操作检测和定位更为重要。

Ablation study of losses.   每种情况下考虑的损失和相应的结果列于表7。从表7中可以看出,去掉任务总体损失(即LMAC)后,几乎所有性能都会下降。这意味着操作感知对比学习对于我们的任务是不可或缺的。去掉特定任务损失中的任意一个,即LMLC、LIMG和LTMG后,不仅相应任务的性能会显著下降,而且整体的二值分类性能可能也会下降。相比之下,我们的完全损失函数模型在大多数情况下获得了最好的性能,表明了所有损失的有效性和互补性。特别是,表7的第一行表示当前仅使用LBIC的多模态错误信息检测场景。我们的方法在二分类上大大优于此基线,这意味着DGM4中更多的操作定位任务也有助于二分类。

Efficacy of LPAA.  关于被操纵的bbox定位,我们在图4中比较了[CLS]标记[59]与提议的LPAA的使用情况。图4显示LPAA在所有指标下都产生了更好的性能,验证了其有效性。

Details of manipulation type detection.   我们在图5中绘制了基于Multi-Label Classifier输出的每种操作类型的分类性能。结果提供了更多的解释,文本操作检测比图像模态更难,而TA是最难的情况。

Visualization of manipulation detection and grounding.  我们在图6中提供了一些操作检测和定位的可视化结果。图6 (a)-(b)显示,我们的方法可以准确地定位操作bbox,并检测FA和FS的正确操作类型。此外,在图6 (c)-(d)中,TS中的大多数被操纵的文本标记和TA中的所有被操纵的文本标记都成功地被定位。所有这些都直观地验证了HAMMER可以实现有效的操作检测和定位。

Visualization of attention map.  我们在图7中提供了关于被操纵文本标记的模型的Grad-CAM可视化。图7 (a)显示了我们的模型对图像中人物周围环境的关注。这些环境表明角色正在进行演讲,这与TS操纵的文本标记在语义上不同。对于TA,图7 (b)显示了相对于被操纵的单词(‘mourn’)的每个单词的可视化。这意味着我们的模型关注的是图像中的笑脸,而这与被操纵的单词(‘mourn’)所表达的悲伤情绪在语义上是不一致的。这些示例证明我们的模型确实可以捕获图像和文本之间的语义不一致来解决DGM4。

6. Conclusion

本文研究了一种新的DGM4问题,旨在检测和定位多模态操纵。我们构建了第一个具有丰富注释的大规模DGM4数据集。提出了一个强大的HAMMER模型,并进行了大量的实验来验证其有效性。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值