- 博客(28)
- 收藏
- 关注
原创 Mixture-of-Noises Enhanced Forgery-AwarePredictor for Multi-Face Manipulation Detectionand Localiz
随着人脸处理技术的进步,多人脸场景下的图像伪造正逐渐成为一个更加复杂和现实的挑战。尽管如此,这种多人脸操作的检测和定位方法仍然不发达。传统的操作定位方法要么间接地从定位掩码中获得检测结果,导致检测性能受限,要么采用朴素的双分支结构同时获得检测和定位结果,由于两个任务之间的交互作用有限,无法有效地提高定位能力。本文提出了一个专门针对多人脸操作检测和定位的新框架,即MoNFAP。MoNFAP主要引入了两个新颖的模块:伪造感知的统一预测器(FUP)模块和混合噪声模块(MNM)。
2024-11-06 20:15:02 763
原创 IMDL-BenCo: A Comprehensive Benchmark and Codebase for Image Manipulation Detection &Localization
在图像处理检测与定位(IMDL)领域尚未建立一个全面的基准。缺乏这样一个基准导致模型评价不充分和具有误导性,严重破坏了这一领域的发展。然而,开源基线模型的缺乏和不一致的训练和评估协议使得在IMDL模型之间进行严格的实验和公平的比较具有挑战性。为了应对这些挑战,我们引入了IMDL- benco,这是第一个全面的IMDL基准测试和模块化代码库。IMDL- benco: i)将IMDL框架分解为标准化、可重用的组件,并修改模型构建管道,提高编码效率和自定义灵活性;
2024-10-22 23:13:07 559
原创 Contrastive Learning for DeepFake Classification and Localization via Multi-Label Ranking
我们提出了一种统一的方法来同时解决二元deepfake分类的传统设置和一个更具挑战性的场景,即揭示哪些面部成分被伪造以及操作的确切顺序。为了解决前一个问题,我们考虑了多实例学习(MIL),将每个图像作为一个包,将其补丁作为实例。正包对应于伪造图像,该伪造图像包括至少一个被操纵的patch(即,特征图中的像素)。该公式允许我们估计输入图像为伪造图像的概率,并建立相应的对比MIL损失。
2024-09-29 21:43:50 702
原创 DiffForensics: Leveraging Diffusion Prior to Image Forgery Detection and Localization
由于篡改图像可能导致对视觉内容的误解,解决图像伪造检测和定位(IFDL)问题引起了公众的严重关注。在这项工作中,我们提出了一个简单的假设,即有效的法医方法应该关注图像的细微特性。基于这一假设,本文提出了一种利用扩散模型的两阶段自监督框架,即DiffForensics。DiffForensics从自监督去噪扩散范式开始,该范式配备了编码器-解码器结构模块,通过冻结预训练的编码器(例如,在ADE-20K中)来继承一般图像特征的宏观特征,同时鼓励解码器学习图像的微观特征表示,强制整个模型关注中观表征。
2024-08-06 16:22:09 845 1
原创 UnionFormer: Unified-Learning Transformer with Multi-View Representation forImage Manipulation Dete
我们提出了一种新的框架unionformer,它通过统一学习集成了三个视图的篡改线索,用于图像处理检测和定位。具体来说,我们构建了一个BSFI-Net,从RGB和噪声视图中提取篡改特征,在不同尺度上调制空间一致性的同时,增强了对边界伪影的响应能力。此外,我们将对象一致性建模与篡改检测和定位结合成一个三任务统一的学习过程,使它们相互促进和提高,以探索对象之间的不一致性作为线索的新视角。因此,我们获得了一个统一的多尺度监督下的篡改判别表示,该表示整合了来自三个视图的信息。
2024-07-14 15:55:37 1339
原创 FreqBlender: Enhancing DeepFake Detection by Blending Frequency Knowledge
生成合成假人脸,即伪人脸,是提高DeepFake检测泛化的有效途径。现有的方法通常是通过在色彩空间中混合真实或虚假的人脸来生成这些人脸。虽然这些方法已经显示出希望,但它们忽略了伪假面部频率分布的模拟,限制了对通用伪造痕迹的深入学习。为了解决这一问题,本文介绍了一种通过混合频率知识生成伪人脸的新方法FreqBlender。具体来说,我们研究了主要的频率成分,并提出了一个频率解析网络来自适应地划分与伪造痕迹相关的频率成分。然后将伪人脸的频率知识与真实人脸进行融合,生成伪人脸。
2024-05-18 14:33:28 1198
原创 重启服务器后使用nvidia-smi显示NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.
(9)安装推荐(recommended)的驱动程序:sudo ubuntu-drivers autoinstall。(7)移除旧的驱动:sudo apt-get remove --purge '^nvidia-.*'(6)安装包和工具:sudo apt install build-essential dkms。(8)nvidia 卡的可用驱动程序:sudo ubuntu-drivers devices。(3)安装dkms: sudo apt-get install dkms。(1)使用nvcc -V。
2024-04-29 22:47:52 991 2
原创 MGQFormer: Mask-Guided Query-Based Transformer for Image Manipulation Localization
基于深度学习的模型在图像篡改定位方面取得了很大进展,其目的是区分被篡改的区域和真实的区域。然而,这些模型的训练效率低下。这是因为他们主要通过交叉熵损失来使用GT掩码标签,这优先考虑了每个像素的精度,但忽略了被操纵区域的空间位置和形状细节。为了解决这个问题,我们提出了一个基于掩码引导的基于查询的transformer框架(MGQFormer),它使用GT来指导可学习查询标记(LQT)识别伪造区域。
2024-04-21 09:42:19 1083
原创 A New Benchmark and Model for Challenging Image Manipulation Detection
在数字取证中,检测多媒体数据操作的能力是至关重要的。现有的图像处理检测方法主要基于对图像编辑或双重压缩伪影产生的异常特征的检测。当涉及到从大图像中检测小篡改区域时,所有现有的IMD技术都遇到了挑战。此外,基于压缩的IMD方法在相同质量因子的双重压缩情况下面临困难。为了在这些具有挑战性的条件下研究最先进的(SoTA) IMD方法,我们引入了一个新的具有挑战性的图像处理检测(CIMD)基准数据集,该数据集由两个子集组成,分别用于评估基于编辑和基于压缩的IMD方法。
2024-03-16 16:22:56 1131 1
原创 Mamba: Linear-Time Sequence Modeling with Selective State Spaces
基础模型,现在为深度学习中大多数令人兴奋的应用程序提供动力,几乎普遍基于Transformer架构及其核心注意模块。许多次二次时间架构,如线性注意力、门控卷积和循环模型,以及结构化状态空间模型(SSMs)已经被开发出来,以解决Transformer在长序列上的计算效率低下问题,但它们在语言等重要模态上的表现不如注意力。我们发现这些模型的一个关键弱点是它们无法执行基于内容的推理,并进行了一些改进。
2024-03-06 22:02:05 2725
原创 SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation
Transformer体系结构在建模全局关系方面显示出了非凡的能力。然而,它在处理高维医学图像时提出了重大的计算挑战。这阻碍了它在这项任务中的发展和广泛采用。Mamba作为一种状态空间模型(State Space Model, SSM),近年来作为序列建模中一种值得关注的远程依赖关系模型,以其显著的存储效率和计算速度在自然语言处理领域表现优异。受其成功的启发,我们引入了SegMamba,一种新颖的3D医学图像分割Mamba模型,旨在有效地捕获每个尺度下整个体积特征中的远程依赖关系。
2024-02-26 16:42:26 3248
原创 Contrastive Multi-FaceForensics: An End-to-end Bi-grained Contrastive Learning Approach for Multi-fa
深度伪造引起了严重的社会关注,导致近年来基于检测的取证方法激增。人脸伪造识别是传统的检测方法,通常采用两阶段流程:首先提取人脸,然后通过分类确定其真伪。由于野外的DeepFakes通常包含多个人脸,使用人脸伪造检测方法仅仅是实用的,因为它们必须按顺序处理人脸,即同时只处理一个人脸。解决这个问题的一个直接方法是通过采用先进的对象检测体系结构,以端到端的方式集成人脸提取和伪造检测。然而,由于这些目标检测架构旨在捕获不同对象类别的语义信息,而不是人脸之间微妙的伪造痕迹,因此直接自适应远远不是最佳的。
2024-01-24 20:43:03 1027
原创 Pre-training-free Image Manipulation Localization through Non-MutuallyExclusive Contrastive Learnin
深度图像处理定位(IML)模型训练数据不足,严重依赖于预训练。我们认为对比学习更适合解决IML的数据不足问题。形成相互排斥的正集和负集是对比学习的先决条件。然而,在IML中采用对比学习时,我们会遇到三类图像补丁:篡改补丁、真实补丁和轮廓补丁。篡改补丁和真实补丁自然是互斥的,但是同时包含篡改像素和真实像素的轮廓补丁是不互斥的。简单地放弃这些轮廓补丁会导致剧烈的性能损失,因为轮廓补丁对学习结果是决定性的。因此,我们提出非互斥性对比学习(NCL)框架,将传统的对比学习从上述困境中解救出来。
2023-12-27 21:20:22 991 1
原创 Uncertainty-guided Learning for Improving Image Manipulation Detection
图像处理检测(IMD)至关重要,因为伪造图像和传播错误信息可能是恶意的,并危害我们的日常生活。IMD是解决这些问题的核心技术,主要面临两个方面的挑战:(1)数据的不确定性,即被操纵的工件通常难以被人类识别,导致有噪声的标签,这可能会干扰模型训练;(2)模型不确定性,即同一对象可能由于操纵操作而持有不同的类别(篡改或未篡改),这可能会混淆模型训练,导致结果不可靠。以往的工作主要集中在通过设计细致的特征和网络来解决模型的不确定性问题,而很少考虑数据的不确定性问题。
2023-12-11 14:56:03 1309 1
原创 SAFL-Net: Semantic-Agnostic Feature Learning Network with Auxiliary Plugins for Image Manipulation D
由于现实场景中的图像编辑方法无法用尽,因此泛化是图像处理检测的核心挑战,而语义相关特征可能会严重削弱泛化的能力。在本文中,我们提出了SAFL-Net,它通过设计具有相应辅助任务的特定模块来约束特征提取器来学习语义不可知的特征。将约束直接应用于编码器提取的特征,可以帮助编码器学习与语义无关的操作痕迹特征,从而防止在有限的训练数据中与语义信息相关的偏差,提高泛化能力。通过特征转换结构保证了辅助边界预测任务与原始区域预测任务的一致性。
2023-11-04 13:36:31 846 1
原创 FastInst: A Simple Query-Based Model for Real-Time Instance Segmentation
Abstract最近对实例分割的关注主要集中在基于查询的模型上。尽管没有非最大抑制(NMS)和端到端,但这些模型在高精度实时基准测试中的优越性尚未得到很好的证明。在本文中,我们展示了基于查询的模型在高效实例分割算法设计上的强大潜力。我们提出了FastInst,一个简单,有效的基于查询的实时实例分割框架。FastInst可以以实时速度(即32.5 FPS)执行,同时在COCO测试开发中产生超过40(即40.5 AP)的AP,而无需附加功能。具体来说,FastInst遵循最近引入的Mask2Former的元
2023-10-21 14:31:46 581 1
原创 Detecting and Grounding Multi-Modal Media Manipulation
错误信息已经成为一个紧迫的问题。虚假媒体,无论是视觉形式还是文字形式,都在网络上广泛存在。虽然已经提出了各种深度伪造检测和文本假新闻检测方法,但它们仅针对基于二元分类的单模态伪造而设计,无法对不同模态的细微伪造痕迹进行分析和推理。本文重点研究了多模态伪造媒体的一个新的研究问题,即多模态媒体操纵的检测和定位(DGM4)。DGM4的目的不仅是检测多模态媒体的真实性,而且要对被操纵的内容(即图像边界框和文本标记)进行定位,这需要对多模态媒体操纵进行更深层次的推理。
2023-10-13 14:35:12 1249 2
原创 TBFormer: Two-Branch Transformer for Image Forgery Localization
图像伪造定位的目的是通过从高质量的判别特征中捕捉细微痕迹来识别伪造区域。本文提出了一种具有两个特征提取分支的transformer式网络,用于图像伪造定位,并将其命名为two - branch Transformer (TBFormer)。首先,针对RGB域和噪声域特征,设计了两个特征提取分支,利用区分堆叠的Transformer层进行特征提取;其次,提出了一种注意感知的层次特征融合模块(AHFM)来有效地融合两个不同领域的层次特征。
2023-09-27 20:50:43 470 1
原创 Edge-aware Regional Message Passing Controller for Image Forgery Localization
数字图像真实性促进了图像伪造定位的研究。尽管基于深度学习的方法取得了显著的进步,但大多数方法通常存在伪造区域和真实区域之间严重的特征耦合。在这项工作中,我们提出了一种两步边缘感知区域消息传递控制策略来解决上述问题。具体来说,第一步是考虑充分利用边缘信息。它包括两个核心设计:上下文增强的图构造和阈值自适应可微二值化边缘算法。前者集合全局语义信息来区分伪造区域和真实区域的特征,后者站在前者的输出上提供可学习的边缘。第二步,在可学习边缘的指导下,设计区域消息传递控制器来减弱伪造区域和真实区域之间的消息传递。
2023-09-20 22:03:12 658 3
原创 OpenForensics: Large-Scale Challenging Dataset For Multi-Face Forgery Detection And Segmentation In-
deepfake媒体的泛滥引起了公众和相关部门的关注。针对社交媒体上的假脸,制定对策变得至关重要。本文对多面伪造检测和野外分割这两个新的对抗任务进行了全面的研究。在不受限制的自然场景中,在多张人脸中定位伪造人脸比传统的深度假人脸识别任务更具挑战性。为了促进这些新任务,我们创建了第一个大规模数据集,提出了高水平的挑战,该数据集设计了针对面部伪造检测和分割的面部丰富注释,即OpenForensics。由于其丰富的注释,我们的OpenForensics数据集在深度伪造预防和一般人脸检测方面都有很大的研究潜力。
2023-09-12 17:25:11 514
原创 Learning JPEG Compression Artifacts for Image ManipulationDetection and Localization
检测和定位图像篡改是对抗恶意使用图像编辑技术的必要手段。因此,有必要通过分析图像中的固有统计来区分真实区域和篡改区域。我们专注于图像采集和编辑过程中留下的JPEG压缩伪影。我们提出了一种卷积神经网络(CNN),它使用离散余弦变换(DCT)系数来定位图像操作,其中压缩伪影仍然存在。标准cnn无法学习到DCT系数的分布,因为卷积丢掉了DCT系数所必需的空间坐标。我们演示了如何设计和训练一个可以学习DCT系数分布的神经网络。
2023-08-09 10:43:35 810 1
原创 TruFor: Leveraging all-round clues for trustworthy image forgery detection and localization
paper:https://arxiv.org/pdf/2212.10957.pdfcode:https://grip-unina.github.io/TruFor/Abstract在本文中,我们提出了TruFor,这是一个可以应用于各种图像处理方法的法医框架,从经典的廉价伪造到最近基于深度学习的操作。我们通过结合RGB图像和学习噪声敏感指纹的基于transformer的融合架构来提取高级和低级痕迹。后者学习嵌入与相机内部和外部处理相关的工件,仅以自我监督的方式对真实数据进行训练。伪造被检测为偏
2023-07-04 16:01:18 1985 7
原创 ObjectFormer for Image Manipulation Detection and Localization
paper:https://arxiv.org/abs/2203.14681Abstract近年来图像编辑技术的发展对多媒体数据的可信度提出了严峻的挑战,这推动了图像篡改检测的研究。在本文中,我们提出了ObjectFormer来检测和定位图像操作。为了捕捉在RGB域中不可见的细微操作痕迹,我们提取图像的高频特征,并将它们与RGB特征结合起来作为多模态补丁嵌入。此外,我们使用一组可学习的对象原型作为中间层表示来建模不同区域之间的对象级一致性,并进一步使用这些模型来改进补丁嵌入以捕获补丁级一致性。我们在
2023-06-10 11:44:26 1053 6
原创 MVSS-Net: Multi-View Multi-Scale Supervised Networks for Image Manipulation Detection
paper:https://arxiv.org/abs/2112.08935code:https://github.com/dong03/MVSS-Net摘要:由于通过复制移动、拼接和/或绘制来操纵图像可能导致对视觉内容的误解,因此检测这些类型的操作对于媒体取证至关重要。考虑到对内容的各种可能的攻击,设计一种通用的方法是非常重要的。当前基于深度学习的方法在训练数据和测试数据一致时很有前景,但在独立测试时表现不佳。此外,由于缺乏真实的测试图像,其图像级检测特异性值得怀疑。关键问题是如何设计和训练一
2023-06-05 22:09:18 1800 3
原创 HiFi-Net: Hierarchical Fine-Grained Image Forgery Detection and Localization
论文:https://arxiv.org/abs/2303.17111代码:https://github.com/CHELSEA234/HiFi_IFDLAbstract:cnn合成域和图像编辑域生成的图像伪造属性存在较大差异,这给统一的图像伪造检测与定位(IFDL)带来了挑战。为此,我们提出了一个分层细粒度的IFDL表示学习公式。具体来说,我们首先用不同级别的多个标签表示被操纵图像的伪造属性。然后,我们使用它们之间的层次依赖关系在这些级别上执行细粒度分类。因此,鼓励算法学习不同伪造属性的综合特
2023-05-28 10:57:30 2881 9
原创 Towards Robust Tampered Text Detection in Document Image: New dataset and New Solution
Introduction文件图像是现代社会最重要的信息传播媒介之一,它包含了大量的敏感和隐私信息,如电话号码。随着图像编辑技术的快速发展,这种敏感的文本信息更容易被恶意篡改,构成欺诈等,造成严重的信息安全风险[33,42,48,50]。因此,检测文档图像中的篡改已成为近年来重要的研究课题[18,47]。开发有效的方法来检查文档图像是否被修改,同时确定篡改文本的确切位置是至关重要的。大多数文档图像中的文本篡改方法大致可以分为三种类型:(1)拼接,将一个图像中的区域复制并粘贴到其他图像中;(2) Co
2023-05-09 11:25:51 3265 3
原创 MSMG-Net: Multi-scale Multi-grained Supervised Networks for Multi-task Image Manipulation Detection
摘要:近年来,随着图像编辑技术的飞速发展,图像篡改所带来的安全风险越来越大,图像篡改检测受到了广泛的关注。为了解决这些问题,提出了一种新型的多尺度多粒度深度网络(MSMG-Net)来自动识别被操纵区域。在我们的MSMG-Net中,采用并行的多尺度特征提取结构来提取多尺度特征。然后通过引入分流自注意,利用多粒度特征学习来感知多尺度特征的对象级语义关系;为了融合多尺度多粒度特征,采用自底向上的方法设计了全局和局部特征融合块用于操作区域分割,采用自顶向下的方法设计了多级特征聚合块用于边缘部分检测。因此,MSM
2023-04-17 19:52:31 827 3
Towards Robust Tampered Text Detection in Document Image
2023-05-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人