文档图像前沿技术探索 - 多模态及图像安全

最新推荐文章于 2025-05-19 11:56:00 发布

程序员菠萝

最新推荐文章于 2025-05-19 11:56:00 发布

阅读量1.9k

点赞数 28

文章标签：安全

本文链接：https://blog.csdn.net/xnxqwzy/article/details/137196747

版权

前言

多模态模型进展与探索

大语言模型（LLM）

多模态大语言模型（MLLM）

图像安全

研究背景

系统架构

生成式AI

合合信息

前言

近期， 第六届中国模式识别与计算机视觉大会（厦门PRCV 2023）顺利闭幕 。PRCV 2023大会由 中国计算机学会 （CCF）、
中国自动化学会 （CAA）、 中国图象图形学学会 （CSIG）和 中国人工智能学会
（CAAI）联合主办，厦门大学承办，是国内顶级的模式识别和计算机视觉领域学术盛会，CCF推荐会议(C类)。

本次会议特邀合合信息智能技术平台事业部副总经理郭丰俊博士进行专题分享。
郭博士是上海交通大学模式识别与智能系统博士，长期从事文字识别（包括手写/OCR），图像处理研究，系CSIG文档图像分析与识别专委会常务委员
。对于文档图像的处理有着非常宝 资深的经验 ，郭博士此次会议主要对 多模态 和 图像安全 两大模块进行干货分享。

多模态（GPT-4V）

2023年3月15日，Open AI发布了 多模态预训练大模型GPT4.0
，可以把多模态引入OCR当中。初步评估发现：英文OCR较好；中文OCR不理想；并且在识别图像时存在一些问题：

①出现缺少文本或字符（文字丢失）；

②缺少数学符号（对于数学公式的识别有问题）；

③无法识别空间位置和颜色（空间位置和文字颜色无法识别）；

文档图像

文档图像 从表面上来看既是文字也是图像，本质上就是一个 天然多模态的属性 。所以可以通过 多模态的大模型 来做文档图像方面的任务。

多模态模型进展与探索

随着2022年11月30日OpenAI发布 人工智能对话模型chatGPT
以来，大模型技术掀起了新一轮人工智能浪潮。chatGPT在自然语言处理任务中表现出色，尤其是在生成式任务（如机器翻译、对话生成、文章摘要等）方面。越来越多的人开始关心
大模型 能否给我们的工作带来便捷？或者说忧虑会不会取代我们现在的工作岗位？

大语言模型（LLM）

大语言模型（LLM），也称大型语言模型，是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是
规模庞大，包含数十亿的参数 ，帮助它们学习语言数据中的复杂模式。比较典型的代表就是chatGPT。

LLM时代文档图像处理技术趋势

输入端：采用多模态的方法；

架构方面：采用Transformer Encoder / Decoder；

数据层面：需要海量、高质量的数据；

以上都满足了才能得到一个比较好的文档图像大模型的效果！

LLM时代文档图像技术机会

chatCPT-4的出世是不是就对以前做OCR的方法产生危机？前面说了要想得到高质量的文档图像大模型的效果，在
数据层面必须要有海量高质量的数据，而OCR本身就是一个提供高质量数据的工具

①可以高效的录入；

②支持不同格式；

并且合合信息-
华南理工大学文档图像分析识别与理解联合实验室对多模态和传统的OCR在文档图像识别方向展开了研究。从目前评测的情况来看，已知的多模态预训练系统在文档图像识别准确率上还逊于最先进的OCR识别系统。所以无论是大模型还是多态大模型的出世，OCR仍然是一个很有价值的技术！

多模态大语言模型（MLLM）

多模态大语言模型（Multimodal Large Language
Model，MLLM）依赖于LLM丰富的知识储备以及强大的推理和泛化能力来解决多模态问题，目前已经涌现出一些令人惊叹的能力，比如看图写作和看图写代码。

MLLM时代文档图像处理技术趋势

知名系统：

BLIP2 – Saleforce： Q-Former连接图像编码器(ViT)和LLM解码器; 仅需训练Q-Former部分
Flamingo – DeepMind： 在LLM中增加Gated Attention层引入视觉信息

LLaVA – Miscrosoft： 将CLIP ViT-L和LLaMA采用全连接层连接; 使用GPT-4和Self-
Instruct生成高质量的158k instruction following数据

MiniGPT – Vision CAIR Group, KAUST： ViT+ Q-Former + Vicuna

Nougat – Meta： Swin Transformer + Transformer Decoder 图像到序列范式;
820万页文档的数据集

Kosmos-2.5： Swin Transformer + Transformer Decoder 范式;
3.2亿的数据和1.3B的模型达到远超Nougat等Sota指标

Donut – NAVER： 无需OCR, 用于文档理解的Transformer模型

性能分析：

下面是知名文档图像大模型OCR性能分析与传统的OCR进行比较分析，性能方面对OCR的识别率还是不如传统的方式。

结果：系统测评的系统性能还待提高；可能原因：视觉编码器的分辨率和训练数据限制；

图像安全

生成式人工智能AIGC（Artificial Intelligence Generated
Content）是人工智能1.0时代进入2.0时代的重要标志。GAN、CLIP、Transformer、Diffusion、预训练模型、多模态技术、生成算法等技术的累积融合，催生了AIGC的爆发。算法不断迭代创新、预训练模型引发AIGC技术能力质变，多模态推动AIGC内容多边形，使得AIGC具有更通用和更强的基础能力。

随着生成式人工智能（AIGC）的不断发展壮大，同时给社会带来了一系列严重的问题和挑战。其中包括截图伪造、生成式图片和身份信息泄露等方面。使得图像的真伪就难以辨别，
图像安全就变的越来越重要 。

研究背景

大模型技术的不断突破让生成式AI拥有了更广泛的落地空间，同时也让图片伪造的门槛变得越来更低，这就给了一些不法分子可乘之机。AI图像安全为生成式人工智能（AIGC）健康发展、规模化应用保驾护航，解决负面社会问题。例如：
换脸、 证照的篡改 。

AI换脸

近年来随着人工智能技术的迅速发展，AI
在图像领域的应用也日益广泛。2023年5月24日，中国互联网协会发文提示“AI换脸”新骗局，利用“AI换脸”“AI换声”等虚假音视频，进行诈骗、诽谤的违法行为屡见不鲜。合合信息发布的生成式图像鉴别技术，帮助个人及机构识别判断AI图片原始属性，规避可能存在的欺诈、伦理等方面的风险。

主要应用场景：保险骗保、虚假积分，金融欺诈等

证件篡改

随着经济社会的发展，公民在越来越多的经济社会活动中需要以居民身份证等身份证明文件证明身份。一方面，伪造、变造、买卖居民身份证、护照、社会保障卡、驾驶证等依法可以用于证明身份的证件的行为,为不法分子使用伪造、变造的或者盗用他人的身份证件提供了便利。另一方面，使用伪造、变造的或者盗用他人身份证件的行为，也为不法分子伪造、变造、买卖相关身份证件的行为提供了市场需求和驱动力。

图像证件篡改的主要分为四种类型： ** 复制移动** 、 ** 拼接** 、 ** 擦除** 、 ** 重打印**

①复制移动即在原图中“抠”出关键要素再粘贴到另一处；

②拼接是将不同图像拼接成一张新图像；

③擦除能够不留痕迹地擦掉一些关键信息，如去除大面积复杂水印；

④重打印则是在擦除的基础上重新编辑新文档。

系统架构

对于上述四种图像篡改的类型，需要先进的检测技术来大批量发现被篡改/伪造的信息，保障信息真实性，防止欺诈行为的发生！

合合信息 提出了一种 基于HRNet的编码器－解码器结构的图像真实性鉴别模型
，使用分割模型，Backbone使用ConvNeXt作为编码器，用LightHam和EANet两个网络并行作为解码器，结合图像本身的信息包括但不限于噪声、频谱等，从而捕捉到细粒度的视觉差异，达到高精度鉴别目的。

技术挑战

目前，图像篡改检测技术的应用也面临着篡改手段不断变化、场景复杂等系列挑战，不断提升检测系统的鲁棒性和泛化能力，是学术界与企业界需要深入合作的重要方向。

泛化研究：通过大量数据的构建去调优

落地现状

已经落地的行业：证券、保险、银行、零售等…

Textln开放平台：TextIn - 机器人市场 -
PS检测通用版

生成式AI

以人脸场景为例：

模型结构：通过多个空间注意力头来关注空间特征，并使用纹理增强模块放大浅层特征中的细微伪影，增强模型对真实人脸和伪造人脸的感知与判断准确度。

结果可视化：

应用范围及进展：

合合信息
研发了基于深度学习的图像篡改检测技术及相关系统，可检测出多种篡改形式，智能捕捉图像在篡改过程中留下的细微痕迹，并以热力图的形式展示图像区域篡改地点，相关技术已被应用于银行、保险等行业中。

①身份验证和访问控制

②移动设备的安全检测

③数字图像真实鉴定

图像篡改检测标准制定

由 中国信息通信研究院 牵头，联合 上海合合信息科技股份有限公司 、 中国图象图形学学会 、 中国科学技术大学
等知名学术机构、科技创新企业，启动《文档图像篡改检测标准》制定工作。希望持续推动AI技术在图像安全领域的广泛应用，带给用户更加安全、高效的工作和生活体验。

合合信息

上海合合信息科技股份有限公司基于自主研发的领先的智能文字识别及商业大数据核心技术，为全球C端用户和多元行业B端客户提供数字化、智能化的产品及服务。

1. C端产品：深受 全球用户 喜爱的效率工具

公司C端业务主要为包括 扫描全能王 （智能文字扫描及识别APP）、 名片全能王 （智能名片及人脉管理APP）、 启信宝
（企业商业信息查询APP）3款核心产品。全球累计用户下载超 23亿

2. B端服务：AI+大数据赋能数字化转型

公司B端业务为面向企业客户提供以智能文字识别、商业大数据为核心的服务，形成了包括基础技术服务、标准化服务和场景化解决方案的业务矩阵，为客户提供降本增效、风险管理、智能营销等产品及服务，助力客户实现数字化与智能化的转型升级。

3. 智能文字识别产品：TextIn

TextIn是合合信息旗下的一站式OCR服务平台，该平台根据不同的业务场景和需求，将产品分为了通用识别、票据识别、企业证照识别、车辆相关识别、个人证件识别、港澳台证件识别、海外证件识别、文档格式转换和图像处理等，满足各种客户的图像识别和文档处理需求。

TextIn还可以对PS篡改检测进行体验，详细步骤如下：

第一步：打开合合信息官网：合合信息_OCR识别|智能文字识别|图片识别文字

第二步：点击申请使用

第三步：仿纂改检测效果展示，

总结：

近年来，经过深度学习篡改生成的文本图像已广泛传播于互联网，对金融票据、证件和网页内容识别等多个行业领域产生了重要影响。但是目前对于文档图像分析识别与理解的技术也有很多难题。例如：

①场景及版式多样；例如：形状不可控、光照不可控

②采集设备不确定性；例如：收集摄像头、扫描仪、工业机器人、智能机器人

③用户需求多样性；例如：高精度：金融票据、可理解：教育、档案、办公

④文档图像质量退化严重；例如：看不清

⑤文字检测及版面分析困难；例如：看不准

⑥非限定条件文字识别率低；例如：认不全

⑦结构化智能理解能力差；例如：难理解

合合信息智能文档处理技术覆盖了图像预处理、解析识别到AI安全等文档图像处理全生命周期，图像篡改检测技术不仅能够应用于自然场景，还能应用于资质证书、文档合同、银行保单等截图的鉴别上。针对图片生成式造假，合合信息基于空域与频域关系建模，利用多维度特征来分辨真实图片和生成式图片的细微差异，判断图片是否由AI生成。专注于智能文字识别、图像处理、自然语言处理（NLP）、知识图谱、大数据挖掘等技术，有着非常丰富的经验，感兴趣的小伙伴可以通过以下方式进行了解：

**合合信息公众号 ：**微信搜索【合合信息】

合合信息TextIn智能文字识别平台 ：TextIn

接下来我将给各位同学划分一张学习计划表！

学习计划

那么问题又来了，作为萌新小白，我应该先学什么，再学什么？
既然你都问的这么直白了，我就告诉你，零基础应该从什么开始学起：

阶段一：初级网络安全工程师

接下来我将给大家安排一个为期1个月的网络安全初级计划，当你学完后，你基本可以从事一份网络安全相关的工作，比如渗透测试、Web渗透、安全服务、安全分析等岗位；其中，如果你等保模块学的好，还可以从事等保工程师。

综合薪资区间6k~15k

1、网络安全理论知识（2天）
①了解行业相关背景，前景，确定发展方向。
②学习网络安全相关法律法规。
③网络安全运营的概念。
④等保简介、等保规定、流程和规范。（非常重要）

2、渗透测试基础（1周）
①渗透测试的流程、分类、标准
②信息收集技术：主动/被动信息搜集、Nmap工具、Google Hacking
③漏洞扫描、漏洞利用、原理，利用方法、工具（MSF）、绕过IDS和反病毒侦察
④主机攻防演练：MS17-010、MS08-067、MS10-046、MS12-20等

3、操作系统基础（1周）
①Windows系统常见功能和命令
②Kali Linux系统常见功能和命令
③操作系统安全（系统入侵排查/系统加固基础）

4、计算机网络基础（1周）
①计算机网络基础、协议和架构
②网络通信原理、OSI模型、数据转发流程
③常见协议解析（HTTP、TCP/IP、ARP等）
④网络攻击技术与网络安全防御技术
⑤Web漏洞原理与防御：主动/被动攻击、DDOS攻击、CVE漏洞复现

5、数据库基础操作（2天）
①数据库基础
②SQL语言基础
③数据库安全加固

6、Web渗透（1周）
①HTML、CSS和JavaScript简介
②OWASP Top10
③Web漏洞扫描工具
④Web渗透工具：Nmap、BurpSuite、SQLMap、其他（菜刀、漏扫等）

那么，到此为止，已经耗时1个月左右。你已经成功成为了一名“脚本小子”。那么你还想接着往下探索吗？

阶段二：中级or高级网络安全工程师（看自己能力）

综合薪资区间15k~30k

7、脚本编程学习（4周）
在网络安全领域。是否具备编程能力是“脚本小子”和真正网络安全工程师的本质区别。在实际的渗透测试过程中，面对复杂多变的网络环境，当常用工具不能满足实际需求的时候，往往需要对现有工具进行扩展，或者编写符合我们要求的工具、自动化脚本，这个时候就需要具备一定的编程能力。在分秒必争的CTF竞赛中，想要高效地使用自制的脚本工具来实现各种目的，更是需要拥有编程能力。

零基础入门的同学，我建议选择脚本语言Python/PHP/Go/Java中的一种，对常用库进行编程学习
搭建开发环境和选择IDE，PHP环境推荐Wamp和XAMPP，IDE强烈推荐Sublime；

Python编程学习，学习内容包含：语法、正则、文件、网络、多线程等常用库，推荐《Python核心编程》，没必要看完

用Python编写漏洞的exp,然后写一个简单的网络爬虫

PHP基本语法学习并书写一个简单的博客系统

熟悉MVC架构，并试着学习一个PHP框架或者Python框架 (可选)

了解Bootstrap的布局或者CSS。