大模型浪潮：IDP智能文档处理中的OCR统一策略探索

最新推荐文章于 2025-03-30 10:45:00 发布

xziyuan

最新推荐文章于 2025-03-30 10:45:00 发布

阅读量1k

点赞数 21

文章标签： ocr

本文链接：https://blog.csdn.net/xziyuan/article/details/140236762

版权

目录

一、像素级OCR统一模型：UPOCR

1.1、为什么提出UPOCR？

1.2、UPOCR是什么?

1.2.1、Unified Paradigm 统一范式

1.2.2、Unified Architecture统一架构

1.2.3、Unified Training Strategy 统一训练策略

1.3、UPOCR效果如何？

二、OCR大一统模型前沿研究速览

2.1、Donut：无需OCR的用于文档理解的Transformer模型

2.2、NouGAT：**实现文档图像到文档序列输出**

2.3、SPTS v3：基于SPTS的OCR大一统模型

三、大模型时代下的智能文档处理应用

3.1、LLM与文档识别分析应用

3.2、智能文档处理应用产品

四、文末抽奖

2023年12月28-31日，由中国图象图形学学会主办的
第十九届CSIG青年科学家会议
在中国广州隆重召开，会议吸引了学术界和企业界专家与青年学者，会议面向国际学术前沿与国家战略需求，聚焦最新前沿技术和热点领域，共同探讨图象图形学领域的前沿问题，分享最新的研究成果和创新观点，在垂直领域大模型专场，合合信息智能技术平台事业部副总经理、高级工程师丁凯博士为我们带来了《文档图像大模型的思考与探索》主题报告。

本文将围绕以下问题，分享主题报告中大模型时代下的智能文档图像处理领域研究问题与深度思考：

以GPT4-V Gemini为代表大模型能为IDP领域的技术方案和研发范式上带来什么样的启发？

能否吸取大模型的优点，提出精度好、泛化强的OCR大一统模型？

能否更好的将LLM与文档识别分析引擎相结合来解决IDP领域的核心问题？

一、像素级OCR统一模型：UPOCR

UPOCR是合合信息-华南理工大学文档图像分析识别与理解联合实验室于2023年12月提出的像素级OCR统一模型。UPOCR基于视觉Transformer（ViT）的编码器-解码器架构，将多样OCR任务统一为图像到图像变换范式，并引入了可学习任务提示，将编码器提取的通用特征表示推向任务特定空间，使解码器具有任务意识。实验表明，模型能够具有对不同任务的建模功能，能够同时实现文本擦除、文本分割和篡改文本检测等像素级OCR任务。