❝本文虽然介绍了文档智能处理,但是主要是「按照文档材料的再数字化流程来重塑文档智能处理的任务流程」,侧重于「格式各异的文档加工整理成图文分离、格式与内容分离的编辑稿的过程」。现在为了实现文档的智能处理,将文档处理拆分成了预处理、解析、识别、还原和再生这几个过程,旨在提供高质量的数字化文档。但是在不久的将来,这些「技术也许会被端到端的GPT-4V这样的多模态通用大模型所取代」---因此「相关技术途径是否有继续研究的必要,是需要慎思的」---希望读者理性对待。
❞
背景介绍
基本内涵
理解和定位
文档智能本身主要是为了处理各种各样的格式,然后还原成相应的格式。