众所周知,文本图像的智能分析面临诸多挑战。首先,文本图像的场景非常多样,比如论文、书籍、说明书、合同等,模型的泛化性难以满足要求。其次,有的场景比较复杂,比如生僻字、表格和多页PDF等,模型难以达到理想的精度。最后,部署繁琐,模型部署涉及诸多技术细节,影响落地效率。
在大模型时代,LLM会带来怎样的帮助呢?
近期,我们发布了一个融合了文心一言和PP-OCRv4的文档图像信息抽取神器——PP-ChatOCRv2。一个SDK,覆盖20+高频应用场景,支持5种文本图像智能分析能力和部署,包括通用场景关键信息抽取(快递单、营业执照和机动车行驶证等)、复杂文档场景关键信息抽取(解决生僻字、特殊标点、多页PDF、表格等难点问题)、通用OCR、文档场景专用OCR、通用表格识别。此外针对垂类业务场景,也支持模型训练、微调和Prompt优化。
让我们先看看效果。
PP-ChatOCRv2 效果速览
PP-ChatOCRv2在线体验传送门:
https://aistudio.baidu.com/application/detail/10368
PP-ChatOCRv2有四方面特色&