聊聊关于PDF的企业应用技术

一、PDF类别

1、文本型

即在计算机上使用W3C技术(如HTML等技术)或其他软件(如Adobe Acrobat、Word等MarkDown工具)创建的。这种类型的文件可以包含各种组件,例如图像、文本和链接,这些组件都是可以被选中、搜索和易于编辑的。

2、扫描型

即通过扫描仪、手机的扫描王APP从实物上扫描创建的。这种类型的文件只不过是存储在PDF文件中的图像集合。也就是说,出现在这些图像中的元素,如文本或链接是不能被选择或搜索的。

二、pdf转换word思路

1、版面分析

opencv方案

段落检测:膨胀竖线和横线,即过滤表格区域

表格检测:检测所有轮廓,过滤文字区域

检测结果示例:

优点:规则实现,成本低

缺点:效果不佳,无法覆盖更多类型,如标题

深度学习方案

paddleocr(基于picodet_lcnet_x1_0_fgd_layout_cdla模型)

模型说明:CDLA数据集训练的中文版面分析模型,可以划分为正文、标题、表格、图片、图片标题、表格标题、页眉、脚本、引用、公式10类区域

检测结果示例:

参考链接:ppstructure/docs/models_list.md · PaddlePaddle/PaddleOCR - Gitee.com

yolo8(基于general6-8n模型)

模型说明:通用场景数据集(注:数据量更丰富)训练的中文版面分析模型,可以划分为表格、图片、图片标题、表格标题、正文、标题、公式7类区域

检测结果示例:

参考链接:qihoo360/360LayoutAnalysis · HF Mirror

参考技术:opencv、paddleocr、yolo8

2、pdf转换word

段落:根据版面分析的段落位置和pdf每一页图片宽高,计算段落内容位于左、中、右,最终实现poi word的段落插入

表格:根据版面分析的表格结构,即单元格属性row、col、rowspan、colspan,text通过pdfbox的按区域获取方法实现,最终实现poi word的表格插入

word结果示例:

参考技术:pdfbox、apache poi

三、业界产品案例

万兴pdf:https://www.hipdf.cn

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值