文档再数字化的一种流程设计

文档再数字化用于再生形成可编辑的电子文档,实现对电子文档价值的深度挖掘。主要过程大致可以分为扫描、解析、识别、还原和再生五个阶段。含义分别介绍如下:

  • 扫描。将纸质的书籍和稿件转换成电子版文档(通常为扫描版PDF或者单页图片),通常会进行扫描或拍摄、页面校正、图像增强、倾斜校正等操作。

  • 解析。解析页面的布局结构,通过基于规则的方法或者计算机视觉手段进行版面分析,识别其中的文本、图片、背景图像、表格、公式等区域位置信息。在这个过程中,可能会遇到多层的文档。

  • 识别。针对每种类型的区域,识别对应的细粒度结构或内容信息。比如对文本区域的OCR,表格区域里的单元格识别和文本识别,公式识别为LaTeX等。

  • 还原。基于识别到的版面、结构和内容信息,重建形成可编辑的Markdown或者docx等源文件。在这个过程中,还要尽量实现页眉页脚、图表题注、层次标题、脚注边注、参考文献等元素的识别、关联和替换,以及阅读顺序识别(以合并双栏区域)等,去除不必要的格式信息,形成高质量的编辑稿。

  • 再生。利用还原得到的编辑稿,实现内容与格式的分离,可以从一个源文件同时向HTML, TXT, DOCX,EPUB,PDF和LaTeX等多种格式的转换(基于Pandoc)。

其中纸质文档需要五个阶段全经历,博客等网页源、Word文档、以及arXiv上的LaTeX源文件主要是经过解到和再生的过程,扫描版本的PDF经过版面和OCR解析到再生的四个阶段,文字版PDF可以先进行基于规则的解析,然后再生形成Markdown文档。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值