文档再数字化用于再生形成可编辑的电子文档,实现对电子文档价值的深度挖掘。主要过程大致可以分为扫描、解析、识别、还原和再生五个阶段。含义分别介绍如下:
-
扫描。将纸质的书籍和稿件转换成电子版文档(通常为扫描版PDF或者单页图片),通常会进行扫描或拍摄、页面校正、图像增强、倾斜校正等操作。
-
解析。解析页面的布局结构,通过基于规则的方法或者计算机视觉手段进行版面分析,识别其中的文本、图片、背景图像、表格、公式等区域位置信息。在这个过程中,可能会遇到多层的文档。
-
识别。针对每种类型的区域,识别对应的细粒度结构或内容信息。比如对文本区域的OCR,表格区域里的单元格识别和文本识别,公式识别为LaTeX等。
-
还原。基于识别到的版面、结构和内容信息,重建形成可编辑的Markdown或者docx等源文件。在这个过程中,还要尽量实现页眉页脚、图表题注、层次标题、脚注边注、参考文献等元素的识别、关联和替换,以及阅读顺序识别(以合并双栏区域)等,去除不必要的格式信息,形成高质量的编辑稿。
-
再生。利用还原得到的编辑稿,实现内容与格式的分离,可以从一个源文件同时向HTML, TXT, DOCX,EPUB,PDF和LaTeX等多种格式的转换(基于Pandoc)。
其中纸质文档需要五个阶段全经历,博客等网页源、Word文档、以及arXiv上的LaTeX源文件主要是经过解到和再生的过程,扫描版本的PDF经过版面和OCR解析到再生的四个阶段,文字版PDF可以先进行基于规则的解析,然后再生形成Markdown文档。