文档再数字化的一种流程设计

最新推荐文章于 2024-07-14 23:27:18 发布

任村老博

最新推荐文章于 2024-07-14 23:27:18 发布

阅读量31

点赞数

分类专栏：工作基础文档智能架构构思文章标签：程序人生 windows 开源软件学习方法 gpt AIGC AI-native

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47175896/article/details/132528238

版权

文档智能同时被 3 个专栏收录

6 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

文档再数字化用于再生形成可编辑的电子文档，实现对电子文档价值的深度挖掘。主要过程大致可以分为扫描、解析、识别、还原和再生五个阶段。含义分别介绍如下：

扫描。将纸质的书籍和稿件转换成电子版文档（通常为扫描版PDF或者单页图片），通常会进行扫描或拍摄、页面校正、图像增强、倾斜校正等操作。
解析。解析页面的布局结构，通过基于规则的方法或者计算机视觉手段进行版面分析，识别其中的文本、图片、背景图像、表格、公式等区域位置信息。在这个过程中，可能会遇到多层的文档。
识别。针对每种类型的区域，识别对应的细粒度结构或内容信息。比如对文本区域的OCR，表格区域里的单元格识别和文本识别，公式识别为LaTeX等。
还原。基于识别到的版面、结构和内容信息，重建形成可编辑的Markdown或者docx等源文件。在这个过程中，还要尽量实现页眉页脚、图表题注、层次标题、脚注边注、参考文献等元素的识别、关联和替换，以及阅读顺序识别（以合并双栏区域）等，去除不必要的格式信息，形成高质量的编辑稿。
再生。利用还原得到的编辑稿，实现内容与格式的分离，可以从一个源文件同时向HTML, TXT, DOCX，EPUB，PDF和LaTeX等多种格式的转换（基于Pandoc）。

其中纸质文档需要五个阶段全经历，博客等网页源、Word文档、以及arXiv上的LaTeX源文件主要是经过解到和再生的过程，扫描版本的PDF经过版面和OCR解析到再生的四个阶段，文字版PDF可以先进行基于规则的解析，然后再生形成Markdown文档。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文档再数字化的一种流程设计

文档再数字化用于再生形成可编辑的电子文档，实现对电子文档价值的深度挖掘。主要过程大致可以分为扫描、解析、识别、还原和再生五个阶段。本文对这五个阶段进行简要概括。
复制链接

扫一扫

专栏目录

任村老博 CSDN认证博客专家 CSDN认证企业博客

码龄4年

14: 原创

137万+: 周排名

8万+: 总排名

1万+: 访问

: 等级

236: 积分

61: 粉丝

96: 获赞

7: 评论

129: 收藏

私信

关注

热门文章

分类专栏

最新评论

文档智能处理的任务流程：一些建构与思考
CSDN-Ada助手: 恭喜您撰写了这篇关于文档智能处理任务流程的博客，内容深入浅出，让人受益匪浅。希望您能继续保持创作的热情和努力，不断探索和思考相关领域的新知识和新观点。或许下一步可以考虑深入研究文档智能处理的具体案例，以及对未来发展的展望，这样能让读者更加全面地了解这一领域。期待您的下一篇精彩作品！
PowerPoint模板制作经验总结
CSDN-Ada助手: 非常祝贺您撰写的第8篇博客！标题“PowerPoint模板制作经验总结”非常吸引人。您分享的经验对于那些希望提升幻灯片设计技巧的读者来说肯定非常有价值。我鼓励您继续创作，因为您的经验分享对于大家来说非常宝贵。在下一篇博客中，或许您可以进一步探讨如何根据不同场合和主题设计不同风格的PowerPoint模板，这将帮助读者更好地应用您的经验。期待您的下一篇文章！
Word模板制作经验总结
CSDN-Ada助手: 恭喜你撰写了第9篇博客！看到你总结了Word模板制作经验，真是令人振奋。你的经验总结为其他人提供了宝贵的指导和参考，相信会对很多读者有所帮助。接下来，我建议你可以考虑拓展一下主题，比如分享一些实际应用中的案例，或者深入探讨一些高级的技巧。谦虚的态度让你的博客更加亲切，期待你继续创作并分享更多有价值的内容！
人机混合智能体（AGA）分层结构与运行模式设想
CSDN-Ada助手: 恭喜您撰写了第10篇博客！标题中提及的人机混合智能体（AGA）分层结构与运行模式设想引起了我的兴趣。您对于智能体的层次性组织和运行模式的设想无疑是一个令人振奋的思考方向。在下一步的创作中，或许您可以考虑深入探讨不同层次之间的交互和协作方式，以实现更高效的人机混合智能体。此外，对于实际应用领域的案例研究和实验验证也将为您的研究提供更多的支持和深度。继续保持创作的热情和努力，期待您未来更多的精彩博文！
花个十分钟，咱们一起尝试搓出个大模型生态圈
CSDN-Ada助手: 恭喜您撰写了第11篇博客！标题给人一种愉悦的期待感，仿佛我们可以在短短十分钟内，与您一起体验搓出一个大模型生态圈的奇妙过程。您的创作热情令人赞叹，能够持续创作是一个了不起的成就。鉴于您在博客中分享了搓出大模型生态圈的想法，我想提供一个创作建议：或许您可以深入探讨如何利用不同材料和技巧来打造不同类型的生态圈模型。这样的探索将为读者提供更多的选择和启发，并进一步展示您的创造力和专业知识。再次恭喜您，并期待您未来更多精彩的创作！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。