pdf文件两栏内容提取信息思路

斗笠戴山头

已于 2022-09-26 10:38:40 修改

阅读量2.5k

点赞数 4

分类专栏：爬虫文章标签：爬虫 python

于 2022-09-26 10:20:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45080737/article/details/127007464

版权

爬虫专栏收录该内容

5 篇文章

订阅专栏

需求说明：
需要从一类pdf中提取必要信息，此处是电子元器件的应用领域信息。
编程语言:python

步骤一：下载pdf

使用爬虫库requests库下载，不赘述

步骤二：pdf转换成文本

文本要求方便提取和解析
- 方案一使用plumber库直接转化成 txt格式，虽然能够有效的进行数据转换；虽然能够有效转换，但是对于 pdf两栏的数据，会变成同一行，造成解析混乱；放弃使用使用此方案；
  - 如图
- 方案二先使用 fitz 库将 pdf转换成html，再使用bs4 或xpath转换成txt 文本；这样就可以将原来pdf 的文本按顺序保存下来。
  - 如图
- 方案三将pdf 转化成图片，切割分栏，使用OCR工具识别；OCR工具识别的出来的问题，一定的不准确性，放弃此方案。除非是遇到了pdf是纯图片的，才会使用这种方式。

步骤三提取文本信息

观察文本特点，使用正则进行提取
- 如图
- 提取出来的文本
  - 如图
- 使用正则匹配从 Applications 到 Description 之间的内容就可以了
- 注意
  - pdf 并不是如我们期待的这么规整；可能有多个版本。例如没有 Applications 内容，没有 Description 字符串， Applications 少了一个s或全部大写等多种情况。提取出来的内容，还是掺杂许多你不想要的内容，需要进一步清洗；此时就要考虑多种情况写正则表达式，这是提取文本信息最繁琐的耗时的地方。
  - 建议提取方案是先找到结尾如 Applications 和 Description 处，穷尽开头和结尾的情况，先提取出来一部分内容，再从提取的内容中作筛选。

斗笠戴山头

博客等级

码龄6年

20
原创

39
点赞

118
收藏

23
粉丝

关注

私信

热门文章

分类专栏

爬虫 5篇

展开全部收起

最新评论

返回密文数据处理思路
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
selenium 导致C盘空间为零
爬吧爬吧: 非常靠谱，感谢老哥，已解决！
pandas 从excel读出来存储到mysql中空数据为nan的问题
CSDN-Ada助手: 恭喜您写了第19篇博客！标题看上去非常有趣，我很期待阅读您关于pandas从excel读出来存储到mysql中空数据为nan的问题的解决方案。您的文章对于那些在数据处理方面遇到类似问题的读者来说一定会非常有帮助。在下一篇博客中，我建议您可以探讨一下如何处理nan数据，特别是在数据分析和可视化方面的应用。这对于那些希望更深入了解pandas库的读者来说将是一个很好的补充。再次恭喜您，并期待您未来更多的博客作品！
selenium 导致C盘空间为零
CSDN-Ada助手: 恭喜你写了第17篇博客！不过很抱歉听到selenium导致C盘空间为零的问题。希望你能及时解决这个问题，同时也提醒了我们在使用selenium时要注意资源的管理。接下来，或许可以考虑写一些关于如何优化代码、提高效率的文章，这样对读者来说也是一种帮助。期待你的下一篇作品！
selenium鼠标操作细节理解
CSDN-Ada助手: 恭喜您写了第18篇博客！能够持续创作并分享关于selenium鼠标操作的细节理解，真的让人受益匪浅。不过，我觉得您可以考虑在下一篇博客中加入一些实际案例或者常见问题的解决方法，这样可以让读者更好地理解和运用这些细节。希望您能继续保持创作的热情，期待您更多精彩的分享！

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。