PDF处理
文章平均质量分 50
weixin_44214515
这个作者很懒,什么都没留下…
展开
-
提取PDF中的表格,按行列生成JSON数据,识别率100%
如果仅仅是提取PDF中的内容,基本没有难度,我后续会再写一篇博客来讨论提取内容。但是如果提取PDF中的表格,并按行列输出为JSON返回则并不简单,网上有很多资料,Github上同样也有一些,但是基本都是扯淡的。本文以在实际项目中使用的PDF提取程序为例,来介绍如何从PDF中提取表格数据,并按行列返回。PDF中存在的内容可能有以下几种: 1.清晰无任何杂质的表格。 2.带有水印的文字表格 3.全部由图片组成的表格其中第一种、第二种均比较容易实现,第三种需要将PDF中图片转...原创 2021-10-20 12:53:31 · 2448 阅读 · 5 评论 -
去除PDF文件中的斜体文字水印
网上也有PDF去除水印的文章、方法、和代码,Github上也有,但是这些都是去除以图片为主的水印。一般情况下PDF水印均是斜体,印于文档的底部,按照Github或网上的文章根本无法去除,也不是一个正确的去除办法。这里要说的是一个正确去除水印并已经在实际运行的项目中使用的方法。 斜体水印并不是图片,因此不能通过检测PDF中的图片来删除水印。这种水印其实本身是文字,要用清除文字的方式来清除。主要思路是检测PDF中文字的倾斜度来检测水印,然后进行清除。下面给出源代码。WatermarkSca...原创 2021-10-20 12:33:29 · 3199 阅读 · 15 评论