提取文档中的文本内容（使用PDFBox处理PDF文档）

最新推荐文章于 2024-03-29 14:54:08 发布

goobycle

最新推荐文章于 2024-03-29 14:54:08 发布

阅读量3.1k

点赞数

分类专栏：学习《自己动手写搜索引擎》日志文章标签：文档 import exception string eclipse output

本文链接：https://blog.csdn.net/woaizhoulichao1/article/details/6626430

版权

本文介绍如何利用PDFBox Java库提取PDF文档的文本。虽然比Adobe的工具速度更快，但PDFBox目前只能输出文本文件，不支持表格和图片的处理。该库在学习PDF文档操作方面仍有所帮助。

摘要由CSDN通过智能技术生成

由于本节内容与“跟不上时代潮流”的博客里的一篇文章非常类似。在这里谨转载一下。今天看了内容后很是激动，动手编了一下，把电脑里所有的pdf转了一遍，发现用adobe自带的工具转更方便，虽然pdfbox更快一些。

粘一下sourceforge里对pdfbox的描述：

PDFBox is a Java PDF Library. This project will allow access to all of the components in a PDF document. More PDF manipulation features will be added as the project matures. This ships with a utility to take a PDF document and output a text file.

刚看到这段话得时候很是激动，以为现在的版本可以识别表格和图片了。但最后一句话又很让人泄气，居然是个text file，呵呵。不过没关系，对于本书的学习，还是很有帮助的。

感谢“跟不上时代潮流”的分享。

转载自http://www.cnblogs.com/hejycpu/archive/2009/01/19/1378380.html

1、使用PDFBox处理PDF文档

PDF全称Portable Document Format，是Adobe公司开发的电子文件格式。这种文件格式与操作系统平台无关，可以在Windows、Unix或Mac OS等操作系统上通用。
PDF文件格式将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。如果要抽取其中的文本信息，需要根据它的文件格式来进行解析。幸好目前已经有不少工具能帮助我们做这些事情。
2、PDFBox的下载

最常见的一种PDF文本抽取工具就是PDFBox了，访问网址http://sourceforge.net/projects/pdfbox/，进入如图7-1所示的下载界面。读者可以在该网页下载其最新的版本。本书采用的是PDFBox-0.7.3版本。PDFBox是一个开源的Java PDF库，这个库允许你访问PDF文件的各项信息。在接下来的例子中，将演示如何使用PDFBox提供的API，从一个PDF文件中提取出文本信息。 <