提取文档中的文本内容(使用PDFBox处理PDF文档)

本文介绍如何利用PDFBox Java库提取PDF文档的文本。虽然比Adobe的工具速度更快,但PDFBox目前只能输出文本文件,不支持表格和图片的处理。该库在学习PDF文档操作方面仍有所帮助。
摘要由CSDN通过智能技术生成

由于本节内容与“跟不上时代潮流”的博客里的一篇文章非常类似。在这里谨转载一下。今天看了内容后很是激动,动手编了一下,把电脑里所有的pdf转了一遍,发现用adobe自带的工具转更方便,虽然pdfbox更快一些。

粘一下sourceforge里对pdfbox的描述:

PDFBox is a Java PDF Library. This project will allow access to all of the components in a PDF document. More PDF manipulation features will be added as the project matures. This ships with a utility to take a PDF document and output a text file.

刚看到这段话得时候很是激动,以为现在的版本可以识别表格和图片了。但最后一句话又很让人泄气,居然是个text file,呵呵。不过没关系,对于本书的学习,还是很有帮助的。

感谢“跟不上时代潮流”的分享。

转载自http://www.cnblogs.com/hejycpu/archive/2009/01/19/1378380.html


1、使用PDFBox处理PDF文档

PDF全称Portable Document Format,是Adobe公司开发的电子文件格式。这种文件格式与操作系统平台无关,可以在Windows、Unix或Mac OS等操作系统上通用。
PDF文件格式将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。如果要抽取其中的文本信息,需要根据它的文件格式来进行解析。幸好目前已经有不少工具能帮助我们做这些事情。
2、PDFBox的下载

最常见的一种PDF文本抽取工具就是PDFBox了,访问网址http://sourceforge.net/projects/pdfbox/,进入如图7-1所示的下载界面。读者可以在该网页下载其最新的版本。本书采用的是PDFBox-0.7.3版本。PDFBox是一个开源的Java PDF库,这个库允许你访问PDF文件的各项信息。在接下来的例子中,将演示如何使用PDFBox提供的API,从一个PDF文件中提取出文本信息。 <
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值