使用pdfbox提取pdf文件中的字符信息

最新推荐文章于 2024-08-09 07:29:00 发布

yqzhao

最新推荐文章于 2024-08-09 07:29:00 发布

阅读量5.4k

点赞数 1

分类专栏： pdfbox

本文链接：https://blog.csdn.net/yqzhao/article/details/7937164

版权

本文介绍了如何使用PDFBox 1.6.0库进行文本提取，特别是在处理中文期刊论文时，针对复杂的排版情况，需要获取字符的位置、大小和字体信息。由于PDFBox在粒度上只能提供行级别的提取，作者仿照源码实现了一个PrintTextLocations2类，以满足更细致的文本定位需求。

摘要由CSDN通过智能技术生成

前段时间使用了一下pdfbox（1.6.0）的文本提取功能，发现很好用。但是能给出的比较准确的结果只有行的粒度，后来又有了定位文章题目、章节标题、自然段落的需求，pdfbox目前好像没有这方面的支持（尤其是对于中文的期刊论文而言，排版情况很复杂，如一页中存在多篇文章混排等），只能先从比较低层次的字符提取入手，但需要保留字符的位置、大小、字体等信息，pdfbox源码中的一个小例子PrintTextLocatins比较接近，但未给出字体信息，本人这里仿照它重新定义了一个PrintTextLocatins2类，代码如下：

import org.apache.pdfbox.util.PDFTextStripper;
import org.apache.pdfbox.util.TextPosition;
import java.io.IOException;

public class PrintTextLocatins2 extends PDFTextStripper{
	
	private static int BOLD_F_NUM = 2;
	private static String[] BOLD_FLAGS = {"Bold", "CAJ FNT04"};
	private static int ITALIC_F_NUM = 2;
	private static String[] ITALIC_FLAGS = {"Italic", "CAJ FNT03"};

	private static boolean IsBold(String font)
	{
		int i;
		for (i = 0; i < BOLD_F_NUM; i++)
			if (font.contains(BOLD_FLAGS[i]))
				return true