需求
使用pdfbox识别pdf文字,因为pdf是无结构的,导致识别的时候内容错乱,如果需要识别的是文本,可以按照行识别,这样方便对照内容。
引入maven依赖:截止23年的最新依赖
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>2.0.26</version>
</dependency>
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>fontbox</artifactId>
<version>2.0.26</version>
</dependency>
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>jempbox</artifactId>
<version>1.8.16</version>
</dependency>