Apache Tika 是一个用于提取文本和元数据的开源Java库。它支持提取各种类型的文本,包括但不限于以下几种:
- 文档文件:如PDF、Microsoft Word、Microsoft Excel、Microsoft PowerPoint、OpenDocument、RTF、HTML、XML等。(亲测可以)
- 归档文件:如ZIP、RAR、TAR、GZIP、7z等。(不成功)
- 音频文件:如MP3、WAV、AAC、FLAC等。(没测过)
- 视频文件:如MP4、AVI、MKV、WMV等。(没测过)
- 图像文件:如JPEG、PNG、GIF、BMP等。(不成功)
- 电子邮件文件:如Microsoft Outlook、Thunderbird、EML等。(没测过)
- 数据库文件:如SQLite、MySQL等。(没测过)
- 超文本传输协议(HTTP)和文件传输协议(FTP)的URL。(没测过)
注意事项:
解析各类文本需要添加不同的 maven 依赖,如解析 PDF 依赖
<!-- 获取 pdf 文字内容的依赖 -->
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>2.0.30</version>
</dependency>
代码测试
- 添加 maven 依赖(版本 > 1.27 就提取不到文字,不知道什么问题,有兴趣的可以研究下)
<!-- tika 文件内容提取 -->
<!-- https://mvnrepository.com/artifact/org.apache.tika/tika-core -->
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-core</artifactId>
<version>1.27</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.apache.tika/tika-parsers -->
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-parsers</artifactId>
<version>1.27</version>
</dependency>
- 测试代码
/**
* 从指定的文件中读取内容并返回字符串形式
*
* @param file 读取的文件
* @return 读取的文件内容的字符串形式
*/
public static String extractContent(File file) {
String content = "";
try {
Tika tika = new Tika();
content = tika.parseToString(file);
} catch (IOException | TikaException e) {
e.printStackTrace();
log.error("读取文件失败:" + file);
}
return content;
}
public static void main(String[] args) {
File file = new File("F:\\ChromeDownloadLocation\\测试文件.xlsx");
String extractContent = FileUtils.extractContent(file);
System.out.println("识别成功:" + extractContent);
}