Tika(文本提取)

Apache Tika 是一个用于提取文本和元数据的开源Java库。它支持提取各种类型的文本,包括但不限于以下几种:

  • 文档文件:如PDF、Microsoft Word、Microsoft Excel、Microsoft PowerPoint、OpenDocument、RTF、HTML、XML等。(亲测可以)
  • 归档文件:如ZIP、RAR、TAR、GZIP、7z等。(不成功)
  • 音频文件:如MP3、WAV、AAC、FLAC等。(没测过)
  • 视频文件:如MP4、AVI、MKV、WMV等。(没测过)
  • 图像文件:如JPEG、PNG、GIF、BMP等。(不成功)
  • 电子邮件文件:如Microsoft Outlook、Thunderbird、EML等。(没测过)
  • 数据库文件:如SQLite、MySQL等。(没测过)
  • 超文本传输协议(HTTP)和文件传输协议(FTP)的URL。(没测过)

注意事项:

解析各类文本需要添加不同的 maven 依赖,如解析 PDF 依赖

<!-- 获取 pdf 文字内容的依赖 -->
<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.30</version>
</dependency>

代码测试

  • 添加 maven 依赖(版本 > 1.27 就提取不到文字,不知道什么问题,有兴趣的可以研究下)
<!-- tika 文件内容提取 -->
<!-- https://mvnrepository.com/artifact/org.apache.tika/tika-core -->
<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>1.27</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.apache.tika/tika-parsers -->
<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-parsers</artifactId>
    <version>1.27</version>
</dependency>
  • 测试代码
/**
 * 从指定的文件中读取内容并返回字符串形式
 *
 * @param file 读取的文件
 * @return 读取的文件内容的字符串形式
 */
public static String extractContent(File file) {
    String content = "";
    try {
        Tika tika = new Tika();
        content = tika.parseToString(file);
    } catch (IOException | TikaException e) {
        e.printStackTrace();
        log.error("读取文件失败:" + file);
    }
    return content;
}

public static void main(String[] args) {
    File file = new File("F:\\ChromeDownloadLocation\\测试文件.xlsx");
    String extractContent = FileUtils.extractContent(file);
    System.out.println("识别成功:" + extractContent);
}


  • 7
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值