Tika（文本提取）

最新推荐文章于 2024-04-09 09:45:53 发布

代码的代

最新推荐文章于 2024-04-09 09:45:53 发布

阅读量742

点赞数 7

分类专栏：文件文本识别、提取文章标签： java maven

本文链接：https://blog.csdn.net/weixin_46044938/article/details/135667156

版权

文件文本识别、提取专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Apache Tika 是一个用于提取文本和元数据的开源Java库。它支持提取各种类型的文本，包括但不限于以下几种：

文档文件：如PDF、Microsoft Word、Microsoft Excel、Microsoft PowerPoint、OpenDocument、RTF、HTML、XML等。（亲测可以）
归档文件：如ZIP、RAR、TAR、GZIP、7z等。（不成功）
音频文件：如MP3、WAV、AAC、FLAC等。（没测过）
视频文件：如MP4、AVI、MKV、WMV等。（没测过）
图像文件：如JPEG、PNG、GIF、BMP等。（不成功）
电子邮件文件：如Microsoft Outlook、Thunderbird、EML等。（没测过）
数据库文件：如SQLite、MySQL等。（没测过）
超文本传输协议（HTTP）和文件传输协议（FTP）的URL。（没测过）

注意事项：

解析各类文本需要添加不同的 maven 依赖，如解析 PDF 依赖

<!-- 获取 pdf 文字内容的依赖 -->
<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.30</version>
</dependency>

代码测试

添加 maven 依赖（版本 > 1.27 就提取不到文字，不知道什么问题，有兴趣的可以研究下）

<!-- tika 文件内容提取 -->
<!-- https://mvnrepository.com/artifact/org.apache.tika/tika-core -->
<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>1.27</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.apache.tika/tika-parsers -->
<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-parsers</artifactId>
    <version>1.27</version>
</dependency>

测试代码

/**
 * 从指定的文件中读取内容并返回字符串形式
 *
 * @param file 读取的文件
 * @return 读取的文件内容的字符串形式
 */
public static String extractContent(File file) {
    String content = "";
    try {
        Tika tika = new Tika();
        content = tika.parseToString(file);
    } catch (IOException | TikaException e) {
        e.printStackTrace();
        log.error("读取文件失败：" + file);
    }
    return content;
}

public static void main(String[] args) {
    File file = new File("F:\\ChromeDownloadLocation\\测试文件.xlsx");
    String extractContent = FileUtils.extractContent(file);
    System.out.println("识别成功：" + extractContent);
}