Java实现自动提取文件名、标签以及作者等信息（代码）

本文链接：https://blog.csdn.net/yuand7/article/details/136577423

问题需求

在Java中，提取文件名是一个基本操作，通常通过java.io.File类来实现。对于实际的文件标签和作者信息，这取决于文件本身的元数据或上下文环境。而对于一般的文件系统来说，并不会有“标签”和“作者”的概念，除非是在文件系统外的其他系统或数据库中关联了这些额外信息。但对于Word文档和PDF文件，它们都可以包含作者信息。

代码实现

Tika库是一个用于文件类型检测和从各种格式的文件内容提取的强大工具。无论是电子表格、文本文件、图像、PDF文件还是多媒体输入格式，Tika都能在一定程度上提取结构化文本以及元数据。

要使用 Tika 来确定文件的类型，你首先需要将其添加到你的项目中。
如果你使用 Maven，你可以在你的 pom.xml 文件中添加以下依赖（当前最新是3.0.0-BETA）：

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>2.9.0</version> <!-- 使用时请检查最新版本 -->
</dependency>

然后，你可以使用以下 Java 方法 getFileTypeByDefaultTika 来获取文件的类型：

import org.apache.tika.Tika;
import org.apache.tika.mime.MediaType;

import java.io.File;
import java.io.IOException;
import java.net.URL;

public class FileTypeDetector {

    public static String getFileTypeByDefaultTika(String filePathUrl) throws IOException {
        // 从 URL 创建一个 File 对象
        File file = new File(new URL(filePathUrl).toURI());

        // 使用 Tika 来检测文件的 MIME 类型
        Tika tika = new Tika();
        MediaType mediaType = MediaType.parse(tika.detect(file));

        // 从 MIME 类型中提取文件的基本类型（如 pdf、image、video 等）
        String fileType = mediaType.getSubtype();

        return fileType;
    }

    public static void main(String[] args) {
        try {
            String filePathUrl = "http://example.com/path/to/your/file.pdf"; // 替换为你的文件 URL
            String fileType = getFileTypeByDefaultTika(filePathUrl);
            System.out.println("Detected file type: " + fileType);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

注意：

这个方法假设你已经有了文件 URL，并且 URL 指向的是一个可访问的文件。
使用 Tika.detect() 方法可以检测文件的 MIME 类型，然后我们提取子类型作为文件的类型。
这个方法可能会抛出 IOException，因此需处理这个异常。

文件名及作者

在Java中，提取文件名、标签和作者等信息通常取决于你正在处理的文件类型。对于常见的文件类型，如PDF、Word文档、图片等，你可能需要使用专门的库来解析这些文件并提取所需的信息。

以下是一些常见场景和相应的Java实现方法：

1. 提取文件名：

文件名是文件系统的基本属性，不需要任何特殊库即可提取。

import java.io.File;

public class FileNameExtractor {
    public static void main(String[] args) {
        File file = new File("/path/to/your/file.txt");
        String fileName = file.getName();
        System.out.println("文件名: " + fileName);
    }
}

2. 提取PDF文件的标签和作者：

对于PDF文件，你可以使用Apache PDFBox库来提取元数据，如作者和标题（可以看作是标签）。

首先，添加PDFBox依赖到你的项目中（例如，使用Maven）：

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.29</version> <!-- 使用最新版本 -->
</dependency>

然后，使用以下代码提取PDF的元数据：

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDDocumentInformation;

public class PdfMetadataExtractor {
    public static void main(String[] args) {
        try (PDDocument document = PDDocument.load(new File("/path/to/your/file.pdf"))) {
            PDDocumentInformation info = document.getDocumentInformation();
            String author = info.getAuthor();
            String title = info.getTitle();
            System.out.println("作者: " + author);
            System.out.println("标题: " + title); // 这可以看作是标签
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

3. 提取Word文档的标签和作者：

对于Word文档（.docx），你可以使用Apache POI库来提取元数据。

首先，添加POI依赖到你的项目中（例如，使用Maven）：

<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml</artifactId>
    <version>5.2.3</version> <!-- 使用最新版本 -->
</dependency>

然后，使用以下代码提取Word文档的元数据：

import org.apache.poi.xwpf.usermodel.XWPFDocument;
import org.openxmlformats.schemas.wordprocessingml.x2006.main.CTDocPr;

public class WordMetadataExtractor {
    public static void main(String[] args) {
        try (XWPFDocument document = new XWPFDocument(new FileInputStream("/path/to/your/file.docx"))) {
            CTDocPr docPr = document.getDocument().getDocPr();
            String author = docPr.getAuthor();
            String title = docPr.getTitle(); // 这可以看作是标签
            System.out.println("作者: " + author);
            System.out.println("标题: " + title);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}