Java读取word文件内容

最新推荐文章于 2024-07-13 02:24:55 发布

小花皮猪

最新推荐文章于 2024-07-13 02:24:55 发布

阅读量7.1k

点赞数 9

分类专栏： Java 附件文章标签： java word 开发语言

本文链接：https://blog.csdn.net/weixin_46713508/article/details/128595089

版权

Java 同时被 2 个专栏收录

143 篇文章 10 订阅

订阅专栏

附件

10 篇文章 3 订阅

订阅专栏

文章介绍了如何利用ApachePOI的XWPFDocument类来读取docx文档内容，通过添加依赖，创建FileInputStream和XWPFDocument对象，然后使用XWPFWordExtractor提取文本，避免了中文乱码问题。示例代码展示了简单的读取操作，同样适用于doc文档。

摘要由CSDN通过智能技术生成

前言

今天遇到一个读取word模板内容的需求，在网上找了很多种方案，有的代码比较复杂，有的读出来中文乱码，个人觉得使用Apache下面的poi包去实现起来比较简单，并且不会出现中文乱码的情况。

XWPFDocument

这次要用到一个新的类：XWPFDocument，它代表一个docx文档。是apache基金会提供的用户导出Word文档的工具类。

引入依赖

	  <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi</artifactId>
            <version>4.0.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-ooxml</artifactId>
            <version>4.0.0</version>
        </dependency>

准备一个word文档

提前准备一个word文档，随便写点内容：

在这里插入图片描述

编写demo

然后简单编写一个demo，测试下读取文件里面的内容：

package com.test;

import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;

import java.io.File;
import java.io.FileInputStream;



public class FileTest {
    public static void main(String[] args){
        File file = new File("C:\\Users\\PC\\Desktop\\test.docx");
        FileInputStream fis = null;
        XWPFDocument document = null;
        XWPFWordExtractor extractor = null;
        try {
            fis = new FileInputStream(file);
            document = new XWPFDocument(fis);
            extractor = new XWPFWordExtractor(document);
            System.out.println(extractor.getText());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}