Java读取word文件内容

10 篇文章 3 订阅
文章介绍了如何利用ApachePOI的XWPFDocument类来读取docx文档内容,通过添加依赖,创建FileInputStream和XWPFDocument对象,然后使用XWPFWordExtractor提取文本,避免了中文乱码问题。示例代码展示了简单的读取操作,同样适用于doc文档。
摘要由CSDN通过智能技术生成

前言

今天遇到一个读取word模板内容的需求,在网上找了很多种方案,有的代码比较复杂,有的读出来中文乱码,个人觉得使用Apache下面的poi包去实现起来比较简单,并且不会出现中文乱码的情况。

XWPFDocument

这次要用到一个新的类:XWPFDocument,它代表一个docx文档。是apache基金会提供的用户导出Word文档的工具类。

引入依赖

	  <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi</artifactId>
            <version>4.0.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-ooxml</artifactId>
            <version>4.0.0</version>
        </dependency>

准备一个word文档

提前准备一个word文档,随便写点内容:

在这里插入图片描述

编写demo

然后简单编写一个demo,测试下读取文件里面的内容:

package com.test;

import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;

import java.io.File;
import java.io.FileInputStream;



public class FileTest {
    public static void main(String[] args){
        File file = new File("C:\\Users\\PC\\Desktop\\test.docx");
        FileInputStream fis = null;
        XWPFDocument document = null;
        XWPFWordExtractor extractor = null;
        try {
            fis = new FileInputStream(file);
            document = new XWPFDocument(fis);
            extractor = new XWPFWordExtractor(document);
            System.out.println(extractor.getText());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

运行查看结果

通过控制台可以看到,可以正常的读取到里面的内容

在这里插入图片描述

扩展

上面的用的是是docx类型的,对于doc类型也是支持的:

在这里插入图片描述

在这里插入图片描述

总结

关于这个包的使用,会再次更新,想要实现通过Java读取word文件内容,也不是这一种方式,个人觉得简单好用,再次推荐给大家

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小花皮猪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值