java读取txt,doc,docx文档格式的文本内容

 读取txt,doc,docx文档格式的文本内容,通过不同格式,读取逻辑不同,避免造成文本内容乱码问题,

这里需要安装Maven:

版本最好统一

  <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-ooxml</artifactId>
            <version>5.2.3</version>
        </dependency>
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi</artifactId>
            <version>5.2.3</version>
        </dependency>
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-scratchpad</artifactId>
            <version>5.2.3</version>
        </dependency>
    /**
     * 根据文本不同的编码格式拿到文本内容
     * @param file
     * @return
     * @throws IOException
     */    
private String getContent(MultipartFile file) throws IOException {
        String fileName = file.getOriginalFilename();
        if (fileName != null) {
            if (fileName.endsWith(".txt")) {
                return readTextFile(file.getBytes());
            } else if (fileName.endsWith(".doc")) {
                return readDocFile(file);
            } else if (fileName.endsWith(".docx")) {
                return readDocxFile(file);
            }
        }
        return "";
    }


    /**
     * 文本编码格式
     */
    private static final List<Charset> FALLBACK_ENCODINGS = Arrays.asList(
            StandardCharsets.UTF_8,
            Charset.forName("GBK"),
            Charset.forName("GB2312"),
            StandardCharsets.ISO_8859_1
    );


   /**
     * 读取txt格式的文件
     * @param fileBytes
     * @return
     */
    private  String readTextFile(byte[] fileBytes) {
        // 使用 UniversalDetector 检测文件编码
        UniversalDetector detector = new UniversalDetector(null);
        detector.handleData(fileBytes, 0, fileBytes.length);
        detector.dataEnd();

        String encoding = detector.getDetectedCharset();
        if (encoding != null) {
            String content = new String(fileBytes, Charset.forName(encoding));
            if (isValidContent(content)) {
                return content;
            }
        }

        // 尝试使用多种常见编码解析文件内容
        for (Charset charset : FALLBACK_ENCODINGS) {
            String content = new String(fileBytes, charset);
            if (isValidContent(content)) {
                return content;
            }
        }

        // 如果所有尝试都失败,返回默认的 UTF-8 编码内容
        return new String(fileBytes, StandardCharsets.UTF_8);
    }


    /**
     * 读取doc格式的文件
     * @param file
     * @return
     * @throws IOException
     */
    private static String readDocFile(MultipartFile file) throws IOException {
        try (InputStream inputStream = file.getInputStream();
             HWPFDocument doc = new HWPFDocument(inputStream)) {
            WordExtractor extractor = new WordExtractor(doc);
            return extractor.getText();
        }
    }




    /**
     * 读取docx格式的文件
     * @param file
     * @return
     * @throws IOException
     */
    private String readDocxFile(MultipartFile file) throws IOException {
        InputStream inputStream = file.getInputStream();
        XWPFDocument docx = new XWPFDocument(inputStream);
        XWPFWordExtractor extractor = new XWPFWordExtractor(docx);
        String content = extractor.getText();
        docx.close();
        inputStream.close();
        return content;
    }


  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Java可以使用Apache POI库来读取docdocx文件内容和图片,并且可以区分不同的段落。下面是一个简单的示例代码,可以读取Word文档中的所有内容和图片,并将它们按照段落进行分组: ```java import org.apache.poi.hwpf.HWPFDocument; import org.apache.poi.hwpf.usermodel.*; import org.apache.poi.xwpf.usermodel.*; import java.io.FileInputStream; import java.io.InputStream; import java.util.ArrayList; import java.util.List; public class ReadWord { public static void main(String[] args) throws Exception { // 读取Word文档 InputStream is = new FileInputStream("test.docx"); XWPFDocument xwpfDocument = new XWPFDocument(is); // 获取文档中的所有段落 List<XWPFParagraph> paragraphs = xwpfDocument.getParagraphs(); // 将段落按照页码分组 List<List<XWPFParagraph>> pages = groupParagraphsByPage(paragraphs); // 处理每一页的内容 for (int i = 0; i < pages.size(); i++) { List<XWPFParagraph> page = pages.get(i); System.out.println("Page " + (i + 1)); for (XWPFParagraph paragraph : page) { // 打印文本内容 System.out.println(paragraph.getText()); // 获取段落中的所有图片 List<XWPFPicture> pictures = paragraph.getRuns().stream() .filter(run -> run instanceof XWPFPicture) .map(run -> (XWPFPicture) run) .toList(); // 处理图片数据 for (XWPFPicture picture : pictures) { byte[] imageData = picture.getPictureData().getData(); // 处理图片数据 } } } // 关闭文档 xwpfDocument.close(); } // 将段落按照页码分组 private static List<List<XWPFParagraph>> groupParagraphsByPage(List<XWPFParagraph> paragraphs) { List<List<XWPFParagraph>> pages = new ArrayList<>(); int pageIndex = -1; for (XWPFParagraph paragraph : paragraphs) { int newPageIndex = paragraph.getDocument().getPosOfParagraph(paragraph); if (newPageIndex != pageIndex) { pageIndex = newPageIndex; pages.add(new ArrayList<>()); } pages.get(pages.size() - 1).add(paragraph); } return pages; } } ``` 这个例子中,我们使用了Apache POI的XWPFDocument类来加载docx文档,并使用getParagraphs()方法获取文档中的所有段落。我们可以使用getText()方法获取段落中的文本内容。如果段落中包含图片,我们可以使用getRuns()方法获取所有的Run对象,然后过滤出所有的XWPFPicture对象,并使用getPictureData()方法获取图片的二进制数据。最后,我们可以处理这些图片数据,例如将它们保存到本地磁盘或者上传到服务器。 需要注意的是,对于doc文件,我们需要使用HWPFDocument类来加载文档,并使用getRange()方法获取文档的范围。另外,对于大型文档,可能需要考虑使用分页加载等技术来提高性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值