JAVA 文件数据读取 docx doc txt

读文件目录

    /**
     * 读取文本
     * @param path 文件路径
     * @return 文本字符串
     */
    public static JSONArray readAllFile(String path){
        JSONArray allFilePath = new JSONArray();
        File file = new File(path);		//获取其file对象
        File[] fs = file.listFiles();	//遍历path下的文件和目录,放在File数组中
        for(File f:fs){					//遍历File[]数组
            if(!f.isDirectory())		//若非目录(即文件),则打印
                allFilePath.add(f);
        }
        return allFilePath;
    }

 

读取docx和doc文件



    public static String readDoc(String path){
        File file = new File(path);
        String str = "";
        try {
            FileInputStream fis = new FileInputStream(file);
            HWPFDocument doc = new HWPFDocument(fis);
            String doc1 = doc.getDocumentText();
            System.out.println(doc1);
            StringBuilder doc2 = doc.getText();
            System.out.println(doc2);
            Range rang = doc.getRange();
            String doc3 = rang.text();
            System.out.println(doc3);
            fis.close();
            str = doc1;
        } catch (Exception e) {
            e.printStackTrace();
        }
        return str;
    }

    public static String  readDocx(String path){
        File file = new File(path);
        String str = "";
        try {
            FileInputStream fis = new FileInputStream(file);
            XWPFDocument xdoc = new XWPFDocument(fis);
            XWPFWordExtractor extractor = new XWPFWordExtractor(xdoc);
            String doc1 = extractor.getText();
//            System.out.println(doc1);
            fis.close();
            str = doc1;
        } catch (Exception e) {
            e.printStackTrace();
        }
        return str;
    }

 

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Java可以使用Apache POI库来读取docdocx文件内容和图片,并且可以区分不同的段落。下面是一个简单的示例代码,可以读取Word文档中的所有内容和图片,并将它们按照段落进行分组: ```java import org.apache.poi.hwpf.HWPFDocument; import org.apache.poi.hwpf.usermodel.*; import org.apache.poi.xwpf.usermodel.*; import java.io.FileInputStream; import java.io.InputStream; import java.util.ArrayList; import java.util.List; public class ReadWord { public static void main(String[] args) throws Exception { // 读取Word文档 InputStream is = new FileInputStream("test.docx"); XWPFDocument xwpfDocument = new XWPFDocument(is); // 获取文档中的所有段落 List<XWPFParagraph> paragraphs = xwpfDocument.getParagraphs(); // 将段落按照页码分组 List<List<XWPFParagraph>> pages = groupParagraphsByPage(paragraphs); // 处理每一页的内容 for (int i = 0; i < pages.size(); i++) { List<XWPFParagraph> page = pages.get(i); System.out.println("Page " + (i + 1)); for (XWPFParagraph paragraph : page) { // 打印文本内容 System.out.println(paragraph.getText()); // 获取段落中的所有图片 List<XWPFPicture> pictures = paragraph.getRuns().stream() .filter(run -> run instanceof XWPFPicture) .map(run -> (XWPFPicture) run) .toList(); // 处理图片数据 for (XWPFPicture picture : pictures) { byte[] imageData = picture.getPictureData().getData(); // 处理图片数据 } } } // 关闭文档 xwpfDocument.close(); } // 将段落按照页码分组 private static List<List<XWPFParagraph>> groupParagraphsByPage(List<XWPFParagraph> paragraphs) { List<List<XWPFParagraph>> pages = new ArrayList<>(); int pageIndex = -1; for (XWPFParagraph paragraph : paragraphs) { int newPageIndex = paragraph.getDocument().getPosOfParagraph(paragraph); if (newPageIndex != pageIndex) { pageIndex = newPageIndex; pages.add(new ArrayList<>()); } pages.get(pages.size() - 1).add(paragraph); } return pages; } } ``` 这个例子中,我们使用了Apache POI的XWPFDocument类来加载docx文档,并使用getParagraphs()方法获取文档中的所有段落。我们可以使用getText()方法获取段落中的文本内容。如果段落中包含图片,我们可以使用getRuns()方法获取所有的Run对象,然后过滤出所有的XWPFPicture对象,并使用getPictureData()方法获取图片的二进制数据。最后,我们可以处理这些图片数据,例如将它们保存到本地磁盘或者上传到服务器。 需要注意的是,对于doc文件,我们需要使用HWPFDocument类来加载文档,并使用getRange()方法获取文档的范围。另外,对于大型文档,可能需要考虑使用分页加载等技术来提高性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值