使用Java读取Word,最简单的几句话,使用WordExtractor

使用WordExtractor读取Word文档,请先下载 tm-extractors-0.4.jar


[java]  view plain copy
  1. import java.io.FileInputStream;  
  2.   
  3. import org.textmining.text.extraction.WordExtractor;  
  4.   
  5. public class WordTest {  
  6.     public static void main(String args[]) throws Exception {  
  7.         new WordTest().readByOther();  
  8.     }  
  9.   
  10.     public void readByText() throws Exception {  
  11.         FileInputStream in = new FileInputStream("C://test.doc ");  
  12.         WordExtractor extractor = new WordExtractor();  
  13.         String str = extractor.extractText(in);  
  14.         System.out.println(str);  
  15.     }  
  16. }  

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
好的,我了解你的问题。针对这个问题,我可以提供以下的实现方式: 1. 使用 Apache POI库读取 Word 文档 Apache POI是一个用于操作 Microsoft文档的Java API,其中包括 Word文档。使用POI库,我们可以轻松地读取Word文档中的表格内容。下面是一个简单的示例代码,用于读取Word文档中的表格内容: ```java import java.io.File; import java.io.FileInputStream; import java.io.IOException; import org.apache.poi.hwpf.extractor.WordExtractor; import org.apache.poi.xwpf.usermodel.*; import org.apache.poi.xwpf.extractor.XWPFWordExtractor; import java.util.List; import org.apache.poi.xwpf.usermodel.XWPFTable; import org.apache.poi.xwpf.usermodel.XWPFTableRow; import org.apache.poi.xwpf.usermodel.XWPFTableCell; public class ReadWordTable { public static void main(String[] args) { try { //创建文件输入流读取Word文件 FileInputStream fis = new FileInputStream(new File("test.docx")); XWPFDocument document = new XWPFDocument(fis); //获取所有的表格 List<XWPFTable> tableList = document.getTables(); //遍历表格 for (XWPFTable table : tableList) { //获取表格的行 List<XWPFTableRow> rows = table.getRows(); //遍历行 for (XWPFTableRow row : rows) { //获取行的单元格 List<XWPFTableCell> cells = row.getTableCells(); //遍历单元格 for (XWPFTableCell cell : cells) { //获取单元格的内容 String content = cell.getText(); System.out.print(content + "\t"); } System.out.println(); } } } catch (IOException e) { e.printStackTrace(); } } } ``` 2. 使用 JACOB库读取 Word 文档 JACOB是一个用于操作 Microsoft Office的Java API,可以使用它来读取Word文档中的表格内容。下面是一个示例代码,用于读取Word文档中的表格内容: ```java import com.jacob.activeX.ActiveXComponent; import com.jacob.com.Dispatch; import com.jacob.com.Variant; public class ReadWordTable { public static void main(String[] args) { ActiveXComponent app = new ActiveXComponent("Word.Application"); try { //设置为不可见 app.setProperty("Visible", new Variant(false)); //打开Word文档 Dispatch documents = app.getProperty("Documents").toDispatch(); Dispatch document = Dispatch.call(documents, "Open", "test.docx").toDispatch(); //获取表格数量 Dispatch tables = Dispatch.get(document, "Tables").toDispatch(); int tableCount = Dispatch.get(tables, "Count").getInt(); //遍历表格 for (int i = 1; i <= tableCount; i++) { //获取表格对象 Dispatch table = Dispatch.call(tables, "Item", new Variant(i)).toDispatch(); //获取表格行数和列数 Dispatch rows = Dispatch.get(table, "Rows").toDispatch(); int rowCount = Dispatch.get(rows, "Count").getInt(); Dispatch columns = Dispatch.get(table, "Columns").toDispatch(); int columnCount = Dispatch.get(columns, "Count").getInt(); //遍历表格 for (int row = 1; row <= rowCount; row++) { //遍历行 for (int column = 1; column <= columnCount; column++) { //获取单元格 Dispatch cell = Dispatch.call(table, "Cell", new Variant(row), new Variant(column)).toDispatch(); //获取单元格内容 String content = Dispatch.get(cell, "Range").getString(); System.out.print(content + "\t"); } System.out.println(); } } //关闭Word文档 Dispatch.call(document, "Close", new Variant(true)); } catch (Exception e) { e.printStackTrace(); } finally { //退出Word应用程序 app.invoke("Quit", new Variant[]{}); } } } ``` 希望这些代码可以帮助到你,如果你有其他的问题,请随时提出。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值