POI SAX 使用事件驱动解析Excel(03/07)

本文主要是用于POI解析大文件Excel容易出现内存溢出的现象而提出解决方案,故此解决了大数据量的Excel文件解析的难度,在此拿出来贡献给大家,谢谢!

里面用到的相关类请查看:   http://www.cnblogs.com/wshsdlau/p/5643862.html

1. Office2007与Office Open XML

    在Office 2007之前,Office一直都是以二进制位的方式存储,但这种格式不易被其它软件拿来使用,在各界的压力下,MicroSoft于2005年发布了基于XML的ooxml开放文档标准。ooxml的xml schema强调减少load time,增快parsing speed,将child elements分开存储,而不是multiple attributes一起存,这有点类似于HTML的结构。ooxml 使用XML和ZIP技术结合进行文件存储,因为XML是一个基于文本的格式,而且ZIP容器支持内容的压缩,所以其一大优势就是可以大大减小文件的尺寸。其它特点这里不再叙述。

2. SAX方式解析XML

    SAX全称Simple API for XML,它是一个接口,也是一个软件包。它是一种XML解析的替代方法,不同于DOM解析XML文档时把所有内容一次性加载到内存中的方式,它逐行扫描文档,一边扫描,一边解析。所以那些只需要单遍读取内容的应用程序就可以从SAX解析中受益,这对大型文档的解析是个巨大优势。另外,SAX “推" 模型可用于广播环境,能够同时注册多个ContentHandler,并行接收事件,而不是在一个管道中一个接一个地进行处理。一些支持 SAX 的语法分析器包括 Xerces,Apache parser(以前的 IBM 语法分析器)、MSXML(Microsoft 语法分析器)和 XDK(Oracle 语法分析器)。这些语法分析器是最灵活的,因为它们还支持 DOM。

3. POI以SAX解析excel2007文件

   所需jar包:poi-3.10-FINAL-20140208.jar,poi-ooxml-3.10-FINAL-20140208.jar, poi-ooxml-schemas-3.10-FINAL-20140208.jar

      xercesImpl.jar      xml-apis-2.0.2.jar      xmlbeans-2.6.0.jar     sax2.jar


辅助类

ExcelReaderUtil:

  1. package com.boguan.bte.util.excel;  
  2.   
  3. import com.boguan.bte.service.common.IExcelRowReader;  
  4. import com.boguan.bte.service.common.impl.ExcelRowReader;  
  5.   
  6. /** 
  7.  * 名称: ExcelReaderUtil.java<br> 
  8.  * 描述: <br> 
  9.  * 类型: JAVA<br> 
  10.  * 最近修改时间:2016年7月5日 上午10:10:20<br> 
  11.  *  
  12.  * @since 2016年7月5日 
  13.  * @author “” 
  14.  */  
  15. public class ExcelReaderUtil {  
  16.     // excel2003扩展名  
  17.     public static final String EXCEL03_EXTENSION = ".xls";  
  18.     // excel2007扩展名  
  19.     public static final String EXCEL07_EXTENSION = ".xlsx";  
  20.   
  21.     /** 
  22.      * 读取Excel文件,可能是03也可能是07版本 
  23.      *  
  24.      * @param excel03 
  25.      * @param excel07 
  26.      * @param fileName 
  27.      * @throws Exception 
  28.      */  
  29.     public static void readExcel(IExcelRowReader reader, String fileName) throws Exception {  
  30.         // 处理excel2003文件  
  31.         if (fileName.endsWith(EXCEL03_EXTENSION)) {  
  32.             ExcelXlsReader exceXls = new ExcelXlsReader();  
  33.             exceXls.setRowReader(reader);   
  34.             exceXls.process(fileName);  
  35.             // 处理excel2007文件  
  36.         } else if (fileName.endsWith(EXCEL07_EXTENSION)) {  
  37.             ExcelXlsxReader exceXlsx = new ExcelXlsxReader();  
  38.             exceXlsx.setRowReader(reader);   
  39.             exceXlsx.process(fileName);  
  40.         } else {  
  41.             throw new Exception("文件格式错误,fileName的扩展名只能是xls或xlsx。");  
  42.         }  
  43.     }  
  44.   
  45.     /** 
  46.      * 测试 
  47.      * @param args 
  48.      * @throws Exception 
  49.      */  
  50.     public static void main(String[] args) throws Exception {  
  51.         IExcelRowReader rowReader = new ExcelRowReader();  
  52.         ExcelReaderUtil.readExcel(rowReader, "E://test.xls");  
  53.     }  
  54. }  
package com.boguan.bte.util.excel;

import com.boguan.bte.service.common.IExcelRowReader;
import com.boguan.bte.service.common.impl.ExcelRowReader;

/**
 * 名称: ExcelReaderUtil.java<br>
 * 描述: <br>
 * 类型: JAVA<br>
 * 最近修改时间:2016年7月5日 上午10:10:20<br>
 * 
 * @since 2016年7月5日
 * @author “”
 */
public class ExcelReaderUtil {
    // excel2003扩展名
    public static final String EXCEL03_EXTENSION = ".xls";
    // excel2007扩展名
    public static final String EXCEL07_EXTENSION = ".xlsx";

    /**
     * 读取Excel文件,可能是03也可能是07版本
     * 
     * @param excel03
     * @param excel07
     * @param fileName
     * @throws Exception
     */
    public static void readExcel(IExcelRowReader reader, String fileName) throws Exception {
        // 处理excel2003文件
        if (fileName.endsWith(EXCEL03_EXTENSION)) {
            ExcelXlsReader exceXls = new ExcelXlsReader();
            exceXls.setRowReader(reader); 
            exceXls.process(fileName);
            // 处理excel2007文件
        } else if (fileName.endsWith(EXCEL07_EXTENSION)) {
            ExcelXlsxReader exceXlsx = new ExcelXlsxReader();
            exceXlsx.setRowReader(reader); 
            exceXlsx.process(fileName);
        } else {
            throw new Exception("文件格式错误,fileName的扩展名只能是xls或xlsx。");
        }
    }

    /**
     * 测试
     * @param args
     * @throws Exception
     */
    public static void main(String[] args) throws Exception {
        IExcelRowReader rowReader = new ExcelRowReader();
        ExcelReaderUtil.readExcel(rowReader, "E://test.xls");
    }
}


  1. package com.boguan.bte.service.common;  
  2.   
  3. import java.util.List;  
  4.   
  5. /** 
  6.  * 名称: IRowReader.java<br> 
  7.  * 描述: <br> 
  8.  * 类型: JAVA<br> 
  9.  * 最近修改时间:2016年7月5日 上午10:28:06<br> 
  10.  *  
  11.  * @since 2016年7月5日 
  12.  * @author “” 
  13.  */  
  14. public interface IExcelRowReader {  
  15.     /** 
  16.      * 业务逻辑实现方法 
  17.      *  
  18.      * @param sheetIndex 
  19.      * @param curRow 
  20.      * @param rowlist 
  21.      */  
  22.     void getRows(int sheetIndex, int curRow, List<String> rowlist);  
  23. }  
package com.boguan.bte.service.common;

import java.util.List;

/**
 * 名称: IRowReader.java<br>
 * 描述: <br>
 * 类型: JAVA<br>
 * 最近修改时间:2016年7月5日 上午10:28:06<br>
 * 
 * @since 2016年7月5日
 * @author “”
 */
public interface IExcelRowReader {
    /**
     * 业务逻辑实现方法
     * 
     * @param sheetIndex
     * @param curRow
     * @param rowlist
     */
    void getRows(int sheetIndex, int curRow, List<String> rowlist);
}

  1. package com.boguan.bte.service.common.impl;  
  2.   
  3. import java.util.List;  
  4.   
  5. import com.boguan.bte.service.common.IExcelRowReader;  
  6.   
  7. /** 
  8.  * 名称: ExcelRowReader.java<br> 
  9.  * 描述: <br> 
  10.  * 类型: JAVA<br> 
  11.  * 最近修改时间:2016年7月5日 上午10:30:11<br> 
  12.  *  
  13.  * @since 2016年7月5日 
  14.  * @author “” 
  15.  */  
  16. public class ExcelRowReader implements IExcelRowReader {  
  17.   
  18.     @Override  
  19.     public void getRows(int sheetIndex, int curRow, List<String> rowlist) {  
  20.         System.out.print(curRow+" ");    
  21.         for (int i = 0; i < rowlist.size(); i++) {    
  22.             System.out.print(rowlist.get(i)==""?"*":rowlist.get(i) + " ");    
  23.         }    
  24.         System.out.println();    
  25.     }  
  26.       
  27. }  
package com.boguan.bte.service.common.impl;

import java.util.List;

import com.boguan.bte.service.common.IExcelRowReader;

/**
 * 名称: ExcelRowReader.java<br>
 * 描述: <br>
 * 类型: JAVA<br>
 * 最近修改时间:2016年7月5日 上午10:30:11<br>
 * 
 * @since 2016年7月5日
 * @author “”
 */
public class ExcelRowReader implements IExcelRowReader {

    @Override
    public void getRows(int sheetIndex, int curRow, List<String> rowlist) {
        System.out.print(curRow+" ");  
        for (int i = 0; i < rowlist.size(); i++) {  
            System.out.print(rowlist.get(i)==""?"*":rowlist.get(i) + " ");  
        }  
        System.out.println();  
    }
    
}

03 Reader:

  1. package com.boguan.bte.util.excel;  
  2.   
  3. import java.io.FileInputStream;  
  4. import java.io.IOException;  
  5. import java.util.ArrayList;  
  6. import java.util.List;  
  7.   
  8. import org.apache.poi.hssf.eventusermodel.EventWorkbookBuilder.SheetRecordCollectingListener;  
  9. import org.apache.poi.hssf.eventusermodel.FormatTrackingHSSFListener;  
  10. import org.apache.poi.hssf.eventusermodel.HSSFEventFactory;  
  11. import org.apache.poi.hssf.eventusermodel.HSSFListener;  
  12. import org.apache.poi.hssf.eventusermodel.HSSFRequest;  
  13. import org.apache.poi.hssf.eventusermodel.MissingRecordAwareHSSFListener;  
  14. import org.apache.poi.hssf.eventusermodel.dummyrecord.LastCellOfRowDummyRecord;  
  15. import org.apache.poi.hssf.eventusermodel.dummyrecord.MissingCellDummyRecord;  
  16. import org.apache.poi.hssf.model.HSSFFormulaParser;  
  17. import org.apache.poi.hssf.record.BOFRecord;  
  18. import org.apache.poi.hssf.record.BlankRecord;  
  19. import org.apache.poi.hssf.record.BoolErrRecord;  
  20. import org.apache.poi.hssf.record.BoundSheetRecord;  
  21. import org.apache.poi.hssf.record.FormulaRecord;  
  22. import org.apache.poi.hssf.record.LabelRecord;  
  23. import org.apache.poi.hssf.record.LabelSSTRecord;  
  24. import org.apache.poi.hssf.record.NumberRecord;  
  25. import org.apache.poi.hssf.record.Record;  
  26. import org.apache.poi.hssf.record.SSTRecord;  
  27. import org.apache.poi.hssf.record.StringRecord;  
  28. import org.apache.poi.hssf.usermodel.HSSFWorkbook;  
  29. import org.apache.poi.poifs.filesystem.POIFSFileSystem;  
  30.   
  31. import com.boguan.bte.service.common.IExcelRowReader;  
  32.   
  33. /** 
  34.  * 名称: ExcelXlsReader.java<br> 
  35.  * 描述: <br> 
  36.  * 类型: JAVA<br> 
  37.  * 最近修改时间:2016年7月5日 上午10:00:32<br> 
  38.  *  
  39.  * @since 2016年7月5日 
  40.  * @author “” 
  41.  */  
  42. public class ExcelXlsReader implements HSSFListener {  
  43.   
  44.     private int minColumns = -1;  
  45.   
  46.     private POIFSFileSystem fs;  
  47.   
  48.     private int lastRowNumber;  
  49.   
  50.     private int lastColumnNumber;  
  51.   
  52.     /** Should we output the formula, or the value it has? */  
  53.     private boolean outputFormulaValues = true;  
  54.   
  55.     /** For parsing Formulas */  
  56.     private SheetRecordCollectingListener workbookBuildingListener;  
  57.   
  58.     // excel2003工作薄  
  59.     private HSSFWorkbook stubWorkbook;  
  60.   
  61.     // Records we pick up as we process  
  62.     private SSTRecord sstRecord;  
  63.   
  64.     private FormatTrackingHSSFListener formatListener;  
  65.   
  66.     // 表索引  
  67.     private int sheetIndex = -1;  
  68.   
  69.     private BoundSheetRecord[] orderedBSRs;  
  70.   
  71.     @SuppressWarnings("unchecked")  
  72.     private ArrayList boundSheetRecords = new ArrayList();  
  73.   
  74.     // For handling formulas with string results  
  75.     private int nextRow;  
  76.   
  77.     private int nextColumn;  
  78.   
  79.     private boolean outputNextStringRecord;  
  80.   
  81.     // 当前行  
  82.     private int curRow = 0;  
  83.   
  84.     // 存储行记录的容器  
  85.     private List<String> rowlist = new ArrayList<String>();;  
  86.   
  87.     @SuppressWarnings("unused")  
  88.     private String sheetName;  
  89.   
  90.     private IExcelRowReader rowReader;  
  91.   
  92.     public void setRowReader(IExcelRowReader rowReader) {  
  93.         this.rowReader = rowReader;  
  94.     }  
  95.   
  96.     /** 
  97.      * 遍历excel下所有的sheet 
  98.      *  
  99.      * @throws IOException 
  100.      */  
  101.     public void process(String fileName) throws IOException {  
  102.         this.fs = new POIFSFileSystem(new FileInputStream(fileName));  
  103.         MissingRecordAwareHSSFListener listener = new MissingRecordAwareHSSFListener(this);  
  104.         formatListener = new FormatTrackingHSSFListener(listener);  
  105.         HSSFEventFactory factory = new HSSFEventFactory();  
  106.         HSSFRequest request = new HSSFRequest();  
  107.         if (outputFormulaValues) {  
  108.             request.addListenerForAllRecords(formatListener);  
  109.         } else {  
  110.             workbookBuildingListener = new SheetRecordCollectingListener(formatListener);  
  111.             request.addListenerForAllRecords(workbookBuildingListener);  
  112.         }  
  113.         factory.processWorkbookEvents(request, fs);  
  114.     }  
  115.   
  116.     /** 
  117.      * HSSFListener 监听方法,处理 Record 
  118.      */  
  119.     @SuppressWarnings("unchecked")  
  120.     public void processRecord(Record record) {  
  121.         int thisRow = -1;  
  122.         int thisColumn = -1;  
  123.         String thisStr = null;  
  124.         String value = null;  
  125.         switch (record.getSid()) {  
  126.         case BoundSheetRecord.sid:  
  127.             boundSheetRecords.add(record);  
  128.             break;  
  129.         case BOFRecord.sid:  
  130.             BOFRecord br = (BOFRecord) record;  
  131.             if (br.getType() == BOFRecord.TYPE_WORKSHEET) {  
  132.                 // 如果有需要,则建立子工作薄  
  133.                 if (workbookBuildingListener != null && stubWorkbook == null) {  
  134.                     stubWorkbook = workbookBuildingListener.getStubHSSFWorkbook();  
  135.                 }  
  136.   
  137.                 sheetIndex++;  
  138.                 if (orderedBSRs == null) {  
  139.                     orderedBSRs = BoundSheetRecord.orderByBofPosition(boundSheetRecords);  
  140.                 }  
  141.                 sheetName = orderedBSRs[sheetIndex].getSheetname();  
  142.             }  
  143.             break;  
  144.   
  145.         case SSTRecord.sid:  
  146.             sstRecord = (SSTRecord) record;  
  147.             break;  
  148.   
  149.         case BlankRecord.sid:  
  150.             BlankRecord brec = (BlankRecord) record;  
  151.             thisRow = brec.getRow();  
  152.             thisColumn = brec.getColumn();  
  153.             thisStr = "";  
  154.             rowlist.add(thisColumn, thisStr);  
  155.             break;  
  156.         case BoolErrRecord.sid: // 单元格为布尔类型  
  157.             BoolErrRecord berec = (BoolErrRecord) record;  
  158.             thisRow = berec.getRow();  
  159.             thisColumn = berec.getColumn();  
  160.             thisStr = berec.getBooleanValue() + "";  
  161.             rowlist.add(thisColumn, thisStr);  
  162.             break;  
  163.   
  164.         case FormulaRecord.sid: // 单元格为公式类型  
  165.             FormulaRecord frec = (FormulaRecord) record;  
  166.             thisRow = frec.getRow();  
  167.             thisColumn = frec.getColumn();  
  168.             if (outputFormulaValues) {  
  169.                 if (Double.isNaN(frec.getValue())) {  
  170.                     // Formula result is a string  
  171.                     // This is stored in the next record  
  172.                     outputNextStringRecord = true;  
  173.                     nextRow = frec.getRow();  
  174.                     nextColumn = frec.getColumn();  
  175.                 } else {  
  176.                     thisStr = formatListener.formatNumberDateCell(frec);  
  177.                 }  
  178.             } else {  
  179.                 thisStr = '"' + HSSFFormulaParser.toFormulaString(stubWorkbook, frec.getParsedExpression()) + '"';  
  180.             }  
  181.             rowlist.add(thisColumn, thisStr);  
  182.             break;  
  183.         case StringRecord.sid:// 单元格中公式的字符串  
  184.             if (outputNextStringRecord) {  
  185.                 // String for formula  
  186.                 StringRecord srec = (StringRecord) record;  
  187.                 thisStr = srec.getString();  
  188.                 thisRow = nextRow;  
  189.                 thisColumn = nextColumn;  
  190.                 outputNextStringRecord = false;  
  191.             }  
  192.             break;  
  193.         case LabelRecord.sid:  
  194.             LabelRecord lrec = (LabelRecord) record;  
  195.             curRow = thisRow = lrec.getRow();  
  196.             thisColumn = lrec.getColumn();  
  197.             value = lrec.getValue().trim();  
  198.             value = value.equals("") ? " " : value;  
  199.             this.rowlist.add(thisColumn, value);  
  200.             break;  
  201.         case LabelSSTRecord.sid: // 单元格为字符串类型  
  202.             LabelSSTRecord lsrec = (LabelSSTRecord) record;  
  203.             curRow = thisRow = lsrec.getRow();  
  204.             thisColumn = lsrec.getColumn();  
  205.             if (sstRecord == null) {  
  206.                 rowlist.add(thisColumn, " ");  
  207.             } else {  
  208.                 value = sstRecord.getString(lsrec.getSSTIndex()).toString().trim();  
  209.                 value = value.equals("") ? " " : value;  
  210.                 rowlist.add(thisColumn, value);  
  211.             }  
  212.             break;  
  213.         case NumberRecord.sid: // 单元格为数字类型  
  214.             NumberRecord numrec = (NumberRecord) record;  
  215.             curRow = thisRow = numrec.getRow();  
  216.             thisColumn = numrec.getColumn();  
  217.             value = formatListener.formatNumberDateCell(numrec).trim();  
  218.             value = value.equals("") ? " " : value;  
  219.             // 向容器加入列值  
  220.             rowlist.add(thisColumn, value);  
  221.             break;  
  222.         default:  
  223.             break;  
  224.         }  
  225.   
  226.         // 遇到新行的操作  
  227.         if (thisRow != -1 && thisRow != lastRowNumber) {  
  228.             lastColumnNumber = -1;  
  229.         }  
  230.   
  231.         // 空值的操作  
  232.         if (record instanceof MissingCellDummyRecord) {  
  233.             MissingCellDummyRecord mc = (MissingCellDummyRecord) record;  
  234.             curRow = thisRow = mc.getRow();  
  235.             thisColumn = mc.getColumn();  
  236.             rowlist.add(thisColumn, " ");  
  237.         }  
  238.   
  239.         // 更新行和列的值  
  240.         if (thisRow > -1)  
  241.             lastRowNumber = thisRow;  
  242.         if (thisColumn > -1)  
  243.             lastColumnNumber = thisColumn;  
  244.   
  245.         // 行结束时的操作  
  246.         if (record instanceof LastCellOfRowDummyRecord) {  
  247.             if (minColumns > 0) {  
  248.                 // 列值重新置空  
  249.                 if (lastColumnNumber == -1) {  
  250.                     lastColumnNumber = 0;  
  251.                 }  
  252.             }  
  253.             lastColumnNumber = -1;  
  254.   
  255.             // 每行结束时, 调用getRows() 方法  
  256.             rowReader.getRows(sheetIndex, curRow, rowlist);  
  257.             // 清空容器  
  258.             rowlist.clear();  
  259.         }  
  260.     }  
  261.   
  262.     
  263.       public static void main(String[] args) {  
  264.        IExcelRowReader rowReader = new ExcelRowReader();  
  265.       try {  
  266.           // ExcelReaderUtil.readExcel(rowReader,  
  267.           // "E://2016-07-04-011940a.xls");  
  268.             System.out.println("**********************************************");  
  269.             ExcelReaderUtil.readExcel(rowReader, "E://test.xlsx");  
  270.             } catch (Exception e) {  
  271.             e.printStackTrace();  
  272.            }  
  273.        }  
  274.   
  275.   
  276. }  
package com.boguan.bte.util.excel;

import java.io.FileInputStream;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import org.apache.poi.hssf.eventusermodel.EventWorkbookBuilder.SheetRecordCollectingListener;
import org.apache.poi.hssf.eventusermodel.FormatTrackingHSSFListener;
import org.apache.poi.hssf.eventusermodel.HSSFEventFactory;
import org.apache.poi.hssf.eventusermodel.HSSFListener;
import org.apache.poi.hssf.eventusermodel.HSSFRequest;
import org.apache.poi.hssf.eventusermodel.MissingRecordAwareHSSFListener;
import org.apache.poi.hssf.eventusermodel.dummyrecord.LastCellOfRowDummyRecord;
import org.apache.poi.hssf.eventusermodel.dummyrecord.MissingCellDummyRecord;
import org.apache.poi.hssf.model.HSSFFormulaParser;
import org.apache.poi.hssf.record.BOFRecord;
import org.apache.poi.hssf.record.BlankRecord;
import org.apache.poi.hssf.record.BoolErrRecord;
import org.apache.poi.hssf.record.BoundSheetRecord;
import org.apache.poi.hssf.record.FormulaRecord;
import org.apache.poi.hssf.record.LabelRecord;
import org.apache.poi.hssf.record.LabelSSTRecord;
import org.apache.poi.hssf.record.NumberRecord;
import org.apache.poi.hssf.record.Record;
import org.apache.poi.hssf.record.SSTRecord;
import org.apache.poi.hssf.record.StringRecord;
import org.apache.poi.hssf.usermodel.HSSFWorkbook;
import org.apache.poi.poifs.filesystem.POIFSFileSystem;

import com.boguan.bte.service.common.IExcelRowReader;

/**
 * 名称: ExcelXlsReader.java<br>
 * 描述: <br>
 * 类型: JAVA<br>
 * 最近修改时间:2016年7月5日 上午10:00:32<br>
 * 
 * @since 2016年7月5日
 * @author “”
 */
public class ExcelXlsReader implements HSSFListener {

    private int minColumns = -1;

    private POIFSFileSystem fs;

    private int lastRowNumber;

    private int lastColumnNumber;

    /** Should we output the formula, or the value it has? */
    private boolean outputFormulaValues = true;

    /** For parsing Formulas */
    private SheetRecordCollectingListener workbookBuildingListener;

    // excel2003工作薄
    private HSSFWorkbook stubWorkbook;

    // Records we pick up as we process
    private SSTRecord sstRecord;

    private FormatTrackingHSSFListener formatListener;

    // 表索引
    private int sheetIndex = -1;

    private BoundSheetRecord[] orderedBSRs;

    @SuppressWarnings("unchecked")
    private ArrayList boundSheetRecords = new ArrayList();

    // For handling formulas with string results
    private int nextRow;

    private int nextColumn;

    private boolean outputNextStringRecord;

    // 当前行
    private int curRow = 0;

    // 存储行记录的容器
    private List<String> rowlist = new ArrayList<String>();;

    @SuppressWarnings("unused")
    private String sheetName;

    private IExcelRowReader rowReader;

    public void setRowReader(IExcelRowReader rowReader) {
        this.rowReader = rowReader;
    }

    /**
     * 遍历excel下所有的sheet
     * 
     * @throws IOException
     */
    public void process(String fileName) throws IOException {
        this.fs = new POIFSFileSystem(new FileInputStream(fileName));
        MissingRecordAwareHSSFListener listener = new MissingRecordAwareHSSFListener(this);
        formatListener = new FormatTrackingHSSFListener(listener);
        HSSFEventFactory factory = new HSSFEventFactory();
        HSSFRequest request = new HSSFRequest();
        if (outputFormulaValues) {
            request.addListenerForAllRecords(formatListener);
        } else {
            workbookBuildingListener = new SheetRecordCollectingListener(formatListener);
            request.addListenerForAllRecords(workbookBuildingListener);
        }
        factory.processWorkbookEvents(request, fs);
    }

    /**
     * HSSFListener 监听方法,处理 Record
     */
    @SuppressWarnings("unchecked")
    public void processRecord(Record record) {
        int thisRow = -1;
        int thisColumn = -1;
        String thisStr = null;
        String value = null;
        switch (record.getSid()) {
        case BoundSheetRecord.sid:
            boundSheetRecords.add(record);
            break;
        case BOFRecord.sid:
            BOFRecord br = (BOFRecord) record;
            if (br.getType() == BOFRecord.TYPE_WORKSHEET) {
                // 如果有需要,则建立子工作薄
                if (workbookBuildingListener != null && stubWorkbook == null) {
                    stubWorkbook = workbookBuildingListener.getStubHSSFWorkbook();
                }

                sheetIndex++;
                if (orderedBSRs == null) {
                    orderedBSRs = BoundSheetRecord.orderByBofPosition(boundSheetRecords);
                }
                sheetName = orderedBSRs[sheetIndex].getSheetname();
            }
            break;

        case SSTRecord.sid:
            sstRecord = (SSTRecord) record;
            break;

        case BlankRecord.sid:
            BlankRecord brec = (BlankRecord) record;
            thisRow = brec.getRow();
            thisColumn = brec.getColumn();
            thisStr = "";
            rowlist.add(thisColumn, thisStr);
            break;
        case BoolErrRecord.sid: // 单元格为布尔类型
            BoolErrRecord berec = (BoolErrRecord) record;
            thisRow = berec.getRow();
            thisColumn = berec.getColumn();
            thisStr = berec.getBooleanValue() + "";
            rowlist.add(thisColumn, thisStr);
            break;

        case FormulaRecord.sid: // 单元格为公式类型
            FormulaRecord frec = (FormulaRecord) record;
            thisRow = frec.getRow();
            thisColumn = frec.getColumn();
            if (outputFormulaValues) {
                if (Double.isNaN(frec.getValue())) {
                    // Formula result is a string
                    // This is stored in the next record
                    outputNextStringRecord = true;
                    nextRow = frec.getRow();
                    nextColumn = frec.getColumn();
                } else {
                    thisStr = formatListener.formatNumberDateCell(frec);
                }
            } else {
                thisStr = '"' + HSSFFormulaParser.toFormulaString(stubWorkbook, frec.getParsedExpression()) + '"';
            }
            rowlist.add(thisColumn, thisStr);
            break;
        case StringRecord.sid:// 单元格中公式的字符串
            if (outputNextStringRecord) {
                // String for formula
                StringRecord srec = (StringRecord) record;
                thisStr = srec.getString();
                thisRow = nextRow;
                thisColumn = nextColumn;
                outputNextStringRecord = false;
            }
            break;
        case LabelRecord.sid:
            LabelRecord lrec = (LabelRecord) record;
            curRow = thisRow = lrec.getRow();
            thisColumn = lrec.getColumn();
            value = lrec.getValue().trim();
            value = value.equals("") ? " " : value;
            this.rowlist.add(thisColumn, value);
            break;
        case LabelSSTRecord.sid: // 单元格为字符串类型
            LabelSSTRecord lsrec = (LabelSSTRecord) record;
            curRow = thisRow = lsrec.getRow();
            thisColumn = lsrec.getColumn();
            if (sstRecord == null) {
                rowlist.add(thisColumn, " ");
            } else {
                value = sstRecord.getString(lsrec.getSSTIndex()).toString().trim();
                value = value.equals("") ? " " : value;
                rowlist.add(thisColumn, value);
            }
            break;
        case NumberRecord.sid: // 单元格为数字类型
            NumberRecord numrec = (NumberRecord) record;
            curRow = thisRow = numrec.getRow();
            thisColumn = numrec.getColumn();
            value = formatListener.formatNumberDateCell(numrec).trim();
            value = value.equals("") ? " " : value;
            // 向容器加入列值
            rowlist.add(thisColumn, value);
            break;
        default:
            break;
        }

        // 遇到新行的操作
        if (thisRow != -1 && thisRow != lastRowNumber) {
            lastColumnNumber = -1;
        }

        // 空值的操作
        if (record instanceof MissingCellDummyRecord) {
            MissingCellDummyRecord mc = (MissingCellDummyRecord) record;
            curRow = thisRow = mc.getRow();
            thisColumn = mc.getColumn();
            rowlist.add(thisColumn, " ");
        }

        // 更新行和列的值
        if (thisRow > -1)
            lastRowNumber = thisRow;
        if (thisColumn > -1)
            lastColumnNumber = thisColumn;

        // 行结束时的操作
        if (record instanceof LastCellOfRowDummyRecord) {
            if (minColumns > 0) {
                // 列值重新置空
                if (lastColumnNumber == -1) {
                    lastColumnNumber = 0;
                }
            }
            lastColumnNumber = -1;

            // 每行结束时, 调用getRows() 方法
            rowReader.getRows(sheetIndex, curRow, rowlist);
            // 清空容器
            rowlist.clear();
        }
    }

  
      public static void main(String[] args) {
       IExcelRowReader rowReader = new ExcelRowReader();
      try {
          // ExcelReaderUtil.readExcel(rowReader,
          // "E://2016-07-04-011940a.xls");
            System.out.println("**********************************************");
            ExcelReaderUtil.readExcel(rowReader, "E://test.xlsx");
            } catch (Exception e) {
            e.printStackTrace();
           }
       }


}


07Reader:

  1. package com.boguan.bte.util.excel;  
  2.   
  3. import java.io.IOException;  
  4. import java.io.InputStream;  
  5. import java.util.ArrayList;  
  6. import java.util.Iterator;  
  7. import java.util.List;  
  8. import org.apache.commons.lang.StringUtils;  
  9. import org.apache.poi.openxml4j.exceptions.OpenXML4JException;  
  10. import org.apache.poi.openxml4j.opc.OPCPackage;  
  11. import org.apache.poi.ss.usermodel.BuiltinFormats;  
  12. import org.apache.poi.ss.usermodel.DataFormatter;  
  13. import org.apache.poi.xssf.eventusermodel.XSSFReader;  
  14. import org.apache.poi.xssf.model.SharedStringsTable;  
  15. import org.apache.poi.xssf.model.StylesTable;  
  16. import org.apache.poi.xssf.usermodel.XSSFCellStyle;  
  17. import org.apache.poi.xssf.usermodel.XSSFRichTextString;  
  18. import org.xml.sax.Attributes;  
  19. import org.xml.sax.InputSource;  
  20. import org.xml.sax.SAXException;  
  21. import org.xml.sax.XMLReader;  
  22. import org.xml.sax.helpers.DefaultHandler;  
  23. import org.xml.sax.helpers.XMLReaderFactory;  
  24.   
  25. import com.boguan.bte.service.common.IExcelRowReader;  
  26. import com.boguan.bte.service.common.impl.ExcelRowReader;  
  27.   
  28. /** 
  29.  * 名称: ExcelXlsxReader.java<br> 
  30.  * 描述: <br> 
  31.  * 类型: JAVA<br> 
  32.  * 最近修改时间:2016年7月5日 上午10:00:52<br> 
  33.  *  
  34.  * @since 2016年7月5日 
  35.  * @author “” 
  36.  */  
  37. public class ExcelXlsxReader extends DefaultHandler {  
  38.   
  39.     private IExcelRowReader rowReader;  
  40.   
  41.     public void setRowReader(IExcelRowReader rowReader) {  
  42.         this.rowReader = rowReader;  
  43.     }  
  44.   
  45.     /** 
  46.      * 共享字符串表 
  47.      */  
  48.     private SharedStringsTable sst;  
  49.   
  50.     /** 
  51.      * 上一次的内容 
  52.      */  
  53.     private String lastContents;  
  54.   
  55.     /** 
  56.      * 字符串标识 
  57.      */  
  58.     private boolean nextIsString;  
  59.   
  60.     /** 
  61.      * 工作表索引 
  62.      */  
  63.     private int sheetIndex = -1;  
  64.   
  65.     /** 
  66.      * 行集合 
  67.      */  
  68.     private List<String> rowlist = new ArrayList<String>();  
  69.   
  70.     /** 
  71.      * 当前行 
  72.      */  
  73.     private int curRow = 0;  
  74.   
  75.     /** 
  76.      * 当前列 
  77.      */  
  78.     private int curCol = 0;  
  79.   
  80.     /** 
  81.      * T元素标识 
  82.      */  
  83.     private boolean isTElement;  
  84.   
  85.     /** 
  86.      * 异常信息,如果为空则表示没有异常 
  87.      */  
  88.     private String exceptionMessage;  
  89.   
  90.     /** 
  91.      * 单元格数据类型,默认为字符串类型 
  92.      */  
  93.     private CellDataType nextDataType = CellDataType.SSTINDEX;  
  94.   
  95.     private final DataFormatter formatter = new DataFormatter();  
  96.   
  97.     private short formatIndex;  
  98.   
  99.     private String formatString;  
  100.   
  101.     // 定义前一个元素和当前元素的位置,用来计算其中空的单元格数量,如A6和A8等  
  102.     private String preRef = null, ref = null;  
  103.   
  104.     // 定义该文档一行最大的单元格数,用来补全一行最后可能缺失的单元格  
  105.     private String maxRef = null;  
  106.   
  107.     /** 
  108.      * 单元格 
  109.      */  
  110.     private StylesTable stylesTable;  
  111.   
  112.     /** 
  113.      * 遍历工作簿中所有的电子表格 
  114.      *  
  115.      * @param filename 
  116.      * @throws IOException 
  117.      * @throws OpenXML4JException 
  118.      * @throws SAXException 
  119.      * @throws Exception 
  120.      */  
  121.     public void process(String filename) throws IOException, OpenXML4JException, SAXException {  
  122.         OPCPackage pkg = OPCPackage.open(filename);  
  123.         XSSFReader xssfReader = new XSSFReader(pkg);  
  124.         stylesTable = xssfReader.getStylesTable();  
  125.         SharedStringsTable sst = xssfReader.getSharedStringsTable();  
  126.         XMLReader parser = this.fetchSheetParser(sst);  
  127.         Iterator<InputStream> sheets = xssfReader.getSheetsData();  
  128.         while (sheets.hasNext()) {  
  129.             curRow = 0;  
  130.             sheetIndex++;  
  131.             InputStream sheet = sheets.next();  
  132.             InputSource sheetSource = new InputSource(sheet);  
  133.             parser.parse(sheetSource);  
  134.             sheet.close();  
  135.         }  
  136.     }  
  137.   
  138.     public XMLReader fetchSheetParser(SharedStringsTable sst) throws SAXException {  
  139.         XMLReader parser = XMLReaderFactory.createXMLReader("org.apache.xerces.parsers.SAXParser");  
  140.         this.sst = sst;  
  141.         parser.setContentHandler(this);  
  142.         return parser;  
  143.     }  
  144.   
  145.     public void startElement(String uri, String localName, String name, Attributes attributes) throws SAXException {  
  146.         // c => 单元格  
  147.         if ("c".equals(name)) {  
  148.             // 前一个单元格的位置  
  149.             if (preRef == null) {  
  150.                 preRef = attributes.getValue("r");  
  151.             } else {  
  152.                 preRef = ref;  
  153.             }  
  154.             // 当前单元格的位置  
  155.             ref = attributes.getValue("r");  
  156.             // 设定单元格类型  
  157.             this.setNextDataType(attributes);  
  158.             // Figure out if the value is an index in the SST  
  159.             String cellType = attributes.getValue("t");  
  160.             if (cellType != null && cellType.equals("s")) {  
  161.                 nextIsString = true;  
  162.             } else {  
  163.                 nextIsString = false;  
  164.             }  
  165.         }  
  166.   
  167.         // 当元素为t时  
  168.         if ("t".equals(name)) {  
  169.             isTElement = true;  
  170.         } else {  
  171.             isTElement = false;  
  172.         }  
  173.   
  174.         // 置空  
  175.         lastContents = "";  
  176.     }  
  177.   
  178.     /** 
  179.      * 单元格中的数据可能的数据类型 
  180.      */  
  181.     enum CellDataType {  
  182.         BOOL, ERROR, FORMULA, INLINESTR, SSTINDEX, NUMBER, DATE, NULL  
  183.     }  
  184.   
  185.     /** 
  186.      * 处理数据类型 
  187.      *  
  188.      * @param attributes 
  189.      */  
  190.     public void setNextDataType(Attributes attributes) {  
  191.         nextDataType = CellDataType.NUMBER;  
  192.         formatIndex = -1;  
  193.         formatString = null;  
  194.         String cellType = attributes.getValue("t");  
  195.         String cellStyleStr = attributes.getValue("s");  
  196.         String columData = attributes.getValue("r");  
  197.   
  198.         if ("b".equals(cellType)) {  
  199.             nextDataType = CellDataType.BOOL;  
  200.         } else if ("e".equals(cellType)) {  
  201.             nextDataType = CellDataType.ERROR;  
  202.         } else if ("inlineStr".equals(cellType)) {  
  203.             nextDataType = CellDataType.INLINESTR;  
  204.         } else if ("s".equals(cellType)) {  
  205.             nextDataType = CellDataType.SSTINDEX;  
  206.         } else if ("str".equals(cellType)) {  
  207.             nextDataType = CellDataType.FORMULA;  
  208.         }  
  209.   
  210.         if (cellStyleStr != null) {  
  211.             int styleIndex = Integer.parseInt(cellStyleStr);  
  212.             XSSFCellStyle style = stylesTable.getStyleAt(styleIndex);  
  213.             formatIndex = style.getDataFormat();  
  214.             formatString = style.getDataFormatString();  
  215.   
  216.             if ("m/d/yy" == formatString) {  
  217.                 nextDataType = CellDataType.DATE;  
  218.                 formatString = "yyyy-MM-dd hh:mm:ss.SSS";  
  219.             }  
  220.   
  221.             if (formatString == null) {  
  222.                 nextDataType = CellDataType.NULL;  
  223.                 formatString = BuiltinFormats.getBuiltinFormat(formatIndex);  
  224.             }  
  225.         }  
  226.     }  
  227.   
  228.     /** 
  229.      * 对解析出来的数据进行类型处理 
  230.      *  
  231.      * @param value 
  232.      *            单元格的值(这时候是一串数字) 
  233.      * @param thisStr 
  234.      *            一个空字符串 
  235.      * @return 
  236.      */  
  237.     @SuppressWarnings("deprecation")  
  238.     public String getDataValue(String value, String thisStr) {  
  239.         switch (nextDataType) {  
  240.         // 这几个的顺序不能随便交换,交换了很可能会导致数据错误  
  241.         case BOOL:  
  242.             char first = value.charAt(0);  
  243.             thisStr = first == '0' ? "FALSE" : "TRUE";  
  244.             break;  
  245.         case ERROR:  
  246.             thisStr = "\"ERROR:" + value.toString() + '"';  
  247.             break;  
  248.         case FORMULA:  
  249.             thisStr = '"' + value.toString() + '"';  
  250.             break;  
  251.         case INLINESTR:  
  252.             XSSFRichTextString rtsi = new XSSFRichTextString(value.toString());  
  253.   
  254.             thisStr = rtsi.toString();  
  255.             rtsi = null;  
  256.             break;  
  257.         case SSTINDEX:  
  258.             String sstIndex = value.toString();  
  259.             try {  
  260.                 int idx = Integer.parseInt(sstIndex);  
  261.                 XSSFRichTextString rtss = new XSSFRichTextString(sst.getEntryAt(idx));  
  262.                 thisStr = rtss.toString();  
  263.                 rtss = null;  
  264.             } catch (NumberFormatException ex) {  
  265.                 thisStr = value.toString();  
  266.             }  
  267.             break;  
  268.         case NUMBER:  
  269.             if (formatString != null) {  
  270.                 thisStr = formatter.formatRawCellContents(Double.parseDouble(value), formatIndex, formatString).trim();  
  271.             } else {  
  272.                 thisStr = value;  
  273.             }  
  274.   
  275.             thisStr = thisStr.replace("_""").trim();  
  276.             break;  
  277.         case DATE:  
  278.             thisStr = formatter.formatRawCellContents(Double.parseDouble(value), formatIndex, formatString);  
  279.   
  280.             // 对日期字符串作特殊处理  
  281.             thisStr = thisStr.replace(" ""T");  
  282.             break;  
  283.         default:  
  284.             thisStr = " ";  
  285.   
  286.             break;  
  287.         }  
  288.   
  289.         return thisStr;  
  290.     }  
  291.   
  292.     @Override  
  293.     public void endElement(String uri, String localName, String name) throws SAXException {  
  294.         // 根据SST的索引值的到单元格的真正要存储的字符串  
  295.         // 这时characters()方法可能会被调用多次  
  296.         if (nextIsString  && && StringUtils.isNotEmpty(lastContents) && StringUtils.isNumeric(lastContents)) {  
  297.             int idx = Integer.parseInt(lastContents);  
  298.             lastContents = new XSSFRichTextString(sst.getEntryAt(idx)).toString();  
  299.         }  
  300.   
  301.         // t元素也包含字符串  
  302.         if (isTElement) {  
  303.             // 将单元格内容加入rowlist中,在这之前先去掉字符串前后的空白符  
  304.             String value = lastContents.trim();  
  305.             rowlist.add(curCol, value);  
  306.             curCol++;  
  307.             isTElement = false;  
  308.         } else if ("v".equals(name)) {  
  309.             // v => 单元格的值,如果单元格是字符串则v标签的值为该字符串在SST中的索引  
  310.             String value = this.getDataValue(lastContents.trim(), "");  
  311.             // 补全单元格之间的空单元格  
  312.             if (!ref.equals(preRef)) {  
  313.                 int len = countNullCell(ref, preRef);  
  314.                 for (int i = 0; i < len; i++) {  
  315.                     rowlist.add(curCol, "");  
  316.                     curCol++;  
  317.                 }  
  318.             }  
  319.             rowlist.add(curCol, value);  
  320.             curCol++;  
  321.         } else {  
  322.             // 如果标签名称为 row ,这说明已到行尾,调用 optRows() 方法  
  323.             if (name.equals("row")) {  
  324.                 // 默认第一行为表头,以该行单元格数目为最大数目  
  325.                 if (curRow == 0) {  
  326.                     maxRef = ref;  
  327.                 }  
  328.                 // 补全一行尾部可能缺失的单元格  
  329.                 if (maxRef != null) {  
  330.                     int len = countNullCell(maxRef, ref);  
  331.                     for (int i = 0; i <= len; i++) {  
  332.                         rowlist.add(curCol, "");  
  333.                         curCol++;  
  334.                     }  
  335.                 }  
  336.                 rowReader.getRows(sheetIndex, curRow, rowlist);  
  337.   
  338.                 rowlist.clear();  
  339.                 curRow++;  
  340.                 curCol = 0;  
  341.                 preRef = null;  
  342.                 ref = null;  
  343.             }  
  344.         }  
  345.     }  
  346.   
  347.     /** 
  348.      * 计算两个单元格之间的单元格数目(同一行) 
  349.      *  
  350.      * @param ref 
  351.      * @param preRef 
  352.      * @return 
  353.      */  
  354.     public int countNullCell(String ref, String preRef) {  
  355.         // excel2007最大行数是1048576,最大列数是16384,最后一列列名是XFD  
  356.         String xfd = ref.replaceAll("\\d+""");  
  357.         String xfd_1 = preRef.replaceAll("\\d+""");  
  358.   
  359.         xfd = fillChar(xfd, 3'@'true);  
  360.         xfd_1 = fillChar(xfd_1, 3'@'true);  
  361.   
  362.         char[] letter = xfd.toCharArray();  
  363.         char[] letter_1 = xfd_1.toCharArray();  
  364.         int res = (letter[0] - letter_1[0]) * 26 * 26 + (letter[1] - letter_1[1]) * 26 + (letter[2] - letter_1[2]);  
  365.         return res - 1;  
  366.     }  
  367.   
  368.     /** 
  369.      * 字符串的填充 
  370.      *  
  371.      * @param str 
  372.      * @param len 
  373.      * @param let 
  374.      * @param isPre 
  375.      * @return 
  376.      */  
  377.     String fillChar(String str, int len, char let, boolean isPre) {  
  378.         int len_1 = str.length();  
  379.         if (len_1 < len) {  
  380.             if (isPre) {  
  381.                 for (int i = 0; i < (len - len_1); i++) {  
  382.                     str = let + str;  
  383.                 }  
  384.             } else {  
  385.                 for (int i = 0; i < (len - len_1); i++) {  
  386.                     str = str + let;  
  387.                 }  
  388.             }  
  389.         }  
  390.         return str;  
  391.     }  
  392.   
  393.     @Override  
  394.     public void characters(char[] ch, int start, int length) throws SAXException {  
  395.         // 得到单元格内容的值  
  396.         lastContents += new String(ch, start, length);  
  397.     }  
  398.   
  399.     /** 
  400.      * @return the exceptionMessage 
  401.      */  
  402.     public String getExceptionMessage() {  
  403.         return exceptionMessage;  
  404.     }  
  405.   
  406.     public static void main(String[] args) {  
  407.         IExcelRowReader rowReader = new ExcelRowReader();  
  408.         try {  
  409.             // ExcelReaderUtil.readExcel(rowReader,  
  410.             // "E://2016-07-04-011940a.xls");  
  411.             System.out.println("**********************************************");  
  412.             ExcelReaderUtil.readExcel(rowReader, "E://test.xlsx");  
  413.         } catch (Exception e) {  
  414.             e.printStackTrace();  
  415.         }  
  416.     }  
  417. }  

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值