在Java应用程序的开发过程中,我们经常需要使用Excel文件来进行数据的导入或导出。因此,我们在通过Java语言实现此类需求的时候,往往会面临着Excel文件的解析(导入)或生成(导出)。
我们现在对Excel文件处理的主要方法是用Apache POI。这种方法是将文件直接加载内存,所以速度较快,适合Excel文件数据量不大的应用场景。Apache POI是用Java编写的免费开源的跨平台的Java API,Apache POI提供给Java程序对Microsoft Office格式档案进行读写功能的API开源类库。我们经常使用HSSF和XSSF来解析不同格式的Excel文件。HSSF用于解析旧版本(*.xls)Excel文件,由于旧版本的Excel文件只能存在65535行数据,所以目前已经不常用。所以目前主要采用XSSF进行新版本(*.xlsx)Exce文件的解析。
我们对一个Excel文件进行解析时,是必须要依赖于第三方的Jar包,需在相应网站下载Jar包并导入。
在导入需要的Jar包后,我们就可以用Workbook对Excel文件进行相关操作了,Workbook是一个接口,它代表一个Excel文件,用于创建或加载(解析)Excel文件。常见实现类是XSSFWorkbook、SXSSFWorkbook等。
首先,我们要加载(解析)一个Excel文件,这就涉及到了IO输入流,我们要先用InputStream输入流来读取到Excel文件,然后传入Workbook的Excel文件对象;创建Excel文件也是如此,需先使用OutputStream输出流指定路径,然后传入Workbook的Excel文件对象,最后用Workbook对象的write方法将内存中的数据写到输出流指定的路径的磁盘中。
加载(解析)Excel文件代码如下:
// 输入流
FileInputStream fis = new FileInputStream("c:\\test\\1627356554991.xlsx");
// Excel文件对象
Workbook workbook = new XSSFWorkbook(fis);
创建Excel文件代码如下:
// 输出流
FileOutputStream fos = new FileOutputStream("c:\\test\\temp.xlsx");
// Excel文件对象
Workbook workbook = new XSSFWorkbook();
// 通过输出流进行写入
workbook.write(fos);
// 关闭资源
fos.close();
workbook.close();
我们都知道,应用程序在运行的过程中,如果打开了一个文件进行读写,完成后要及时地关闭,以便让操作系统把资源释放掉,因此,观察上面代码,使用了*.close()方法对文件进行了关闭,我们还有一种更为推荐的方法,利用Java 7引入的新的try(resource)的语法,只需要编写try语句,让编译器自动为我们关闭资源。
具体代码实现如下:
try (Workbook workbook = new XSSFWorkbook();
FileOutputStream fos = new FileOutputStream("c:\\test\\temp.xlsx")) {
workbook.write(fos);
} catch (IOException e) {
e.printStackTrace();
}
我们还通过Workbook来进行工作簿Sheet对象的获取或创建:
// 按照默认名称创建工作簿
Sheet sheet1 = workbook.createSheet();
// 按照自定义名称创建工作簿
Sheet sheet2 = workbook.createSheet("自定义工作簿2");
并且我们在获取工作簿的时候,既可以通过工作簿的名称来获取,也可以通过下标来获取工作簿:
// 按照工作簿下标获取Sheet
Sheet sheet01 = workbook.getSheetAt(0);
// 按照工作簿名称获取Sheet
Sheet sheet02 = workbook.getSheet("Sheet0");
我们还可以通过*.getNumberOfSheets()方法来得到工作簿的数量。
我们可以通过Sheet来进行数据行Row(数据行)对象的获取或创建,关于Roe(数据行),我们有以下方法:
创建数据行(括号里面的参数是数据行的下标):*.createRow(0);
获取首行下标:*.getFirstRowNum();
获取尾行下标:*.getLastRowNum();
根据下标获取指定行:*.getRow(0);
我们还可以通过Row来进行单元格Cell对象的获取或创建,有如下方法:
创建单元格:*.createCell(0);
设置单元格值:*.setCellValue( );
根据下标获取单元格:*.getCell(1);
获取单元格的类型:*.getCellType();
还有设置单元格样式的代码如下:
// 创建单元格样式
DataFormat dataFormat = workbook.createDataFormat();
Short formatCode = dataFormat.getFormat("yyyy-MM-dd HH:mm:ss");
CellStyle cellStyle = workbook.createCellStyle();
cellStyle.setDataFormat(formatCode);
// ...
// 为当前行创建单元格
Cell cell1 = row.createCell(1);
cell1.setCellStyle(cellStyle); // 设置单元格样式
cell1.setCellValue(new Date()); // 保存当前日期时间至本单元格
设置单元格对齐代码如下:
// 创建单元格样式
CellStyle cellStyle = workbook.createCellStyle();
//设置单元格的水平对齐类型。 此时水平居中
cellStyle.setAlignment(HorizontalAlignment.CENTER);
// 设置单元格的垂直对齐类型。 此时垂直靠底边
cellStyle.setVerticalAlignment(VerticalAlignment.BOTTOM);
不过,上面使用的XSSFWorkbook类只适用于Excel文件数据量不大的应用场景下,而如果我们需要操作的Excel文件有几十万甚至几百万行的数据是,我们就不能使用这个类了,因为XSSFWorkbook类是直接将数据读或写进内存中的,如果文件太大,有可能会导致我们电脑的内存溢出,而且还需要运行很长时间,对CPU和内存的消耗都很大,因此,我们可以使用SXSSFWorkbook这个类,顾名思义,SXSSFWorkbook就是super的XSSFWorkbook,它可以对超大Excel文件进行读写操作,我们在使用SXSSFWorkbook进行写入操作时,通过设置SXXFWorkbook的构造参数,可以设置每次在内存中保持的行数,当达到这个值的时候,那么会把这些数据flush到磁盘上,这样就不会出现内存不够的情况;当然,我们还可以使用阿里巴巴公司的Alibaba EasyExcel方法,Alibaba EasyExcel采用逐行读取的解析模式,将每一行的解析结果以观察者的模式通知处理(AnalysisEventListener),所以比较适合数据体量较大的Excel文件解析。
XSSFWorkbook类创建10万行Excel文件代码如下:
SXSSFWorkbook类创建10万行Excel文件代码如下:
EasyExcel创建10万行Excel文件代码如下:
通过上面的三个代码的运行结果来看, SXSSFWorkbook类和 EasyExcel对超大Excel文件进行写入操作所耗时要远比XSSFWorkbook类少的多,而且对内存的消耗不是很大,因此我们在进行超大Excel文件进行操作时,应该用SXSSFWorkbook类或 EasyExcel来解析(导入)或生成(导出)。