Apache POI自动生成Word文档（带目录）

最新推荐文章于 2024-09-05 15:04:58 发布

zhangyy130

最新推荐文章于 2024-09-05 15:04:58 发布

阅读量3k

点赞数 24

文章标签：笔记

本文链接：https://blog.csdn.net/zhangyy130/article/details/138660106

版权

1 什么是Apache POI
2 Apache POI的组件
3 安装Apache POI
4 使用POI操作Word文档

1 什么是Apache POI

全称Apache POI，使用Java编写的免费开源的跨平台的Java API。是创建和维护操作各种符合 Office Open XML（OOXML）标准和微软的 OLE 2 复合文档格式（OLE2）的 Java API。用它可以使用 Java 读取和创建, 修改 MS Excel 文件. 而且, 还可以使用 Java 读取和创建 MS Word 和 MSPowerPoint 文件。Apache POI 提供 Java 操作 Excel 解决方案（适用于 Excel97-2008）。

2 Apache POI的组件

Apache POI包含用于MS-Office的所有OLE2复合文档的类和方法。此API的组件列表如下：

POIFS:此组件是所有其他POI元素的基本因素。它用于显式读取不同的文件。
HSSF:用于读取和写入.xls格式的MS-Excel文件。
XSSF(XML SpreadSheet格式):用于MS-Excel的.xlsx文件格式。
HPSF:用于提取MS-Office文件的属性集。
HWPF:用于读取和写入MS-Word的.doc扩展文件。
XWPF(XML字处理器格式):用于读取和写入MS-Word的扩展文件 .docx 。
HSLF:用于阅读，创建和编辑PowerPoint演示文稿。
HDGF(Horrible DiaGram格式):它包含MS-Visio二进制文件的类和方法。
HPBF(Horrible PuBlisher格式):用于读取和写入MS-Publisher文件。

3 安装Apache POI

使用Maven依赖的方式，主要是下面三个依赖。

操作docx文档需要的jar包有6个：dom4j.jar,poi-ooxml-3.10-FINA.jar,poi-ooxml-schemas-3.10-FINA.jar,xmlbean-2.3.0.jar,commons-lang.jar以及ooxml-schemas-1.1.jar

操作doc文档需要的jar包有poi-3.10-FINAL.jar,poi-scratchpad-3.10-FINA.jar其中操作doc文档对模板的依赖很大，功能相对操作docx的接口很弱。

<!-- https://mvnrepository.com/artifact/org.apache.poi/poi -->
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi</artifactId>
            <version>3.17</version>
        </dependency>

        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-ooxml</artifactId>
            <version>3.17</version>
        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.poi/ooxml-schemas -->
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>ooxml-schemas</artifactId>
            <version>1.1</version>
        </dependency>

4 使用POI操作Word文档

主要是使用POI操作Word文档，主要是写入文档操作的讲解：将网页中的数据导出，自动生成指定格式的Word文档。

4.1 效果展示

（1）在网站中选择需要导出的新闻，生成Word

（2）生成的Word展示

目录页

内容详情页

从上面可以看出，导出的文档含有：

有指定格式的标题、时间、编著者等信息；
会自动生成目录；
有内容详情页；

4.2 功能实现介绍

4.2.1 前提知识：

（1）官方API文档地址

官方文档中主要包括Java操作Office文档的常用类，里面封装了常用的：读、写、设置格式等方法。
例如：操作Word07之后的版本主要是使用XWPFDocument这个对象。

（2）另外，当现有的功能不能满足要求，你需要对现有功能进行重写时。有一个很重要的东西就是ooxml。简单的说，这个就是微软公布的一套使用XML操作Word的开放的标准。详情见下面网址：
http://www.datypic.com/sc/ooxml/s-wml.xsd.html

4.2.2 功能实现说明

（1）功能的整体UML图如下：

image.png

（2）生成单文档

基本的格式设置、写入数据等生成单文档的功能都不难，耐心的对照这官方API去看，基本就可以实现。
下面贴一个生成单文档的例子：
效果：

image.png

代码如下：基本的注释都有，自己跑一下就懂了

public void write2Docx()throws Exception{
        XWPFDocument document= new XWPFDocument();

        //Write the Document in file system
        FileOutputStream out = new FileOutputStream(new File("G:\\Offer\\create_table.docx"));

        //添加标题
        XWPFParagraph titleParagraph = document.createParagraph();
        //设置段落居中
        titleParagraph.setAlignment(ParagraphAlignment.CENTER);

        XWPFRun titleParagraphRun = titleParagraph.createRun();

        titleParagraphRun.setText("Java PoI");
        titleParagraphRun.setColor("000000");
        titleParagraphRun.setFontSize(20);

        //段落
        XWPFParagraph firstParagraph = document.createParagraph();
        XWPFRun run = firstParagraph.createRun();
        run.setText("Java POI 生成word文件。");
        run.setColor("696969");
        run.setFontSize(16);

        //设置段落背景颜色
        CTShd cTShd = run.getCTR().addNewRPr().addNewShd();
        cTShd.setVal(STShd.CLEAR);
        cTShd.setFill("97FFFF");

        //换行
        XWPFParagraph paragraph1 = document.createParagraph();
        XWPFRun paragraphRun1 = paragraph1.createRun();
        paragraphRun1.setText("\r");

        //基本信息表格
        XWPFTable infoTable = document.createTable();
        //去表格边框
        infoTable.getCTTbl().getTblPr().unsetTblBorders();

        //列宽自动分割
        CTTblWidth infoTableWidth = infoTable.getCTTbl().addNewTblPr().addNewTblW();
        infoTableWidth.setType(STTblWidth.DXA);
        infoTableWidth.setW(BigInteger.valueOf(9072));

        //表格第一行
        XWPFTableRow infoTableRowOne = infoTable.getRow(0);
        infoTableRowOne.getCell(0).setText("职位");
        infoTableRowOne.addNewTableCell().setText(": Java 开发工程师");

        //表格第二行
        XWPFTableRow infoTableRowTwo = infoTable.createRow();
        infoTableRowTwo.getCell(0).setText("姓名");
        infoTableRowTwo.getCell(1).setText(": seawater");

        //表格第三行
        XWPFTableRow infoTableRowThree = infoTable.createRow();
        infoTableRowThree.getCell(0).setText("生日");
        infoTableRowThree.getCell(1).setText(": xxx-xx-xx");

        //表格第四行
        XWPFTableRow infoTableRowFour = infoTable.createRow();
        infoTableRowFour.getCell(0).setText("性别");
        infoTableRowFour.getCell(1).setText(": 男");

        //表格第五行
        XWPFTableRow infoTableRowFive = infoTable.createRow();
        infoTableRowFive.getCell(0).setText("现居地");
        infoTableRowFive.getCell(1).setText(": xx");
        CTSectPr sectPr = document.getDocument().getBody().addNewSectPr();
        XWPFHeaderFooterPolicy policy = new XWPFHeaderFooterPolicy(document, sectPr);

        //添加页眉
        CTP ctpHeader = CTP.Factory.newInstance();
        CTR ctrHeader = ctpHeader.addNewR();
        CTText ctHeader = ctrHeader.addNewT();
        String headerText = "ctpHeader";
        ctHeader.setStringValue(headerText);
        XWPFParagraph headerParagraph = new XWPFParagraph(ctpHeader, document);
        //设置为右对齐
        headerParagraph.setAlignment(ParagraphAlignment.RIGHT);
        XWPFParagraph[] parsHeader = new XWPFParagraph[1];
        parsHeader[0] = headerParagraph;
        policy.createHeader(XWPFHeaderFooterPolicy.DEFAULT, parsHeader);

        //添加页脚
        CTP ctpFooter = CTP.Factory.newInstance();
        CTR ctrFooter = ctpFooter.addNewR();
        CTText ctFooter = ctrFooter.addNewT();
        String footerText = "ctpFooter";
        ctFooter.setStringValue(footerText);
        XWPFParagraph footerParagraph = new XWPFParagraph(ctpFooter, document);
        headerParagraph.setAlignment(ParagraphAlignment.CENTER);
        XWPFParagraph[] parsFooter = new XWPFParagraph[1];
        parsFooter[0] = footerParagraph;
        policy.createFooter(XWPFHeaderFooterPolicy.DEFAULT, parsFooter);

        document.write(out);
        out.close();
    }

（3）重点说一说，目录的生成

在API中是提供自动生成目录方法的。

image.png

但这个方法很难在实际应用，举例说明：

image.png

生成代码如下：

public void writeTOC() throws IOException {
        XWPFDocument document= new XWPFDocument();

        //Write the Document in file system
        FileOutputStream out = new FileOutputStream(new File("G:\\Offer\\create_toc.docx"));

        //添加标题
        XWPFParagraph titleParagraph = document.createParagraph();

        //设置段落居中
        titleParagraph.setAlignment(ParagraphAlignment.CENTER);

        XWPFRun titleParagraphRun = titleParagraph.createRun();
        titleParagraphRun.setText("Java PoI");
        titleParagraphRun.setColor("000000");
        titleParagraphRun.setFontSize(20);

        //段落
        XWPFParagraph firstParagraph = document.createParagraph();
        firstParagraph.setStyle("Heading1");
        XWPFRun run = firstParagraph.createRun();
        run.setText("段落1。");
        run.setColor("696969");
        run.setFontSize(18);


        //段落
        XWPFParagraph firstParagraph1 = document.createParagraph();
        firstParagraph.setStyle("Heading1");
        XWPFRun run1 = firstParagraph1.createRun();
        run1.setText("段落2");
        run1.setColor("696969");
        run1.setFontSize(16);

        document.createTOC();

        document.write(out);
        out.close();
    }

可以看出，目录存在如下问题：

没有中文的目录两个字，是英文的Table of Contents。
目录生成的位置不合适，因为createTOC源码方法实际上是读取文档中被Heading1修饰的部分，所以若该语句放在前面，则无法生成目录。

导致问题的源码如下：

image.png

读取文档中被Heading1修饰的部分，作为目录。

image.png

所以，需要自定义目录类。下面是我自定义的生成目录的类，下面代码的效果仅仅是生成了目录两个字：

    public CustomTOC(CTSdtBlock block) {
        this.block = block;
        CTSdtPr sdtPr = block.addNewSdtPr();
        CTDecimalNumber id = sdtPr.addNewId();
        id.setVal(new BigInteger("4844945"));
        sdtPr.addNewDocPartObj().addNewDocPartGallery().setVal("Table of contents");
        CTSdtEndPr sdtEndPr = block.addNewSdtEndPr();
        CTRPr rPr = sdtEndPr.addNewRPr();
        CTFonts fonts = rPr.addNewRFonts();
        fonts.setAsciiTheme(STTheme.MINOR_H_ANSI);
        fonts.setEastAsiaTheme(STTheme.MINOR_H_ANSI);
        fonts.setHAnsiTheme(STTheme.MINOR_H_ANSI);
        fonts.setCstheme(STTheme.MINOR_BIDI);
        rPr.addNewB().setVal(STOnOff.OFF);
        rPr.addNewBCs().setVal(STOnOff.OFF);
        rPr.addNewColor().setVal("auto");
        rPr.addNewSz().setVal(new BigInteger("24"));
        rPr.addNewSzCs().setVal(new BigInteger("24"));
        CTSdtContentBlock content = block.addNewSdtContent();
        CTP p = content.addNewP();
        p.setRsidR("00EF7E24".getBytes(LocaleUtil.CHARSET_1252));
        p.setRsidRDefault("00EF7E24".getBytes(LocaleUtil.CHARSET_1252));
        p.addNewPPr().addNewPStyle().setVal("TOCHeading");
        p.addNewR().addNewT().setStringValue("目     录");//源码中为"Table of contents"
        //设置段落对齐方式，即将“目录”二字居中
        CTPPr pr = p.getPPr();
        CTJc jc = pr.isSetJc() ? pr.getJc() : pr.addNewJc();
        STJc.Enum en = STJc.Enum.forInt(ParagraphAlignment.CENTER.getValue());
        jc.setVal(en);
        //"目录"二字的字体
        CTRPr pRpr = p.getRArray(0).addNewRPr();
        fonts = pRpr.isSetRFonts() ? pRpr.getRFonts() : pRpr.addNewRFonts();
        fonts.setAscii("Times New Roman");
        fonts.setEastAsia("华文中宋");
        fonts.setHAnsi("华文中宋");
        //"目录"二字加粗
        CTOnOff bold = pRpr.isSetB() ? pRpr.getB() : pRpr.addNewB();
        bold.setVal(STOnOff.TRUE);
        // 设置“目录”二字字体大小为24号
        CTHpsMeasure sz = pRpr.isSetSz() ? pRpr.getSz() : pRpr.addNewSz();
        sz.setVal(new BigInteger("36"));
    }

image.png

如此，第一个问题解决，中文的目录二字已经有了。而这段代码就已经涉及到我上面说的第二个重点：ooxml，即使用xml语言来操作文档。如果不去了解这个，上面的代码有很多是看不懂的。这个就需要自己去阅读那个网站上xml的说明了。
上面语句对应的xml如下：

image.png

第二个问题（目录的位置和样式都不合适）的解决就需要更需要涉及ooxml了

首先直接上效果和代码

image.png

添加不带页数的大字栏目

public void addRowOnlyTitle(int level, String title) {
        CTSdtContentBlock contentBlock = this.block.getSdtContent();
        CTP p = contentBlock.addNewP();
        p.setRsidR("00EF7E24".getBytes(LocaleUtil.CHARSET_1252));
        p.setRsidRDefault("00EF7E24".getBytes(LocaleUtil.CHARSET_1252));
        CTPPr pPr = p.addNewPPr();
        pPr.addNewPStyle().setVal("TOC" + level);
        CTTabs tabs = pPr.addNewTabs();//Set of Custom Tab Stops自定义制表符集合
        CTTabStop tab = tabs.addNewTab();//Custom Tab Stop自定义制表符
        tab.setVal(STTabJc.RIGHT);
        tab.setLeader(STTabTlc.DOT);
        tab.setPos(new BigInteger("9190"));//默认为8290，因为调整过页边距，所有需要调整，手动设置找出最佳值
        pPr.addNewRPr().addNewNoProof();//不检查语法
        CTR run = p.addNewR();
        run.addNewRPr().addNewNoProof();
        run.addNewT().setStringValue(title);
        //设置行间距
        CTSpacing pSpacing = pPr.getSpacing() != null ? pPr.getSpacing(): pPr.addNewSpacing();
        pSpacing.setLineRule(STLineSpacingRule.AUTO);//行间距类型：多倍
        pSpacing.setLine(new BigInteger("360"));//此处1.5倍行间距
        pSpacing.setBeforeLines(new BigInteger("20"));//段前0.2
        pSpacing.setAfterLines(new BigInteger("10"));//段后0.1
        //设置字体
        CTRPr pRpr = run.getRPr();
        CTFonts fonts = pRpr.isSetRFonts() ? pRpr.getRFonts() : pRpr.addNewRFonts();
        fonts.setAscii("Times New Roman");
        fonts.setEastAsia("黑体");
        fonts.setHAnsi("黑体");
        // 设置字体大小
        CTHpsMeasure sz = pRpr.isSetSz() ? pRpr.getSz() : pRpr.addNewSz();
        sz.setVal(new BigInteger("24"));

        CTHpsMeasure szCs = pRpr.isSetSzCs() ? pRpr.getSzCs() : pRpr.addNewSzCs();
        szCs.setVal(new BigInteger("24"));
    }

带页数的详细小字栏目

public void addRow(int level, String title, int page, String bookmarkRef) {
        CTSdtContentBlock contentBlock = this.block.getSdtContent();
        CTP p = contentBlock.addNewP();
        p.setRsidR("00EF7E24".getBytes(LocaleUtil.CHARSET_1252));
        p.setRsidRDefault("00EF7E24".getBytes(LocaleUtil.CHARSET_1252));
        CTPPr pPr = p.addNewPPr();
        pPr.addNewPStyle().setVal("TOC" + level);
        CTTabs tabs = pPr.addNewTabs();//Set of Custom Tab Stops自定义制表符集合
        CTTabStop tab = tabs.addNewTab();//Custom Tab Stop自定义制表符
        tab.setVal(STTabJc.RIGHT);
        tab.setLeader(STTabTlc.DOT);
        tab.setPos(new BigInteger("9100"));//默认为8290，因为调整过页边距，所有需要调整，手动设置找出最佳值
        pPr.addNewRPr().addNewNoProof();//不检查语法
        CTR run = p.addNewR();
        run.addNewRPr().addNewNoProof();
        run.addNewT().setStringValue(title);//添加标题文字
        //设置标题字体
        CTRPr pRpr = run.getRPr();
        CTFonts fonts = pRpr.isSetRFonts() ? pRpr.getRFonts() : pRpr.addNewRFonts();
        fonts.setAscii("Times New Roman");
        fonts.setEastAsia("楷体");
        fonts.setHAnsi("楷体");
        // 设置标题字体大小
        CTHpsMeasure sz = pRpr.isSetSz() ? pRpr.getSz() : pRpr.addNewSz();
        sz.setVal(new BigInteger("21"));
        CTHpsMeasure szCs = pRpr.isSetSzCs() ? pRpr.getSzCs() : pRpr.addNewSzCs();
        szCs.setVal(new BigInteger("21"));
        //添加制表符
        run = p.addNewR();
        run.addNewRPr().addNewNoProof();
        run.addNewTab();
        //添加页码左括号
        p.addNewR().addNewT().setStringValue("(");
        //STFldCharType.BEGIN标识与结尾处STFldCharType.END相对应
        run = p.addNewR();
        run.addNewRPr().addNewNoProof();
        run.addNewFldChar().setFldCharType(STFldCharType.BEGIN);//Field Character Type
        // pageref run
        run = p.addNewR();
        run.addNewRPr().addNewNoProof();
        CTText text = run.addNewInstrText();//Field Code 添加域代码文本控件
        text.setSpace(SpaceAttribute.Space.PRESERVE);
        // bookmark reference
        //源码的域名为" PAGEREF _Toc","\h"含义为在目录内建立目录项与页码的超链接
        text.setStringValue(" PAGEREF "+bookmarkRef + " \\h ");
        p.addNewR().addNewRPr().addNewNoProof();
        run = p.addNewR();
        run.addNewRPr().addNewNoProof();
        run.addNewFldChar().setFldCharType(STFldCharType.SEPARATE);
        // page number run
        run = p.addNewR();
        run.addNewRPr().addNewNoProof();
        run.addNewT().setStringValue(Integer.toString(page));
        run = p.addNewR();
        run.addNewRPr().addNewNoProof();
        //STFldCharType.END标识与上面STFldCharType.BEGIN相对应
        run.addNewFldChar().setFldCharType(STFldCharType.END);
        //添加页码右括号
        p.addNewR().addNewT().setStringValue(")");
        //设置行间距
        CTSpacing pSpacing = pPr.getSpacing() != null ? pPr.getSpacing(): pPr.addNewSpacing();
        pSpacing.setLineRule(STLineSpacingRule.AUTO);//行间距类型：多倍
        pSpacing.setLine(new BigInteger("360"));//此处1.5倍行间距
    }

下面代码就能解决目录位置的问题

    /**
     * 写多个文档
     */
    public void writeWordBanch() throws Exception {
        XWPFDocument doc = new XWPFDocument();
        FileOutputStream out = new FileOutputStream(new File("G:\\Offer\\create_OilWord_TOC.docx"));
        FileRedWordDynamic wordFile = new FileRedWordDynamic(doc);
        wordFile.writeFileHead();

        wordFile.createCustomTOC();
        List<News> newsData = DataSource.getInstance().getDataByJDBC();
        wordFile.writeAllNews(newsData);
        wordFile.addItem2TOC();

        doc.write(out);
        out.close();
    }

可以看出源码在创建完目录索引后，立即判断根据Heading1插入目录

image.png

在我重写的方法中将其分为createCustomTOC()和addItem2TOC()分开，先在顶部占位，然后等文档的标题和内容等信息全部写完之后，在写目录剩下的部分，如下：

public void createCustomTOC() {
        CTSdtBlock block = doc.getDocument().getBody().addNewSdt();
        doc.createTOC();
        this.toc = new CustomTOC(block);
        wordSetting.setCustomHeadingStyle(doc, "Heading1", 1);
        wordSetting.setCustomHeadingStyle(doc, "Heading2", 2);
    }

 public void addItem2TOC() {
        List<XWPFParagraph> paragraphs = doc.getParagraphs();
        for (XWPFParagraph par : paragraphs) {
            String parStyle = par.getStyle();
            if (parStyle != null && parStyle.startsWith("Heading")) {
                List<CTBookmark> bookmarkList=par.getCTP().getBookmarkStartList();
                try {
                    int level = Integer.parseInt(parStyle.substring("Heading".length()));
                    if(level==1){
                        //添加栏目
                        toc.addRowOnlyTitle(level, par.getText());
                    }else{
                        //添加标题
                        toc.addRow(level, par.getText(), 1, bookmarkList.get(0).getName());
                    }
                } catch (NumberFormatException e) {
                    e.printStackTrace();
                }
            }
        }
    }

如此，第二个问题也就解决了。

（4）这里面也有个难点

就是如何将内容部分和目录部分建立联系呢？

就是通过下面代码

text.setStringValue(" PAGEREF "+bookmarkRef + " \\h ");

为什么是这样的格式，这个在Word中有说明的

image.png

OK，这一步如果走通了，就好多了。最后就是将需要添加为目录的部分传入对应的设置即可

    public void addItem2TOC() {
        List<XWPFParagraph> paragraphs = doc.getParagraphs();
        for (XWPFParagraph par : paragraphs) {
            String parStyle = par.getStyle();
            if (parStyle != null && parStyle.startsWith("Heading")) {
                List<CTBookmark> bookmarkList=par.getCTP().getBookmarkStartList();
                try {
                    int level = Integer.parseInt(parStyle.substring("Heading".length()));
                    if(level==1){
                        //添加栏目
                        toc.addRowOnlyTitle(level, par.getText());
                    }else{
                        //添加标题
                        toc.addRow(level, par.getText(), 1, bookmarkList.get(0).getName());
                    }
                } catch (NumberFormatException e) {
                    e.printStackTrace();
                }
            }
        }
    }

通过上面的代码，就可以生成目录了。