(一)java项目中的文档转换案例实战——PDF转换为网页HTML

19 篇文章 2 订阅

前言 

由于在开发中需要适配不同的多端应用,在文件相关处理中也会存在相同的问题需要将文档转换为不同的格式展示,本节我们主要通过 一个小案例实现在 java环境下实现 PDF格式转换为网页HTML格式。

正文

  • 引入转换pdf的pom工具包
<!--pdf转化为html或者图片-->
<dependency>
	<groupId>net.sf.cssbox</groupId>
	<artifactId>pdf2dom</artifactId>
	<version>1.7</version>
</dependency>
<dependency>
	<groupId>org.apache.pdfbox</groupId>
	<artifactId>pdfbox</artifactId>
	<version>2.0.12</version>
</dependency>
<dependency>
	<groupId>org.apache.pdfbox</groupId>
	<artifactId>pdfbox-tools</artifactId>
	<version>2.0.12</version>
</dependency>

  •  后端转换代码
package com.yundi.atp.platform.module.test.controller;

import cn.hutool.core.codec.Base64;
import cn.hutool.core.io.FileUtil;
import com.baomidou.mybatisplus.core.toolkit.IdWorker;
import io.swagger.annotations.Api;
import io.swagger.annotations.ApiOperation;
import org.apache.commons.io.IOUtils;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.web.bind.annotation.PostMapping;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;
import org.springframework.web.multipart.MultipartFile;

import javax.imageio.ImageIO;
import javax.servlet.http.HttpServletResponse;
import java.awt.image.BufferedImage;
import java.io.*;
import java.net.URLEncoder;
import java.nio.charset.StandardCharsets;

/**
 * @Author: beiming
 * @Description:
 * @Date: 2021/12/17 18:29
 * @Version: 1.0.0
 */
@Api(tags = {"文件转换"})
@RestController
@RequestMapping(value = "/fileTransfer")
public class FileTransferController {
    @Value(value = "${atp.dir}")
    private String dirTmp;

    @ApiOperation(value = "pdf转换为html")
    @PostMapping(value = "pdfToHtml")
    public void pdfToHtml(HttpServletResponse response, MultipartFile file) {
        try {
            StringBuffer buffer = new StringBuffer();
            PDDocument doc = PDDocument.load(file.getInputStream());
            //遍历处理pdf附件
            buffer.append("<!doctype html>\r\n");
            buffer.append("<head>\r\n");
            buffer.append("<meta charset=\"UTF-8\">\r\n");
            buffer.append("</head>\r\n");
            buffer.append("<body>\r\n");
            buffer.append("<style>\r\n");
            buffer.append("img {background-color:#fff; text-align:center; width:100%; max-width:100%;}\r\n");
            buffer.append("</style>\r\n");
            int size = doc.getNumberOfPages();
            PDFRenderer reader = new PDFRenderer(doc);
            for (int i = 0; i < size; i++) {
                BufferedImage bufferedImage = reader.renderImage(i, 3f);
                //文件临时存储目录
                String location = System.getProperty("user.dir") + "/" + dirTmp;
                //生成图片,保存位置
                FileOutputStream out = new FileOutputStream(location + "/" + i + ".jpg");
                ImageIO.write(bufferedImage, "jpg", out);
                String encode = Base64.encode(new File(location + "/" + i + ".jpg"));
                //将图片路径追加到网页文件里
                buffer.append("<img src=\"data:image/jpg;base64," + encode + "\"/>\r\n");
                out.close();
                FileUtil.del(location + "/" + i + ".jpg");
            }
            doc.close();
            buffer.append("</body>\r\n");
            buffer.append("</html>");
            InputStream inputStream = IOUtils.toInputStream(buffer.toString(), StandardCharsets.UTF_8);
            response.reset();
            response.setContentType("");
            response.setHeader("Content-Disposition", "inline; filename=" + URLEncoder.encode(IdWorker.getIdStr(), "UTF-8"));
            byte[] buf = new byte[1024];
            int len;
            OutputStream outputStream = response.getOutputStream();
            while ((len = inputStream.read(buf)) > 0) {
                outputStream.write(buf, 0, len);
            }
            inputStream.close();
            outputStream.close();
        } catch (IOException ioException) {
            ioException.printStackTrace();
        }
    }


}

  •  前端代码
<template>
  <div class="container">
    <div class="title">
      <span>PDF转换为HTML示例</span>
      <el-divider direction="vertical"></el-divider>
      <router-link to="home">
        <span style="font-size: 18px;">退出</span>
      </router-link>
    </div>
    <el-divider>Test Staring</el-divider>
    <div style="text-align: center;">
      <el-upload
          ref="upload"
          class="upload-demo"
          drag
          :on-success="handlerOnSuccess"
          action="/fileTransfer/pdfToHtml">
        <i class="el-icon-upload"></i>
        <div class="el-upload__text">将文件拖到此处,或<em>点击上传</em></div>
        <div class="el-upload__tip" slot="tip">只能上传PDF文件,且不超过50MB</div>
      </el-upload>
    </div>
  </div>
</template>

<script>
export default {
  name: "PdfToHtml",
  data() {
    return {}
  },
  methods: {
    //文件上传成功的回调
    handlerOnSuccess(data) {
      const url = window.URL.createObjectURL(new Blob([data], {type: 'text/html'}));
      const link = document.createElement('a');
      link.href = url;
      link.setAttribute('download', 'test.html') // 下载文件的名称及文件类型后缀
      document.body.appendChild(link)
      link.click();
      document.body.removeChild(link); // 下载完成移除元素
      window.URL.revokeObjectURL(url); // 释放掉blob对象
    }
  }
}
</script>

<style scoped lang="scss">
.container {
  padding: 10px;

  .title {
    font-size: 20px;
    font-weight: bold;
  }
}
</style>

  •  验证结果

结语

ok,关于PDF转换为网页HTML的案例实战到这里就结束了,我们下期见。。。

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
要实现word文档转换pdf以及pdf转换为word文档的功能,可以使用Apache POI和iText库来实现。 1. WordPDF: 首先,需要引入Apache POI和iText库的依赖。 ```xml <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version>4.0.1</version> </dependency> <dependency> <groupId>com.itextpdf</groupId> <artifactId>itextpdf</artifactId> <version>5.5.13</version> </dependency> ``` 然后,实现将Word文档转换PDF的代码: ```java import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.InputStream; import java.io.OutputStream; import org.apache.poi.xwpf.converter.pdf.PdfConverter; import org.apache.poi.xwpf.usermodel.XWPFDocument; public class WordToPdf { public static void main(String[] args) { try { File inputFile = new File("input.docx"); InputStream inputStream = new FileInputStream(inputFile); XWPFDocument document = new XWPFDocument(inputStream); File outputFile = new File("output.pdf"); OutputStream outputStream = new FileOutputStream(outputFile); PdfConverter.getInstance().convert(document, outputStream, null); } catch (Exception e) { e.printStackTrace(); } } } ``` 2. PDFWord: 同样需要引入Apache POI和iText库的依赖。 ```xml <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version>4.0.1</version> </dependency> <dependency> <groupId>com.itextpdf</groupId> <artifactId>itextpdf</artifactId> <version>5.5.13</version> </dependency> ``` 然后,实现将PDF文档转换为Word的代码: ```java import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.InputStream; import java.io.OutputStream; import org.apache.poi.xwpf.usermodel.XWPFDocument; import com.itextpdf.text.pdf.PdfReader; import com.itextpdf.text.pdf.parser.PdfTextExtractor; public class PdfToWord { public static void main(String[] args) { try { File inputFile = new File("input.pdf"); PdfReader reader = new PdfReader(new FileInputStream(inputFile)); int n = reader.getNumberOfPages(); String content = ""; for (int i = 1; i <= n; i++) { content += PdfTextExtractor.getTextFromPage(reader, i); } reader.close(); XWPFDocument document = new XWPFDocument(); document.createParagraph().createRun().setText(content); File outputFile = new File("output.docx"); OutputStream outputStream = new FileOutputStream(outputFile); document.write(outputStream); outputStream.close(); } catch (Exception e) { e.printStackTrace(); } } } ``` 上述代码,我们使用iText库提供的PdfReader和PdfTextExtractor类来读取PDF文档内容,并将其转换为字符串。然后,通过Apache POI库的XWPFDocument类来创建一个Word文档对象,将PDF文档内容添加到Word文档,最后将Word文档输出到文件。 需要注意的是,PDF文档转换为Word文档时,可能会出现格式错乱的情况,需要根据实际情况进行调整。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

厉害哥哥吖

您的支持是我创作下去的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值