Spring Boot html页面解析之jsoup

本文介绍了在Spring Boot项目中使用jsoup进行HTML解析,包括解析的目的、jsoup和htmlparser的对比,以及如何将doc文档转换为XML文件的过程。通过示例代码展示了jsoup的使用方法和测试类。
摘要由CSDN通过智能技术生成

目的

我们要对一个页面进行数据抓取,并导出doc文档

html解析器

jsoup

直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。

htmlparser

提供了线性和嵌套两种方式来解析网页,主要用于 html 网页的转换(Transformation) 以及网页内容的抽取 (Extraction)。

jsoup和htmlparser对比

jsoup可以直接拿,类似jquery的选择器一样用起来比较好上手。htmlparser结构简单功能强大,难上手,但是自主度高

准备doc文档并另存为xml文件

在这里插入图片描述

项目图片

在这里插入图片描述

pom.xml
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.10.1</version>
</dependency>
操作流程

把xml文件修改名为Hibernate.ftl后拷贝文件到src/main/resources

原来xml文件

<w:body>
    <w:p>
        <w:pPr>
            <w:pStyle w:val="2" />
            <w:jc w:val="center" />
            <w:rPr>
                <w:rFonts w:hint="eastAsia" />
                <w:lang w:val="en-US" w:eastAsia="zh-CN" />
            </w:rPr>
        </w:pPr>
        <w:r>
            <w:rPr>
                <w:rFonts w:hint="eastAsia" />
                <w:lang w:val="en-US" w:eastAsia="zh-CN" />
            </w:rPr>
            <w:t>Hibernate</w:t>
        </w:r>
    </w:p>
    <w:p>
        <w:pPr>
            <w:rPr>
                <w:rFonts w:hint="eastAsia" w:ascii="微软雅黑" w:hAnsi="微软雅黑" w:eastAsia="微软雅黑" w:cs="微软雅黑" />
                <w:b w:val="0" />
                <w:i w:val="0" />
                <w:caps w:val="0" />
                <w:color w:val="555555" />
                <w:spacing w:val="0" />
                <w:sz w:val="21" />
                <w:szCs w:val="21" />
                <w:shd w:val="clear" w:color="auto" w:fill="FFFFFF" />
            </w:rPr>
        </w:pPr>
        <w:r>
            <w:rPr>
                <w:rFonts w:ascii="微软雅黑" w:hAnsi="微软雅黑" w:eastAsia="微软雅黑" w:cs="微软雅黑" />
                <w:b w:val="0" />
                <w:i w:val="0" />
                <w:caps w:val="0" />
                <w:color w:val="555555" />
                <w:spacing w:val="0" />
                <w:sz w:val="21" />
                <w:szCs w:val="21" />
                <w:shd w:val="clear" w:color="auto" w:fill="FFFFFF" />
            </w:rPr>
            <w:t>你还在为不知道怎样正确使用Hibernate而纠结吗</w:t>
        </w:r>
        <w:r>
            <w:rPr>
                <w:rFonts w:ascii="微软雅黑" w:hAnsi="微软雅黑" w:eastAsia="微软雅黑" w:cs="微软雅黑" />
                <w:b w:val="0" />
                <w:i w:val="0" />
                <w:caps w:val="0" />
                <w:color w:val="555555" />
                <w:spacing w:val="0" />
                <w:sz w:val="21" />
   
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值