网页解析

本文档详细介绍了如何使用Java进行网页解析,包括创建SpringBoot项目,解析网页数据并输出到控制台,连接Elasticsearch(ES)创建索引,将数据存入ES,以及最终将数据展示到前端的过程。
摘要由CSDN通过智能技术生成

在网络爬虫的系统框架中,主过程由控制,解析,资源库三部分组成。解析是负责网络爬虫的一个部分,其负责的工作主要有:下载网页的功能,对网页的文本进行处理,如过滤功能,抽取特殊HTML标签的功能,分析数据功能。

1. 网页解析:

是来自某些网站搜集来的资料,这些资料包含编号,名称,图片,链接等等元素,在这里只是将信息从标签中提取出来

image-20201031155135314

获取请求返回的页面信息,筛选出我们想要的数据就可以了,有时候我们需要去一些网站上抓取数据,要想抓取数据,就必须先了解网页结构,根据具体的网页结构,编写对应的程序对数据进行采集

2. 通过java来将网页数据解析出来
2.1 创建项目

创建一个springboot项目,导入依赖

   <properties>
        <java.version>1.8</java.version>
        <!--自己定义es版本,保证和本地的一致-->
        <elasticsearch.version>6.5.4</elasticsearch.version>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
        </dependency>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>

        <!--热部署-->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-devtools</artifactId>
            <scope>runtime</scope>
            <optional>true</optional>
        </dependency>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-configuration-processor</artifactId>
            <optional>true</optional>
        </dependency>
        <dependency>
            <groupId>org.projectlombok</groupId>
            <artifactId>lombok</artifactId>
            <optional>true</optional>
        </dependency>

        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>fastjson</artifactId>
            <version>1.2.73</version>
        </dependency</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值