网页解析

最新推荐文章于 2024-07-30 17:35:21 发布

Masol126

最新推荐文章于 2024-07-30 17:35:21 发布

阅读量4.2k

点赞数

分类专栏： java 文章标签： java

本文链接：https://blog.csdn.net/weixin_49349430/article/details/110621798

版权

本文档详细介绍了如何使用Java进行网页解析，包括创建SpringBoot项目，解析网页数据并输出到控制台，连接Elasticsearch（ES）创建索引，将数据存入ES，以及最终将数据展示到前端的过程。

摘要由CSDN通过智能技术生成

在网络爬虫的系统框架中，主过程由控制，解析，资源库三部分组成。解析是负责网络爬虫的一个部分，其负责的工作主要有：下载网页的功能，对网页的文本进行处理，如过滤功能，抽取特殊HTML标签的功能，分析数据功能。

1. 网页解析：

是来自某些网站搜集来的资料，这些资料包含编号，名称，图片，链接等等元素，在这里只是将信息从标签中提取出来

获取请求返回的页面信息，筛选出我们想要的数据就可以了,有时候我们需要去一些网站上抓取数据，要想抓取数据，就必须先了解网页结构，根据具体的网页结构，编写对应的程序对数据进行采集

2. 通过java来将网页数据解析出来

2.1 创建项目

创建一个springboot项目，导入依赖

   <properties>
        <java.version>1.8</java.version>
        <!--自己定义es版本，保证和本地的一致-->
        <elasticsearch.version>6.5.4</elasticsearch.version>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
        </dependency>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>

        <!--热部署-->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-devtools</artifactId>
            <scope>runtime</scope>
            <optional>true</optional>
        </dependency>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-configuration-processor</artifactId>
            <optional>true</optional>
        </dependency>
        <dependency>
            <groupId>org.projectlombok</groupId>
            <artifactId>lombok</artifactId>
            <optional>true</optional>
        </dependency>

        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>fastjson</artifactId>
            <version>1.2.73</version>
        </dependency</