Gecco的简单使用（附demo）该文章仅用于学习，谢谢

最新推荐文章于 2024-05-12 09:35:50 发布

观棋老人

最新推荐文章于 2024-05-12 09:35:50 发布

阅读量1.3k

点赞数

分类专栏： Gecco 爬虫 java 文章标签： Gecco 爬虫

本文链接：https://blog.csdn.net/weixin_44129779/article/details/103196889

版权

本文介绍了Gecco在网页爬虫中的应用，通过Maven配置引入，展示了如何使用Gecco的Frist、Frist_type和Second类来锁定和爬取网页内容。内容包括从基本的HTML元素爬取到利用爬取到的URL进行二次爬取的实现，揭示了Gecco进行多轮回爬取的机制。

摘要由CSDN通过智能技术生成

观看以下代码，需要了解一些@操作，因此请先看http://www.geccocrawler.com/sysc-5/

Gecco的Maven的xml引入

  <dependencies>
        <dependency>
            <groupId>com.geccocrawler</groupId>
            <artifactId>gecco</artifactId>
            <version>1.3.0</version>
        </dependency>
        <dependency>
            <groupId>com.geccocrawler</groupId>
            <artifactId>gecco-spring</artifactId>
            <version>1.3.0</version>
        </dependency>
        <dependency>
            <groupId>com.geccocrawler</groupId>
            <artifactId>gecco-htmlunit</artifactId>
            <version>1.0.9</version>
        </dependency>
        <dependency>
            <groupId>com.geccocrawler</groupId>
            <artifactId>gecco-redis</artifactId>
            <version>1.3.0</version>
        </dependency>
    </dependencies>

Gecco的简单代码

1.Frist 第一个，用于锁定需要爬取的代码块，如下面代码的@HtmlField(cssPath)的内容，就是锁定了专属的dl，如下代码的main是爬取开始的地方，可以写在其它类里

在这里插入图片描述

package cn.baibai;

import com.geccocrawler.gecco.GeccoEngine;
import com.geccocrawler.gecco.annotation.Gecco;
import com.geccocrawler.gecco.annotation.HtmlField;
import com.geccocrawler.gecco

最低0.47元/天解锁文章

观棋老人

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Gecco的简单使用（附demo）该文章仅用于学习，谢谢

Gecco的简单使用（附demo）该文章仅用于学习，谢谢Gecco的Maven的xml引入Gecco的简单代码1.Frist 第一个，用于锁定需要爬取的代码块，如下面代码的@HtmlField(cssPath)的内容，就是锁定了专属的dl，如下代码的main是爬取开始的地方，可以写在其它类里2.Frist_type 第二个，表示Frist的拓展，在dl的下面进行细节爬取，这样做可以降低搜索时间和减...
复制链接

扫一扫

专栏目录