Gecco的简单使用(附demo)该文章仅用于学习,谢谢

本文介绍了Gecco在网页爬虫中的应用,通过Maven配置引入,展示了如何使用Gecco的Frist、Frist_type和Second类来锁定和爬取网页内容。内容包括从基本的HTML元素爬取到利用爬取到的URL进行二次爬取的实现,揭示了Gecco进行多轮回爬取的机制。
摘要由CSDN通过智能技术生成

Gecco的简单使用(附demo)该文章仅用于学习,谢谢

观看以下代码,需要了解一些@操作,因此请先看http://www.geccocrawler.com/sysc-5/

Gecco的Maven的xml引入

  <dependencies>
        <dependency>
            <groupId>com.geccocrawler</groupId>
            <artifactId>gecco</artifactId>
            <version>1.3.0</version>
        </dependency>
        <dependency>
            <groupId>com.geccocrawler</groupId>
            <artifactId>gecco-spring</artifactId>
            <version>1.3.0</version>
        </dependency>
        <dependency>
            <groupId>com.geccocrawler</groupId>
            <artifactId>gecco-htmlunit</artifactId>
            <version>1.0.9</version>
        </dependency>
        <dependency>
            <groupId>com.geccocrawler</groupId>
            <artifactId>gecco-redis</artifactId>
            <version>1.3.0</version>
        </dependency>
    </dependencies>

Gecco的简单代码

1.Frist 第一个,用于锁定需要爬取的代码块,如下面代码的@HtmlField(cssPath)的内容,就是锁定了专属的dl,如下代码的main是爬取开始的地方,可以写在其它类里

在这里插入图片描述

package cn.baibai;

import com.geccocrawler.gecco.GeccoEngine;
import com.geccocrawler.gecco.annotation.Gecco;
import com.geccocrawler.gecco.annotation.HtmlField;
import com.geccocrawler.gecco
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值