WebMagic实现分布式抓取以及断点抓取

最新推荐文章于 2024-08-14 22:12:35 发布

伏念先生

最新推荐文章于 2024-08-14 22:12:35 发布

阅读量809

点赞数

分类专栏：爬虫

爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

前言

从去年到今年，笔者主要负责的是与合作方的内容对接，新增的合作商不是很多的情况下，在我自从去年引入了 WebMagic 这个爬虫框架之后，基本很少需要去关注维护爬虫，做的最多的是新接入合作商去写对应爬虫抓取模板。

因为在代码中实现了增量抓取，单机也足以承担日常的抓取工作。

在前两周，由于公司拓展新的业务渠道，需要接入的合作商瞬间增加了 3 倍，又被要求在 2 天内全部接入，那两天和另外一个同事，几乎都在忙着适配模板。

急速增加合作商的同时，服务器无法承受压力，频繁爆出 OOM 异常，导致抓取大批量失败，其中最多的一个合作商接口，需要解析下载的页面近 500w 个，单机抓取已无法满足需求，需要多台服务器同时抓取。

但鉴于当时需求紧，没有时间对爬虫部分代码进行重构升级，单机抓取也不行，而且会影响正常抓取任务的执行，于是临时想了个办法在其他服务器上抓取某个合作商，才坎坷解决了这个问题，但这也并非长久之计。

分布式抓取基础前提之一

因为刚刚引入 WebMagic 这个框架的时候，还不是太熟悉，使用的 Scheduler 是默认基于内存的队列 QueueScheduler ，当待抓取的 URL 太多时，内存就被占满了，从而导致 OOM。

如果要实现分布式抓取，前提需要使用基于 Redis 的 RedisScheduler。

在创建爬虫的时候，手动设置 Scheduler 为 RedisScheduler。

1	spider.setScheduler(new RedisScheduler(jedisPool));

RedisScheduler 需要传入 JedisPool 参数。

如果使用的是 SpringBoot，可以声明一个 RedisConfig 的配置类。

@Configuration
public class RedisConfig {

    @Value("${spring.redis.host}")
    private String host;

    @Value("${spring.redis.port}")
    private int port;

    @Value("${spring.redis.password}")
    private String password;

    @Value("${spring.redis.timeout}")
    private int timeout;

    @Value("${spring.redis.jedis.pool.max-idle}")
    private int maxIdle;

    @Value("${spring.redis.jedis.pool.max-wait}")
    private long maxWaitMillis;

    @Bean
    public JedisPool redisPoolFactory() {
        JedisPoolConfig jedisPoolConfig = new JedisPoolConfig();
        jedisPoolConfig.setMaxIdle(maxIdle);
        jedisPoolConfig.setMaxWaitMillis(maxWaitMillis);

        return new JedisPool(jedisPoolConfig, host, port, timeout, password);
    }
}

如果使用的是 Spring，可以在 XML 中配置声明一个 Bean 节点。

<bean id="poolConfig" class="redis.clients.jedis.JedisPoolConfig">
        <property name="maxActive"  value="3000" />
        <property name="maxIdle" value="100" />
        <property name="maxWait" value="1000" />
        <property name="testOnBorrow"  value="true"/>
</bean>
<bean id="jedisPool" class="redis.clients.jedis.JedisPool">
        <constructor-arg index="0" ref="poolConfig" />
        <constructor-arg index="1" value="127.0.0.1"/>
        <constructor-arg index="2" value="6379"/>
        <constructor-arg index="3" value="60000" />
       <constructor-arg index="4" value="eCii8TH3xR8"/>
</bean>

声明了 JedisPool 之后，直接在代码中注入即可。

1 2	@Autowired private JedisPool jedisPool;

分布式抓取基础前提之二

仅仅配置了 RedisScheduler，还无法达成我们的进行分布式抓取的目的，如果需要进行分布式抓取，其队列应该是共享的，即多台服务器的多个爬虫使用同一个 Redis URL 队列，取 URL 或者添加 URL 都是同一个。

又因为是 WebMagic 在帮助我们管理 Scheduler，所以 URL 的维护也是 WebMagic 在做。

先看一段 WebMagic 的源码

public void run() {
    checkRunningStat();
    initComponent();
    logger.info("Spider {} started!",getUUID());
    while (!Thread.currentThread().isInterrupted() && stat.get() == STAT_RUNNING) {
        final Request request = scheduler.poll(this);
        if (request == null) {
            if (threadPool.getThreadAlive() == 0 && exitWhenComplete) {
                break;
            }
            // wait until new url added
            waitNewUrl();
        } else {
            // ......
        }
    }
    // ......
}

可以看到 WebMagic 抓取的时候通过这行代码获取队列中待抓取的 URL 地址。