爬虫组件分析

Survive by day and develop by night.
talk is cheap, show me the code,make a better result.

目录

在这里插入图片描述

概述

网络爬虫的是一个非常常见的需求。

需求:

1.URL管理
2. 网页下载器
3. 爬虫调度器
4. 网页解析器
5. 数据处理器

设计思路

在这里插入图片描述

实现思路分析

1.URL管理

这里我们可以使用规则的数据结构来存储和转发。

2.网页下载器

下载器我们可以使用建立HTTP请求把界面的URL元素下载下来。实质就是
下载器。

3.爬虫调度器

爬虫调度器就是可以利用多线程机制,进行调度似的更快的进行网页爬取。

4.网页解析器

这个也比较简单,就是对网页元素进行解析,通常利用JSONP,xpath等技术进行网页分析。

5.数据处理器

在这个过程一般在数据存储和,存储到mysql中,或者进行其他逻辑判断等。

拓展实现爬虫组件

这里参考:github:简单实现上述流程:
入门级实现:
: 部分源码实现.
: 源码实现

性能参数测试:

每秒大概18-20个请求,主要用于网络IO操作耗费了不少时间。

参考资料和推荐阅读

  1. 爬虫框架的设计与实现之JAVA篇.
  2. 主流爬虫框架的基本介绍.
  3. 高拓展性的Java多线程爬虫框架reptile.

欢迎阅读,各位老铁,如果对你有帮助,点个赞加个关注呗!~

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

执于代码

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值