Survive by day and develop by night.
talk is cheap, show me the code,make a better result.
目录
概述
网络爬虫的是一个非常常见的需求。
需求:
1.URL管理
2. 网页下载器
3. 爬虫调度器
4. 网页解析器
5. 数据处理器
设计思路
实现思路分析
1.URL管理
这里我们可以使用规则的数据结构来存储和转发。
2.网页下载器
下载器我们可以使用建立HTTP请求把界面的URL元素下载下来。实质就是
下载器。
3.爬虫调度器
爬虫调度器就是可以利用多线程机制,进行调度似的更快的进行网页爬取。
4.网页解析器
这个也比较简单,就是对网页元素进行解析,通常利用JSONP,xpath等技术进行网页分析。
5.数据处理器
在这个过程一般在数据存储和,存储到mysql中,或者进行其他逻辑判断等。
拓展实现爬虫组件
这里参考:github:简单实现上述流程:
入门级实现:
: 部分源码实现.
: 源码实现
性能参数测试:
每秒大概18-20个请求,主要用于网络IO操作耗费了不少时间。
参考资料和推荐阅读
欢迎阅读,各位老铁,如果对你有帮助,点个赞加个关注呗!~