webMagic学习笔记

最新推荐文章于 2023-06-14 22:13:40 发布

IT菜籽U

最新推荐文章于 2023-06-14 22:13:40 发布

阅读量1.4k

点赞数

分类专栏：爬虫网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoshunzi111/article/details/51722294

版权

网络爬虫同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

集搜客操作过程：http://www.gooseeker.com/doc/article-143-1.html

第一步：（整理箱）建立一个存储数据文件夹

Webmagic爬虫：使用文档http://webmagic.io/docs/zh/posts/ch1-overview/README.html

设计文档http://www.oschina.net/p/webmagic

一、设计思想

参考Scrapy，实现由HttpClient，Jsoup等Java工一句话用Java实现

组件：Downloader、pageProcessor、Scheduler、Pipeline组件合并完成多线程的任务。以实现对爬虫的功能进行定制。

核心：webmagic-core包中。其他包则是该包的扩展

实用：虽然核心功能简单，但也有自己的扩展方式，如基于注解模式的爬虫开发

二、核心组件

Downloader：加载页面。负责从互联网上下载页面，以便后面处理。WebMagic默认使用了Apache HttpClient作为下载工具；

PageProcessor：抽取数据。负责解析页面，抽取有用信息，以发现新的链接。WebMagic使用作为HTML解析工具，并基于其开发了解析XPath的工具Xsoup。

在这四个组件中，PageProcessor对于每个站点每个页面都不一样，是需要使用者定制的部分

Scheduler：数据管理以及数据。负责管理待抓取的URL，以及一些去重的工作。WebMagic默认提供了JDK的内存队列来管理URL，并用集合来进行去重。也支持使用Redis进行分布式管理。

除非项目有一些特殊的分布式需求，否则无需自己定制scheduler。

Pipeline：数据保存。负责抽取结果的处理，包括计算、持久化的文件、数据库等。WebMagic默认提供了“输出到控制台”和“保存大文件”两种处理法案。

Pipeline定义了结果保存的方式，如果要保存到指定的数据库，则需要编写对应的pipeline。对于一般需求值编写一个pipeline。

三、数据流转的对象

1. request

对URL地址的一层封装，一个Request对应一个URL地址。

他是PageProcessor与Downloader交互的载体，也是PageProcessor控制Downloader唯一方式。

除了URL本身外，它还包含一个Key-Value结构的字段extra。你可以在extra中保存一些特殊的属性，然后在其他地方读取。为完成不同的功能。例如附加上一个页面的一些信息等。

2. Page

Page 代表了从Downloader下载到一个页面----可能是HTML，也可能是JSON 或者其他文本格式的内容。

Page是WebMagic抽取过程中的核心对象，它提供了一些方法可供抽取、结果保存等。

3. ResultIterns

它相当于一个Map，保存PageProcesser处理的结果、提供Pipeline使用。它的API与Map类似，值得注意的是它有一个字段skip，若设置为true，则不应被Pipeline处理。

四、爬虫运转引擎---Spider

Spider是WebMagic内部流程的核心。D(Downloader)-P(PageProcessor)-S(Scheduler)-P(Pipeline)都是Spider的一个属性，这些属性都可以自由设置，以实现不同的功能。Spider也是WebMagic操作的入口，它封装了爬虫的创建、启动、停止、多线程等功能。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
webMagic学习笔记

集搜客操作过程：http://www.gooseeker.com/doc/article-143-1.html第一步：（整理箱）建立一个存储数据文件夹 Webmagic爬虫：使用文档http://webmagic.io/docs/zh/posts/ch1-overview/README.html设计文档http://www.oschina.net/p/webmagic 一、
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。