一、初步认识了解webMagic

最新推荐文章于 2024-08-14 22:12:35 发布

归属i

最新推荐文章于 2024-08-14 22:12:35 发布

阅读量195

点赞数

分类专栏： webMagic 文章标签： java

本文链接：https://blog.csdn.net/weixin_43877725/article/details/108359430

版权

webMagic 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.简单介绍

webMagic是一款简单灵活的爬虫框架，基于它可以很容易编写一个爬虫。
WebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现，而扩展部分则包括一些便利的、实用性的功能。WebMagic的架构设计参照了Scrapy，目标是尽量的模块化，并体现爬虫的功能特点。

2.设计思想

1.一个框架一个领域
	一个好的框架必然凝聚了领域知识。WebMagic的设计参考了业界最优秀的爬虫Scrapy，而实现则应用了HttpClient、Jsoup等Java世界最成熟的工具，目标就是做一个Java语言Web爬虫的教科书般的实现。
	
2.微内核和高可扩展性
	WebMagic由四个组件(Downloader、PageProcessor、Scheduler、Pipeline)构成，核心代码非常简单，主要是将这些组件结合并完成多线程的任务。这意味着，在WebMagic中，你基本上可以对爬虫的功能做任何定制。
	
3.注重实用性
	虽然核心需要足够简单，但是WebMagic也以扩展的方式，实现了很多可以帮助开发的便捷功能。例如基于注解模式的爬虫开发，以及扩展了XPath语法的Xsoup等。

3.总体架构

WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件,并由Spider将它们彼此组织起来。

3.1总体架构图

在这里插入图片描述

3.2四个组件

Downloader
负责从互联网上下载页面，以便后续处理。WebMagic默认使用了Apache HttpClient作为下载工具。
PageProcessor
负责解析页面，抽取有用信息，以及发现新的链接。
Scheduler
负责管理待抓取的URL，以及一些去重工作。WebMagic默认提供了JDK的内存队列来管理URL，并用集合进行去重。
Pipeline
复制抽取结果的处理，包括计算、持久化到文件、数据库等。WebMagic默认提供了“输出到控制台”和“保存到文件”两种处理结果。
Pileline定义了结果保存的方式，如果你要保存到指定数据库，则需要编写对应的Pipeline。对于一类需求一般只需要编写一个Pipeline。

3.3用于数据流转的对象

1.Request
	Request是对URL地址的一层封装，一个Request对应一个URL地址。
2.Page
	Page代表从Downloader下载到一个页面—可能是HTML，也可能是JSON或者其他文本格式的内容。
3.ResultItems
	ResultItems相当于Map，它保存PageProcessor处理的结果，供Pipeline使用。它的API与Map很类似，值得注意的是它有一个字段skip，若设置为true，则不应被Pipeline处理。

3.4 控制爬虫运转的引擎–Spider

Spider是WebMagic内部流程的核心。Downloader、PageProcessor、Scheduler、Pipeline都是Spider的一个属性，这些属性是可以自由设置的、通过设置这个属性实现不同的功能。Spider也是WebMagic操作的入口，它封装了爬虫的创建、启动、停止、多线程等功能。