简介
触手可及的互联网数据收集整理工具。通过简单的操作即可在杂乱无章和比较讲究的网站中找到有价值的数据。比如新闻列表、商品信息、公司名录、邮件地址等任何感兴趣的内容。
三步即可完成整个过程:
- 指定一个开始地址(通常就是一个url地址)
- 确定你感兴趣的内容,并标记下来,在必要的情况下,配合一些页面操作,比如打开链接、内容录入,按下按钮等动作;最后让其自动运行
- 对收集到的数据进行整理,最后按下下载按钮,稍等片刻,即可完成
特征清单:
- 可以在任意一个页面内寻找有价值的内容,也可以在多个页面内寻找,在不同的页面之间进行自动切换,无需手动进行
- 可以获取页面中单一的内容,也可以同时获取多个相似或不相似的内容
- 可以自动打开页面中的链接、单击某个按钮, 或是录入一些内容,就像用户操作一样
- 可以将固定内容、提前准备好的数据,以及已经找到的数据自动填充到某个输入组件内
- 对于反复的操作,可以通过跳转来实现,在必要的地方使用跳转即可实现多次重复操作
- 在重复操作的过程中,如果遇到需要使用不同数据的情况,可以不必担心,因为每次使用的数据都是按照先后次序有序使用,直到所有数据都被使用过,也可以设定一个跳转次数,在达到设定的跳转次数后终止跳转
- 当所有设定完成之后,就可以让其自动运行,在此期间,你可以去喝杯咖啡
- 当数据到手后,别着急,还可以进行基本的编排动作,比如调整先后顺序,层次结构
- 当数据准备完成后,就可以下载,稍等片刻即可完成
安装
该扩展程序是chrome扩展,需要首先安装chrome浏览器,最低版本要求为54版本。
下载扩展插件:
http://cws.chwod.com/chwod-spider.zip
下载后解压安装包到一个不碍事或不起眼的地方。
启动chrome浏览器,在地址栏输入:
chrome://extensions/
展示为如下图所示:
如上图所示:首先单击右上角的按钮,启用开发者模式,如图中的位置1
如图中的位置2,单击“加载已解压的扩展程序”,弹出对话框,选择下载后解压的那个不碍事或不起眼的目录。
如果加载成功,会在下方如图中的位置3处展示刚刚加载的扩展程序,请确认插件名称是否是chwod web spider;同时在右上角地址栏后(图中位置5)出现cws的图标;
由于该模式是开发者模式,对于部分版本的chrome浏览器在重启后,可能会得到一些警告消息,甚至会在某中情况下自动关闭开发者模式,遇到此种情况请在上图中的位置1处重新启用即可。
如果开发者模式处于开启模式,但是地址栏后并不显示cws的图标,那么也可能是当前扩展程序被禁用,请在如图中位置4的地方保该扩展程序是开启状态;
使用
在地址栏右侧单击cws图标(上一部分中图中位置5)即可打开相关页面,如下图所示:
主要内容包含三部分:
- 数据源:可以为后续数据收集过程中提前预备部分数据,比如一些地区数据
- 录制和执行:是该扩展程序的重要功能体现,后续进行详细描述
- 配置管理:包含一些配置信息
如果采集数据超过一千条,你需要注册一个帐号