1-初识八爪鱼

1.八爪鱼软件界面

下载地址:免费下载-Windows大数据采集软件下载 - 八爪鱼采集器 (bazhuayu.com)

在这里插入图片描述

2.运行逻辑[以爬取36Kr快讯为例]

在这里插入图片描述

打开八爪鱼采集器,在主页的搜索框中输入36kr快讯的地址,点击开始采集
在这里插入图片描述

在屏幕右侧的操作提示中,点击自动识别网页,点击后会进入到识别网页的过程
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-W8uUsGSm-1629010547562)(res/image-20210815143821007.png)]

等网页识别完成后我们就看到了八爪鱼自动识别的结果
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Uh52WH7P-1629010547564)(res/image-20210815144215190.png)]

点击生成采集设置按钮在这里插入图片描述

点击保存并开始采集
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8asKqipQ-1629010547567)(res/image-20210815144320003.png)]
数据采集的方式有2种,一个是本地采集,也就是程序运行在你的电脑上,一个是云采集,也就是用八爪鱼的服务器进行采集,其中云采集为八爪鱼的增值服务,是属于收费项目,因此在本次课程中我们选择本地采集
点击后,我们的数据采集工作就开始了
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zPKTUySx-1629010547568)(res/image-20210815144353927.png)]
点击停止采集,就可以停止数据采集的工作
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hCRmSuGd-1629010547570)(res/image-20210815144450425.png)]

选择导出数据
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Sg44VZFT-1629010547571)(res/image-20210815144507562.png)]
我们可以看到,八爪鱼的数据导出支持很多种形式,比如excel、csv、HTML以及json,甚至可以将数据导入到数据库种中,因此数据的存储形式相当的方便

我们选择导出到excel的形式

导出完成后有相应的提示
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dhRcVRQk-1629010547572)(res/image-20210815144522423.png)]

这个时候我们就看到了我们采集的相关数据
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lMjAb1Lw-1629010547573)(res/image-20210815144546430.png)]
打开八爪鱼,在“我的任务”中就可以看到我们保存的相关任务

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5GRqKAJ0-1629010547575)(res/image-20210815144642244.png)]

3.思考

1.体验了八爪鱼采集后,你觉得它能够用在学习和工作中的哪些方面?

可以用它快速爬取所需数据,进行数据分析和数据挖掘等工作。比自己利用python编写代码简单便捷。

2.推测一下,你觉得八爪鱼的工作原理是什么?

通过模拟人的思维操作方式(如打开网页,点击网页中的某个按钮),对网页内容进行全自动提取。

3.和python爬虫相比,八爪鱼的优势和劣势是什么?

优势:简单快捷,即使不会代码,也能轻松操作

劣势:免费版导出数量有限制

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值