2-八爪鱼的自动识别(Cookie设置、翻页与循环)

2-1-知识储备

Cookie

Cookie是某些网站为了辨别用户身份在用户本地终端上的数据(通常经过加密),由用户计算机暂时或永久保存的信息。也就是如果我们能在打开网页时使用指定的Cookie,这样网页就能辨别我们的身份,从而避免了每次登陆网站需要登陆的问题。

2-2-微博数据抓取(登陆Cookie设置)

1-在八爪鱼页面打开微博的官网

网址:https://www.weibo.com/

在这里插入图片描述

2-切换至“浏览模式”

通过观察发现,想要搜索微博的相关信息需要先登陆微博的账号,我们先进入到浏览模式进行账号的登陆。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bBUnVQYn-1629265607065)(res/image-20210816203737593.png)]

3-登录微博

进入浏览模式之后,会像进入微博网页版,点击右上角的登陆进入到微博账号的登陆界面。登陆完成后我们就进入到了全新的微博界面。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5eXZdXLn-1629265607072)(res/image-20210816205745371.png)]

4-设置Cookie

首先,找到左边的流程图,设置打开网页的信息,设置获取当前Cookie,点击“使用指定的Cookie”后,点击“获取当前页面Cookie”。Cookie设置完成后,Cookie设置完成后,退出浏览模式进入到数据爬取规则设置阶段

5-输入关键词

点击微博的搜索按钮,会出现智能提示,选择==“点击该链接”==,跳转至搜索界面。
在这里插入图片描述

点击搜索框,选中“输入文本”,然后输入待搜索词;
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fGSsvx67-1629265607090)(res/image-20210818132028045.png)]

选中左侧流程图的输入文本,勾选输入后按回车键,然后点击“应用“
在这里插入图片描述

6-自动识别网页,完成数据采集

使用自动识别网页功能对网页进行识别。识别完成后,默认采集了19个字段。如果字段有些不是我们想要的,可以将其删除。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4D1JQeFq-1629265607102)(res/image-20210818132421048.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o4vLg3ob-1629265607106)(res/image-20210818132456968.png)]
字段设置完成以后,点击生成采集设置,就可以对微博的数据进行爬取了。
最后将任务修改名称后保存,可以在我的任务中找到设置的相应任务。

2-3-豆瓣图书数据抓取(翻页与循环)

豆瓣图书的网址:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4

1-登陆八爪鱼,进入豆瓣的采集页面

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GnDmFnpB-1629267378082)(res/image-20210816221235754.png)]

2-自动识别网页

使用自动识别网页的功能对豆瓣的数据进行采集
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-X9Tv7wkG-1629267378088)(res/image-20210816221310601.png)]

我们发现自动采集无法满足我们数据采集的相关需求,我们需要对豆瓣的每个链接点击进入,然后去采集打分的人数以及比例,比如小说《活着》,有607608个人评价,同时我们需要采集不同星的比例,那么如何操作呢?

有以下两种解决思路:

第一个是先采集各个书的链接,然后再依次打开各个书的链接进行数据采集

第二个是打开豆瓣的网站,然后点击第一个链接进入采集数据,然后返回到链接列表然后采集第二个链接。

接下来以第一个思路作为示例!
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6peY8lBR-1629267378091)(res/image-20210816221431593.png)]

3-采集各个图书的链接

我们使用八爪鱼的自动识别功能对豆瓣网页进行识别。我们看到自动识别采集了11个字段,而我们只要书的名称以及链接这个2个字段,其它的都删除。

可以不删除嘛?也是可以的,不过需要注意的是,采集的字段越多,采集的速度越慢,减少采集的字段可以提升采集速度,因此将不需要的字段删除。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fFzHRtR5-1629267378096)(res/image-20210816222845130.png)]

点击生成采集设置,点击保存并开始采集,点击启动本地采集。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B2DoBCkT-1629267378098)(res/image-20210816222144575.png)]

4-循环打开各个网页采集相关信息

将前面收集到的数据导入到八爪鱼中。
1)点击”新建“,选中”自定义输入“

2)选择文件——选择工作簿——选择列——保存设置
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2X8Cjpjs-1629267378099)(res/image-20210818140901688.png)]
2)选中”活着“,选择”采集该元素的文本“;其他元素类似。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fRdLQk9A-1629267378100)(res/image-20210818141143084.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eziX885n-1629267378101)(res/image-20210818141503099.png)]

5-点击采集开始对最终数据进行抓取

在这里插入图片描述

2-4-采集流程逻辑

1-八爪鱼的工作原理

模拟人的行为,通过内置Chrome浏览器浏览网页数据,所以采集数据的第一步永远是找到目标网址并输入。这跟通过普通浏览器访问网页完全一样。在普通浏览器中需要点击链接进入详情、点击翻页按钮查看更多数据,在八爪鱼中也需如此操作。

2-八爪鱼的流程逻辑

八爪鱼通过【采集流程】全自动采集数据。【采集流程】执行逻辑遵循2个原则:先从上至下、再由内而外
【采集流程】由【蓝色步骤】和【灰色框】两大部分组成。【蓝色步骤】是会执行的步骤,八爪鱼与网页发生互动。【灰色框】起记录网页的作用。
在这里插入图片描述

案例1

在这里插入图片描述

案例2

在这里插入图片描述

案例3

在这里插入图片描述

2-5-思考

1.抓取的微博数据算不算是个人隐私数据,在使用中需要注意什么?

属于个人隐私数据,在使用过程中注意隐藏个人信息,避免信息泄露。

2.设置Cookie登陆的优势是什么?Cookie在手机和电脑使用中体现在哪些方面?

指定Cookie后,网页就能辨别我们的身份,从而避免了每次登陆网站需要登陆的问题。

3.豆瓣图书数据采集中选择第一个思路的优势是什么?选择第二个思路的优势是什么?

参考链接:https://www.bazhuayu.com/tutorial8/81xsrm9

参考资料

team-learning-program/2.自动识别初体验.md at master · datawhalechina/team-learning-program (github.com)

  • 6
    点赞
  • 53
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值