2-八爪鱼的自动识别（Cookie设置、翻页与循环）

最新推荐文章于 2025-03-06 21:30:30 发布

薄荷杂学

最新推荐文章于 2025-03-06 21:30:30 发布

阅读量1w

点赞数 7

分类专栏： # 八爪鱼爬虫爬虫文章标签：爬虫

原文链接：https://github.com/datawhalechina/team-learning-program/blob/master/CollectData/2.自动识别初体验.md

版权

爬虫同时被 2 个专栏收录

9 篇文章

订阅专栏

八爪鱼爬虫

4 篇文章

订阅专栏

本文介绍了如何使用八爪鱼（Octoparse）进行数据抓取，包括微博数据抓取时设置Cookie进行登录，以及豆瓣图书数据抓取时的翻页与循环采集。详细步骤涵盖了从登录微博、设置Cookie、输入关键词，到自动识别网页和采集数据，以及在豆瓣图书抓取中如何采集图书链接并循环采集信息。同时，讨论了八爪鱼的工作原理和流程逻辑，并提出了关于数据隐私和Cookie设置的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2-1-知识储备

Cookie

Cookie是某些网站为了辨别用户身份在用户本地终端上的数据（通常经过加密），由用户计算机暂时或永久保存的信息。也就是如果我们能在打开网页时使用指定的Cookie，这样网页就能辨别我们的身份，从而避免了每次登陆网站需要登陆的问题。

2-2-微博数据抓取（登陆Cookie设置）

1-在八爪鱼页面打开微博的官网

网址：https://www.weibo.com/

在这里插入图片描述

2-切换至“浏览模式”

通过观察发现，想要搜索微博的相关信息需要先登陆微博的账号，我们先进入到浏览模式进行账号的登陆。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bBUnVQYn-1629265607065)(res/image-20210816203737593.png)]

3-登录微博

进入浏览模式之后，会像进入微博网页版，点击右上角的登陆进入到微博账号的登陆界面。登陆完成后我们就进入到了全新的微博界面。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5eXZdXLn-1629265607072)(res/image-20210816205745371.png)]

4-设置Cookie

首先，找到左边的流程图，设置打开网页的信息，设置获取当前Cookie，点击“使用指定的Cookie”后，点击“获取当前页面Cookie”。Cookie设置完成后，Cookie设置完成后，退出浏览模式进入到数据爬取规则设置阶段

5-输入关键词

点击微博的搜索按钮，会出现智能提示，选择==“点击该链接”==，跳转至搜索界面。
在这里插入图片描述

点击搜索框，选中“输入文本”，然后输入待搜索词；
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fGSsvx67-1629265607090)(res/image-20210818132028045.png)]

选中左侧流程图的输入文本，勾选输入后按回车键，然后点击“应用“
在这里插入图片描述

6-自动识别网页，完成数据采集

使用自动识别网页功能对网页进行识别。识别完成后，默认采集了19个字段。如果字段有些不是我们想要的，可以将其删除。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4D1JQeFq-1629265607102)(res/image-20210818132421048.png)]

字段设置完成以后，点击生成采集设置，就可以对微博的数据进行爬取了。
最后将任务修改名称后保存，可以在我的任务中找到设置的相应任务。

2-3-豆瓣图书数据抓取（翻页与循环）

豆瓣图书的网址：https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4

1-登陆八爪鱼，进入豆瓣的采集页面

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GnDmFnpB-1629267378082)(res/image-20210816221235754.png)]

2-自动识别网页

使用自动识别网页的功能对豆瓣的数据进行采集
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-X9Tv7wkG-1629267378088)(res/image-20210816221310601.png)]

我们发现自动采集无法满足我们数据采集的相关需求，我们需要对豆瓣的每个链接点击进入，然后去采集打分的人数以及比例，比如小说《活着》，有607608个人评价，同时我们需要采集不同星的比例，那么如何操作呢？

有以下两种解决思路：

第一个是先采集各个书的链接，然后再依次打开各个书的链接进行数据采集

第二个是打开豆瓣的网站，然后点击第一个链接进入采集数据，然后返回到链接列表然后采集第二个链接。

接下来以第一个思路作为示例！

3-采集各个图书的链接

我们使用八爪鱼的自动识别功能对豆瓣网页进行识别。我们看到自动识别采集了11个字段，而我们只要书的名称以及链接这个2个字段，其它的都删除。

可以不删除嘛？也是可以的，不过需要注意的是，采集的字段越多，采集的速度越慢，减少采集的字段可以提升采集速度，因此将不需要的字段删除。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fFzHRtR5-1629267378096)(res/image-20210816222845130.png)]

点击生成采集设置，点击保存并开始采集，点击启动本地采集。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B2DoBCkT-1629267378098)(res/image-20210816222144575.png)]

4-循环打开各个网页采集相关信息

将前面收集到的数据导入到八爪鱼中。
1）点击”新建“，选中”自定义输入“

2）选择文件——选择工作簿——选择列——保存设置
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2X8Cjpjs-1629267378099)(res/image-20210818140901688.png)]
2）选中”活着“，选择”采集该元素的文本“；其他元素类似。