2-八爪鱼的自动识别(Cookie设置、翻页与循环)

本文介绍了如何使用八爪鱼(Octoparse)进行数据抓取,包括微博数据抓取时设置Cookie进行登录,以及豆瓣图书数据抓取时的翻页与循环采集。详细步骤涵盖了从登录微博、设置Cookie、输入关键词,到自动识别网页和采集数据,以及在豆瓣图书抓取中如何采集图书链接并循环采集信息。同时,讨论了八爪鱼的工作原理和流程逻辑,并提出了关于数据隐私和Cookie设置的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2-1-知识储备

Cookie

Cookie是某些网站为了辨别用户身份在用户本地终端上的数据(通常经过加密),由用户计算机暂时或永久保存的信息。也就是如果我们能在打开网页时使用指定的Cookie,这样网页就能辨别我们的身份,从而避免了每次登陆网站需要登陆的问题。

2-2-微博数据抓取(登陆Cookie设置)

1-在八爪鱼页面打开微博的官网

网址:https://www.weibo.com/

在这里插入图片描述

2-切换至“浏览模式”

通过观察发现,想要搜索微博的相关信息需要先登陆微博的账号,我们先进入到浏览模式进行账号的登陆。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bBUnVQYn-1629265607065)(res/image-20210816203737593.png)]

3-登录微博

进入浏览模式之后,会像进入微博网页版,点击右上角的登陆进入到微博账号的登陆界面。登陆完成后我们就进入到了全新的微博界面。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5eXZdXLn-1629265607072)(res/image-20210816205745371.png)]

4-设置Cookie

首先,找到左边的流程图,设置打开网页的信息,设置获取当前Cookie,点击“使用指定的Cookie”后,点击“获取当前页面Cookie”。Cookie设置完成后,Cookie设置完成后,退出浏览模式进入到数据爬取规则设置阶段

5-输入关键词

点击微博的搜索按钮,会出现智能提示,选择==“点击该链接”==,跳转至搜索界面。
在这里插入图片描述

点击搜索框,选中“输入文本”,然后输入待搜索词;
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fGSsvx67-1629265607090)(res/image-20210818132028045.png)]

选中左侧流程图的输入文本,勾选输入后按回车键,然后点击“应用“
在这里插入图片描述

6-自动识别网页,完成数据采集

使用自动识别网页功能对网页进行识别。识别完成后,默认采集了19个字段。如果字段有些不是我们想要的,可以将其删除。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4D1JQeFq-1629265607102)(res/image-20210818132421048.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o4vLg3ob-1629265607106)(res/image-20210818132456968.png)]
字段设置完成以后,点击生成采集设置,就可以对微博的数据进行爬取了。
最后将任务修改名称后保存,可以在我的任务中找到设置的相应任务。

2-3-豆瓣图书数据抓取(翻页与循环)

豆瓣图书的网址:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4

1-登陆八爪鱼,进入豆瓣的采集页面

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GnDmFnpB-1629267378082)(res/image-20210816221235754.png)]

2-自动识别网页

使用自动识别网页的功能对豆瓣的数据进行采集
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-X9Tv7wkG-1629267378088)(res/image-20210816221310601.png)]

我们发现自动采集无法满足我们数据采集的相关需求,我们需要对豆瓣的每个链接点击进入,然后去采集打分的人数以及比例,比如小说《活着》,有607608个人评价,同时我们需要采集不同星的比例,那么如何操作呢?

有以下两种解决思路:

第一个是先采集各个书的链接,然后再依次打开各个书的链接进行数据采集

第二个是打开豆瓣的网站,然后点击第一个链接进入采集数据,然后返回到链接列表然后采集第二个链接。

接下来以第一个思路作为示例!
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6peY8lBR-1629267378091)(res/image-20210816221431593.png)]

3-采集各个图书的链接

我们使用八爪鱼的自动识别功能对豆瓣网页进行识别。我们看到自动识别采集了11个字段,而我们只要书的名称以及链接这个2个字段,其它的都删除。

可以不删除嘛?也是可以的,不过需要注意的是,采集的字段越多,采集的速度越慢,减少采集的字段可以提升采集速度,因此将不需要的字段删除。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fFzHRtR5-1629267378096)(res/image-20210816222845130.png)]

点击生成采集设置,点击保存并开始采集,点击启动本地采集。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B2DoBCkT-1629267378098)(res/image-20210816222144575.png)]

4-循环打开各个网页采集相关信息

将前面收集到的数据导入到八爪鱼中。
1)点击”新建“,选中”自定义输入“

2)选择文件——选择工作簿——选择列——保存设置
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2X8Cjpjs-1629267378099)(res/image-20210818140901688.png)]
2)选中”活着“,选择”采集该元素的文本“;其他元素类似。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fRdLQk9A-1629267378100)(res/image-20210818141143084.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eziX885n-1629267378101)(res/image-20210818141503099.png)]

5-点击采集开始对最终数据进行抓取

在这里插入图片描述

2-4-采集流程逻辑

1-八爪鱼的工作原理

模拟人的行为,通过内置Chrome浏览器浏览网页数据,所以采集数据的第一步永远是找到目标网址并输入。这跟通过普通浏览器访问网页完全一样。在普通浏览器中需要点击链接进入详情、点击翻页按钮查看更多数据,在八爪鱼中也需如此操作。

2-八爪鱼的流程逻辑

八爪鱼通过【采集流程】全自动采集数据。【采集流程】执行逻辑遵循2个原则:先从上至下、再由内而外
【采集流程】由【蓝色步骤】和【灰色框】两大部分组成。【蓝色步骤】是会执行的步骤,八爪鱼与网页发生互动。【灰色框】起记录网页的作用。
在这里插入图片描述

案例1

在这里插入图片描述

案例2

在这里插入图片描述

案例3

在这里插入图片描述

2-5-思考

1.抓取的微博数据算不算是个人隐私数据,在使用中需要注意什么?

属于个人隐私数据,在使用过程中注意隐藏个人信息,避免信息泄露。

2.设置Cookie登陆的优势是什么?Cookie在手机和电脑使用中体现在哪些方面?

指定Cookie后,网页就能辨别我们的身份,从而避免了每次登陆网站需要登陆的问题。

3.豆瓣图书数据采集中选择第一个思路的优势是什么?选择第二个思路的优势是什么?

参考链接:https://www.bazhuayu.com/tutorial8/81xsrm9

参考资料

team-learning-program/2.自动识别初体验.md at master · datawhalechina/team-learning-program (github.com)

<think>嗯,用户想用八爪鱼爬虫工具抓取网页数据,但不知道具体怎么操作。我需要根据提供的引用内容来整理步骤,确保回答清晰正确。首先,我得回忆一下八爪鱼的基本流程,比如配置任务、设置规则、运行任务和导出数据。 根据引用2八爪鱼有简洁的操作界面和丰富的功能模块,用户需要先安装软件。然后,引用4提到任务配置包括输入网址和设置采集规则。可能需要解释如何创建新任务,输入目标网址,比如汽车网站的例子来自引用3。 接下来,设置采集规则可能涉及智能识别或手动选择元素,如点击和字段提取。引用3提到八爪鱼节省开发时间,所以智能模式可能适合新手。但高级用户可能需要自定义规则,比如翻页循环点击,这部分引用2和4都有提到。 运行任务部分,引用4指出本地和云端运行的区别,本地适合小数据,云端适合大规模。用户可能需要知道如何选择。 数据导出方面,引用4提到导出格式如Excel、CSV,用户需要知道在哪里导出。此外,引用3提到舆情数据分析,可以建议用户应用场景,比如结合AI工具。 还要注意引用中的例子,比如汽车网站数据的抓取,可能需要具体步骤。同时,确保回答结构符合用户要求,分步骤说明,并添加相关问题。最后,检查是否自然添加了引用标识,比如[^3]在相关部分。</think>使用八爪鱼爬虫抓取网页数据可通过以下步骤实现: ### 一、基础操作流程 1. **新建任务** - 打开软件后点击"新建任务",输入目标网页URL(例如汽车网站首页) - 支持批量添加网址实现多页面抓取[^4] 2. **智能识别配置** - 利用智能识别功能自动提取页面元素(如价格、车型参数等)[^2] - 通过可视化界面点选需要采集的字段,支持文本/图片/链接等数据类型[^4] 3. **设置翻页规则** - 通过"点击下一页"功能实现自动翻页 - 支持滚动加载、AJAX动态加载等特殊页面处理 ```python # 伪代码示例(实际操作无需编程) 设置循环翻页条件: while 存在下一页按钮: 点击元素 -> 等待加载 -> 提取数据 ``` ### 二、进阶功能应用 1. **登录认证处理** - 在高级设置中添加Cookie或模拟登录流程 - 支持验证码识别模块(需配置第三方服务)[^1] 2. **定时采集设置** - 设置每日/每周自动执行任务 - 支持增量更新模式避免重复采集 3. **数据清洗导出** - 内置去重、格式转换等预处理功能 - 支持导出Excel/CSV/数据库等多种格式
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值