目录
2-1-知识储备
Cookie
Cookie是某些网站为了辨别用户身份在用户本地终端上的数据(通常经过加密),由用户计算机暂时或永久保存的信息。也就是如果我们能在打开网页时使用指定的Cookie,这样网页就能辨别我们的身份,从而避免了每次登陆网站需要登陆的问题。
2-2-微博数据抓取(登陆Cookie设置)
1-在八爪鱼页面打开微博的官网
网址:https://www.weibo.com/
2-切换至“浏览模式”
通过观察发现,想要搜索微博的相关信息需要先登陆微博的账号,我们先进入到浏览模式进行账号的登陆。
3-登录微博
进入浏览模式之后,会像进入微博网页版,点击右上角的登陆进入到微博账号的登陆界面。登陆完成后我们就进入到了全新的微博界面。
4-设置Cookie
首先,找到左边的流程图,设置打开网页的信息,设置获取当前Cookie,点击“使用指定的Cookie”后,点击“获取当前页面Cookie”。Cookie设置完成后,Cookie设置完成后,退出浏览模式进入到数据爬取规则设置阶段
5-输入关键词
点击微博的搜索按钮,会出现智能提示,选择==“点击该链接”==,跳转至搜索界面。
点击搜索框,选中“输入文本”,然后输入待搜索词;
选中左侧流程图的输入文本,勾选输入后按回车键,然后点击“应用“
6-自动识别网页,完成数据采集
使用自动识别网页功能对网页进行识别。识别完成后,默认采集了19个字段。如果字段有些不是我们想要的,可以将其删除。
字段设置完成以后,点击生成采集设置,就可以对微博的数据进行爬取了。
最后将任务修改名称后保存,可以在我的任务中找到设置的相应任务。
2-3-豆瓣图书数据抓取(翻页与循环)
豆瓣图书的网址:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4
1-登陆八爪鱼,进入豆瓣的采集页面
2-自动识别网页
使用自动识别网页的功能对豆瓣的数据进行采集
我们发现自动采集无法满足我们数据采集的相关需求,我们需要对豆瓣的每个链接点击进入,然后去采集打分的人数以及比例,比如小说《活着》,有607608个人评价,同时我们需要采集不同星的比例,那么如何操作呢?
有以下两种解决思路:
第一个是先采集各个书的链接,然后再依次打开各个书的链接进行数据采集
第二个是打开豆瓣的网站,然后点击第一个链接进入采集数据,然后返回到链接列表然后采集第二个链接。
接下来以第一个思路作为示例!
3-采集各个图书的链接
我们使用八爪鱼的自动识别功能对豆瓣网页进行识别。我们看到自动识别采集了11个字段,而我们只要书的名称以及链接这个2个字段,其它的都删除。
可以不删除嘛?也是可以的,不过需要注意的是,采集的字段越多,采集的速度越慢,减少采集的字段可以提升采集速度,因此将不需要的字段删除。
点击生成采集设置,点击保存并开始采集,点击启动本地采集。
4-循环打开各个网页采集相关信息
将前面收集到的数据导入到八爪鱼中。
1)点击”新建“,选中”自定义输入“
2)选择文件——选择工作簿——选择列——保存设置
2)选中”活着“,选择”采集该元素的文本“;其他元素类似。
5-点击采集开始对最终数据进行抓取
2-4-采集流程逻辑
1-八爪鱼的工作原理
模拟人的行为,通过内置Chrome浏览器浏览网页数据,所以采集数据的第一步永远是找到目标网址并输入。这跟通过普通浏览器访问网页完全一样。在普通浏览器中需要点击链接进入详情、点击翻页按钮查看更多数据,在八爪鱼中也需如此操作。
2-八爪鱼的流程逻辑
八爪鱼通过【采集流程】全自动采集数据。【采集流程】执行逻辑遵循2个原则:先从上至下、再由内而外
【采集流程】由【蓝色步骤】和【灰色框】两大部分组成。【蓝色步骤】是会执行的步骤,八爪鱼与网页发生互动。【灰色框】起记录网页的作用。
案例1
案例2
案例3
2-5-思考
1.抓取的微博数据算不算是个人隐私数据,在使用中需要注意什么?
属于个人隐私数据,在使用过程中注意隐藏个人信息,避免信息泄露。
2.设置Cookie登陆的优势是什么?Cookie在手机和电脑使用中体现在哪些方面?
指定Cookie后,网页就能辨别我们的身份,从而避免了每次登陆网站需要登陆的问题。
3.豆瓣图书数据采集中选择第一个思路的优势是什么?选择第二个思路的优势是什么?
参考链接:https://www.bazhuayu.com/tutorial8/81xsrm9
参考资料
team-learning-program/2.自动识别初体验.md at master · datawhalechina/team-learning-program (github.com)