4-八爪鱼boss直聘信息采集

4-1-综合实践背景

小张是某高校管理学研究生,在毕业课题中需要采集boss直聘武汉地区的相关数据,而小张同学因为是人文科学背景没有接触过爬虫,在网上搜索很多资料后,现在她找到你希望你帮她采集boss直聘网的相关数据,你应该怎么做呢?

boss直聘武汉地区网站:https://www.zhipin.com/wuhan/

4-2-综合实践操作

1-打开网页

打开八爪鱼到打开boss直聘武汉的相关页面

在这里插入图片描述

2-按关键词进行搜索

在职务关键词中输入【数据分析】关键词进行搜索
在这里插入图片描述

3-报错“当前IP地址可能存在异常访问”

针对Boss直聘对ip进行验证的情况,可以对打开网页这一步骤中的重试部分进行设置,从而在一定程度上对反爬虫的绕过

在这里插入图片描述

4-数据采集

首先是对页面进行自动网页识别

在这里插入图片描述

这是自动识别完成后的界面,我们可以看到系统抓取的数据比较全面

在这里插入图片描述

如果需要获得更加详细的职位页面数据,相关数据采集完成后可以进入到单独的职位页面进行数据采集

采集完成后将采集的职位的链接导入到八爪鱼后,对后续的职位信息进行相关采集。循环打开采集的网页,对职位的岗位需求进行采集。

在这里插入图片描述

4-3-思考

思考部分

1.在数据采集过程中,频繁访问网页会引发反爬虫机制,如何规避这样的问题?

切换IP地址;设置采集间隔时间;

2.对于boss直聘的数据采集中,你觉得哪些信息字段是比较重要的?

企业信息;薪资;工作地点;岗位要求

参考文献

team-learning-program/CollectData at master · datawhalechina/team-learning-program (github.com)

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值