python3爬取拉勾网

本文讲述了使用Python3爬取拉勾网招聘信息的过程,包括准备工作、爬取分析和爬取步骤。在分析中,作者发现拉勾网有反爬虫机制,并通过设置请求头、cookie和data成功请求到JSON数据。数据被存储到Excel,然后进行了数据分析,利用pyecharts生成了饼图和词云图进行展示。
摘要由CSDN通过智能技术生成

爬取拉勾网招聘信息

学习python,了解了一点爬虫的知识,成功的对拉勾网招聘信息进行了爬取。

准备工作:

python3,requests,time,quote,xlwt,pandas,Counter ,pyecharts ,谷歌浏览器

爬取分析:

首先我们打开拉勾网,打开控制台,搜索java关键词搜索职位,选取北京地区,然后查看network一栏中的数据分析,查看第一个,是不是感觉它很像我们要拿到的请求地址,事实上不是的,这个打开之后是一个html,如果我们访问这个接口,拉钩会返回给我们一个结果,提示我们操作太频繁,也就是被拦截了。不过从这个页面可以看到,拉钩的网页用到了模板,这种加载数据的方式更加快速(大幅度提升)。

爬取步骤:

首先打开拉勾网,对其进行分析,打开拉勾网首页,通常用的是get方式请求,没有返回数据,上网查之后了解拉勾网有反爬虫机制。
这个时候进入审查元素(F12),进入Network,点击XHR,找到positionAjax开头的请求

在这里插入图片描述
在点击Preview,[content][positionResult][result]
在这里插入图片描述
既然是post请求,必然要写header、cookie和data

headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36",
        'Referer': url_job,
        "Host": "www.lagou.com",
        "Origin": "https: // www.lagou.com",
        "X - Anit - Forge - Code": "0",
        "X - Anit - Forge - Token": "None",
        "X - Requested - With": "XMLHttpRequest"
    }
    cookies = {
        "Cookie": "__guid=237742470.2364411580900169700.1542356654561.3325; _ga=GA1.2.408294538.1542356655; user_trace_token=201811
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值