python3爬取拉勾网

最新推荐文章于 2024-03-21 11:30:00 发布

橙5

最新推荐文章于 2024-03-21 11:30:00 发布

阅读量876

点赞数

本文链接：https://blog.csdn.net/weixin_43686351/article/details/85147315

版权

本文讲述了使用Python3爬取拉勾网招聘信息的过程，包括准备工作、爬取分析和爬取步骤。在分析中，作者发现拉勾网有反爬虫机制，并通过设置请求头、cookie和data成功请求到JSON数据。数据被存储到Excel，然后进行了数据分析，利用pyecharts生成了饼图和词云图进行展示。

摘要由CSDN通过智能技术生成

爬取拉勾网招聘信息

学习python，了解了一点爬虫的知识，成功的对拉勾网招聘信息进行了爬取。

准备工作：

python3,requests,time,quote,xlwt,pandas,Counter ,pyecharts ,谷歌浏览器

爬取分析：

首先我们打开拉勾网，打开控制台，搜索java关键词搜索职位，选取北京地区，然后查看network一栏中的数据分析，查看第一个，是不是感觉它很像我们要拿到的请求地址，事实上不是的，这个打开之后是一个html，如果我们访问这个接口，拉钩会返回给我们一个结果，提示我们操作太频繁，也就是被拦截了。不过从这个页面可以看到，拉钩的网页用到了模板，这种加载数据的方式更加快速（大幅度提升）。

爬取步骤：

首先打开拉勾网，对其进行分析，打开拉勾网首页，通常用的是get方式请求，没有返回数据，上网查之后了解拉勾网有反爬虫机制。
这个时候进入审查元素(F12)，进入Network，点击XHR，找到positionAjax开头的请求
在这里插入图片描述
在点击Preview，[content][positionResult][result]

既然是post请求，必然要写header、cookie和data

headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36",
        'Referer': url_job,
        "Host": "www.lagou.com",
        "Origin": "https: // www.lagou.com",
        "X - Anit - Forge - Code": "0",
        "X - Anit - Forge - Token": "None",
        "X - Requested - With": "XMLHttpRequest"
    }
    cookies = {
        "Cookie": "__guid=237742470.2364411580900169700.1542356654561.3325; _ga=GA1.2.408294538.1542356655; user_trace_token=201811

最低0.47元/天解锁文章

橙5

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
python3爬取拉勾网

爬取拉勾网招聘信息学习python，了解了一点爬虫的知识，成功的对拉勾网招聘信息进行了爬取。准备工作：python3,requests,time,quote,xlwt,pandas,Counter ,pyecharts ,谷歌浏览器爬取步骤：首先打开拉勾网，对其进行分析，打开拉勾网首页，通常用的是get方式请求，没有返回数据。...
复制链接

扫一扫