python分析BOSS直聘的某个招聘岗位数据

最新推荐文章于 2024-07-04 11:24:53 发布

Python新世界

最新推荐文章于 2024-07-04 11:24:53 发布

阅读量7.7k

点赞数 1

文章标签： python 编程语言 Python爬虫网络爬虫

本文链接：https://blog.csdn.net/weixin_46089319/article/details/106984304

版权

本文介绍了如何使用Python爬取BOSS直聘的PHP招聘岗位数据，详细讲解了爬取过程和所需的运行环境，强调了在爬取过程中避免封IP的注意事项，并提供了完整的源代码。

摘要由CSDN通过智能技术生成

前言

很多人学习python，不知道从何学起。
很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。
很多已经做案例的人，却不知道如何去学习更加高深的知识。
那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！
QQ群：1097524789

毕业找工作，在职人员换工作，离职人员找工作……不管什么人群，应聘求职，都需要先分析对应的招聘岗位，岗位需求是否和自己匹配，常见的招聘平台有：BOSS直聘、拉钩招聘、智联招聘等，我们通常的方法都是，打开招聘网站，搜索职位关键字，然后一页一页的逐个查看，觉得还不错的岗位就投递一下简历，或者和招聘负责人聊一下，那么有没有办法，能一次性把相关的招聘岗位列出来，方便快速的分析，答案当然有的……

我想做什么

最近我也在考虑新的工作机会，所以，为了方便才这么做的；下面给大家看个东西，打开后面的链接 BOSS直聘的100个PHP招聘岗位

可以看到，这是表格的形式展示了100个PHP的招聘岗位，没错，这就是我爬取的BOSS直聘网的PHP招聘岗位，为啥是100个呢，我也不敢问啊，毕竟BOSS直聘官网限制了10页，通过爬取数据，然后生成 markdown 表格文件，最后展示在有道分享中，就是上面大家看到的那个了，话不多说，开搞。

运行环境

Python运行环境：Windows + python3.6

用到的模块： requests、bs4

如未安装的模块，请使用 pip instatll xxxxxx 进行安装，例如： pip install requests

爬取Boss直聘数据

在这里，非常不建议大家使用自己的IP去爬取BOSS直聘的数据，因为分分钟就会进小黑屋了，所以，这里，我们走的代理IP，关于代理IP的，我在上篇文章，已经有说到过，大家不明白的可以回头看看；还有在 header 头传的 cookie 值是必传的，大家可以在浏览器中刷新BOSS直聘网站，然后打开 F12 的 Network 中找到，复制过来就能用，而且需要更换，不要一直用同个 cookie 去爬取全部数据，多尝试都懂的……

def get_url_html(self, url, cookie):
    """请求页面html"""
    ip_url = self.proxies_ip + ':' + str(self.proxies_port)
    proxies = {'http': 'http://' + ip_url, 'htt