Python爬虫：爬取招聘网职位信息存入

最新推荐文章于 2024-05-11 06:40:58 发布

置顶

Python3.7

最新推荐文章于 2024-05-11 06:40:58 发布

阅读量1.1k

点赞数

分类专栏： Python 爬虫入门文章标签： Python 爬虫 Python入门人工智能

本文链接：https://blog.csdn.net/weixin_45722061/article/details/102368531

版权

本文介绍了如何使用Python爬虫从拉勾网抓取HR职位信息。通过分析网页请求，发现数据以json形式传递，翻页关键在于POST请求中的PageNumber参数。提供了Python入门教程资源，并展示了爬取的职位信息结果。

摘要由CSDN通过智能技术生成

前期准备

打开拉勾首页，按F12进入页面调试模式，关注network标签。我们要获取的是网站中所有HR岗位的相关信息，可以发现，所有数据都是通过json来传递的。

拉勾网

实现翻页

点击下一页，观察页面变化，可以发现每点击一个页面，就多了一个"position... .json"的请求，仔细观察，可以发现是post数据中pn(即PageNumber)发生了变化。Python入门到精通学习教程请加219再加上539然后519内有大量学习教程，欢迎大家加入

拉勾网第二页

源代码

#!user/bin/python# 
-*- coding:utf-8 -*-
import json
import requests
import xlwt

#解决编码问题
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

#获取存储了职位信息的json对象，遍历获得公司名、职位、待遇等信息
def get_json(url,page): 
   datas = {"first": "true",           
            "pn": page,

最低0.47元/天解锁文章

Python3.7

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫：爬取招聘网职位信息存入

前期准备打开拉勾首页，按F12进入页面调试模式，关注network标签。我们要获取的是网站中所有HR岗位的相关信息，可以发现，所有数据都是通过json来传递的。拉勾网实现翻页点击下一页，观察页面变化，可以发现每点击一个页面，就多了一个"position... .json"的请求，仔细观察，可以发现是post数据中pn(即PageNumber)发生了变化。Python入门到...
复制链接

扫一扫

专栏目录