Python爬虫:爬取招聘网职位信息存入

本文介绍了如何使用Python爬虫从拉勾网抓取HR职位信息。通过分析网页请求,发现数据以json形式传递,翻页关键在于POST请求中的PageNumber参数。提供了Python入门教程资源,并展示了爬取的职位信息结果。
摘要由CSDN通过智能技术生成

前期准备

打开拉勾首页,按F12进入页面调试模式,关注network标签。我们要获取的是网站中所有HR岗位的相关信息,可以发现,所有数据都是通过json来传递的。

拉勾网

 

实现翻页

点击下一页,观察页面变化,可以发现每点击一个页面,就多了一个"position... .json"的请求,仔细观察,可以发现是post数据中pn(即PageNumber)发生了变化。Python入门到精通学习教程请加219再加上539然后519内有大量学习教程,欢迎大家加入

拉勾网第二页

 

源代码

#!user/bin/python# 
-*- coding:utf-8 -*-
import json
import requests
import xlwt

#解决编码问题
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

#获取存储了职位信息的json对象,遍历获得公司名、职位、待遇等信息
def get_json(url,page): 
   datas = {"first": "true",           
            "pn": page,       
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值