前期准备
打开拉勾首页,按F12进入页面调试模式,关注network
标签。我们要获取的是网站中所有HR岗位的相关信息,可以发现,所有数据都是通过json来传递的。
拉勾网
实现翻页
点击下一页,观察页面变化,可以发现每点击一个页面,就多了一个"position... .json"的请求,仔细观察,可以发现是post数据中pn
(即PageNumber)发生了变化。Python入门到精通学习教程请加219再加上539然后519内有大量学习教程,欢迎大家加入
拉勾网第二页
源代码
#!user/bin/python#
-*- coding:utf-8 -*-
import json
import requests
import xlwt
#解决编码问题
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
#获取存储了职位信息的json对象,遍历获得公司名、职位、待遇等信息
def get_json(url,page):
datas = {"first": "true",
"pn": page,