python爬虫获取智联招聘信息

智联招聘的页面信息是jsonp传输的数据,所以抓包或者正常爬取内容不可能的是,下面我将分享分析出来的数据并整体操作步骤。


用谷歌浏览器打开网址,并打开检查,里面有network选项,包含这个网页的请求响应全部内容,当我发现在上面那些选项里面随便选一个地区或者行业时请求响应信息一共有三个,第一个应该是请求,第二个是图片,不用想第三个就是响应包,并打开头部信息就发现了请求url,这就是我们需要的数据,这是一个json数据,为了看清结构和内容首先我们在浏览器输入栏里把这个RequetUrl放进去,再把看到的内容全部复制到bejson这个网站,再点击试图运行一看,果然是一推推字典形式的文件,这就肯定是json文件,也是我们需要的数据,下一步就是代码实现爬取,并分析有用数据存储到我的文件里。
代码实现



import urllib.request
from bs4 import BeautifulSoup
import ssl,json
import urllib.parse
import pyexcel_xls
def GetData(url):
    headers = {
        "Accept": "application/json, text/javascript, */*; q=0.01",
        "X-Requested-With": "XMLHttpRequest",
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36",
        "Conte
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值