智联招聘的页面信息是jsonp传输的数据,所以抓包或者正常爬取内容不可能的是,下面我将分享分析出来的数据并整体操作步骤。 用谷歌浏览器打开网址,并打开检查,里面有network选项,包含这个网页的请求响应全部内容,当我发现在上面那些选项里面随便选一个地区或者行业时请求响应信息一共有三个,第一个应该是请求,第二个是图片,不用想第三个就是响应包,并打开头部信息就发现了请求url,这就是我们需要的数据,这是一个json数据,为了看清结构和内容首先我们在浏览器输入栏里把这个RequetUrl放进去,再把看到的内容全部复制到bejson这个网站,再点击试图运行一看,果然是一推推字典形式的文件,这就肯定是json文件,也是我们需要的数据,下一步就是代码实现爬取,并分析有用数据存储到我的文件里。 代码实现 import urllib.request from bs4 import BeautifulSoup import ssl,json import urllib.parse import pyexcel_xls def GetData(url): headers = { "Accept": "application/json, text/javascript, */*; q=0.01", "X-Requested-With": "XMLHttpRequest", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36", "Conte
python爬虫获取智联招聘信息
最新推荐文章于 2024-04-18 01:04:54 发布