爬取拉勾网招聘信息
学习python,了解了一点爬虫的知识,成功的对拉勾网招聘信息进行了爬取。
准备工作:
python3,requests,time,quote,xlwt,pandas,Counter ,pyecharts ,谷歌浏览器
爬取分析:
首先我们打开拉勾网,打开控制台,搜索java关键词搜索职位,选取北京地区,然后查看network一栏中的数据分析,查看第一个,是不是感觉它很像我们要拿到的请求地址,事实上不是的,这个打开之后是一个html,如果我们访问这个接口,拉钩会返回给我们一个结果,提示我们操作太频繁,也就是被拦截了。不过从这个页面可以看到,拉钩的网页用到了模板,这种加载数据的方式更加快速(大幅度提升)。
爬取步骤:
首先打开拉勾网,对其进行分析,打开拉勾网首页,通常用的是get方式请求,没有返回数据,上网查之后了解拉勾网有反爬虫机制。
这个时候进入审查元素(F12),进入Network,点击XHR,找到positionAjax开头的请求
在点击Preview,[content][positionResult][result]
既然是post请求,必然要写header、cookie和data
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36",
'Referer': url_job,
"Host": "www.lagou.com",
"Origin": "https: // www.lagou.com",
"X - Anit - Forge - Code": "0",
"X - Anit - Forge - Token": "None",
"X - Requested - With": "XMLHttpRequest"
}
cookies = {
"Cookie": "__guid=237742470.2364411580900169700.1542356654561.3325; _ga=GA1.2.408294538.1542356655; user_trace_token=201811