一、说在前面
受人所托,爬取链家上地图找房的数据:https://bj.lianjia.com/ditu/。
上面有按区域划分的二手房均价和在售套数,我们的任务就是抓下这些数据。
二、开干
2.1失败一次
老样子,Chrome 按下F12打开Chrome DevTools中的Network标签查看请求过程,像这种需要更新的数据大概率是通过后台接口请求返回的,遗憾的是在XHR下并没有找到接口,小泄气。
继续找,在JS下发现了一个可疑的请求:https://ajax.lianjia.com/map/search/ershoufang/
嘻嘻,就是你了。然后就是熟悉的模拟请求过程了,把Headers、Query String Parameters都带上,一通操作猛如虎之后:
什么鬼啊,一个简单的GET请求,模拟了所有请求头