“房天下”
网站爬取整体难度较小,爬取信息时,尽量在其一级页面进行爬取,本人一开始采取从一级页面获取二级页面的链接,进入二级页面爬取楼盘信息,以为这样的方法可以获取更全面的信息。
但是!!!房天下二级页面下,采用xpath时,由于每个楼盘的网页构造不尽相同,导致要写很多套xpath,实在是太痛苦了,所以建议大家直接从一级页面爬取吧…
一级页面(其网址翻页主要靠/b9{}/,与后面的page没啥关系)
二级页面
第一次爬取时没有任何内容,将requests的结果保存下来,发现全是乱码
打开网页源代码,搜索’charset’,发现他的编码形式为‘gb2312’
在代码中加入以下即可解决:
res = requests.get(url=url,headers=headers)
res.encoding = 'gb2312'
l = etree.HTML(res.text)
没有什么其他问题,‘房天下’相比‘安居客’要和谐一点,本人在前几次爬取过程中,没有遇到反爬,第三次之后就被抓了
被抓以后,只能继续采用selenium+chromdrive的方法了~