python爬虫—房地产—“房天下”的乱码问题解决

最新推荐文章于 2024-06-02 21:08:37 发布

xiaolaodidi

最新推荐文章于 2024-06-02 21:08:37 发布

阅读量683

点赞数

分类专栏：爬虫文章标签： python selenium 乱码

本文链接：https://blog.csdn.net/xiaolaodidi/article/details/104622451

版权

爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

“房天下”
网站爬取整体难度较小，爬取信息时，尽量在其一级页面进行爬取，本人一开始采取从一级页面获取二级页面的链接，进入二级页面爬取楼盘信息，以为这样的方法可以获取更全面的信息。
但是！！！房天下二级页面下，采用xpath时，由于每个楼盘的网页构造不尽相同，导致要写很多套xpath，实在是太痛苦了，所以建议大家直接从一级页面爬取吧…

在这里插入图片描述
一级页面（其网址翻页主要靠/b9{}/，与后面的page没啥关系）

二级页面

第一次爬取时没有任何内容，将requests的结果保存下来，发现全是乱码在这里插入图片描述
打开网页源代码，搜索’charset’，发现他的编码形式为‘gb2312’
在代码中加入以下即可解决：

    res = requests.get(url=url,headers=headers)
    res.encoding = 'gb2312'
    l = etree.HTML(res.text)

没有什么其他问题，‘房天下’相比‘安居客’要和谐一点，本人在前几次爬取过程中，没有遇到反爬，第三次之后就被抓了在这里插入图片描述
被抓以后，只能继续采用selenium+chromdrive的方法了～

xiaolaodidi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫—房地产—“房天下”的乱码问题解决

“房天下”网站爬取整体难度较小，爬取信息时，尽量在其一级页面进行爬取，本人一开始采取从一级页面获取二级页面的链接，进入二级页面爬取楼盘信息，以为这样的方法可以获取更全面的信息。但是！！！房天下二级页面下，采用xpath时，由于每个楼盘的网页构造不尽相同，导致要写很多套xpath，实在是太痛苦了，所以建议大家直接从一级页面爬取吧…一级页面（其网址翻页主要靠/b9{}/，与后面的page没啥关...
复制链接

扫一扫