链家租房数据抓取流程、分析

最新推荐文章于 2023-07-24 10:06:17 发布

刘建鑫

最新推荐文章于 2023-07-24 10:06:17 发布

阅读量1.4k

点赞数

分类专栏： python爬虫文章标签：链家租房 python爬虫

本文链接：https://blog.csdn.net/weixin_44367450/article/details/89972632

版权

本文介绍了如何进行链家租房数据的抓取和分析，包括抓取前的准备、详细的抓取步骤，如获取城市、城区、商圈url，确定最大页数，解析列表页和详情页数据，并将数据存入数据库。同时，针对抓取过程中可能出现的字段为空和经纪人信息获取问题进行了分析和解决策略。

摘要由CSDN通过智能技术生成

一、抓取前准备工作：

1、创建一个爬虫项目：在指定的文件夹中 scrapy startproject xxx(项目名)
2、在项目的spiders的目录中创建爬虫：scrapy genspider bd.py baidu.com
3、在setting中修改robot协议为False，表示不遵守robot协议
4、启动爬虫：scrapy crawl bd --nolog 不打印日志启动，在爬虫正常情况下使用
            scrapy crawl bd         打印日志启动，在爬虫没有正常返回情况下使用
            命令scrapy crawl是固定的，bd表示定义的爬虫名称
5、爬虫启动后，自动去获取start_urls，下载相应的页面，返回给parse函数（固定）

1、scrapy genspider boss zhipin.com 是创建爬虫spider文件的命令
其中scrapy genspider是固定的，boss是爬虫的名称，zhipin.com表示此爬虫可以爬取的域名

2、修改start_urls,然后在parse函数中打印response

3、在setting中添加 HTTPERROR_ALLOWED_CODES = [403],表示可以接收的状态码

4、由于返回403，需要加上请求头，在setting中打开 USER_AGENT = 'mySpider (+http://www.yourdomain.com)' 给请求加上请求头

5、明确爬虫的目标，在items.py中设置需要爬取的字段

6、书写parse函数，获取相应的字段数据

7、将数据存放到item实例当中，返回给pipeline，记得打开se

最低0.47元/天解锁文章

刘建鑫

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
链家租房数据抓取流程、分析

一、抓取前准备工作：1、创建一个爬虫项目：在指定的文件夹中 scrapy startproject xxx(项目名)2、在项目的spiders的目录中创建爬虫：scrapy genspider bd.py baidu.com3、在setting中修改robot协议为False，表示不遵守robot协议4、启动爬虫：scrapy crawl bd --nolog 不打印日志启动，在爬虫正常情...
复制链接

扫一扫

专栏目录