链家租房数据抓取流程、分析

本文介绍了如何进行链家租房数据的抓取和分析,包括抓取前的准备、详细的抓取步骤,如获取城市、城区、商圈url,确定最大页数,解析列表页和详情页数据,并将数据存入数据库。同时,针对抓取过程中可能出现的字段为空和经纪人信息获取问题进行了分析和解决策略。
摘要由CSDN通过智能技术生成

一、抓取前准备工作:

1、创建一个爬虫项目:在指定的文件夹中 scrapy startproject xxx(项目名)
2、在项目的spiders的目录中创建爬虫:scrapy genspider bd.py baidu.com
3、在setting中修改robot协议为False,表示不遵守robot协议
4、启动爬虫:scrapy crawl bd --nolog 不打印日志启动,在爬虫正常情况下使用
            scrapy crawl bd         打印日志启动,在爬虫没有正常返回情况下使用
            命令scrapy crawl是固定的,bd表示定义的爬虫名称
5、爬虫启动后,自动去获取start_urls,下载相应的页面,返回给parse函数(固定)
1、scrapy genspider boss zhipin.com 是创建爬虫spider文件的命令
其中scrapy genspider是固定的,boss是爬虫的名称,zhipin.com表示此爬虫可以爬取的域名

2、修改start_urls,然后在parse函数中打印response

3、在setting中添加 HTTPERROR_ALLOWED_CODES = [403],表示可以接收的状态码

4、由于返回403,需要加上请求头,在setting中打开 USER_AGENT = 'mySpider (+http://www.yourdomain.com)' 给请求加上请求头

5、明确爬虫的目标,在items.py中设置需要爬取的字段

6、书写parse函数,获取相应的字段数据

7、将数据存放到item实例当中,返回给pipeline,记得打开se
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值