scrapy框架,scrapy-redis(使scrapy能做分布式)

scrapy框架 scrapy-redis

scrapy框架

1.框架图
在这里插入图片描述
2.组件
在这里插入图片描述

3.开发流程
1、创建一个项目
在这里插入图片描述
2、将scrapy项目放到pycharm,目录结构如下:
在这里插入图片描述
如果不按上面的方式,运行命令会发生找不到命令的情况。

3、创建一个spider
在这里插入图片描述
4、在settings.py中,修改robots协议
在这里插入图片描述
5.在新建好的spider中,初始化start_urls列表,告诉scrapy要下载的网页有哪些?
在这里插入图片描述
6、添加请求,请求头需要在settings.py配置文件中设置。
在这里插入图片描述
7、在spider文件中的parse方法里测试是否能够获取到页面数据。
Scrapy的启动方法:scrapy crawl maoyan_spider
在这里插入图片描述
8.在items.py中,定义我们要爬取的字段是那些。
在这里插入图片描述
9、在parse方法中实例化一个item
在这里插入图片描述
10、从页面提取数据。
在这里插入图片描述
在这里插入图片描述
补充:

  Response.xpath返回的就是一个selector对象,selector					  对象可以继续调用xpath方法提取元素。
  可以通过以下两个方法,从selector对象中获取字符串内容。
  extract_first()--
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值