Scrapy Shell的使用教程

Scrapy shell

Scrapy shell是一个交互终端在未启动spider的情况下尝试及调试您的爬取代码。 其本意是用来测试提取数据的代码,不过您可以将其作为正常的Python终端,在上面测试任何的Python代码。

该终端是用来测试XPath或CSS表达式,查看他们的工作方式及从爬取的网页中提取的数据。 在编写您的spider时,该终端提供了交互性测试您的表达式代码的功能,免去了每次修改后运行spider的麻烦。(安装IPython,替代标准Python终端 pip install IPython)

启动终端

scrapy shell <url>

url是要爬取的网页地址

可用快捷命令

  • shelp()-打印可用对象以及快捷命令的帮助列表
  • fetch(request_or_url)-根据给定的请求(request)或URL获取一个新的response,并更新相关对象。
  • view(response)-在本机的浏览器打开给定的response。其中在response的body中添加一个 base(tag),使得外部链接(例如图片及css正常显示)

可用Scrapy对象

  • crawler- 当前crawler对象。
  • spider-处理URL的spider。对当前URL没有处理的Spider时则为一个Spider对象
  • request-最近获取到的页面的 Request 对象。 您可以使用 replace() 修改该request。或者 使用 fetch 快捷方式来获取新的request。
  • response - 包含最近获取到的页面的 Response 对象。
  • sel-根据最近获取到的response构建的 Selector 对象。
  • settings - 当前的 Scrapy settings
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值