通过scrapy命令行工具做网页分析

前言:

Scrapy是由python语言开发的一个快速、高效的web抓取框架,用于抓取web站点并从页面中提取结构化的数据,只需要实现少量的代码,就能够快速的抓取。它最吸引人的地方在于它是一个爬虫框架,任何人都可以根据自己的需求方便的修改。scrapy的创建和执行都需要在命令行下运行,也就意味着scrapy里面会有很多的命令需要在命令行下才能运行,今天我们就用过这些好用的命令,来对网址进行一下网页分析。

命令:scrapy view

>>> scrapy view url地址  

这个命令通过我们需要查看的网页,在命令下输入该网页的网址,scrapy会把这个网页自动保存成一个html并且会给我们自动打开呈现出来,现在有很多网页都是通过JavaScript的ajax加载的,所以我们经常请求后,显示不出我们需要的数据内容,我们可以通过view这个命令来查看网页内是否存在我们需要的数据。
在这里插入图片描述

从图中可以看出,通过view命令在加上网址,及能直接跳转到这个网页,这个网页里面显示的是什么内容,也就是网页能给我们请求返回什么响应的内容。

在这里插入图片描述

上图这个就是网页就没有给我显示全部的数据内容,这样就可以判断该网页是通过AJAX加载的,所以直接请求是没有我们需要的数据。

命令:scrapy shell

>>> scrapy shell url地址

通过这个命令在加上需要请求的网址,可以获取到该网址响应后的数据,而且可以通过scrapy shell内的命令,进行查看该网址请求后的各种信息,可以查看它的request和response的状态情况,还可以直接提取该网页的信息,

>>> request
>>> response

如图:

在这里插入图片描述

>>> response.text

还可以看到响应后的数据,如图:

在这里插入图片描述

scrapy还内置了3个解析工具,xpath,css选择器和re(正则表达式),而且这三个解析工具都支持在scrapy shell命令下执行,

>>> response.css('.mc>.mc_list.clearfix .tit>h3>a::text')[0].get() 
>>> response.css('.mc>.mc_list.clearfix .tit>h3>a::text').getall()

如图:

在这里插入图片描述

>>> response.css('.mc>.mc_list.clearfix .xiang_price>span:nth-child(1)::text').getall()

在这里插入图片描述

通过上面这些命令语句就可以轻松的听取出来我们需要的数据,从而来判断分析这个网址到底能不能提取出来数据,或者是自己写的提取方法是否成功。

结语:

scrapy是一个非常强大的爬虫框架,它通过异步形式的爬取,非常适合我们需要爬取大量数据要求的,它内置了很多很有用的命令,对于我们平时提取网页数据,判断网页的情况都有很方便的命令支持。

scrapy官网:https://scrapy.org/感兴趣的,可以去官网了解更多。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值