通过scrapy命令行工具做网页分析

最新推荐文章于 2022-09-26 10:50:15 发布

1yshu

最新推荐文章于 2022-09-26 10:50:15 发布

阅读量1.2k

点赞数

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_46913162/article/details/124409588

版权

爬虫专栏收录该内容

21 篇文章 3 订阅

订阅专栏

前言：

Scrapy是由python语言开发的一个快速、高效的web抓取框架，用于抓取web站点并从页面中提取结构化的数据，只需要实现少量的代码，就能够快速的抓取。它最吸引人的地方在于它是一个爬虫框架，任何人都可以根据自己的需求方便的修改。scrapy的创建和执行都需要在命令行下运行，也就意味着scrapy里面会有很多的命令需要在命令行下才能运行，今天我们就用过这些好用的命令，来对网址进行一下网页分析。

命令：scrapy view

>>> scrapy view url地址

这个命令通过我们需要查看的网页，在命令下输入该网页的网址，scrapy会把这个网页自动保存成一个html并且会给我们自动打开呈现出来，现在有很多网页都是通过JavaScript的ajax加载的，所以我们经常请求后，显示不出我们需要的数据内容，我们可以通过view这个命令来查看网页内是否存在我们需要的数据。
在这里插入图片描述

从图中可以看出，通过view命令在加上网址，及能直接跳转到这个网页，这个网页里面显示的是什么内容，也就是网页能给我们请求返回什么响应的内容。

在这里插入图片描述

上图这个就是网页就没有给我显示全部的数据内容，这样就可以判断该网页是通过AJAX加载的，所以直接请求是没有我们需要的数据。

命令：scrapy shell

>>> scrapy shell url地址

通过这个命令在加上需要请求的网址，可以获取到该网址响应后的数据，而且可以通过scrapy shell内的命令，进行查看该网址请求后的各种信息，可以查看它的request和response的状态情况，还可以直接提取该网页的信息，

>>> request

>>> response

如图：

在这里插入图片描述

>>> response.text

还可以看到响应后的数据，如图：

在这里插入图片描述

scrapy还内置了3个解析工具，xpath，css选择器和re(正则表达式)，而且这三个解析工具都支持在scrapy shell命令下执行，

>>> response.css('.mc>.mc_list.clearfix .tit>h3>a::text')[0].get() 
>>> response.css('.mc>.mc_list.clearfix .tit>h3>a::text').getall()

如图：

在这里插入图片描述

>>> response.css('.mc>.mc_list.clearfix .xiang_price>span:nth-child(1)::text').getall()

在这里插入图片描述

通过上面这些命令语句就可以轻松的听取出来我们需要的数据，从而来判断分析这个网址到底能不能提取出来数据，或者是自己写的提取方法是否成功。

结语：

scrapy是一个非常强大的爬虫框架，它通过异步形式的爬取，非常适合我们需要爬取大量数据要求的，它内置了很多很有用的命令，对于我们平时提取网页数据，判断网页的情况都有很方便的命令支持。

scrapy官网：https://scrapy.org/感兴趣的，可以去官网了解更多。

1yshu

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
通过scrapy命令行工具做网页分析

前言：Scrapy是由python语言开发的一个快速、高效的web抓取框架，用于抓取web站点并从页面中提取结构化的数据，只需要实现少量的代码，就能够快速的抓取。它最吸引人的地方在于它是一个爬虫框架，任何人都可以根据自己的需求方便的修改。scrapy的创建和执行都需要在命令行下运行，也就意味着scrapy里面会有很多的命令需要在命令行下才能运行，今天我们就用过这些好用的命令，来对网址进行一下网页分析。命令：scrapy view>>> scrapy view url地址这个
复制链接

扫一扫