scrapy从下载到爬取网页基本流程---爬取猫眼为例

最新推荐文章于 2024-04-02 06:46:39 发布

HAVE A TIY

最新推荐文章于 2024-04-02 06:46:39 发布

阅读量300

点赞数

分类专栏：爬虫文章标签： scrapy基本流程

本文链接：https://blog.csdn.net/weixin_45615001/article/details/102980351

版权

6 篇文章 0 订阅

订阅专栏

下载scrapy

 pip install scrapy

创建项目

在这里插入图片描述

在桌面创建一个文件夹用来放项目

将创建好的项目放到文件夹内

直接将项目拖进pycharm

创建一个spider

在这里插入图片描述

在setting.py文件中修改robots协议

在这里插入图片描述

在新建好的spider中，初始化start_urls列表，告诉scrapy要下载的网页有哪些

在这里插入图片描述

name：spider的名称，将来启动的时候，需要指定启动哪个，就是这个name

allowed_domains：允许爬取的域名

start_urls：初始url列表，我们只需要把url放到这个[]中，将来启动scrapy的时候，scrapy就会拿到这个列表中的url自动帮我们下载好，下载好的结果就是一个response，这个response就是下面parse方法的参数，由parse方法接收

在settings.py配置文件中设置请求，添加请求头

在这里插入图片描述

在spider文件中的parse方法里测试是否能获取到页面数据

scrapy启动的方法：scrapy crawl name等于的字符串

在这里插入图片描述

在item.py中，定义我们要爬取的字段时哪些

在这里插入图片描述

在parse方法中实例化一个item，从页面中提取数据，将提取出来的数据设置到item对象中

补充：response.xpath返回的就是一个selector对象，selector对象可以继续调用xpath方法提取元素

可以通过以下两个方法从selector对象中获取字符串内容

注：在启动方法后面加 --nolog 可以不打印日志运行scrapy

在这里插入图片描述

关注