scrapy从下载到爬取网页基本流程---爬取猫眼为例

下载scrapy

 pip install scrapy

创建项目

在这里插入图片描述

在桌面创建一个文件夹用来放项目

将创建好的项目放到文件夹内

直接将项目拖进pycharm

创建一个spider

在这里插入图片描述

在setting.py文件中修改robots协议

在这里插入图片描述

在新建好的spider中,初始化start_urls列表,告诉scrapy要下载的网页有哪些

在这里插入图片描述

name:spider的名称,将来启动的时候,需要指定启动哪个,就是这个name

allowed_domains:允许爬取的域名

start_urls:初始url列表,我们只需要把url放到这个[]中,将来启动scrapy的时候,scrapy就会拿到这个列表中的url自动帮我们下载好,下载好的结果就是一个response,这个response就是下面parse方法的参数,由parse方法接收

在settings.py配置文件中设置请求,添加请求头

在这里插入图片描述

在spider文件中的parse方法里测试是否能获取到页面数据

scrapy启动的方法:scrapy crawl name等于的字符串

在这里插入图片描述

在item.py中,定义我们要爬取的字段时哪些

在这里插入图片描述

在parse方法中实例化一个item,从页面中提取数据,将提取出来的数据设置到item对象中

补充:response.xpath返回的就是一个selector对象,selector对象可以继续调用xpath方法提取元素

可以通过以下两个方法从selector对象中获取字符串内容

  • extract_first():相当于text[0]
  • extract():取出返回的整个list中的每一个字符串内容

注:在启动方法后面加 --nolog 可以不打印日志运行scrapy

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值