scrapy笔记

  • 安装scrapy

在python文件的scripts目录下打开cmd
pip install scrapy
可能安装失败
1.scrapy是基于twisted,先下载twisted对应版本的whl文件
2.提示upgrade pip,那就python -m pip install --upgrade pip
3.或者直接安装anaconda,这是个重量级,里面啥都有,就是有点难下载

  • 创建scrapy项目

1.在当前正在使用的python项目下,或者新建一个目录
2.从该目录进入cmd窗口
-创建项目:不允许数字开头,不允许包含中文及中文符号
scrapy startproject 项目名字
-创建文件:在spiders文件夹中创建爬虫文件
cd 项目名字\项目名字\spiders
scrapy genspider 爬虫文件名字 要爬取的网页(域名)

1.scrapy组成

基于Twisted的异步处理框架

  • Engine:引擎;处理整个系统的数据流处理,触发事务,整个框架的核心
  • Item:项目;定义爬取结果的数据结构,爬取的数据会被赋值成该item对象
  • Scheduler:调度器;接受引擎发过来的请求,并将其加入队列中,在引擎再次请求的时候将请求提供给引擎
  • Downloader:下载器;下载网页内容,并将网页内容返回给Spiders
  • Spiders:定义爬取逻辑和网页的解析规则,主要负责解析响应并生成提取结果和新的请求
  • Item Pipeline:管道;负责处理由Spiders从网页中抽取的项目,主要任务是清洗,验证和存储数据

2.scrapy工作原理

数据流:

在这里插入图片描述

3.小栗子-01

小介绍:

-name:每个项目唯一的名字,用来区分不同的Spider
-allowed_domains:允许爬取的域名,如果初始或后续的请求链接不是这个域名下的,则请求链接会被过滤掉
-start_urls:包含Spider在启动时爬取的url列表,初始请求由他来定义
-parse:Spider的一个方法。默认情况下,被调用时start_urls里面的链接构成的请求完成下载执行后,返回的响应就会作为唯一的参数传递给这个函数。然后该方法解析返回的响应,提取数据或者进一步生成要处理的请求


  • spider

import scrapy
from scr_piao_01.items import ScrPiao01Item


class BaiduSpider(scrapy.Spider):
    # 爬虫的名字 用于运行爬虫的时候 使用的值
    name = 'baidu'
    # 允许访问的域名
    allowed_domains = ['category.dangdang.com']
    # 起始的url地址(第一次要访问的域名)
    start_urls = ['http://category.dangdang.com/cp01.01.08.00.00.00.html']

    base_url = 'http://category.dangdang.com/pg'
    page = 1

    # 方法中的返回对象response相当于response=urllib.request.urlopen()
    def parse(self, response):
        # 所有的selector对象,都可以再次调用xpath方法,extract_first()获取selector列表的第一个元素
        li_lst = response.xpath('//ul[@id="component_59"]/li')
        for li in li_lst:
            src = li.xpath('.//img/@data-original').extract_first()
            if src:
                src = src
            else:
                src = li.xpath('.//img/@src').extract_first()

            alt = li.xpath('.//img/@alt').extract_first()
            price = li.xpath
  • 5
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值