Scrapy爬虫方法

目录

一、简介

1.1、什么是scrapy

1.2、结构性数据

1.3、安装

二、scrapy的使用

2.1、创建scrapy项目

2.2、创建爬虫文件

2.3、运行爬虫代码

2.4、实战

2.4.1、scrapy项目结构

2.4.2、response的属性和方法

2.4.3、scrapy架构组成

2.4.4、scrapy工作原理

三、scrapy shell

3.1、什么是scrapy shell

3.2、安装

3.3、应用

3.3.1、进入scrapy终端

3.3.2、语法

四、CrawlSpider

4.1、介绍

4.2、实操

五、数据入库

六、日志信息及日志等级

七、scrapy的post请求

 八、代理


一、简介

1.1、什么是scrapy

        scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘、信息处理或存储历史数据等一系列的程序中。

1.2、结构性数据

        类似的,具有相同结构的数据,称为结构性数据,如下图。

1.3、安装

二、scrapy的使用

2.1、创建scrapy项目

        1)在终端输入:scrapy startproject 项目名称

              注意:项目名称不能以数字开头,且不能包含中文

        2)此时,在目录下会出现新建的scrapy项目

2.2、创建爬虫文件

        1)进入spiders文件夹下,创建爬虫文件:scrapy genspider 爬虫文件名称

scrapy genspider baidu http://www.baidu.com

               注意:1)需要在spiders文件夹中创建爬虫文件

                          2)域名不需要加http协议,scrapy会自动添加

        2)创建成功:

                

         3)baidu.py文件内容

                注意:如果请求的页面以 html 结尾,最后的 “/” 需要删除

import scrapy

class BaiduSpider(scrapy.Spider):

    # 爬虫名字:运行爬虫时使用
    name = 'baidu'

    # 允许访问的域名
    allowed_domains = ['www.baidu.com']

    # 起始的url地址,表示第一次访问的域名:
    # start_urls = 'http://' + allowed_domains + '/'
    start_urls = ['http://www.baidu.com/']

    # 方法中response为爬取网页后的返回对象
    # 类似于:respons
  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值