spark研究

1、spark基本介绍

1.1、spark基本概念

        spark是用于大规模数据处理的统一的分析引擎。其中RDD是一种分布式内存抽象,是的程序员能够在大规模集群中做内存运算,并且有一定的容错方式,这也是整个spark的核心数据结构,spark整个平台也是围绕RDD进行的。

 统一的分析引擎?

        其特点是对于任意类型的数据进行自定义计算,包括结构化、半结构化、非结构化等各种类型的数据结构进行处理,同时支持使用python、java、Scala、R、SQL语言去开发应用数据计算。

 1.2、spark的发展的10年历程

 1.3、spark特点

1.3.1、速度快

 1.3.2、易于使用

        spark的版本已经更新到3.2.0,支持java\scala\python\R\SQL在内的额多种语言,并且容然兼容spark2。

1.3.3、通用性强

  1.3.4、运行方式

 1.5、spark框架模块的了解

 1.6、spark的运行模式

1.7、spark的架构角色

1.7.1,YARE的架构

 1.7.2、在spark 中类似YARE的角色对比

对于第一章内容的总结:

1)spark解决了什么问题:

海量数据的计算,可以实现离线批处理以及实时流计算;

2)saprk有哪些模块

  •  核心sparkcore
  • sql计算(sparkSQL)
  • spark流计算(sparkstreaming)
  • 图计算(spark Graphx)
  • 机器学习 (MLlib)
  • 其中对于流计算现在已经很少用sparkstreaming,主要用structuredstreaming为主要的流计算。

3)spark特点有哪些

速度快、使用简单、通用性强、多模式运行。

4)spark运行模式

  • 本地模式
  • 集群模式、
  • 云模式

5)spark的运行角色(对比 Yarn)

  • Master 集群资源管理(类同ResourceManager)
  • Worker 单机资源管理(类同NodeManager)
  • Driver 单任务管理者(类同Applicationmaster)
  • Executor单任务执行者(类同Yarn容器内的Task)

2、spark的安装部 

2.1、spark的安装要求

2.2、local模式

2.2.1、基本原理

 2.2.2、local的角色分布

 知识补充:

进入虚拟环境:source activate +环境名

关闭虚拟环境:source deactivate +环境名

Anaconda+用conda创建python虚拟环境 - 苏皖静儿 - 博客园Anaconda+用conda创建python虚拟环境 Anaconda与conda区别 conda可以理解为一个工具,也是一个可执行命令,其核心功能是包管理与环境管理。包管理与pip的使用类似,环境https://www.cnblogs.com/swje/p/7642929.html

  

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值