spark研究

最新推荐文章于 2023-04-26 20:01:21 发布

zzb103749

最新推荐文章于 2023-04-26 20:01:21 发布

阅读量418

点赞数

分类专栏：大数据文章标签： spark big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhangzhoubin666/article/details/121740668

版权

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1、spark基本介绍

1.1、spark基本概念

spark是用于大规模数据处理的统一的分析引擎。其中RDD是一种分布式内存抽象，是的程序员能够在大规模集群中做内存运算，并且有一定的容错方式，这也是整个spark的核心数据结构，spark整个平台也是围绕RDD进行的。

统一的分析引擎？

其特点是对于任意类型的数据进行自定义计算，包括结构化、半结构化、非结构化等各种类型的数据结构进行处理，同时支持使用python、java、Scala、R、SQL语言去开发应用数据计算。

1.2、spark的发展的10年历程

1.3、spark特点

1.3.1、速度快

1.3.2、易于使用

spark的版本已经更新到3.2.0，支持java\scala\python\R\SQL在内的额多种语言，并且容然兼容spark2。

1.3.3、通用性强

1.3.4、运行方式

1.5、spark框架模块的了解

1.6、spark的运行模式

1.7、spark的架构角色

1.7.1，YARE的架构

1.7.2、在spark 中类似YARE的角色对比

对于第一章内容的总结：

1）spark解决了什么问题：

海量数据的计算，可以实现离线批处理以及实时流计算；

2）saprk有哪些模块

核心sparkcore
sql计算（sparkSQL）
spark流计算（sparkstreaming）
图计算（spark Graphx）
机器学习（MLlib）
其中对于流计算现在已经很少用sparkstreaming,主要用structuredstreaming为主要的流计算。

3）spark特点有哪些

速度快、使用简单、通用性强、多模式运行。

4）spark运行模式

本地模式
集群模式、
云模式

5）spark的运行角色（对比 Yarn）

Master 集群资源管理（类同ResourceManager）
Worker 单机资源管理（类同NodeManager）
Driver 单任务管理者（类同Applicationmaster）
Executor单任务执行者（类同Yarn容器内的Task）

2、spark的安装部

2.1、spark的安装要求

2.2、local模式

2.2.1、基本原理

2.2.2、local的角色分布

知识补充：

进入虚拟环境：source activate +环境名

关闭虚拟环境：source deactivate +环境名

Anaconda+用conda创建python虚拟环境 - 苏皖静儿 - 博客园Anaconda+用conda创建python虚拟环境 Anaconda与conda区别 conda可以理解为一个工具，也是一个可执行命令，其核心功能是包管理与环境管理。包管理与pip的使用类似，环境https://www.cnblogs.com/swje/p/7642929.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark研究

1、spark基本介绍1.1、spark基本概念spark是用于大规模数据处理的统一的分析引擎。其中RDD是一种分布式内存抽象，是的程序员能够在大规模集群中做内存运算，并且有一定的容错方式，这也是整个spark的核心数据结构，spark整个平台也是围绕RDD进行的。统一的分析引擎？其特点是对于任意类型的数据进行自定义计算，包括结构化、半结构化、非结构化等各种类型的数据结构进行处理，同时支持使用python、java、Scala、R、SQL语言去开发应用数...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。