![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 78
InceptionZ
这个作者很懒,什么都没留下…
展开
-
【spark】Master&Wroker、Driver&Executor、Job&Stage&Task概念
Spark中存在大量的角色和阶段,如Master\Worker、Driver\Executor、Job\Stage\Task等,本节主要是讲解这些角色的含义和之间的关系。原创 2022-07-17 17:56:51 · 272 阅读 · 0 评论 -
【spark】两种部署模式deploy-mode:cluster,client
SparkApplication提交运行时部署模式DeployMode,表示的是DriverProgram运行的地方,要么是提交应用的Clientclient,要么是集群中从节点(Standalonecluster。默认值为client,当时在实际项目中,尤其在生产环境,使用cluster部署模式提交应用运行。Cluster和Client模式最最本质的区别是Driver程序运行在哪里。官方的解释。.........原创 2022-07-16 17:40:26 · 2167 阅读 · 1 评论 -
【spark】spark的三种常用运行环境:Local,Standalone,Yarn
Spark作为一个数据处理框架和计算引擎,被设计在所有常见的集群环境中运行,在国内工作中主流的环境为Yarn,不过逐渐容器式环境也慢慢流行起来。spark提供了基于不同环境下的部署模式,本篇针对常用的部署和运行模式,简单做一下总结。...原创 2022-07-16 17:07:48 · 1693 阅读 · 2 评论 -
【spark】Spark与Hadoop之间的联系与区别
在学习hadoop的时候查询一些资料的时候经常会看到有比较hadoop和spark的,对于初学者来说难免会有点搞不清楚这二者到底有什么大的区别。就这个问题查阅了一些资料,观点分享给大家:1. 目的首先需要明确一点,hadoop和spark 这二者都是大数据框架,即便如此二者各自存在的目的是不同的。Hadoop是一个分布式的数据基础设施,它是将庞大的数据集分派到由若干台计算机组成的集群中的多个节点进行存储。Spark是一个专门用来对那些分布式存储的大数据进行处理的工具,Spark本身并不会进行分布.原创 2021-06-16 10:34:44 · 543 阅读 · 0 评论 -
【spark】spark-submit 提交python外部依赖包(elasticsearch)
建议先看下参考链接:spark-submit 提交python外部依赖包spark-submit提交python脚本过程记录需求:使用pyspark的过程中,发现集群的python并没有安装自己需要的包,比如elasticsearch包等,这样就只能靠自己把包打上,然后才能被分发到集群的各台节点机器上,然后被执行,这里举个例子,如何加载python的外部依赖包elasticsearch1. 利用指定pip安装elasticsearch到指定目录(1) 指定pip是因为公司内部机器上可能有多种p原创 2021-06-08 14:51:03 · 1441 阅读 · 0 评论 -
【spark】PySpark之SparkStreaming基本操作
PySpark之SparkStreaming基本操作1. 前言流数据具有如下特征:数据快速持续到达,潜在大小也许是无穷无尽的数据来源众多,格式复杂数据量大,但是不十分关注存储,一旦经过处理,要么被丢弃,要么被归档存储注重数据的整体价值,不过分关注个别数据数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的数据元素的顺序流计算(数据的价值随着时间的流式而降低):实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息2. 流计算处理流程(强调实时性)数据实时采集—&g原创 2021-05-30 14:28:07 · 1142 阅读 · 0 评论