![](https://img-blog.csdnimg.cn/20190927151132530.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
spark
文章平均质量分 77
Java Scala 双语开发 Spark
书香恋仁心
万古如长夜
展开
-
05-RDD五大特性
RDD(Resilient Distributed Dataset)即,是一个容错的、并行的数据结构,是Spark中最基本的。代码中是一个抽象类,它代表一个弹性的、、里面的元素可计算的集合。类比: RDD的数据处理方式类似于IO流,也有装饰者设计模式 RDD的数据只有在调用行动算子(例如,collect())时,才会真正执行业务逻辑操作。 RDD是不保存数据的,但是IO可以临时保存一部分数据可以认为RDD是分布式的列表List或数组Array,抽象的数据结构,原创 2023-09-06 16:16:39 · 896 阅读 · 0 评论 -
04-监控页面及圆周率PI运行
每个Spark Application应用运行时,启动WEB UI监控页面(默认端口 4040) 当应用运行结束后,该监控页面就看不到了;开发中我们经常会配置历史服务器。点击【Job 0】,进入到此Job调度界面,通过DAG图展示。原创 2023-09-06 16:15:28 · 34 阅读 · 0 评论 -
03-第一个Spark程序WordCount
Spark 由 Scala 语言开发的,咱们当前使用的 Spark 版本为 3.2.0,默认采用的 Scala 编译版本为 2.13,所以后续开发时。我们依然采用这个版本。开发前请保证 IDEA 开发工具中含有。原创 2023-08-13 22:08:49 · 594 阅读 · 0 评论 -
02-打包代码与依赖
在开发中,我们写的应用程序通常需要依赖第三方的库(即程序中引入了既不在 org.apache.spark包,也不再语言运行时的库的依赖),我们就需要确保所有的依赖在Spark应用运行时都能被找到注意: 提交应用时,原创 2023-09-06 16:51:33 · 438 阅读 · 0 评论 -
01-Spark环境部署
**client模式适用于测试调试程序。**Driver进程是在客户端启动的,这里的客户端指的是提交应用程序的当前节点。在Driver端可以看到 task执行的情况 **生成环境中不能使用client模式。**因为:假设要提交100个application 到集群运行,Driver每次都会在 client端启动,那么就会导致客户端100网卡流量暴增的问题。原创 2023-08-13 22:06:42 · 1077 阅读 · 0 评论 -
spark环境部署(local、standalone、yarn)
spark环境的部署原创 2023-04-20 11:43:30 · 979 阅读 · 1 评论 -
Spark环境搭建
Spark作为一个数据处理框架和计算引擎,被设计在所有常见的集群环境中运行, 在国内工作中主流的环境为Yarn,不过逐渐容器式环境也慢慢流行起来。接下来,我们就分别看看不同环境下Spark的运行。原创 2023-04-17 12:30:39 · 730 阅读 · 0 评论