![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
大数据详细的笔记
wudl5566
这个作者很懒,什么都没留下…
展开
-
Spark 与hive集成 并且读取mysql数据
1.Spark 和hive de 集成1. 构建SparkSessiond对象2. 与hive 集成的配置3. 2.maven 的依赖环境配置 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>${spa原创 2021-07-08 22:15:13 · 295 阅读 · 3 评论 -
Spark广播
1.Spark 的广播传播1.1实现原理1.广播变量用来高效分发较大的对象。向所有工作节点发送一个较大的只读值,以供一个或多个Spark操作使用。2.比如,如果你的应用需要向所有节点发送一个较大的只读查询表,广播变量用起来都很顺手。3.在多个并行操作中使用同一个变量,但是 Spark会为每个任务分别发送package com.wudl.coreimport org.apache.spark.broadcast.Broadcastimport org.apache.spark.{SparkC原创 2021-07-06 14:10:41 · 1537 阅读 · 0 评论 -
Spark累加器
1. spark 累加器的原理:累加器用来把Executor端变量信息聚合到Driver端。在Driver程序中定义的变量,在Executor端的每个Task都会得到这个变量的一份新的副本,每个task更新这些副本的值后,传回Driver端进行merge。2. 系统累加器...原创 2021-06-17 17:40:34 · 477 阅读 · 0 评论 -
Spark -Core 之---Transformation 的转化算子
Spark 的核心函数value类型1.map 函数:遍历RDD 中的每一个元素。package com.wudl.coreimport org.apache.spark.{SparkConf, SparkContext}/** * 函数模型: * def map[U:ClassTag](f.T =>U): RDD[U] * 功能说明: * 参数是一个函数,当rdd 需要执行map 的时候 ,会遍历该rdd中的每一个数据项,并 *原创 2020-12-03 12:03:22 · 95 阅读 · 0 评论 -
Spark学习笔记 ---workConut
这里写自定义目录标题新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入##Spark 学习笔记之—WordCou...原创 2019-08-28 00:05:16 · 160 阅读 · 0 评论