![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
wintershii
越努力越幸运
展开
-
Spark知识点总结
Spark知识点总结1.Spark基本架构Cluster Manager : Spark的集群管理器, 主要负责对整个集群资源的分配与管理. Cluster Manager分配的资源属于一级资源, 它将各个Worker上的内存, CPU分配给Application, 但不负责对Executor的资源分配. 在standalone模式下即为Master主节点, 控制整个集群, 监控Worke...原创 2020-02-29 20:24:42 · 652 阅读 · 0 评论 -
Spark内存模型
Spark内存模型Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优在执行 Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor 两种 JVM 进程,前者为主控进程,负责创建 Spark 上下文,提交 Spark 作业(Job),...转载 2020-02-04 16:02:18 · 1677 阅读 · 0 评论 -
Spark SQL函数小结
1.开窗函数1. row_number() over()示例: row_number() OVER (PARTITION BY category ORDER BY revenue DESC) rank作用: 给每个分组的数据,按照排序顺序,打上分组内的行号(分组topN)2. sum、max、min、count、avg等聚合函数示例:sum(pv) over(partition by...原创 2020-02-04 11:22:40 · 917 阅读 · 0 评论