SparkSQL
文章平均质量分 89
Spark SQL是 Apache Spark 用于处理结构化数据的模块。将 SQL 查询与 Spark 程序无缝混合
Spark SQL 允许您使用 SQL 或熟悉的DataFrame API在 Spark 程序中查询结构化数据。可用于 Java、Scala、Python 和 R。
大数据学习僧
大数据从业者
项目经理背锅者
业务需求对接者
代码灵魂改造者
PPT熬夜设计者
展开
-
Spark程序运行常见错误解决方法以及优化
执行spark任务遇到数据量巨大的表时,任务经常出现心跳超时报错org.apache.spark.rpc.RpcTimeoutException: Cannot receive any reply in 120 seconds. This timeout is controlled by spark.rpc.askTimeout at org.apache.spark.rpc.RpcTimeout.org$apache$spark$rpc$RpcTimeout$$createRpcTime原创 2021-07-07 11:17:42 · 9109 阅读 · 0 评论 -
Spark广播变量之超大表left join小表时如何进行优化以及小表的正确位置
数据分析中将两个数据集进行 Join 操作是很常见的场景。在 Spark 的物理计划(physical plan)阶段,Spark 的 JoinSelection 类会根据 Join hints 策略、Join 表的大小、 Join 是等值 Join(equi-join) 还是不等值(non-equi-joins)以及参与 Join 的 key 是否可以排序等条件来选择最终的 Join 策略(join strategies),最后 Spark 会利用选择好的 Join 策略执行最终的计算。BHJ 又称原创 2020-09-22 11:58:10 · 7246 阅读 · 4 评论 -
Spark从SQL的解析、执行与调优到Sparksql的解析的史上最全介绍
从SQL的解析、执行与调优到Sparksql的解析与应用SparkSQL总体流程介绍在阐述Join实现之前,我们首先简单介绍SparkSQL的总体流程,一般地,我们有两种方式使用SparkSQL,一种是直接写sql语句,这个需要有元数据库支持,例如Hive等,另一种是通过Dataset/DataFrame编写Spark应用程序。如下图所示,sql语句被语法解析(SQL AST)成查询计划,或者我们通过Dataset/DataFrame提供的APIs组织成查询计划,查询计划分为两大类:逻辑计划和物理计划,原创 2020-09-22 11:51:30 · 1460 阅读 · 1 评论