Spark
文章平均质量分 89
Spark
对许
这个作者很懒,什么都没留下…
展开
-
SparkSQL允许左联接的数据量大于左表数据量?
本次问题可以概括为:由一个join改为left join而引发的数据倾斜问题,并且一开始还当成了OOM处理。看似一个不起眼的举动,往往会产生意想不到的结果。这就是蝴蝶效应由于原来是join时SQL没有出现过数据倾斜问题,而这恰好让我们忽略了空值Key的问题。因此,我们应该时刻关注细节,细节决定成败!通过本次问题,现总结以下两点:原创 2024-04-18 18:07:16 · 719 阅读 · 0 评论 -
Hive表字段值中存在换行符,查询结果混乱进而导致插入失败
从上面结果可以看到,若Hive表字段值中存在换行符,MapReduce和Spark引擎的查询结果出现混乱。自动化调度系统在按周期天执行数据迁移(出库)任务时,在执行到某条SQL时报错,最终导致任务失败。由于我们的调度系统设置的执行引擎为Spark,因此,原本查询的一行结果会被字段值中的换行符。报错信息提示语法问题,可是检查SQL发现也没有什么语法问题,这到底是怎么回事呢?这样,我们的数据才会显示正常,报错问题也就解决了。转换为多行,查询结果结构混乱,最终导致插入失败。使用两个反斜杠,即一个反斜杠用来转义。原创 2024-02-23 15:18:11 · 473 阅读 · 0 评论 -
Hive增强的聚合、多维数据集、分组和汇总
在多维分析场景下,我们可能会用到高阶聚合函数,例如CUBEROLLUP等。Hive、Spark、Presto等引擎都提供类似的高阶聚合函数,以对不同维度组合下的数据进行聚合统计Hive官方将这种分析称为GROUP BY子句增强的聚合、多维数据集、分组和汇总那么什么是增强聚合和多维分析呢?增强聚合是指在SQL中使用分组聚合查询时,使用CUBEROLLUP等子句进行操作。常见的查询引擎基本都支持这种语法,例如Hive、Spark、Presto、FlinkSQL等。原创 2023-12-07 17:28:00 · 1402 阅读 · 0 评论 -
PySpark开发环境搭建常见问题及解决
版本与Hadoop集群版本不匹配。,并配置了环境变量,但未将。目录中(重启电脑才能生效)各版本下载链接见文末附录。,配置环境变量,并将。原创 2023-12-05 16:28:47 · 1140 阅读 · 0 评论 -
Python大数据之PySpark
在Driver端,Python通过Py4j来调用Java方法,将用户使用Python写的程序映射到JVM中,比如,用户在PySpark中实例化一个Python的SparkContext对象,最终会在JVM中实例化Scala的SparkContext对象。为了不影响现有Spark的运行架构,Spark在外围包装了一层Python的API,借助Py4j实现Python和Java的交互,即通过Py4j将PySpark代码“解析”到JVM中去运行。根据Spark官网,Spark支持Python语言编程。原创 2023-10-21 22:32:44 · 1054 阅读 · 0 评论