![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 92
我是女生,我不做程序媛
这个作者很懒,什么都没留下…
展开
-
pyspark学习笔记
文章目录spark dataframespark dataframespark dataframe与pandas的dataframe不同,是两种不同的数据类型,具有不同的函数和使用方法。搭建sc环境:from pyspark.sql import SparkSessionfrom pyspark.sql import Row建立spark dataframe: df=spark_session.sql(‘sql’)将spark dataframe转化为二维列表: df.col原创 2021-10-22 15:17:55 · 579 阅读 · 0 评论 -
Spark常见面试问题整理
文章目录数据倾斜数据倾斜什么是数据倾斜在并行处理的大数据系统中,某个部分(Partition)的数据量严重大于其他部分,导致该部分的数据处理速度成为数据集处理的瓶颈。为什么会数据倾斜同一Stage中不同task处理的数据量存在显著差异,某个task处理的数据量严重大于其他task。怎样解决数据倾斜的问题① 提高shuffle操作的并行度为了避免task较少导致多个key分配到同一task且分配不均的问题,可以适当提高task的数量(但是并不能解决某一个key数据量严重大于其他key的情况的原创 2021-10-09 11:09:14 · 138 阅读 · 0 评论 -
Spark SQL/Hive SQL
文章目录Spark SQL/Hive SQL与SQL的关系HSQL与普通SQL的区别数据类型Spark SQL/Hive SQL与SQL的关系SQL:Structured Query Language,用于对关系型数据库进行操作的标准化语言。不同数据库对应不同类型的SQL。Spark SQL/Hive SQL:Spark使用的数据存储是Hive,因此Spark SQL即Hive SQL,具有其自身的一些标准和使用方法。HSQL与普通SQL的区别HSQL不支持等值链接,即不能省略join,如:原创 2021-10-08 16:48:28 · 1986 阅读 · 0 评论