spark
文章平均质量分 66
spark~
小赵要加油
这个作者很懒,什么都没留下…
展开
-
【spark】SparkSQL
SparkSQL是Spark的一个模块,用于处理海量结构化数据相同点:1、分布式SQL计算引擎2、构建大规模结构化数据计算的绝佳利器,同时SparkSQL拥有更好的性能DataFrame是按照二维表格的形式存储数据RDD则是存储对象本身。原创 2024-01-19 15:00:17 · 988 阅读 · 0 评论 -
【spark】spark3.X性能调优
Spark3.X性能调优原创 2024-01-18 14:24:34 · 420 阅读 · 0 评论 -
【spark】spark内核调度(重点理解)
Spark内核调度原创 2023-12-19 11:40:11 · 1340 阅读 · 0 评论 -
pyspark udf
目录简单的注册UDF自己定义函数UDFpyspark udf 源码解析复杂数据类型:ArrayType、MapType、StructTypeArrayTypeMapTypeStructType简单的注册UDF直接用lambda表达式注册成UDFfrom pyspark.sql.types import *spark.udf.register('sex_distinct',lamnda x:'M' if x==u'男' else 'F'spark.sql("select sex_register('原创 2021-10-15 09:22:22 · 1056 阅读 · 0 评论