PySpark
zmqsdu9001
这个作者很懒,什么都没留下…
展开
-
PySpark CheatSheet-Spark DataFrame等Spark类型数据结构转其他数据结构
1. Spark DataFrame转numpy array:先转换成pandas DataFrame,然后再转换成numpy arrayimport pandas as pdimport numpy as npdf=spark.createDataFrame([(101,1,16), (102,2,13),(103,5,19), (104,4,22)], ['ID','A','B'...原创 2019-04-21 11:19:32 · 452 阅读 · 0 评论 -
PySpark CheatSheet-UDF相关
1. PySpark的各种输入输出UDF:下面展示了多个例子,包含:0.UDF单列输入,单列输出的简化版,只用一行代码(lambda函数);1. UDF单列输入,单列输出;2. UDF多列输入,单列输出;3. UDF单列输入,多列输出;4. UDF多列输入,多列输出;5. UDF单列输入并添加外置参数,单列输出。6. UDF多列输入并添加外置参数,单列输出。只...原创 2019-04-20 13:30:14 · 251 阅读 · 0 评论 -
PySpark CheatSheet-其他操作
1. PySpark DataFrame 按照条件过滤使用where()或者filter(),不同条件先用括号括起来,然后连接的and用"&", or用"|", not用"~"。也可以把条件写在一个String里头,里面就用and、or,而且字段名称不用带引号。比如:df=spark.createDataFrame([(101, 1, 16), (102, 2, 13)], ['...原创 2019-04-20 13:33:21 · 328 阅读 · 0 评论 -
PySpark CheatSheet-建立Spark DataFrame
1. 从list of set建立一个DataFrame:df = sc.parallelize([(1, 2.0), (2, 3.0)]).toDF(["x", "y"])df2=spark.createDataFrame([(101, 1, 16), (102, 2, 13)], ['ID', 'A', 'B'])生成的Spark DataFrame:df.show()+-...原创 2019-02-23 18:17:54 · 257 阅读 · 0 评论