初学Spark,dataframe的很多操作不如Python灵动。
比如,取某一列最大值的操作,在python中直接如下操作即可,简单方便
`max(df["A"].unique())`
查了很多scala中的操作,选择了一种相对比较简单的方式。首先将dataframe转化成视图,并通过sql的方式找到最大值。
df.createOrReplaceTempView("TEMP_DF")
val date = sqlContext
初学Spark,dataframe的很多操作不如Python灵动。
比如,取某一列最大值的操作,在python中直接如下操作即可,简单方便
`max(df["A"].unique())`
查了很多scala中的操作,选择了一种相对比较简单的方式。首先将dataframe转化成视图,并通过sql的方式找到最大值。
df.createOrReplaceTempView("TEMP_DF")
val date = sqlContext