Spark获取DataFrame中列的方式--col,$,column,apply

使用需要导包:

   import spark.implicits._
   import org.apache.spark.sql.functions._
   import org.apache.spark.sql.Column

官方说明:

   df("columnName")            // On a specific DataFrame.
   col("columnName")           // A generic column no yet associated with a DataFrame.
   col("columnName.field")     // Extracting a struct field
   col("`a.column.with.dots`") // Escape `.` in column names.
   $"columnName"               // Scala short hand for a named column.
   expr("a + 1")               // A column that is constructed from a parsed SQL Expression.
   lit("abc")                  // A column that produces a literal (constant) value.

根据使用经验,

  • 如果是唯一列,可以使用$“列名”,col(“列名”)
  • 如果两个DataFrame存在相同的列,就需要指定DataFrame了,df1(“列名”)
  • 在两表join时,如果关联列的列名相同时,join的条件可以使用Seq(“列名”),那么join之后的表这个条件列唯一,如果使用df1(“列名”)===df2(“列名”),则join之后的表会有两个条件列。
已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 1024 设计师:白松林 返回首页