熟悉 Spark SQL 基本操作
启动
Spark shell
将下列
json
数据添加到
Linux
系统中,并保存命名为
example.json
。
{ "id":1 ,"name":" Ella","age":36 }
{ "id":2,"name":"Bob","age":29 }
{ "id":3 ,"name":"Jack","age":29 }
{ "id":4 ,"name":"Jim","age":28 }
{ "id":5 ,"name":"Damon" }
{ "id":5 ,"name":"Damon" }
首先为
employee.json
创建
DataFrame
,并写出
Scala 语句完成下列操作:创建 DataFrame
scala> import org.apache.spark.sql.SparkSession
scala> val spark=SparkSession.builder().getOrCreate()
scala> import spark.implicits._
scala> val df = spark.read.json("file:///usr/local/spark/example.json")
(1) 查询
DataFrame
的所有数据
scala> df.show()
(2) 查询所有数据,并去除重复的数据
scala> df.distinct().show()
(3) 查询所有数据,打印时去除
id
字段
scala> df.drop("id").show()
(4)
筛选
age>30
的记录
scala> df.filter(df("age") > 30 ).show()
(5) 将数据按
name
分组
scala> df.groupBy("name").count().show()
(6) 将数据按
name
升序排列
scala> df.sort(df("name").asc).show()
(7) 取出前
3
行数据
scala> df.take(3)
或
scala> df.head(3)
(8)
查询所有记录的
name
列,并为其取别名为
username
scala> df.select(df("name").as("username")).show()