Spark SQL基本操作

最新推荐文章于 2024-03-26 22:35:36 发布

Ashigogo

最新推荐文章于 2024-03-26 22:35:36 发布

阅读量2.9k

点赞数 9

文章标签： spark sql hive

本文链接：https://blog.csdn.net/zbb50351772/article/details/124675170

版权

大数据学习笔记03

Spark SQL基本操作

将下列json数据复制到你的ubuntu系统/usr/local/spark下，并保存命名为employee.json

{ "id":1 ,"name":" Ella","age":36 }
{ "id":2,"name":"Bob","age":29 }
{ "id":3 ,"name":"Jack","age":29 }
{ "id":4 ,"name":"Jim","age":28 }
{ "id":5 ,"name":"Damon" }
{ "id":5 ,"name":"Damon" }

首先为employee.json创建DataFrame，并写出Python语句完成以下操作：
创建DataFrame

from pyspark import SparkContext,Sparkconf
form pyspark.sql import Sparksession
spark=SparkSession.builder().getOrCreate()

查询DataFrame的所有数据

df = spark.read.json("file:///usr/local/spark/employee.json")
df.show()

查询所有数据，并去除重复的数据

df.distinct().show()

查询所有数据，打印时去除id字段

df.drop("id").show()

筛选age>30的记录

df.filter(df.age > 30 ).show()

将数据按name分组

df.groupBy("name").count().show()

将数据按name升序排列

df.sort(df.name.asc()).show()

取出前3行数据

df.take(3) 或python> df.head(3)

查询所有记录的name列，并为其取别名为username

df.select(df.name.alias("username")).show()

查询年龄age的平均值

df.agg({"age": "mean"}).show()

查询年龄age的最大值

df.agg({"age": "max"}).show()

Ashigogo

关注

9
点赞
踩
62

收藏

觉得还不错? 一键收藏
0
评论
Spark SQL基本操作

大数据学习笔记03Spark SQL基本操作将下列json数据复制到你的ubuntu系统/usr/local/spark下，并保存命名为employee.json{ "id":1 ,"name":" Ella","age":36 }{ "id":2,"name":"Bob","age":29 }{ "id":3 ,"name":"Jack","age":29 }{ "id":4 ,"name":"Jim","age":28 }{ "id":5 ,"name":"Damon" }{ "id
复制链接

扫一扫