Spark SQL基本操作

大数据学习笔记03

Spark SQL基本操作

  1. 将下列json数据复制到你的ubuntu系统/usr/local/spark下,并保存命名为employee.json
{ "id":1 ,"name":" Ella","age":36 }
{ "id":2,"name":"Bob","age":29 }
{ "id":3 ,"name":"Jack","age":29 }
{ "id":4 ,"name":"Jim","age":28 }
{ "id":5 ,"name":"Damon" }
{ "id":5 ,"name":"Damon" }
  • 首先为employee.json创建DataFrame,并写出Python语句完成以下操作:
  • 创建DataFrame
from pyspark import SparkContext,Sparkconf
form pyspark.sql import Sparksession
spark=SparkSession.builder().getOrCreate()
  • 查询DataFrame的所有数据
df = spark.read.json("file:///usr/local/spark/employee.json")
df.show()
  • 查询所有数据,并去除重复的数据
df.distinct().show()
  • 查询所有数据,打印时去除id字段
df.drop("id").show()
  • 筛选age>30的记录
df.filter(df.age > 30 ).show()
  • 将数据按name分组
df.groupBy("name").count().show()
  • 将数据按name升序排列
df.sort(df.name.asc()).show()
  • 取出前3行数据
df.take(3) 或python> df.head(3)
  • 查询所有记录的name列,并为其取别名为username
df.select(df.name.alias("username")).show()
  • 查询年龄age的平均值
df.agg({"age": "mean"}).show()
  • 查询年龄age的最大值
df.agg({"age": "max"}).show()
  • 9
    点赞
  • 62
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值