Databricks 入门之sql(一)基础查询

Databricks提供以spark sql的方式管理数据,本文记录最近学习到的常用sql。

1.Create table

DROP TABLE IF EXISTS People10M;
CREATE TABLE People10M
USING parquet
OPTIONS (
path "/mnt/training/dataframes/people-10m.parquet",
header "true");

从OPTIONS指定的路径下读取数据并创建对应的表,USING parquet指定读取数据的结构为parquet。Apache parquet 是一种列式文件格式,具有加快查询速度的优化功能。 它是比CSV或 JSON更加高效的文件格式。细节参考:Parquet Files 。

当然databricks支持对CSV和JSON格式的数据读取。

2. Create Temporary Views

Databricks 可以方便快速的在内存中创建临时视图来支持数据操作。

CREATE OR REPLACE TEMPORARY VIEW PeopleSavings AS
SELECT
  firstName,
  lastName,
  year(birthDate) as birthYear,
  salary,
  salary * 0.2 AS savings
FROM
  People10M;

3. 查询

查询语法和常见的sql语句相同

# 查询数据
SELECT * FROM People10M;
# 查询表结构
DESCRIBE People10M;
# 关联查询
SELECT firstName 
FROM PeopleDistinctNames 
JOIN SSADistinctNames ON firstName = ssaFirstName

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值