Spark SQL简单介绍

Spark SQL是Spark处理结构化数据的模块,支持多种语言API,提供统一数据访问并兼容Hive。其特点包括易整合、统一的数据访问、Hive兼容性和标准的数据连接。SQL具有表达清晰、易于学习的优点,但也存在复杂分析和机器学习支持不足的缺点。相比Hive将SQL转为MapReduce,Spark SQL将SQL解析为优化后的'RDD'执行。DataFrame和DataSet是Spark SQL的数据抽象,DataFrame类似二维表格,而DataSet保存更多类型信息。
摘要由CSDN通过智能技术生成

Spark SQL是Spark用来处理结构化数据的一个模块。
Spark SQL还提供了多种使用方式,包括DataFrames API和Datasets API。但无论是哪种API或者是编程语言,它们都是基于同样的执行引擎,因此你可以在不同的API之间随意切换,它们各有各的特点。

●Spark SQL 的特点

1.易整合
可以使用java、scala、python、R等语言的API操作。

2.统一的数据访问
连接到任何数据源的方式相同。

3.兼容Hive
支持hiveHQL的语法。
兼容hive(元数据库、SQL语法、UDF、序列化、反序列化机制)

4.标准的数据连接
可以使用行业标准的JDBC或ODBC连接。

SQL优缺点

SQL的优点
表达非常清晰, 比如说这段 SQL 明显就是为了查询三个字段,条件是查询年龄大于 10 岁的
难度低、易学习。
SQL的缺点
复杂分析,SQL嵌套较多:试想一下3层嵌套的 SQL维护起来应该挺力不从心的吧
机器学习较难

Hive和SparkSQL

Hive是将SQL转为MapReduce
SparkSQL可以理解成是将SQL解析成’RDD’ + 优化再执行
在这里插入图片描述

Spark SQL数据抽象

两种抽象:DataFrame

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值