Hive与Spark SQL原理详解

最笨的羊羊

于 2020-08-04 22:28:52 发布

阅读量885

点赞数

分类专栏：大数据文章标签： Hive与Spark SQL 原理详解

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhengzaifeidelushang/article/details/107785754

版权

大数据专栏收录该内容

532 篇文章 542 订阅 ¥49.90 ¥99.00

订阅专栏

本文深入探讨了SQL On Hadoop，重点解析了Hive与Spark SQL的架构。Hive作为SQL On Hadoop的主流解决方案，其基本架构包括Driver、Metastore和Hadoop组件，提供多种访问方式和查询引擎。Spark SQL则是一个异构化数据处理引擎，支持多种数据源，具有高效执行性能。文章还对比了两者的特点，并介绍了HQL的基本语法，包括数据表的创建、删除与修改以及数据查询语句。

摘要由CSDN通过智能技术生成

Hive与Spark SQL原理详解

一、SQL On Hadoop
二、Hive架构
三、Spark SQL架构
四、HQL基本语法

开源社区在分布式计算框架基础上构建了支持SQL的引擎，典型的代表是MapReduce之上的Hive以及Spark之上的Spark SQL，这些数据分析引擎通常不支持标准SQL，而是对SQL进行了选择性支持，并进行了适当扩展，其中最主流的数据分析语言为HQL(Hive Query Language）。

一、SQL On Hadoop

目前构建在Hadoop之上的SQL引擎主要分为两类，基于计算引擎和基于MPP架构：
在这里插入图片描述

基于计算引擎：SQL引擎是在计算引擎基础上构建的，其基本原理是将SQL语句翻译成分布式应用程序，之后运行在集群中。典型的代表有构建在MapReduce之上的Hive和构建在Spark之上的Spark SQL。这类SQL引擎的特点是具有良好的扩展性和容错性，能够应对海量数据。
基于MPP架构：SQL引擎是基于MPP架构构建的，其基本原理是将SQL翻译成可分布式执行的任务，采用Volcano风格的计算引擎并行处理这些任务，任务之间的数据流动和交换由专门的Exchange运算符完成。典型的代表由Impala等。这些SQL引擎具有良好的可扩展性ÿ

了解本专栏

最笨的羊羊

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hive与Spark SQL原理详解

Hive与Spark SQL开源社区在分布式计算框架基础上构建了支持SQL的引擎，典型的代表是MapReduce之上的Hive以及Spark之上的Spark SQL，这些数据分析引擎通常不支持标准SQL，而是对SQL进行了选择性支持，并进行了适当扩展，其中最主流的数据分析语言为HQL(Hive Query Language）。一、SQL On Hadoop目前构建在Hadoop之上的SQL引擎主要分为两类，基于计算引擎和基于MPP架构：基于计算引擎：SQL引擎是在计算引擎基础上构建的，其基本原理
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

最笨的羊羊 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。