Hive与Spark SQL原理详解

532 篇文章 542 订阅 ¥49.90 ¥99.00
本文深入探讨了SQL On Hadoop,重点解析了Hive与Spark SQL的架构。Hive作为SQL On Hadoop的主流解决方案,其基本架构包括Driver、Metastore和Hadoop组件,提供多种访问方式和查询引擎。Spark SQL则是一个异构化数据处理引擎,支持多种数据源,具有高效执行性能。文章还对比了两者的特点,并介绍了HQL的基本语法,包括数据表的创建、删除与修改以及数据查询语句。
摘要由CSDN通过智能技术生成

开源社区在分布式计算框架基础上构建了支持SQL的引擎,典型的代表是MapReduce之上的Hive以及Spark之上的Spark SQL,这些数据分析引擎通常不支持标准SQL,而是对SQL进行了选择性支持,并进行了适当扩展,其中最主流的数据分析语言为HQL(Hive Query Language)。

一、SQL On Hadoop

目前构建在Hadoop之上的SQL引擎主要分为两类,基于计算引擎和基于MPP架构:
在这里插入图片描述

  • 基于计算引擎:SQL引擎是在计算引擎基础上构建的,其基本原理是将SQL语句翻译成分布式应用程序,之后运行在集群中。典型的代表有构建在MapReduce之上的Hive和构建在Spark之上的Spark SQL。这类SQL引擎的特点是具有良好的扩展性和容错性,能够应对海量数据。
  • 基于MPP架构:SQL引擎是基于MPP架构构建的,其基本原理是将SQL翻译成可分布式执行的任务,采用Volcano风格的计算引擎并行处理这些任务,任务之间的数据流动和交换由专门的Exchange运算符完成。典型的代表由Impala等。这些SQL引擎具有良好的可扩展性ÿ
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

最笨的羊羊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值