hive的初认识

最新推荐文章于 2018-10-19 18:00:46 发布

二条鱼

最新推荐文章于 2018-10-19 18:00:46 发布

阅读量401

点赞数

分类专栏：大数据-hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yj2003607/article/details/78193173

版权

大数据-hive 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

hive的初认识：

u起源自facebook由JeffHammerbacher领导的团队

u构建在Hadoop上的数据仓库框架

uHive是构建在Hadoop之上的数据仓库平台

uHive是一个SQL解析引擎,它将SQL语句转译成MapReduce作业并在Hadoop上执行。

Hive表是HDFS的一个文件目录，一个表名对应一个目录名，如果有分区表的话，则分区值对应子目录名

数据的演进：

为什么要用Hive：

当前数据分析者面临的问题：

数据日趋庞大，无论是入库和查询，都出现性能瓶颈(I/O)

用户的应用和分析结果呈整合趋势，对实时性和响应时间要求越来越高

使用的模型越来越复杂，计算量指数级上升

解决方案：

l操作接口采用类SQL语法，提供快速开发的能力

l避免了去写MapReduce，减少开发人员的学习成本

l扩展功能很方便

l完美解决性能瓶颈，在可见未来不容易出现新瓶颈

hive和hadoop的关系：

lHive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的mapper 和 reducer 无法完成的复杂的分析工作。

与传统数据的比较：

hive的缺点和未来：

l支持ACID事务——用户将可以插入、更新和删除现有数据。Hive将由传统的一次写入、频繁读取的系统发展为一个支持变化数据分析的系统。

l实现亚秒级查询——用户可以将Hive用于像交互式仪表板和探究性分析这样对响应时间有更高要求的应用场景。

l全面支持 SQL：2011 Analytics ——用户可以使用标准SQL在Hive上部署复杂的报表，而且更快捷、更简便、更可靠。而基于成本的、功能强大的优化器可以确保工具生成的查询和复杂查询的运行速度。届时，Hive将在Hadoop上提供企业级SQL用户所享有的全部表达能力。它将在支持窗口函数、用户自定义函数、子查询、Rollup、Cube、标准聚集、内连接、外连接、半连接和交叉连接的基础上，增加对不等连接、集合函数（并、交、差）、时间间隔类型等的支持。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hive的初认识

hive的初认识：u起源自facebook由JeffHammerbacher领导的团队u构建在Hadoop上的数据仓库框架uHive是构建在Hadoop之上的数据仓库平台uHive是一个SQL解析引擎,它将SQL语句转译成MapReduce作业并在Hadoop上执行。Hive表是HDFS的一个文件目录，一个表名对应一个目录名，如果有分区表的话，则分区值对应子目录名
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。