Hive--可执行SQL的Hadoop数据仓库管理工具

最新推荐文章于 2024-07-24 20:46:25 发布

000000000000000000生活

最新推荐文章于 2024-07-24 20:46:25 发布

阅读量1.3k

点赞数

分类专栏： 2019年5月文章标签：大数据 hive hadoop 大数据学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yuhun001/article/details/90416300

版权

本文介绍了Hive作为基于HDFS的数据仓库工具，如何通过SQL简化MapReduce操作，以及与HBase的区别。Hive侧重批处理和数据分析，而HBase适合实时查询。Hive工作原理包括HiveServer2、客户端、任务执行流程，以及HQL、数据模型（内部表、外部表、分区表、桶表和视图）。文章还提及了Hive使用Zookeeper实现HA功能。

摘要由CSDN通过智能技术生成

Hive是一个基于HDFS的数据仓库软件，可理解为数据库管理工具；Hive的功能主要有：

1. 支持使用SQL对分布式存储的大型数据集进行读、写、管理，将SQL转化成MapReduce任务执行；

2. 将数据结构映射到已存储的数据中，即将存储在HDFS上结构化的文件内容定义成Hive的外部表。

3. Hive提供了命令行的操作工具和JDBC的开发接口。

我们知道HBase也是基于HDFS的数据库，两者之间有何异同点呢？简言之，Hive和HBase都是Hadoop集群下的工具(bi)，Hive是对MapReduce的优化(使用SQL操作MR)，而HBase则是HDFS数据存储的大管家。

对大数据以及人工智能概念都是模糊不清的，该按照什么线路去学习，学完往哪方面发展，想深入了解，想学习的同学欢迎加入大数据学习qq群：522189307，有大量干货（零基础以及进阶的经典实战）分享给大家，并且有清华大学毕业的资深大数据讲师给大家免费授课，给大家分享目前国内最完整的大数据高端实战实用学习流程体系。从java和linux入手，其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识一一分享！

HiveHBase

出发点使用SQL简化对MapReduce的操作将HDFS上无序的数据映射成有序的表格，便于管理和使用数据

数据存储1. Hive是纯逻辑表，无物理存储结构；只定义表格元数据，元数据保存在其他数据库上如MySQL，表格数据存储在HDFS上；

2. Hive是逻辑表，属于稠密型，定义列数，每一行有固定的列数。

1. HBase表则是物理表，适合存放非结构化的数据；

2. HBase的存储表存储密度小，用户可以对行定义成不同的列。

数据访问Hive是在MapReduce的基础上对数据进行处理，而MapReduce的数据处理依照行模式；HBase为列模式，这样使得对海量数据的随机访问变得可行。

使用场景1. Hive使用Hadoop来分析处理数据，而Hadoop系统是批处理系统，所以数据处理存在延时的问题；

2. Hive没有row-level的更新，它适用于大量append-only数据集（如日志࿰

最低0.47元/天解锁文章

000000000000000000生活

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。