学Hive 认识Hive

黑皮磊

已于 2022-04-09 18:24:34 修改

阅读量1.4k

点赞数

分类专栏： Hive 文章标签：大数据 hadoop hive

于 2022-04-03 17:09:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_49539546/article/details/123938936

版权

Hive是一款由Facebook开源的大数据统计工具，基于Hadoop生态，提供SQL接口进行大数据处理。它将SQL语句转换为MapReduce任务运行在Yarn上，支持分布式存储如HDFS和云存储，并通过元数据管理数据。虽然Hive在事务处理和实时性方面较弱，但因其易于使用而广泛应用于批处理场景。Hive与RDBMS相比成本更低、处理数据量更大，适用于离线分析。

摘要由CSDN通过智能技术生成

官网：hive.apache.org

hive简介

Hadoop广义是大数据生态圈，其中hive是使用sql完成大数据统计分析的工具
Hadoop狭义：HDFS MR Yarn

Hive是facebook公司开源的工具，用来解决海量的结构化日志的统计问题hive是构建在hadoop之上的数据仓库

HDFS:hive的数据是存放在HDFS(distributed storage),元数据（medadata）存在对应的底层关系型数据库，一般是MySQL
MR（计算引擎）:Hive的作业（SQL）是通过hive的框架翻译成MR作业。这里的引擎也可以是Tez，Spark。不管底层用的是什么引擎，对于用户来说是不感知的。同样的SQL，只需要通过参数切换，就可以实现。
Yarn：hive的作业是提交到Yarn上去运行的

Hadoop开发可以是单机，但生产上一定是分布式

Hive其实就是一个**客户端**，没有集群的概念，提交作业到集群的Yarn上面去运行（没有感情的提交机器）
SQL ==> Hive ==> MR ==> Yarn

生产环境上，哪台机器需要提交hive，就在哪台机器配置hive，不同的机器上的hive是相互独立的

Hive职责：**将SQL翻译成底层对应的执行引擎作业**

distributed storage：HDFS,AWS S3,各种云,COS,OSS
这些系统,hive都可以对接，只要有对应的jar包

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。