Hive分布式数据仓库

最新推荐文章于 2024-04-10 13:19:08 发布

小鸭子学java

最新推荐文章于 2024-04-10 13:19:08 发布

阅读量1.4k

点赞数

文章标签：数据仓库 hive 分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_55873049/article/details/121772173

版权

Hive是一款基于Hadoop的数据仓库软件，适用于OLAP分析和数据汇总。它支持Tez、Spark等多种计算引擎，提供灵活的ETL操作，并具备高可靠性、高容错性和类似SQL的语法。Hive的接口包括Beeline、JDBC、Thrift和Python等，运行过程中通过Client提交HQL，由Tez或Spark执行，并在YARN上分配资源。此外，Hive还支持分区和桶的组织方式，方便数据管理和分析。尽管是离线分析工具，具有一定的延迟，但在数据仓库领域表现出显著的优势。

摘要由CSDN通过智能技术生成

Hive是基于Hadoop的数据仓库软件

数据库适用于OLTP(联机事务管理-增删改查的操作)__中的数据时实时更新的
数据仓库适用于OLAP(联机事务分析-对历史数据进行分析或者汇总)

特性:灵活方便的extract transform load
支持 Tez(默认引擎) spark多种引擎
可以直接访问HDFS HBase
应用场景----->数据挖掘非实时性分析数据汇总数据仓库

优点
高可靠(集群存储一两个错误没影响)高容错类似SQL语法可扩展多接口
接口:Beeline JDBC Thrift Python ODBC

Hive运行过程
Client提交HQL命令
Tez执行查询
YARN为集群中的应用程序分配资源并未YARN队列中的Hive作业启用授权
Hive根据表类型更新HDFS或Hive仓库中的数据
Hive通过JDBC连接返回查询结果

数据库--->区分不同业务的数据
表 |
分区(按照字段|进行划分相同的数据放到同一个分区) -桶(利用hash分区方式放到不同桶) 倾斜数据正常数据
|
|
分区数量不固定建表时指定桶个数桶内可排序
内部表create table 创建外部表 create external 表名临时表create temporary存放临时结果或中见结果用于过度
会将数据移动到数据仓库指定的路径 localtion指定放在那个目录可无

最低0.47元/天解锁文章

小鸭子学java

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。