hive基础知识

最新推荐文章于 2022-05-09 19:38:17 发布

进阶中的程序猿

最新推荐文章于 2022-05-09 19:38:17 发布

阅读量209

点赞数

文章标签： hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/x18845040365/article/details/114987552

版权

本文介绍了Hive的基础知识，包括其数据处理特点、数据类型、内外部表区别、数据验证、类型转换规则、排序方式及分区、桶的概念。同时讨论了数据倾斜问题及其解决方案，并概述了Hive的文件存储和压缩格式。

摘要由CSDN通过智能技术生成

1 hive处理非常小的数据集在执行时也会出现延迟情况
hive 不提供数据排序、查询cache，也不提供在线事务处理、实时的查询功能和记录级的更新。
hive没有专门的存储格式，hive提供了四种数据类型，表、外部表、分区和桶

2 hive外部表和内部表的区别
外部表被external修饰，内部表没有
外部表数据由hdfs管理，内部表数据hive自身管理
外部表只删除元数据，hdfs上数据不删除；内部表删除全部数据包括元数据和存储数据
外部表的表结构和分区修改需要修改msck repair table，内部表的修改可以直接同步到数据。

3 hive对数据的验证不在加载数据时进行，而是在查询时进行，查询时对于不符合要求的数据会以NULL的形式显示给用户，称为读时模式。

4 hive隐式类型转换规则
任何整数类型可以隐式的转换为范围更广的类型
所有整数类型、FLOAT、String类型都能转换成Double
INT、SMALLINT、TINYINT都可以转换为FLOAT
Boolean类型不能转换
TIMESTAMP可以隐式转换为String
5 hive中sort by 和order by的区别
order by 是全局排序，之后产生reduce，对于大规模数据来说效率非常低
sort by 是在每个reduce内部进行排序
cluster by=distribute by+sort by
distribute by 按照指定的字段对数据进行划分输出到不同的reduce中
6 分区
依据分区列的值对表进行粗

最低0.47元/天解锁文章

进阶中的程序猿

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。