![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据.Hive
GraysonWP
路虽远,行则将至。天道酬勤,厚积薄发。
展开
-
Hive优化方法
1 join无关的优化Hive SQL的性能问题大部分都和join相关,对于和join无关的问题主要有group by 相关的倾斜和count distinct相关的优化group by引起的倾斜优化:group by引起的倾斜主要是输入数据行按照group by列分布不均匀引起的,因此导致部分Reduce Task分布的数据过多,从而导致数据倾斜。对于group by引起的倾...原创 2020-03-11 21:10:50 · 178 阅读 · 0 评论 -
分区表和桶表的区别
分区表:在逻辑上,将表中的数据按分区放在表目录的对应子目录中,在物理上,分区表和未分区表没有区别,分区表在表创建完成时,也可以通过alter table来添加或者删除,而且分区键一定不是原表中的列。桶表:不同表对同一字段分桶,且当两张表桶数相同时,数据会分配到同一个节点上,join时会减少shuffle,和分区键不同,分桶键必须是原表中的列,分桶表中每个桶的文件作了排序,分桶数应为质数,每个桶...原创 2020-03-06 00:55:17 · 1584 阅读 · 0 评论 -
什么是拉链表
拉链表既能反应数据的历史状态,又可以最大程度的节省存储,主要用于以下场景:数据量比较大;表中的部分字段会被更新,如用户的地址、产品的描述信息、订单的状态等;需要查看某一个时间点或时间段的历史信息。比如查看某一个订单在历史某一个时间点的状态;变化的比例和频率不是很大。如总共有1000万的会员,每天新增和发生变化的有10万左右;如果对这样类型的表每天都保存一份全量数据,那么每次全量中会保...原创 2020-03-06 00:54:28 · 291 阅读 · 1 评论 -
ORC事务表与Hyperbase表的区别
今天有客户问了我一下关于ORC事务表与Hyperbase表的区别问题,我回答的不是特别好,所以这里总结一下他们两个的区别,以便能掌握得更加深入些。ORC事务表:轻量级索引,支持CRUD操作,但是不建议大规模的单条增删改查,因为TDH(TDH是星环自研的一套大数据平台,类似于CDH,但是进行了很多的优化)是大数据数仓系统,是需要使用批量进行增删改查,索引单条操作的性能会降低;事务表需要进...原创 2020-03-06 00:53:23 · 2619 阅读 · 0 评论