![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 77
It.explorer
这个作者很懒,什么都没留下…
展开
-
Hive调优方式
文章目录一、建表注意事项1、分区、分桶2、一般使用外部表,避免数据误删3、选择适当的文件储存格式及压缩格式4、命名要规范5、数据分层,表分离,但是不要分的太散二、查询优化1、分区裁剪 where过滤,先过滤,后join2、分区分桶,合并小文件3、适当的子查询4、排序方式三、Hive数据倾斜优化数据倾斜出现原因表现数据倾斜解决具体解决四、作业优化一、建表注意事项1、分区、分桶一般按照业务日期进行分区,每天的数据放在一个分区里,这样可以查询每一天的数据,避免了全局扫描,提高效率2、一般使用外部表,避免数原创 2021-11-17 19:58:41 · 234 阅读 · 0 评论 -
Hive数仓分层架构
文章目录一、为什么要进行数据分层?数据分层的好处?1、原因2、好处二、hive数仓分为哪几层?1、ODS层:数据运营层(贴源层)作用我们需要做的是?2、DW层: 数据仓库层(1)DWD层:数据明细层(2)DWM层:数据中间层(3)DWS层:数据服务层3、ADS层一、为什么要进行数据分层?数据分层的好处?1、原因对数据进行分层的一个主要原因就是希望在管理数据的时候,能对数据有一个更加清晰的掌控。2、好处清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。数据血缘原创 2021-10-28 15:58:11 · 3937 阅读 · 0 评论 -
Hive异步求和
Hive调优-数据倾斜优化问题抛出:比如这里有100万的数据,99万的a,1万的b,最终到reduce阶段,相同的处理能力,一个处理99万,一个处理1万,最后处理的效率肯定是不相同的,会产生数据倾斜。随机数怎么打:(也可以直接打在后面做字符串的拼接,然后再去掉)思路1,数据倾斜解决看下key的分布处理集中的key原因1)、key分布不均匀(实际上还是重复) 比如 group by 或者 distinct的时候2)、数据重复,join 笛卡尔积 数据膨胀表现任务进度长时间维持在99%(原创 2021-10-17 15:36:48 · 116 阅读 · 0 评论 -
Hive开窗函数、窗口帧
前言 在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是,哟偶是我们想要既显示聚集后的数据,这时我们便引入了窗口函数。一、什么是开窗函数1、概念 好像给每一份数据开一扇窗户,所以叫开窗函数2、开窗函数都有哪些(1)row_number 无并列排名用法:select xxxx,row_number() over (partition by 分组字段 orde原创 2021-10-13 11:28:42 · 355 阅读 · 0 评论 -
Hive分桶
一、Hive分桶介绍分桶实际上是对文件(数据)的进一步切分Hive默认关闭分桶作用:在往分桶表中插入数据的时候,会根据 clustered by 指定的字段 进行hash分区 对指定的buckets个数 进行取余,进而可以将数据分割成buckets个数个文件,以达到数据均匀分布,可以解决Map端的“数据倾斜”问题,方便我们取抽样数据,提高Map join效率分桶字段 需要根据业务进行设定##### 开启分桶开关hive> set hive.enforce.bucketing.原创 2021-10-10 19:56:16 · 231 阅读 · 0 评论 -
Hive分区
一、分区的概念及作用概念:分区表实际上是在表的目录下在以分区命名,建子目录作用:进行分区裁剪,避免全表扫描,减少MapReduce处理的数据量,提高效率一般在公司的hive中,所有的表基本上都是分区表,通常按日期分区、地域分区分区表在使用的时候记得加上分区字段分区也不是越多越好,一般不超过3级,根据实际业务衡量二、如何实现分区表1、分区表的简单创建及简单使用(增删查改)(1)建立分区表create external table students_pt1(...原创 2021-10-10 19:53:11 · 332 阅读 · 0 评论 -
Hive语法及进阶
一、基本语法1、Hive--建表[external]代表创建外部表create [external] table [if not exists] table_name// 定义字段名,字段类型[(col_name data_type [comment col_comment], ...)]// 给表加上注解 [commenttable_comment]// 分区[partitionedby(col_name data_type [comment c...原创 2021-09-29 23:09:11 · 247 阅读 · 0 评论 -
hive架构及其安装和简单使用
一、hive是什么HIve是建立在Hadoop上的数据仓库基础架构。二、hive的概念及架构1、概念它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 m...原创 2021-09-29 20:39:07 · 138 阅读 · 0 评论