- 博客(2)
- 收藏
- 关注
原创 HIVE 窗口函数和分析函数
**HIVE 窗口函数和分析函数**第一篇,试试水:一、介绍分析函数用于计算基于组的某种聚合值,它和聚合函数的不同之处是:对于每个组返回多行,而聚合函数对于每个组只返回一行。开窗函数指定了分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变化而变化!到底什么是数据窗口?后面举例会详细讲到!基础结构:分析函数(如:sum(),max(),row_number()…) + 窗口子句(over函数)over函数写法: over(partition ...
2021-07-16 01:27:15 249 1
原创 通俗易懂解释《什么是数据倾斜?》
**什么是数据倾斜**我们在用hive取数的时候,有的时候只是跑一个简单的join语句,但是却跑了很长的时间,有的时候我们会觉得是集群资源不够导致的,但是很大情况下就是出现了"数据倾斜"的情况。在了解数据倾斜之前,我们应该有一个常识,就是现实生活中的数据分布是不均匀的,俗话说"28定理",80%的财富集中在20%的人手中之类的故事相信大家都看得不少。所以,在我们日常处理的现实数据中,也是符合这种数据分布的,数据倾斜一般有两种情况:变量值很少: 单个变量值的占比极大,常见的字段如性别、学历、年龄等。
2021-07-29 23:23:09 1813
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人