Hive 之中位数

什么是中位数?

中位数(Median)又称中值,统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。

Hive 求中位数

在 Hive 中有两个函数可以求中位数,分别是:

- percentile(col,n): col 表示需要求中位数的字段(必须为整型 int);n 表示范围区间,可指定 0-1,当指定值为 0.5 时,表示求中位数。

- percentile_approx(col,n):percentile 唯一的区别就是它指定的字段只要是数值类型就可以。

示例

创建表:

create table if not exists test(
id int,
name string);

插入数据(奇数条数据):

insert into test values(1,"张三"),(2,"李四"),(3,"王五"),(4,"詹姆斯"),(6,"浓眉"),(8,"威少"),(5,"库里"),(9,"维金斯"),(7,"汤普森");

插入后数据如下所示(乱序状态):

根据 id 列求中位数(未排序):

select percentile(id,0.5) from test;

输出结果为:5.0

根据 id 列求中位数(排序):

select percentile(id,0.5) from (select * from test order by id)t1;

输出结果为:5.0



增加一条数据,将其变为偶数条数据。

insert into test values(10,"乔丹");

插入后数据如下所示(乱序状态):

再次根据 id 列求中位数(未排序):

select percentile(id,0.5) from test;

输出结果为:5.5

再次根据 id 列求中位数(排序):

select percentile(id,0.5) from (select * from test order by id)t1;

输出结果为:5.5



可以发现我们手动排序并不会对结果造成影响。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

月亮给我抄代码

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值