关于hive的一些操作记录

最新推荐文章于 2023-09-13 15:22:07 发布

z_xiaozhuT

最新推荐文章于 2023-09-13 15:22:07 发布

阅读量663

点赞数

分类专栏： hive 文章标签： hive collect_set row_number() group by 分组top

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/z_xiaozhut/article/details/79963195

版权

hive 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

1、collect_set函数

需求：求用户消费的 TOP 100，需要的数据格式是：ID 消费金额 nickname

分析：消费 TOP 比较简单 group by uuid order by allCnt 可以解决，但是用户的nickname（昵称）是有多个的，随机取一个就行，但是 hive 取的数据字段中必须在 group by 中出现，取nickname就有点麻烦了，这时候collect_set() 函数就派上用场了。

解决方案：

table：bank_core

uuid payMem nickname dt

10001 12.5 jack 2018-04-16 00:15:00

10001 15.5 jack_2 2018-04-16 15:00:00

10002 10.2 tom 2018-04-16 17:00:00

.....................................

sql：select uuid, sum(payMem) allCnt, collect_set(nickname)[0] from bank_core group by uuid order by allCnt desc limit 100;

2、row_number() over ( partition by 字段a order by 字段b [desc])函数

row_number() over ( partition by 字段a order by 字段b ) 这个函数用于对 group by 分组里面的数据进行排序的。

需求：求用户消费的 TOP 100，需要的数据格式是：ID 消费金额 nickname，此处的nickname 需要是用户最新的昵称。

分析：上面用到的collect_set() 函数是随机取一个 nickname，此处就不太吻合需求了，row_number() over ... 就可以解决这个问题了，row_number() over (partition by uuid order by dt desc)，指在分组中按照 uuid 分组，按照 dt 排序，这里得到的是 num

解决方案：

数据如上。

sql：select s.uuid, s.allCnt, s.nickname from

( select uuid, sum(payMem) allCnt, nickname,

row_number() over (partition by uuid order by dt desc) rank from bank_core group by uuid,nickname, dt) s where s.rank <= 1

关于 row_number() over (partition by 字段a order by 字段b ) 这个函数解释得可能很不清楚。。。

这里有写关于这个函数的博客，大家可以看看。

http://blog.sina.com.cn/s/blog_6676d74d0102vm2c.html

https://blog.csdn.net/u010670689/article/details/49337137

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

z_xiaozhuT CSDN认证博客专家 CSDN认证企业博客

码龄8年

9: 原创

23万+: 周排名

218万+: 总排名

18万+: 访问

: 等级

1769: 积分

118: 粉丝

110: 获赞

11: 评论

285: 收藏

私信

关注

热门文章

分类专栏

最新评论

Thrift系列之一：Thrift初步认识
*猪耳朵*: 写的非常棒！很适合入门阶段学习！
数据建模讲解和案例分析
weixin_44828040: hi，没有找到【第一份数据报告的诞生 – 一个数据分析师的自我修养】这篇文章，可以发一个更具体的连接吗
K-means聚类算法的三种改进(K-means++,ISODATA,Kernel K-means)介绍与对比
梦过千境: 这个算法似乎不能处理3维以上的图像啊
数据建模讲解和案例分析
范国利: 工具方面不太认同，明明PYTHON就可以做全部的分析了，干嘛分那么工具来实现
关于mapreduce 几个参数的解释
programmer_trip 回复 zhangztSky: http://hadoop.apache.org/docs/r2.7.6/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html hadoop官网上的Memory Management中有说到

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。