Hive分组剔除每组某些记录

Forge_ahead

已于 2024-01-20 10:08:11 修改

阅读量700

点赞数 7

分类专栏： work_efficiency 文章标签： hive hadoop 数据仓库

于 2024-01-10 19:00:46 首次发布

本文链接：https://blog.csdn.net/weixin_50646402/article/details/135510626

版权

work_efficiency 专栏收录该内容

45 篇文章 2 订阅

订阅专栏

本文介绍了一种在SQL查询中，通过分组和排序策略来监控公司流程每个节点的用时情况，同时排除流程结束后可能的后续操作，只保留开始节点和首次结束节点的数据。

摘要由CSDN通过智能技术生成

在SQL分组后取第一条记录中介绍了分组获取每组第一条记录的方法，现在业务上面临如此需求：在做公司流程监控时，要求监控每个流程每个节点的用时情况。其中有个字段isend可以判断流程是否结束，但是流程结束后可能还会有操作（例如转发、会签等）,分析时需要将结束后的节点删除掉。
思路：根据流程ID分组，按照操作时间从小到大排序，得到字段rk，根据流程ID和isend分组，按照操作时间从小到大排序，得到字段rk_。rk_=1说明是流程开始节点或者第一个结束节点，如果rk<=rk_说明节点是在isend=0的分组里还没有结束。

insert overwrite table dwd.dwd_tableName_di
select 
	requestid,
	workflowname,
	nodename,
	operdate,
	isbereject,
	rk,
	row_number() over(partition by requestid order by operdate desc) as rk_desc,
	pre_node_time,
	datediff(operdate,pre_node_time) as node_diff_days,
	round((unix_timestamp(operdate,'yyyy-MM-dd HH:mm:ss')-unix_timestamp(pre_node_time,'yyyy-MM-dd HH:mm:ss'))/3600) as node_diff_hours,
	unix_timestamp(operdate,'yyyy-MM-dd HH:mm:ss')-unix_timestamp(pre_node_time,'yyyy-MM-dd HH:mm:ss') as node_diff_seconds
from(
select 
	requestid,
	workflowname,
	nodename,
	operdate,
	isbereject,
	row_number() over(partition by requestid order by operdate) as rk,
	lag(operdate,1,null) over(partition by requestid order by operdate) as pre_node_time,
	row_number() over(partition by requestid,isend order by operdate) as rk_
from (
	select
		requestid,
		nodename,
		workflowname,
		concat(operatedate,' ',operatetime) as operdate,
		isbereject,
		isend
	from 
		dbname.tableName
)tmp
)ttt 
where rk_ = 1 or rk <= rk_

Forge_ahead

关注

7
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Hive分组剔除每组某些记录

中介绍了分组取满足条件的第一条记录的方法，现在业务上面临如此需求：在做公司流程监控时，要求监控每个流程每个节点的用时情况。其中有个字段isend可以判断流程是否结束，但是流程结束后可能还会有操作（例如转发、会签等）,分析时需要将结束后的节点删除掉。思路：根据流程ID分组，按照操作时间从小到大排序，得到字段rk，根据流程ID和isend分组，按照操作时间从小到大排序，得到字段rk_。rk_=1说明是流程开始节点或者第一个结束节点，如果rk
复制链接

扫一扫