案例统计用户上网流量，如果两次上网的时间小于10分钟，合并到一起 --SparkSql实现(SQL风格)

最新推荐文章于 2021-06-16 23:43:11 发布

z小丑八怪r

最新推荐文章于 2021-06-16 23:43:11 发布

阅读量413

点赞数 2

分类专栏： SparkSQL spark 文章标签： spark

本文链接：https://blog.csdn.net/weixin_46959672/article/details/112398063

版权

spark 同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

SparkSQL

4 篇文章 0 订阅

订阅专栏

数据如下

+---+-------------------+-------------------+----+
| id|         start_time|           end_time|flow|
+---+-------------------+-------------------+----+
|  1|2020-02-18 14:20:30|2020-02-18 14:46:30|  20|
|  1|2020-02-18 14:47:20|2020-02-18 15:20:30|  30|
|  1|2020-02-18 15:37:23|2020-02-18 16:05:26|  40|
|  1|2020-02-18 16:06:27|2020-02-18 17:20:49|  50|
|  1|2020-02-18 17:21:50|2020-02-18 18:03:27|  60|
|  2|2020-02-18 14:18:24|2020-02-18 15:01:40|  20|
|  2|2020-02-18 15:20:49|2020-02-18 15:30:24|  30|
|  2|2020-02-18 16:01:23|2020-02-18 16:40:32|  40|
|  2|2020-02-18 16:44:56|2020-02-18 17:40:52|  50|
|  3|2020-02-18 14:39:58|2020-02-18 15:35:53|  20|
|  3|2020-02-18 15:36:39|2020-02-18 15:24:54|  30|
+---+-------------------+-------------------+----+

select
  uid,
  min(start_time) start_time,
  max(end_time) end_time,
  sum(flow) flow
from
(
  select
    uid,
    start_time,
    end_time,
    flow,
    sum(flag) over(partition by uid order by start_time) sum_flag
  from
  (
    select
      uid,
      start_time,
      end_time,
      flow,
      if((to_unix_timestamp(start_time) - to_unix_timestamp(lag_time))/60 > 10, 1,0) flag  -- 将日期转为时间戳，秒为单位
    from
     (
       select
         uid,
         start_time,
         end_time,
         flow,
         lag(end_time,1,start_time) over(partition by uid order by start_time) lag_time
       from
         tb_flowCount
     )
  )
)
group by uid,sum_flag

结果：

+---+-------------------+-------------------+---------+
|uid|         start_time|           end_time|     flow|
+---+-------------------+-------------------+---------+
|  1|2020-02-18 14:20:30|2020-02-18 15:20:30|       50|
|  1|2020-02-18 15:37:23|2020-02-18 18:03:27|      150|
|  3|2020-02-18 14:39:58|2020-02-18 15:35:53|       50|
|  2|2020-02-18 14:18:24|2020-02-18 15:01:40|       20|
|  2|2020-02-18 15:20:49|2020-02-18 15:30:24|       30|
|  2|2020-02-18 16:01:23|2020-02-18 17:40:52|       90|
+---+-------------------+-------------------+---------+

过程解析

select
    uid,
    start_time,
    end_time,
    flow,
    lag(end_time,1,start_time) over(partition by uid order by start_time) lag_time  --将上一行的结束时间压到下一行
from
    tb_flowCount

+---+-------------------+-------------------+----+----------------------+
|uid|         start_time|           end_time|flow|              lag_time|
+---+-------------------+-------------------+----+----------------------+
|  1|2020-02-18 14:20:30|2020-02-18 14:46:30|  20|   2020-02-18 14:20:30|
|  1|2020-02-18 14:47:20|2020-02-18 15:20:30|  30|   2020-02-18 14:46:30|
|  1|2020-02-18 15:37:23|2020-02-18 16:05:26|  40|   2020-02-18 15:20:30|
|  1|2020-02-18 16:06:27|2020-02-18 17:20:49|  50|   2020-02-18 16:05:26|
|  1|2020-02-18 17:21:50|2020-02-18 18:03:27|  60|   2020-02-18 17:20:49|
|  3|2020-02-18 14:39:58|2020-02-18 15:35:53|  20|   2020-02-18 14:39:58|
|  3|2020-02-18 15:36:39|2020-02-18 15:24:54|  30|   2020-02-18 15:35:53|
|  2|2020-02-18 14:18:24|2020-02-18 15:01:40|  20|   2020-02-18 14:18:24|
|  2|2020-02-18 15:20:49|2020-02-18 15:30:24|  30|   2020-02-18 15:01:40|
|  2|2020-02-18 16:01:23|2020-02-18 16:40:32|  40|   2020-02-18 15:30:24|
|  2|2020-02-18 16:44:56|2020-02-18 17:40:52|  50|   2020-02-18 16:40:32|
+---+-------------------+-------------------+----+----------------------+

select
  uid,
  start_time,
  end_time,
  flow,
  if((to_unix_timestamp(start_time) - to_unix_timestamp(lag_time))/60 > 10, 1,0) flag  -- 将日期转为时间戳，秒为单位
from
(
   select
     uid,
     start_time,
     end_time,
     flow,
     lag(end_time,1,start_time) over(partition by uid order by start_time) lag_time
   from
     tb_flowCount
)

--
+---+-------------------+-------------------+----+----+
|uid|         start_time|           end_time|flow|flag|
+---+-------------------+-------------------+----+----+
|  1|2020-02-18 14:20:30|2020-02-18 14:46:30|  20|   0|
|  1|2020-02-18 14:47:20|2020-02-18 15:20:30|  30|   0|
|  1|2020-02-18 15:37:23|2020-02-18 16:05:26|  40|   1|
|  1|2020-02-18 16:06:27|2020-02-18 17:20:49|  50|   0|
|  1|2020-02-18 17:21:50|2020-02-18 18:03:27|  60|   0|
|  3|2020-02-18 14:39:58|2020-02-18 15:35:53|  20|   0|
|  3|2020-02-18 15:36:39|2020-02-18 15:24:54|  30|   0|
|  2|2020-02-18 14:18:24|2020-02-18 15:01:40|  20|   0|
|  2|2020-02-18 15:20:49|2020-02-18 15:30:24|  30|   1|
|  2|2020-02-18 16:01:23|2020-02-18 16:40:32|  40|   1|
|  2|2020-02-18 16:44:56|2020-02-18 17:40:52|  50|   0|
+---+-------------------+-------------------+----+----+

select
  uid,
  start_time,
  end_time,
  flow,
  sum(flag) over(partition by uid order by start_time) sum_flag
from
(
  select
    uid,
    start_time,
    end_time,
    flow,
    if((to_unix_timestamp(start_time) - to_unix_timestamp(lag_time))/60 > 10, 1,0) flag  -- 将日期转为时间戳，秒为单位
  from
   (
     select
       uid,
       start_time,
       end_time,
       flow,
       lag(end_time,1,start_time) over(partition by uid order by start_time) lag_time
     from
       tb_flowCount
   )
)

--+---+-------------------+-------------------+----+--------+
|uid|         start_time|           end_time|flow|sum_flag|
+---+-------------------+-------------------+----+--------+
|  1|2020-02-18 14:20:30|2020-02-18 14:46:30|  20|       0|
|  1|2020-02-18 14:47:20|2020-02-18 15:20:30|  30|       0|
|  1|2020-02-18 15:37:23|2020-02-18 16:05:26|  40|       1|
|  1|2020-02-18 16:06:27|2020-02-18 17:20:49|  50|       1|
|  1|2020-02-18 17:21:50|2020-02-18 18:03:27|  60|       1|
|  3|2020-02-18 14:39:58|2020-02-18 15:35:53|  20|       0|
|  3|2020-02-18 15:36:39|2020-02-18 15:24:54|  30|       0|
|  2|2020-02-18 14:18:24|2020-02-18 15:01:40|  20|       0|
|  2|2020-02-18 15:20:49|2020-02-18 15:30:24|  30|       1|
|  2|2020-02-18 16:01:23|2020-02-18 16:40:32|  40|       2|
|  2|2020-02-18 16:44:56|2020-02-18 17:40:52|  50|       2|
+---+-------------------+-------------------+----+--------+

select
  uid,
  min(start_time) start_time,
  max(end_time) end_time,
  sum(flow) flow
from
(
  select
    uid,
    start_time,
    end_time,
    flow,
    sum(flag) over(partition by uid order by start_time) sum_flag
  from
  (
    select
      uid,
      start_time,
      end_time,
      flow,
      if((to_unix_timestamp(start_time) - to_unix_timestamp(lag_time))/60 > 10, 1,0) flag  -- 将日期转为时间戳，秒为单位
    from
     (
       select
         uid,
         start_time,
         end_time,
         flow,
         lag(end_time,1,start_time) over(partition by uid order by start_time) lag_time
       from
         tb_flowCount
     )
  )
)
group by uid,sum_flag
--
+---+-------------------+-------------------+---------+
|uid|         start_time|           end_time|     flow|
+---+-------------------+-------------------+---------+
|  1|2020-02-18 14:20:30|2020-02-18 15:20:30|       50|
|  1|2020-02-18 15:37:23|2020-02-18 18:03:27|      150|
|  3|2020-02-18 14:39:58|2020-02-18 15:35:53|       50|
|  2|2020-02-18 14:18:24|2020-02-18 15:01:40|       20|
|  2|2020-02-18 15:20:49|2020-02-18 15:30:24|       30|
|  2|2020-02-18 16:01:23|2020-02-18 17:40:52|       90|
+---+-------------------+-------------------+---------+

z小丑八怪r

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
案例统计用户上网流量，如果两次上网的时间小于10分钟，合并到一起 --SparkSql实现(SQL风格)

数据如下+---+-------------------+-------------------+----+| id| start_time| end_time|flow|+---+-------------------+-------------------+----+| 1|2020-02-18 14:20:30|2020-02-18 14:46:30| 20|| 1|2020-02-18 14:47:20|2020-02-18 15:20:30|
复制链接

扫一扫