Pandas用的6不6，来试试这道题就能看出来

最新推荐文章于 2023-12-01 10:30:58 发布

小数志

最新推荐文章于 2023-12-01 10:30:58 发布

阅读量65

点赞数

分类专栏：数据分析文章标签： python 人工智能数据分析项目管理编程语言

本文链接：https://blog.csdn.net/weixin_43841688/article/details/112386893

版权

数据分析专栏收录该内容

23 篇文章 2 订阅

订阅专栏

导读

近日，在实际工作中遇到了这样一道数据处理的实际问题，凭借自己LeetCode200+算法题和Pandas熟练运用一年的功底，很快就完成了。特此小结，以资后鉴！

题目描述：给定一组用户的多次行为起止时间表，由于相邻行为之间可能存在交叉（即后一行为的开始时间可能早于前一行为的结束时间），所以需根据用户ID对其相应的起止时间信息进行合并处理。不失一般性，模拟示例数据如下：

在上述示例数据中，用户A和用户B的多组行为间，均存在一定的起止时间交叉，例如用户A的两个行为起止时间分别为[3, 6]和[4, 7]（同时，这里的两组行为开始时间先后顺序还是错的），存在交叉，所以可合并为[3, 7]；类似地，用户B的两个行为起止时间分别为[4, 7]和[6, 8]，也可合并为[4, 8]。

为完成以上这一小需求，实际上可拆解为两个小问题：

给定同一用户的多组行为起始时间，根据起止时间的大小完成区间合并问题。实际上，这是LeetCode的一道原题

图片源自LeetCode56题截图

在完成单个用户区间合并的基础上，如何处理多用户的区间合并以及最后结果的拼接问题。用Pandas的思维来讲，自然就是groupby的过程：split—aggregate(range combine)—union

首先，第一个小问题难度不大，直接实现一个自定义函数即可，示例代码如下，其中函数功能正常执行的前提是starts已按照从小到大的顺序完成排序，当然这一细节在pandas中很容易实现。

 1def range_combine(starts, ends):
 2    # 在starts有序的前提下，完成区间合并
 3    combines = []
 4    for start, end in zip(starts, ends):
 5        if not combines or start > combines[-1][1]:
 6            combines.append([start, end])
 7        else:
 8            combines[-1][1] = max(combines[-1][1], end)
 9    return combines
10# 测试样例
11starts = [1, 3, 4, 8]
12ends = [2, 6, 7, 9]
13range_combine(starts, ends)
14# 输出 [[1, 2], [3, 7], [8, 9]]

为了实现第二个小功能，则需要一定的技巧实现。可以肯定的是，为了实现按用户分组进行区间合并，那么肯定要groupby('uid')，而后对每个grouper执行range_combine，得到各用户及其合并后的所有区间嵌套列表，进而问题转化为如何将这个嵌套列表再拆分为多行。这就涉及到Pandas中的一个有用的API——explode，即将一个序列分裂成多行，从如下的explode函数说明文档中可以看出，它接收一个或多个列名作为参数（即要拆分的列），当该列的取值是一个列表型的元素时，可以将其拆分，并将该行中其余元素复制多份，从而实现拆分的过程。