数据处理案例1:表格中找到满足条件的连续数据行思路

本文介绍了如何在表格数据中找到并统计工资小于等于9000的连续行区间。首先筛选出符合条件的行,然后通过增加序号列判断连续性。通过Python编程,寻找连续递增的序列,从而确定每个ID的连续工资区间,统计包括人数、区间长度和时间跨度等信息。这种方法巧妙地简化了复杂的数据处理任务。
摘要由CSDN通过智能技术生成

数据处理案例1:表格中找到满足条件的连续数据行

问题描述:

例如找到工资小于等于9000的连续行区间,并进行简单统计,包括人数,区间的数据长度,区间的时间跨度等。
数据表格描述如下:

ID时间工资
12021-0111000
12021-068000
12021-089000
12021-0912000
22021-047000
22021-099000
该问题采取的措施:

解决这个问题,我的思路是:先筛选出符合条件的数据行,然后想办法判断这些数据哪些是连续的。其中最重要的一步是判断数据行是否在原始数据中连续,为了解决这个问题,只需要在原始数据中增加一列,显示数据的位置(以ID为区分),然后再从筛选后的数据中找出连续且递增的数据序列即可。例如:

ID时间工资序号
12021-01110001
12021-0680002
12021-0890003
12021-09120004
22021-0470001
22021-0990002

筛选后的数据:

ID时间工资序号
12021-0680002
12021-0890003
22021-0470001
22021-0990002
32021-0180006
42021-0480005
42021-0680006
42021-0990009
42021-10800010

显然,上述符合条件的递增连续序列是

  • ID1:(2,3)
  • ID2:(1,2)
  • ID4:(5,6),(9,10)

通过找到所有的递增连续序列,就可以找到所有ID的满足条件的连续区间,就可以统计时间跨度、区间长度、出现次数等。

通过分析,以上问题转变为了一个寻找连续递增数据序列的问题,避免了在原始数据上的复杂的循环和判断等操作。

寻找连续递增序列,只需要判断下一个数字是不是前一个数字+1,将符合条件的连续数字append在列表中即可。具体python代码实现见下一篇《python找列表中的连续递增序列》。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值