pandas 滑动窗口 分析

问题:30分钟内,某一字段重复出现的次数大于N值,将信息记录下来
  • 使用pandas滑动窗口函数rolling
    • df.rolling(windows=n, freq=‘s’).sum()/meam()
  • 时间不连续的情况下,使用计算类型的函数得到Nan值
尝试解决方案
  • 获取需要处理数据的最大时间和最小时间
  • 计算时间差
  • 生成新的DataFrame
  • 将要计算的数据更新到上个df中
  • 分析
# 获取需要处理数据的最大时间和最小时间
N = 50
max_time = df[-1]
min_time = df[0]
# 计算时间差
time_diff = (max_time - min_time).total_seconds() + 1
new_index = pd.date_range(start=min_time, periods=time_diff, freq="S")
# 生成新的DataFrame
new_df = pd.DataFrame(data=0, index=new_index, columns['df columns name'])
# 将要计算的数据更新到上个df中
new_df.update(df)
res = new_df.rolling(window=1800, freq='S').sum()
result = res[(res['df columns name'] >= N)]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值