问题:30分钟内,某一字段重复出现的次数大于N值,将信息记录下来
- 使用pandas滑动窗口函数rolling
- df.rolling(windows=n, freq=‘s’).sum()/meam()
- 时间不连续的情况下,使用计算类型的函数得到Nan值
尝试解决方案
- 获取需要处理数据的最大时间和最小时间
- 计算时间差
- 生成新的DataFrame
- 将要计算的数据更新到上个df中
- 分析
N = 50
max_time = df[-1]
min_time = df[0]
time_diff = (max_time - min_time).total_seconds() + 1
new_index = pd.date_range(start=min_time, periods=time_diff, freq="S")
new_df = pd.DataFrame(data=0, index=new_index, columns['df columns name'])
new_df.update(df)
res = new_df.rolling(window=1800, freq='S').sum()
result = res[(res['df columns name'] >= N)]