Chapter 11 应用系统负载分析及磁盘容量预测

最新推荐文章于 2022-04-11 19:17:31 发布

静水``流深

最新推荐文章于 2022-04-11 19:17:31 发布

阅读量865

点赞数 2

分类专栏： # Python数据分析与挖掘实战学习笔记

本文链接：https://blog.csdn.net/weixin_46623003/article/details/105281738

版权

学习笔记同时被 2 个专栏收录

57 篇文章 0 订阅

订阅专栏

Python数据分析与挖掘实战

8 篇文章 3 订阅

订阅专栏

根据企业历史磁盘数据，采用时间序列的方法预测未来使用情况，据此判断预警级别。

对以下形式的数据建立ARIMA模型

一、数据预处理

提取相关的数据，进行变换，得到建模所需的数量类型及格式。

1.11 代码：

# -*- coding: utf-8 -*-

import pandas as pd

# 1）参数初始化
discfile='.../data/discdata.xls'  # 磁盘原始数据
transformeddata='.../data/discdata_processed.xls'  #变换后数据

data = pd.read_excel(discfile)  # 读取数据

# 2）选择对象数据
discdata_select = data[data['TARGET_ID'] == 184].copy()  # 只保留TARGET_ID为184的数据

# 3）属性变换
data_group = discdata_select.groupby('COLLECTTIME')  # 以时间分组

def attr_trans(x):  # 定义属性变换函数
  result = pd.Series(index = ['SYS_NAME', 'CWXT_DB:184:C:\\', 'CWXT_DB:184:D:\\', 'COLLECTTIME'])
  result['SYS_NAME'] = x['SYS_NAME'].iloc[0]
  result['COLLECTTIME'] = x['COLLECTTIME'].iloc[0]
  result['CWXT_DB:184:C:\\'] = x['VALUE'].iloc[0]
  result['CWXT_DB:184:D:\\'] = x['VALUE'].iloc[1]
  return result

data_processed = data_group.apply(attr_trans)  # 逐组处理
data_processed.to_excel(transformeddata, index = False)

1.12 结果：

data.head()
Out[16]: 
  SYS_NAME     NAME  TARGET_ID DESCRIPTION ENTITY         VALUE COLLECTTIME
0   财务管理系统  CWXT_DB        184     磁盘已使用大小    C:\  3.427079e+07  2014-10-01
1   财务管理系统  CWXT_DB        184     磁盘已使用大小    D:\  8.026259e+07  2014-10-01
2   财务管理系统  CWXT_DB        183        磁盘容量    C:\  5.232332e+07  2014-10-01
3   财务管理系统  CWXT_DB        183        磁盘容量    D:\  1.572833e+08  2014-10-01
4   财务管理系统  CWXT_DB        184     磁盘已使用大小    C:\  3.432890e+07  2014-10-02

discdata_select.head()
Out[18]: 
  SYS_NAME     NAME  TARGET_ID DESCRIPTION ENTITY        VALUE COLLECTTIME
0   财务管理系统  CWXT_DB        184     磁盘已使用大小    C:\  34270787.33  2014-10-01
1   财务管理系统  CWXT_DB        184     磁盘已使用大小    D:\  80262592.65  2014-10-01
4   财务管理系统  CWXT_DB        184     磁盘已使用大小    C:\  34328899.02  2014-10-02
5   财务管理系统  CWXT_DB        184     磁盘已使用大小    D:\  83200151.65  2014-10-02
8   财务管理系统  CWXT_DB        184     磁盘已使用大小    C:\  34327553.50  2014-10-03

data_processed.head()
Out[19]: 
            SYS_NAME  CWXT_DB:184:C:\  CWXT_DB:184:D:\ COLLECTTIME
COLLECTTIME                                                       
2014-10-01    财务管理系统      34270787.33      80262592.65  2014-10-01
2014-10-02    财务管理系统      34328899.02      83200151.65  2014-10-02
2014-10-03    财务管理系统      34327553.50      83208320.00  2014-10-03
2014-10-04    财务管理系统      34288672.21      83099271.65  2014-10-04
2014-10-05    财务管理系统      34190978.41      82765171.65  2014-10-05

二、模型建立

2.1 平稳性检验

平稳性检验的方法一般有：1）时序图检验；2）自相关图检验；3）单位根检验

这里使用ADF单位根检验法：
H0：有单位根；H1：无单位根

P<0.05，表示接受H1。

2.11 代码：

# -*- coding: utf-8 -*-

# 平稳性检验
import pandas as pd

# 参数初始化
discfile='.../data/discdata_processed.xls'

data = pd.read_excel(discfile)
data = data.iloc[ : len(data)-5]  # 不检测最后5个数据

# 平稳性检测
from statsmodels.tsa.stattools import adfuller as ADF
diff = 0
adf = ADF(data['CWXT_DB:184:D:\\'])
while adf[1] > 0.05:
  diff = diff + 1
  adf = ADF(data['CWXT_DB:184:D:\\'].diff(diff).dropna())

print(u'原始序列经过%s阶差分后归于平稳，p值为%s' %(diff, adf[1]))

2.12 结果：

原始序列经过1阶差分后归于平稳，p值为4.792591263393756e-07

2.2 白噪声检验

白噪声检验也称为纯随机检验，当数据非白噪声时，才有必要进行下一步建模。常用的检验统计量有：1）Q统计量；2）LB统计量

这里使用LB统计量，

H0：白噪声；H1：非白噪声

P<0.05时，接受H1。