电力窃漏电用户自动识别实验报告
提示
参考书:张良均《Python数据分析与挖掘实战》等。
数据文件:课本自带数据。
使用软件:Pycharm。
类别:实验。
关键字:拉格朗日插值法、CART决策树、KNN。
温馨提示:特别注意后面的各个易错点、疑难点,该实验是跟张良均这本书配合使用的,代码运行于Pycharm。
一、 实验目的
1、基于Python,了解分类算法的使用。
2、使用拉格朗日插值法进行缺失值处理的方法。
3、使用CART决策树分类模型和K近邻算法模型的方法。
二、 实验环境
1、操作系统:Windows10。
2、代码运行环境:Jupyternotebook或Pycharm。
三、 实验原理
1、Python开发平台的搭建。
2、Python使用入门。
3、Python数据分析工具。
4、K近邻算法和CART决策树
四、 实验步骤与实验结果
1、实验步骤要求:
<1> 对存在缺失值的用户用电数据表“miss_data.xls”,利用拉格朗日插值法补全数据。
<2> 对所有窃漏电用户及其正常用户的电量、告警及线损数据和该用户在当天是否窃漏电的标识,按窃漏电评价指标进行处理并选取其中291个样本数据,得到专家样本,数据文件为“model.xls”。
<3> 数据80%作为训练样本,剩下的20%作为测试样本。
<4> 对数据文件“model.xls”使用CART决策树实现分类预测模型,再利用混淆矩阵和ROC曲线对模型进行评价。
<5> 对数据文件“model.xls”使用K近邻算法实现分类预测模型,再利用混淆矩阵和ROC曲线对模型进行评价。
2、实验结果:
(1)第<1>小题的拉格朗日插值:
【1】温馨提示:
【2】代码:
# -*- coding:utf-8 -*-
# 拉格朗日插值代码
# 导入数据分析库Pandas
import pandas as pd
# 导入拉格朗日插值函数
from scipy.interpolate import lagrange
# 输入数据的路径,需要使用Excel格式
input_file = 'missing_data.xls'
# 输出数据的路径,需要使用Excel格式
output_file = 'missing_data_processed.xls'
# 读入数据
data = pd.read_excel(input_file, header=None)
# print(data)
# 自定义列向量插值函数
# col为列向量; pos为被插值的位置; num为取前后的数据个数,默认为5。
def column_interpolation(col, pos, num=5):
'''使用这行代码:
y = s[list(range(pos - num, pos + num + 1))] 或
y = col[list(range(pos - num, pos)) + list(range(pos + 1, pos + num + 1))]
会报错!
原因: Series不支持反向索引,也就是类似于pd.Series[-1]
第一个缺失值位于第三位 pos - num 出现负值,所以报错。
第一种解决方案: y = col.reindex(list(range(pos - num, pos)) + list(range(pos + 1, pos + num + 1)))
第二种解决方案: 忽略 pos - num < 0 的缺失值
'''
# (1)取数
y = col.reindex(list(range(pos - num, pos)) + list(range(pos + 1, pos + num + 1)))
# (2)剔除空值
y = y[y.notnull()]
# (3)插值并返回插值结果
return lagrange(y.index, list(y))(pos)
# 逐个元素判断是否需要插值
for m in data.columns:
for n in range(len(data)):
if(data[m].isnull())[n]:
# 如果为空值,则插值
data[m][n]