电力窃漏电用户自动识别的实验报告

xu_yushu

于 2022-05-03 11:47:08 发布

阅读量2.5k

点赞数 3

分类专栏：数据分析实验报告文章标签： python 数据挖掘 k-means 决策树数据分析

本文链接：https://blog.csdn.net/xu_yushu/article/details/124552745

版权

基于Python的电力窃漏电用户自动识别实验，采用拉格朗日插值法处理缺失值，通过CART决策树和KNN算法建立模型。实验结果显示，CART决策树和KNN在分类准确率和用户误判方面各有优劣，通过ROC曲线进行了模型对比分析。

摘要由CSDN通过智能技术生成

电力窃漏电用户自动识别实验报告

提示

参考书：张良均《Python数据分析与挖掘实战》等。

数据文件：课本自带数据。

使用软件：Pycharm。

类别：实验。

关键字：拉格朗日插值法、CART决策树、KNN。

温馨提示：特别注意后面的各个易错点、疑难点，该实验是跟张良均这本书配合使用的，代码运行于Pycharm。

一、实验目的

1、基于Python，了解分类算法的使用。

2、使用拉格朗日插值法进行缺失值处理的方法。

3、使用CART决策树分类模型和K近邻算法模型的方法。

二、实验环境

1、操作系统：Windows10。

2、代码运行环境：Jupyternotebook或Pycharm。

三、实验原理

1、Python开发平台的搭建。

2、Python使用入门。

3、Python数据分析工具。

4、K近邻算法和CART决策树

四、实验步骤与实验结果

1、实验步骤要求：

<1> 对存在缺失值的用户用电数据表“miss_data.xls”，利用拉格朗日插值法补全数据。

<2> 对所有窃漏电用户及其正常用户的电量、告警及线损数据和该用户在当天是否窃漏电的标识，按窃漏电评价指标进行处理并选取其中291个样本数据，得到专家样本，数据文件为“model.xls”。

<3> 数据80%作为训练样本，剩下的20%作为测试样本。

<4> 对数据文件“model.xls”使用CART决策树实现分类预测模型，再利用混淆矩阵和ROC曲线对模型进行评价。

<5> 对数据文件“model.xls”使用K近邻算法实现分类预测模型，再利用混淆矩阵和ROC曲线对模型进行评价。

2、实验结果：

（1）第<1>小题的拉格朗日插值：

【1】温馨提示：

在这里插入图片描述

【2】代码：

# -*- coding:utf-8 -*-

# 拉格朗日插值代码
# 导入数据分析库Pandas
import pandas as pd
# 导入拉格朗日插值函数
from scipy.interpolate import lagrange

# 输入数据的路径，需要使用Excel格式
input_file = 'missing_data.xls'
# 输出数据的路径，需要使用Excel格式
output_file = 'missing_data_processed.xls'

# 读入数据
data = pd.read_excel(input_file, header=None)
# print(data)

# 自定义列向量插值函数
# col为列向量; pos为被插值的位置; num为取前后的数据个数，默认为5。
def column_interpolation(col, pos, num=5):
   
   '''使用这行代码:
   y = s[list(range(pos - num, pos + num + 1))] 或
   y = col[list(range(pos - num, pos)) + list(range(pos + 1, pos + num + 1))]
   会报错！
   原因： Series不支持反向索引，也就是类似于pd.Series[-1]
   第一个缺失值位于第三位 pos - num 出现负值，所以报错。
   第一种解决方案: y = col.reindex(list(range(pos - num, pos)) + list(range(pos + 1, pos + num + 1)))
   第二种解决方案: 忽略 pos - num < 0 的缺失值
   '''
   # （1）取数
   y = col.reindex(list(range(pos - num, pos)) + list(range(pos + 1, pos + num + 1)))
   # （2）剔除空值
   y = y[y.notnull()]
   # （3）插值并返回插值结果
   return lagrange(y.index, list(y))(pos)

# 逐个元素判断是否需要插值
for m in data.columns:
   for n in range(len(data)):
       if(data[m].isnull())[n]:
           # 如果为空值，则插值
           data[m][n]