数据探索与数据预处理的实验报告

最新推荐文章于 2024-04-27 15:08:45 发布

xu_yushu

最新推荐文章于 2024-04-27 15:08:45 发布

阅读量1.4w

点赞数 15

分类专栏：数据分析实验报告文章标签：数据挖掘 python 数据分析

本文链接：https://blog.csdn.net/xu_yushu/article/details/124554064

版权

本次实验基于Python，通过数据探索了解集中趋势和离散趋势，绘制词云，处理缺失值，进行连续属性离散化及主成分分析，展示了数据预处理的重要步骤和效果。

摘要由CSDN通过智能技术生成

数据探索与数据预处理

提示

参考书：张良均《Python数据分析与挖掘实战》等。

数据文件：课本自带数据。

使用软件：Pycharm。

类别：实验。

温馨提示：该实验是跟张良均这本书配合使用的，代码运行于Pycharm。

一、实验目的

1、了解数据探索基本方法。

2、了解数据预处理基本方法。

二、实验环境

1、操作系统：Windows 10。

2、代码运行环境：Jupyter notebook或Pycharm。

三、实验原理

1、使用数据挖掘的定义及流程。

2、使用数据挖掘基本方法，应用。

3、使用Python数据分析工具。

4、使用数据对象，属性类型，基本统计描述，可视化，相似性与相异性度量。

5、运用数据预处理基本思想，数据离散化，清洗，特征提取与特征选择。

四、实验步骤与实验结果

4.1 实验步骤：

1、数据探索（数据：某餐饮企业的餐饮日销售额数据表catering_sale.xls）

（1.1）对给定数据，首先查看数据基本情况，使用describe方法。

（1.2）分析集中趋势，包括均值，中位数，众数指标。

（1.3）分析离散趋势，包括极差，四分位间距等，并给出五数概况。

（1.4）以月份为单位，绘制月度销售额直方图（bar），以及按月份时间递增的销售额变化折线图(plot)。

2、绘制词云，使用数据为《XX大学防控疫情确保开学安全工作方案》。（注意先要将文档转化为可处理的txt）

3、数据预处理

（3.1）数据清洗-缺失值处理。给定catering_sale.xls，其中2015年2月14日数据缺失。采用合适方法进行数据增补。

（3.2）连续属性离散化。针对医学中的中医证型数据，discretization_data.xls，分别用等宽和等频进行离散化。

（3.3）主成分分析法降维。利用主成分分析法PCA，对数据principal_component.xls进行降维，要求降维后数据保留95%原数据信息即可。

4.2 实验结果：

4.2.1 数据探索

【1】温馨提示：
在这里插入图片描述

【2】代码：

# coding: utf-8
import pandas as pd
import matplotlib.pyplot as plt
# excel文件自行修改
xls_file = pd.read_excel("./catering_sale.xls")
df = pd.DataFrame(xls_file)
# print(df)
data1 = df['销量']
# print(data1)
des = data1.describe()
# print(des)
print("日销售额数据均值为：" + str(des['mean']))
print("日销售额数据中位数为：" + str(des['50%']))
print("日销售额数据的众位数为：" + str(data1.mode()[0]))
print("日销售额数据的极差为：" + str(des['max'] - des['min']))
print("日销售额数据的四分位间距为：" + str(des['75%']-des['25%']))
print("五数概况为：" + str(des['min'])+", " + str(des['25%']) +