数据探索与数据预处理的实验报告

本次实验基于Python,通过数据探索了解集中趋势和离散趋势,绘制词云,处理缺失值,进行连续属性离散化及主成分分析,展示了数据预处理的重要步骤和效果。
摘要由CSDN通过智能技术生成

数据探索与数据预处理

提示

参考书:张良均《Python数据分析与挖掘实战》等。

数据文件:课本自带数据。

使用软件:Pycharm。

类别:实验。

温馨提示:该实验是跟张良均这本书配合使用的,代码运行于Pycharm。

一、 实验目的

1、了解数据探索基本方法。

2、了解数据预处理基本方法。

二、 实验环境

1、操作系统:Windows 10。

2、代码运行环境:Jupyter notebook或Pycharm。

三、 实验原理

1、使用数据挖掘的定义及流程。

2、使用数据挖掘基本方法,应用。

3、使用Python数据分析工具。

4、使用数据对象,属性类型,基本统计描述,可视化,相似性与相异性度量。

5、运用数据预处理基本思想,数据离散化,清洗,特征提取与特征选择。

四、 实验步骤与实验结果

4.1 实验步骤:

1、 数据探索(数据:某餐饮企业的餐饮日销售额数据表catering_sale.xls)

(1.1)对给定数据,首先查看数据基本情况,使用describe方法。

(1.2)分析集中趋势,包括均值,中位数,众数指标。

(1.3)分析离散趋势,包括极差,四分位间距等,并给出五数概况。

(1.4)以月份为单位,绘制月度销售额直方图(bar),以及按月份时间递增的销售额变化折线图(plot)。

2、 绘制词云,使用数据为《XX大学防控疫情确保开学安全工作方案》。(注意先要将文档转化为可处理的txt)

3、 数据预处理

(3.1)数据清洗-缺失值处理。给定catering_sale.xls,其中2015年2月14日数据缺失。采用合适方法进行数据增补。

(3.2)连续属性离散化。针对医学中的中医证型数据,discretization_data.xls,分别用等宽和等频进行离散化。

(3.3)主成分分析法降维。利用主成分分析法PCA,对数据principal_component.xls进行降维,要求降维后数据保留95%原数据信息即可。

4.2 实验结果:
4.2.1 数据探索

【1】温馨提示:
在这里插入图片描述

【2】代码:

# coding: utf-8
import pandas as pd
import matplotlib.pyplot as plt
# excel文件自行修改
xls_file = pd.read_excel("./catering_sale.xls")
df = pd.DataFrame(xls_file)
# print(df)
data1 = df['销量']
# print(data1)
des = data1.describe()
# print(des)
print("日销售额数据均值为:" + str(des['mean']))
print("日销售额数据中位数为:" + str(des['50%']))
print("日销售额数据的众位数为:" + str(data1.mode()[0]))
print("日销售额数据的极差为:" + str(des['max'] - des['min']))
print("日销售额数据的四分位间距为:" + str(des['75%']-des['25%']))
print("五数概况为:" + str(des['min'])+", " + str(des['25%']) + 
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值