红酒数据集分析【详细版】
原文链接:阿里云天池
数据连接:链接:https://pan.baidu.com/s/1UpVkbgOEIjpc_GQTGHyqTQ
提取码:ztjs
介绍
这个notebook分析了红酒的通用数据集。这个数据集有1599个样本,11个红酒的理化性质,以及红酒的品质(评分从0到10)。这里主要目的在于展示进行数据分析的常见python包的调用,以及数据可视化。主要内容分为:单变量,双变量,和多变量分析。
数据集基本情况探索:
fixed acidity 非挥发性酸
volatile acidity 挥发性酸
citric acid 柠檬酸
residual sugar 剩余糖分
chlorides 氯化物
free sulfur dioxide 游离二氧化硫
total sulfur dioxide 总二氧化硫
density 密度
pH 酸碱性
sulphates 硫酸盐
alcohol 酒精
quality 质量
#功能是可以内嵌绘图,并且可以省略掉plt.show()这一步,具体作用是当你调用matplotlib.pyplot的绘图函数plot()进行绘图的时候,或者生成一个figure画布的时候,可以直接在你的python console里面生成图像。
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
#Seaborn是基于matplotlib的Python可视化库
import seaborn as sns
# 创建调色板
color = sns.color_palette()
# 数据print精度,显示小数点后三位
pd.set_option('precision',3)
# data 路径
dataPath = 'D:\APAGANI\ww\winequality-red.csv'
# 读取数据
df = pd.read_csv("D:/APAGANI/ww/winequality-red.csv",sep=';')
df.head(5)
# 查看数据信息
df.info()
单变量分析
df.describe()# 简单的数据统计
count 数量mean 平均值std 标准差min 最小值25% 第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。50% 中位数75% 同上类似max 最大值
plt.style.use('ggplot')# 设置样式
colnm = df.columns.tolist()#可以使用tolist()函数转化为list
fig = plt.figure(figsize=(8,6))#plt.figure()返回一个Figure()对象,figsize设置图像大小。图大小(宽,高)(单位英寸)
for i in range(12):
plt.subplot(2,6,i+1)#设置了12个位置,2代表行,6代表列,其参数为:
plt.subplot(numrows, numcols, fignum)
sns.boxplot(df[colnm[i]], orient='v',width=1, color=color[4]) #palette参数用于控制图像的色调
# orient参数用于控制图像水平显示还是竖直显示,只取 v和h
# width控制箱线图的宽度
plt.ylabel(colnm[i], fontsize=12)# 设置y轴的取值范围, 添加 y 轴标题
plt.tight_layout() #tight_layout会自动调整子图参数,使之填充整个图像区域。
print('\nFigure 1:Univariate BoxPlots')
# df.hist
colnm = df.columns.tolist()
plt.figure(figsize=(10,8))
for i in range(12):
plt.subplot(4,3,i+1)
df[colnm[i]].hist(bins = 100, color = color[0])#bins指bin(箱子)的个数,即每张图柱子的个数
plt.xlabel(colnm[i], fontsize=12)