动手学数据分析-数据可视化

最新推荐文章于 2024-09-07 13:56:12 发布

私の未来は夢じゃない

最新推荐文章于 2024-09-07 13:56:12 发布

阅读量258

点赞数

分类专栏：笔记文章标签：数据分析可视化数据可视化

本文链接：https://blog.csdn.net/weixin_45064713/article/details/108231752

版权

笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

动手学数据分析-数据可视化

数据可视化

数据可视化

绘制常用图形

常用图形有：

plt.scatter() 散点图
plt.plot() 折线图
plt.bar() 直方图
plt.pie() 饼图
plt.boxplot() 箱型图

#导入相应的包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline  

#图可以显示中文和负号
plt.rcParams['font.sans-serif']='SimHei'
plt.rcParams['axes.unicode_minus']=False

data = pd.read_excel("D:\data\student-score\student-score.xlsx")
data.head()

	序号	姓名	学校	语文	数学	英语	品德	科学	总分
0	1	张三湖	第1小学	95.0	99.0	80.0	10.0	10.0	294.0
1	2	李小红	第1小学	98.0	97.0	79.0	10.0	9.5	293.5
2	3	张南名	第1小学	94.0	97.0	80.0	10.0	10.0	291.0
3	4	梁南名	第1小学	94.5	99.0	77.0	10.0	10.0	290.5
4	5	常右河	第1小学	93.0	97.0	80.0	10.0	10.0	290.0

data = data.drop(columns = ["序号","品德","科学"],axis = 1) #由于品德和科学的总分与其他学科不一致,为了图片显示效果,删除这两个学科成绩

data.loc[:,"总分"] = data.loc[:,"语文"] + data.loc[:,"数学"] + data.loc[:,"英语"]  #重新计算总分成绩

散点图

gp = data.groupby(by = "学校",as_index=False)  #以学校为分组依据进行分组
data1=gp.mean() #分组后的聚合运算为计算均值
data1.head()

	学校	语文	数学	英语	总分
0	第10小学	67.827869	67.901639	42.975410	178.704918
1	第11小学	71.333333	65.416667	52.125000	188.875000
2	第12小学	57.928571	52.428571	49.952381	160.309524
3	第13小学	65.107143	68.285714	50.071429	183.464286
4	第14小学	58.894737	65.526316	51.184211	175.605263

# 绘制各学科成绩散点图
plt.figure(figsize=(6,4))
plt.scatter(data1["总分"],data1["语文"],marker='v')
plt.scatter(data1["总分"],data1["数学"],marker='o')
plt.scatter(data1["总分"],data1["英语"],marker='*')
plt.title("各学校成绩散点图",fontsize = 14)
plt.xlabel("总成绩")
plt.ylabel("各学科成绩")
plt.legend(["语文","数学","英语"]);

在这里插入图片描述

# 绘制各学科成绩散点图
plt.figure(figsize=(6,4))
plt.scatter(data1["总分"],data1["语文"],marker='v')
plt.title("各学校语文与总分成绩散点图",fontsize = 14)
plt.xlabel("总成绩")
plt.ylabel("各学科成绩")
plt.legend(["语文"])

<matplotlib.legend.Legend at 0x207b5bd2f60>

在这里插入图片描述

# 绘制各学科成绩散点图
data1.plot.scatter(x = "总分", y = "语文")
plt.title("语文与总分成绩散点图")
data1.plot.scatter(x = "总分", y = "数学")
plt.title("数学与总分成绩散点图")
data1.plot.scatter(x = "总分", y = "英语")
plt.title("英语与总分成绩散点图")
# plt.show()

Text(0.5, 1.0, '英语与总分成绩散点图')

在这里插入图片描述

折线图

plt.figure(figsize=(10,4))
plt.plot(range(21),data1.iloc[:,1],'-*') #选取语文成绩数据
plt.plot(range(21),data1.iloc[:,2],'-o') #选取数学成绩数据
plt.plot(range(21),data1.iloc[:,3],'-v') #选取英语成绩数据
plt.title('各学科成绩变化走势图')
plt.xlabel('各学校')
plt.ylabel('学科成绩')
plt.xticks(range(21),data1["学校"],rotation=30)  #rotation=30控制文字倾斜角度
plt.legend(['语文','数学','英语']);

在这里插入图片描述

直方图

yw = data1.loc[:,"学校":"语文"]  #提取数据绘制直方图,直方图原理,每个需要被画图的标签对应一个数值
yw = yw.T
yw

序号	1	2	3	4	5	6	7	8	9	10	...	12	13	14	15	16	17	18	19	20	21
学校	第1小学	第2小学	第3小学	第4小学	第5小学	第6小学	第7小学	第8小学	第9小学	第10小学	...	第12小学	第13小学	第14小学	第15小学	第16小学	第17小学	第18小学	第19小学	第20小学	第21小学
语文	90.5	85.2143	58.7024	60.6364	69.0776	64.1667	62.0455	76.6695	65.881	67.8279	...	57.9286	65.1071	58.8947	59.8929	63.25	68.5	64.6818	66.2778	54.3421	51.38

2 rows × 21 columns

yw.columns = yw.iloc[0]  #将学校字段转换成列索引
yw1 = yw.drop("学校",axis=0)  #删多余的行信息
yw1

学校	第1小学	第2小学	第3小学	第4小学	第5小学	第6小学	第7小学	第8小学	第9小学	第10小学	...	第12小学	第13小学	第14小学	第15小学	第16小学	第17小学	第18小学	第19小学	第20小学	第21小学
语文	90.5	85.2143	58.7024	60.6364	69.0776	64.1667	62.0455	76.6695	65.881	67.8279	...	57.9286	65.1071	58.8947	59.8929	63.25	68.5	64.6818	66.2778	54.3421	51.38

1 rows × 21 columns

# 每个学校语文平均成绩的直方图
plt.figure(figsize=(12,4))
plt.bar(range(21),yw.loc["语文",:],width=0.5)
plt.title("语文成绩直方图",fontsize = 14)
plt.ylabel("语文成绩",fontsize = 14)
plt.xticks(range(21),yw.iloc[0],rotation=30,fontsize = 12); #x轴刻度为各学校名称

在这里插入图片描述

data2 = data1.drop("总分",axis = 1)  #新建一个dataframe,删掉总分列,因为总分和单科成绩相差太多,影响绘图效果
data2.head()

	学校	语文	数学	英语
序号
1	第1小学	90.500000	90.910714	74.366071
2	第2小学	85.214286	87.303571	73.946429
3	第3小学	58.702381	59.309524	52.976190
4	第4小学	60.636364	58.000000	41.568182
5	第5小学	69.077586	72.344828	43.353448

# 将多个学科成绩画到一张图中  #截取前十
data2.plot.bar(x = '学校',y = ['语文','数学','英语'],figsize=(16,6),width=0.7,rot = 30,title = "各学科成绩直方图"); #rot空值标签倾斜程度

在这里插入图片描述

饼图

data2.head()

	学校	语文	数学	英语
序号
1	第1小学	90.500000	90.910714	74.366071
2	第2小学	85.214286	87.303571	73.946429
3	第3小学	58.702381	59.309524	52.976190
4	第4小学	60.636364	58.000000	41.568182
5	第5小学	69.077586	72.344828	43.353448

plt.figure(figsize=(4,4),dpi=80)
plt.pie(data2.iloc[0,1:] #选取数据源
        ,labels=['语文','数学','英语']
        ,autopct='%1.2f') #设置百分比经度
#         ,explode=[0.1,0.02,0.02]  #设置饼图各个扇区之间的间隙
#         ,colors=['r','g','b']) #设置饼图各个扇区的颜色
plt.title('第1小学各学科成绩占比',fontsize=12);
#fontsize设定字体的大小，xlabel,ylabel,title里面都可以设定

在这里插入图片描述

pic2 = plt.figure(figsize=(8,8),dpi=80)

fig1 = pic2.add_subplot(2,2,1) #第一个子图
plt.pie(data2.iloc[0,1:] #选取数据源 第10小学各学科成绩
        ,labels=['语文','数学','英语']
        ,autopct='%1.2f') #设置百分比经度
#         ,explode=[0.1,0.02,0.02]  #设置饼图各个扇区之间的间隙
#         ,colors=['r','g','b']) #设置饼图各个扇区的颜色
plt.title('第1小学各学科成绩占比',fontsize=12)

fig2 = pic2.add_subplot(2,2,2) #第二个字图
plt.pie(data2.iloc[1,1:] #选取数据源,第11小学各学科成绩
        ,labels=['语文','数学','英语']
        ,autopct='%1.2f') #设置百分比经度
#         ,explode=[0.1,0.02,0.02]  #设置饼图各个扇区之间的间隙
#         ,colors=['r','g','b']) #设置饼图各个扇区的颜色
plt.title('第2小学各学科成绩占比',fontsize=12)

fig3 = pic2.add_subplot(2,2,3) #第二个字图
plt.pie(data2.iloc[2,1:] #选取数据源,第12小学各学科成绩
        ,labels=['语文','数学','英语']
        ,autopct='%1.2f') #设置百分比经度
#         ,explode=[0.1,0.02,0.02]  #设置饼图各个扇区之间的间隙
#         ,colors=['r','g','b']) #设置饼图各个扇区的颜色
plt.title('第3小学各学科成绩占比',fontsize=12)

fig4 = pic2.add_subplot(2,2,4) #第二个字图
plt.pie(data2.iloc[3,1:] #选取数据源,第13小学各学科成绩
        ,labels=['语文','数学','英语']
        ,autopct='%1.2f') #设置百分比经度
#         ,explode=[0.1,0.02,0.02]  #设置饼图各个扇区之间的间隙
#         ,colors=['r','g','b']) #设置饼图各个扇区的颜色
plt.title('第4小学各学科成绩占比',fontsize=12);

在这里插入图片描述

箱型图

data.head()

	姓名	学校	语文	数学	英语	总分
0	张三湖	第1小学	95.0	99.0	80.0	274.0
1	李小红	第1小学	98.0	97.0	79.0	274.0
2	张南名	第1小学	94.0	97.0	80.0	271.0
3	梁南名	第1小学	94.5	99.0	77.0	270.5
4	常右河	第1小学	93.0	97.0	80.0	270.0

data_1 = data.loc[data['学校'] =="第1小学"]  #提取第一小学的所有信息

score = (list(data_1.iloc[:,2]),list(data_1.iloc[:,3]),list(data_1.iloc[:,4]))

plt.figure(figsize=(8,6))
plt.boxplot(score
            ,labels=['语文','数学','英语']
            ,notch=True #缺口中位数位置
            ,sym='*'#设定异常值的形状
            ,whis=1.5); #设定几倍标准差之外的数据算是异常值，默认是1.5

泰坦尼克号数据集

text = pd.read_csv(r'result.csv')
text.head()

在这里插入图片描述

男女中生存人数分布情况

sex = text.groupby('Sex')['Survived'].sum()
sex.plot.bar(color='chocolate')
plt.title('survived_count')
plt.show()

在这里插入图片描述

男女中生存人与死亡人数的比例

text.groupby(['Sex','Survived'])['Survived'].count().unstack().plot(kind='bar',stacked='True')
plt.title('survived_count')
plt.ylabel('count')

在这里插入图片描述

不同票价的人生存和死亡人数分布情况

# 排序后绘折线图
fare_sur = text.groupby(['Fare'])['Survived'].value_counts().sort_values(ascending=False)
fig = plt.figure(figsize=(20, 18))
fare_sur.plot(grid=True)
plt.legend()
plt.show()

在这里插入图片描述

# 排序前绘折线图
fare_sur1 = text.groupby(['Fare'])['Survived'].value_counts()
fig = plt.figure(figsize=(20, 18))
fare_sur1.plot(grid=True)
plt.legend()
plt.show()

在这里插入图片描述

不同仓位等级的人生存和死亡人员的分布情况

# 1表示生存，0表示死亡
pclass_sur = text.groupby(['Pclass'])['Survived'].value_counts()

import seaborn as sns
sns.countplot(x="Pclass", hue="Survived", data=text)

在这里插入图片描述

不同年龄的人生存与死亡人数分布情况

facet = sns.FacetGrid(text, hue="Survived",aspect=3)
facet.map(sns.kdeplot,'Age',shade= True)
facet.set(xlim=(0, text['Age'].max()))
facet.add_legend()

在这里插入图片描述

不同仓位等级的人年龄分布情况

text.Age[text.Pclass == 1].plot(kind='kde')
text.Age[text.Pclass == 2].plot(kind='kde')
text.Age[text.Pclass == 3].plot(kind='kde')
plt.xlabel("age")
plt.legend((1,2,3),loc="best")

在这里插入图片描述

私の未来は夢じゃない

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
动手学数据分析-数据可视化

动手学数据分析-数据可视化数据可视化绘制常用图形散点图折线图直方图饼图箱型图泰坦尼克号数据集男女中生存人数分布情况男女中生存人与死亡人数的比例不同票价的人生存和死亡人数分布情况不同仓位等级的人生存和死亡人员的分布情况不同年龄的人生存与死亡人数分布情况不同仓位等级的人年龄分布情况数据可视化绘制常用图形常用图形有：plt.scatter() 散点图plt.plot() 折线图plt.bar() 直方图plt.pie() 饼图plt.boxplot() 箱型图#导入相应的包impor
复制链接

扫一扫