tsak4:第二章：第四节数据可视化

最新推荐文章于 2024-08-15 01:55:01 发布

weixin_43584257

最新推荐文章于 2024-08-15 01:55:01 发布

阅读量390

点赞数

分类专栏： DataWhale 文章标签： python 数据分析数据挖掘

本文链接：https://blog.csdn.net/weixin_43584257/article/details/122039473

版权

DataWhale 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

DataWhale 动手学数据分析 Task04

- 第二章：数据可视化
- - 2.7 如何让人一眼看懂你的数据？

【引言】数据可视化，主要给大家介绍一下Python数据可视化库Matplotlib，在本章学习中，你也许会觉得数据很有趣。在打比赛的过程中，数据可视化可以让我们更好的看到每一个关键步骤的结果如何，可以用来优化方案，是一个很有用的技巧。

第二章：数据可视化

开始之前，导入numpy、pandas以及matplotlib包和数据

#加载所需的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

#加载result.csv这个数据
df=pd.read_csv('train.csv')
df.head()

在这里插入图片描述

2.7 如何让人一眼看懂你的数据？

《Python for Data Analysis》第九章

2.7.1 任务一：跟着书本第九章，了解matplotlib，自己创建一个数据项，对其进行基本可视化

【思考】最基本的可视化图案有哪些？分别适用于那些场景？（比如折线图适合可视化某个属性值随时间变化的走势）

#代码编写
Survived=df.groupby('Sex')['Survived'].sum()
Survived

在这里插入图片描述

Survived.plot.bar()
plt.title('survived_count')

在这里插入图片描述
【思考】计算出泰坦尼克号数据集中男女中死亡人数，并可视化展示？如何和男女生存人数可视化柱状图结合到一起？看到你的数据可视化，说说你的第一感受（比如：你一眼看出男生存活人数更多，那么性别可能会影响存活率）。

2.7.3 任务三：可视化展示泰坦尼克号数据集中男女中生存人与死亡人数的比例图（用柱状图试试）。

【提示】男女这两个数据轴，存活和死亡人数按比例用柱状图表示

#代码编写
# 提示：计算男女中死亡人数 1表示生存，0表示死亡
Survived_died=df.groupby(['Sex','Survived'])['Survived'].count().unstack()
Survived_died

在这里插入图片描述
stack和unstack是python进行层次化索引的重要操作。层次化索引就是对索引进行层次化分类，便于使用，这里的索引可以是行索引，也可以是列索引。
stack: 将数据从”表格结构“变成”花括号结构“，即将其列索引变成行索引。
unstack: 数据从”花括号结构“变成”表格结构“，即要将其中一层的行索引变成列索引。如果是多层索引，则以上函数是针对内层索引（这里是store）。利用level可以选择具体哪层索引。
https://blog.csdn.net/anshuai_aw1/article/details/82830916

# 设置stacked=True即可为DataFrame⽣成堆积柱状图，这样每⾏的值就会被堆积在⼀起
Survived_died.plot(kind='bar',stacked='True')
plt.title('survived_died_count')
plt.ylabel('count')

在这里插入图片描述

2.7.4 任务四：可视化展示泰坦尼克号数据集中不同票价的人生存和死亡人数分布情况。（用折线图试试）（横轴是不同票价，纵轴是存活人数）

【提示】对于这种统计性质的且用折线表示的数据，你可以考虑将数据排序或者不排序来分别表示。看看你能发现什么？
低票价的死亡率高

# 计算不同票价中生存与死亡人数 1表示生存，0表示死亡
Fare_Survived_died=df.groupby(['Fare','Survived'])['Survived'].count()
Fare_Survived_died

在这里插入图片描述

Fare_Survived_died.unstack().plot()

在这里插入图片描述

2.7.5 任务五：可视化展示泰坦尼克号数据集中不同仓位等级的人生存和死亡人员的分布情况。（用柱状图试试）

# 1表示生存，0表示死亡
Pclass_Survived_died=df.groupby(['Pclass','Survived'])['Survived'].count().unstack()
Pclass_Survived_died

在这里插入图片描述

Pclass_Survived_died.plot.bar()

在这里插入图片描述
【思考】看到这个前面几个数据可视化，说说你的第一感受和你的总结
低票价死亡率高，男性死亡率高，低等仓死亡率更高

2.7.6 任务六：可视化展示泰坦尼克号数据集中不同年龄的人生存与死亡人数分布情况。(不限表达方式)

#代码编写
df['AgeBand'] = pd.cut(df['Age'],[0,5,15,30,50,80,200])
df.head(3)

在这里插入图片描述

AgeBand_Survived_died=df.groupby(['AgeBand','Survived'])['Survived'].count().unstack()
AgeBand_Survived_died.plot.bar()

在这里插入图片描述

import seaborn as sns
facet = sns.FacetGrid(df, hue="Survived",aspect=3)
facet.map(sns.kdeplot,'Age',shade= True)
facet.set(xlim=(0, df['Age'].max()))
facet.add_legend()

在这里插入图片描述

import seaborn as sns
facet = sns.FacetGrid(df, hue="Survived",aspect=3)
facet.map(sns.kdeplot,'Fare',shade= True)
facet.set(xlim=(0, df['Fare'].max()))
facet.add_legend()

在这里插入图片描述

2.7.7 任务七：可视化展示泰坦尼克号数据集中不同仓位等级的人年龄分布情况。（用折线图试试）

【思考】上面所有可视化的例子做一个总体的分析，你看看你能不能有自己发现

#代码编写
df.Age[df.Pclass == 1].plot(kind='kde')
df.Age[df.Pclass == 2].plot(kind='kde')
df.Age[df.Pclass == 3].plot(kind='kde')
plt.xlabel("age")
plt.legend((1,2,3),loc="best")

在这里插入图片描述
kde 分析概率密度的小助手：kernel density estimation

Pclass=df['Pclass'].unique()
Pclass.sort()
Pclass

for i in Pclass:
    df.Age[df.Pclass == i].plot(kind='kde')
plt.xlabel("age")
plt.legend((1,2,3),loc="best")

在这里插入图片描述

备注：本次学习资料源自DataWhale

动手学数据分析
航路开辟者：陈安东、金娟娟、杨佳达、老表、李玲、张文涛、高立业
领航员：范淑卷
航海士：武者小路、曾心怡

内容属性：精品入门课系列
开源内容：https://github.com/datawhalechina/hands-on-data-analysis
开源内容：https://gitee.com/datawhalechina/hands-on-data-analysis
B 站视频：https://www.bilibili.com/video/BV1Uv411p77r
内容说明：以项目为主线，通过边学，边做以及边被引导的方式，既掌握知识点又能掌握数据分析的大致思路和流程。
定位人群：懂一些python，希望入门数据分析的学习者。

http://datawhale.club