第二章:数据可视化
开始之前,导入numpy、pandas包和数据
import matplotlib.pyplot as plt
导入result.csv这个文件
text=pd.read_csv('result.csv')
text.head
(r’result.csv’) ?
2.7 如何让人一眼看懂你的数据?
《Python for Data Analysis》第九章
2.7.1 任务一:跟着书本第九章,了解matplotlib,自己创建一个数据项,对其进行基本可视化
【思考】最基本的可视化图案有哪些?分别适用于那些场景?(比如折线图适合可视化某个属性值随时间变化的走势)
基本的可视化图案:折线图,柱状图,直方图,密度图 散点图 点图 分面网格 分类数据
2.7.2 任务二:可视化展示泰坦尼克号数据集中男女中生存人数分布情况(用柱状图试试)
sex=text['Survived'].groupby['Sex'].sum()
sex.plot.bar()
plt.title('survived_count')
plt.plot
代码糖:text.groupby(‘Sex’)[‘Survived’].sum()
plot.bar():垂直柱状图
plot.barth():水平柱状图
2.7.3 任务三:可视化展示泰坦尼克号数据集中男女中生存人与死亡人数的比例图(用柱状图试试)。
survived_count=text['Survived'].groupby([text['Survived'],text['Sex']]).count().unstack().plot(kind='bar',unstacked='True')
plt.title('survived_count')
plt.ylabel('count')
代码糖:text.groupby([‘Survived’],[‘Sex’])[‘Survived’]
2.7.4 任务四:可视化展示泰坦尼克号数据集中不同票价的人生存和死亡人数分布情况。(用折线图试试)(横轴是不同票价,纵轴是存活人数)
sur=text['Fare'].groupby([text['Fare'],text['Survived']]).value_counts()
fig=plt.figure(figsize=(10,8))
sur.plot(grid=True)
2.7.5 任务五:可视化展示泰坦尼克号数据集中不同仓位等级的人生存和死亡人员的分布情况。(用柱状图试试)
pclass=text['Pclass'].groupby([text['Pclass'],text['Survived']]).count().unstack().plot.bar()
plt.title('Cabin_survived')
plt.ylabel('count')
2.7.6 任务六:可视化展示泰坦尼克号数据集中不同年龄的人生存与死亡人数分布情况。
dis=text['Survived'].groupby([text['Age'],text['Survived']]).count().unstack()
dis.plot(grid=True)
这个感觉有问题,还需要思考
2.7.7 任务七:可视化展示泰坦尼克号数据集中不同仓位等级的人年龄分布情况。(用折线图试试)
text.Age[text.Pclass==1].plot(kind='kde')
text.Age[text.Pclass==2].plot(kind='kde')
text.Age[text.Pclass==3].plot(kind='kde')
plt.xlabel('age')
plt.legend((1,2,3),loc='best')
密度图:内核密度估计图,(KDE),通过计算可能产生观测数据的连续概率分布估计而产生,将这种分布近似为内核的混合。