matplotlib : 使用pandas 和 seaborn 绘图(折线图,柱状图)

使用pandas 和 seaborn 绘图

matplotlib 是一个相当底层的工具,你可以从其基本组件中组装一个图标:数据显示(绘图类型:线,框,散点图等),图例,标题,刻度标记和其他注释。

在pandas 中我们可能有很多个数据列,带有行和列的标签,自身有很多内建方法可用简化从datafrae 和 sereis 对象生成可视化的过程。 里一个库 seaborn 简化了很多常用可视化类型的生成。

导入seaborn 会修改默认的 matplotlib 配色方案和绘图样式,提高可读性和美观性。

2.1 折线图

series 和 dataframe 都有一个 plot 属性,用于基本获得绘图,默认时折线图

在这里插入图片描述
series 对象的索引作为绘图的x 轴,可用通过传入 usr_insex=False 来禁用。x轴的刻度可用使用 xticks and xlim 选项调整。

在这里插入图片描述
在这里插入图片描述
df.plot() 等价于 df.plot.line() plot的方法包含了很多不同类型的绘图类型的

在这里插入图片描述

2.2 柱状图

plot.bar() and plot.barh() 可以分别绘制垂直和水平的柱状图,series or dataframe 的索引会用作x轴刻度(bar) 或 y 轴刻度(barh)
在这里插入图片描述
Series/DataFrame.plot.bar(x=None, y=None, **kwargs)

  • x 标签或位置,,允许绘制一列与另一列的关系,如果没指定,使用dataframe的索引。
  • y 允许绘制一列与另一列的关系,如果没指定,使用所有的数字列。
  • **kwargs 就是 DataFrame.plot 的参数了。。。。

在 dataframe 中,柱状图将每一行中的值分组到并排的柱子中的一组,另外,列名称会用作图例标题。
在这里插入图片描述
使用stacked=True 来时每一行来堆叠在一起。
在这里插入图片描述

使用 s.value_counts().plot.bar() 可以有效的对 series 值频率进行可视化

现在我们使用数据集,绘制一个堆积柱状图来展示每个排队在每天的数据点占比。。。根据星期日期和排队规模形成交叉表

tips=pd.read_csv('tips.csv',sep='\t')
party_counts=pd.crosstab(tips['day'],tips['size']) # crosstab 交叉表以后会看到的
party_counts
size	1	2	3	4	5	6
day						
Fri	    1	16	1	1	0	0
Sat	    2	53	18	13	1	0
Sun	    0	39	15	18	3	1
Thur	1	48	4	5	1	3

party_counts=party_counts.loc[:,2:5] # 1 和 6 排除掉,太少了
party_pcts=party_counts.div(party_counts.sum(1),axis=0)   # 就是算一下所占的百分比
party_pcts
size	2	3	4	5             # 这里就是广播机制,,
day				  # https://blog.csdn.net/weixin_46192930/article/details/106451745
Fri	0.888889	0.055556	0.055556	0.000000
Sat	0.623529	0.211765	0.152941	0.011765
Sun	0.520000	0.200000	0.240000	0.040000
Thur	0.827586	0.068966	0.086207	0.017241

party_pcts.plot.bar()

在这里插入图片描述
可以看到,本数据集中排队的数量会在周末增加。

对于在绘图前需要聚合或汇总数据,使用seaborn 会使工作更加简单,使用seaborn 进行按星期日期计算小费百分比

Seaborn是基于matplotlib的图形可视化python包。它提供了一种高度交互式界面,便于用户能够做出各种有吸引力的统计图表。

Seaborn是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图。应该把Seaborn视为matplotlib的补充,而不是替代物。同时它能高度兼容numpy与pandas数据结构以及scipy与statsmodels等统计模式。

作者:留心的话没有小事 链接:https://www.jianshu.com/p/94931255aede 来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

import seaborn as sns
tips['tip_pct']=tips['tip'] / (tips['total_bill']-tips['tip']) # 小费/(总消费-小费)
tips.head()
total_bill	tip	smoker	day	time	size	tip_pct
0	16.99	1.01	No	Sun	Dinner	2	0.063204
1	10.34	1.66	No	Sun	Dinner	3	0.191244
2	21.01	3.50	No	Sun	Dinner	3	0.199886
3	23.68	3.31	No	Sun	Dinner	2	0.162494
4	24.59	3.61	No	Sun	Dinner	4	0.172069

在这里插入图片描述
seaborn 中的绘图函数使用一个data 参数, 这个参数可以时 pandas 的 dataframe。其他参数与列名有关,。因为day 列中有多个观测值,柱子的值时 tip_pct的平均值。黑线代表的是 95%的置信区间(可以通过可选参数设置???)

置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度,其给出的是被测量参数的测量值的可信程度,即前面所要求的“一个概率”。 [1]

sarborn.barplot 有一个 hue 选项,可以通过一个额外的分类值将数据分离。

在这里插入图片描述
seaborn 自动改变了图标的美观性:调色板,图背景,网格线条颜色,,可以使用sns.set(style='whitegrid') 来切换绘图外观

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值