Seaborn----绘制统计图形

Matplotlib虽然已经是比较优秀的绘图库了,但是它有个今人头疼的问题,那就是 API 使用过于复杂,它里面有上千个函数和参数,属于典型的 那种可以用它做任何事,却无从下手。
Seaborn基于 Matplotlib 核心库进行了更高级的 API 封装,可以轻松地画出更漂亮的图形,而 Seaborn 的漂亮主要体现在配色更加舒服,以及图 形元素的样式更加细腻。
不过,使用Seaborn 绘制图表之前,需要安装和导入绘图的接口,具体代码如下:
# 安装
pip3 install seaborn
# 导入
import seaborn as sns

1 可视化数据的分布

当处理一组数据时,通常先要做的就是了解变量是如何分布的。
  • 对于单变量的数据来说 采用直方图或核密度曲线是个不错的选择,
  • 对于双变量来说,可采用多面板图形展现,比如 散点图、二维直方图、核密度估计图形等。

2 绘制单变量分布

可以采用最简单的直方图描述单变量的分布情况。 Seaborn 中提供了 distplot() 函数,它默认绘制的是一个带有核密度估计曲线的直方图。
distplot() 函数的语法格式如下。
seaborn.distplot(a, bins=None, hist=True, kde=True, rug=False, fit=None, color=None)
上述函数中常用参数的含义如下:
  • (1) a:表示要观察的数据,可以是 Series、一维数组或列表。
  • (2) bins:用于控制条形的数量。
  • (3) hist:接收布尔类型,表示是否绘制(标注)直方图。
  • (4) kde:接收布尔类型,表示是否绘制高斯核密度估计曲线。
  • (5) rug:接收布尔类型,表示是否在支持的轴方向上绘制rugplot
通过 distplot()) 函数绘制直方图的示例如下。
import numpy as np
sns.set()
np.random.seed(0) # 确定随机数生成器的种子,如果不使用每次生成图形不一样
arr = np.random.randn(100) # 生成随机数组
4ax = sns.distplot(arr, bins=10, hist=True, kde=True, rug=True) # 绘制直方图
上述示例中,首先导入了用于生成数组的 numpy 库,然后使用 seaborn 调用 set() 函数获取默认绘图,并且调用 random 模块的 seed 函数确定随 机数生成器的种子,保证每次产生的随机数是一样的,接着调用 randn() 函数生成包含 100 个随机数的数组,最后调用 distplot() 函数绘制直方图。
运行结果如下图所示。
从上图中看出:
  • 直方图共有10个条柱,每个条柱的颜色为蓝色,并且有核密度估计曲线。
  • 根据条柱的高度可知,位于-1-1区间的随机数值偏多,小于-2的随机数值偏少。
通常,采用直方图可以比较直观地展现样本数据的分布情况,不过,直方图存在一些问题,它会因为条柱数量的不同导致直方图的效果有很大 的差异。为了解决这个问题,可以绘制核密度估计曲线进行展现。
  • 核密度估计是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,可以比较直观地看出数据样本本身的分布特征。
通过 distplot() 函数绘制核密度估计曲线的示例如下。
# 创建包含500个位于[0,100]之间整数的随机数组
array_random = np.random.randint(0, 100, 500)
# 绘制核密度估计曲线
sns.distplot(array_random, hist=False, rug=True)
上述示例中,首先通过 random.randint() 函数返回一个最小值不低于 0 、最大值低于 100 500 个随机整数数组然后调用 displot() 函数绘制核密度估计曲线。
运行结果如图所示。
从上图中看出,图表中有一条核密度估计曲线,并且在 x 轴的上方生成了观测数值的小细条。

3 绘制双变量分布

两个变量的二元分布可视化也很有用。在 Seaborn 中最简单的方法是使用 jointplot() 函数,该函数可以创建一个多面板图形,比如散点图、二 维直方图、核密度估计等,以显示两个变量之间的双变量关系及每个变量在单坐标轴上的单变量分布。
jointplot() 函数的语法格式如下。
seaborn.jointplot(x, y, data=None,
kind='scatter', stat_func=None, color=None,
ratio=5, space=0.2, dropna=True)
上述函数中常用参数的含义如下:
  • (1) kind:表示绘制图形的类型。
  • (2) stat_func:用于计算有关关系的统计量并标注图。
  • (3) color:表示绘图元素的颜色。
  • (4) size:用于设置图的大小(正方形)
  • (5) ratio:表示中心图与侧边图的比例。该参数的值越大,则中心图的占比会越大。
  • (6) space:用于设置中心图与侧边图的间隔大小。
下面以散点图、二维直方图、核密度估计曲线为例,为大家介绍如何使用 Seaborn 绘制这些图形。
3.1 绘制散点图
调用 seaborn.jointplot() 函数绘制散点图的示例如下。
import numpy as np
import pandas as pd
import seaborn as sns
# 创建DataFrame对象
dataframe_obj = pd.DataFrame({"x": np.random.randn(500),"y": np.random.randn(500)})
# 绘制散布图
sns.jointplot(x="x", y="y", data=dataframe_obj)
上述示例中,首先创建了一个 DataFrame 对象 dataframe_obj 作为散点图的数据,其中 x 轴和 y 轴的数据均为 500 个随机数,接着调用 jointplot0 函数绘制一个散点图,散点图x 轴的名称为 “x” y 轴的名称为 “y”
运行结果如图所示。
3.2 绘制二维直方图
二维直方图类似于 六边形 图,主要是因为它显示了落在六角形区域内的观察值的计数,适用于较大的数据集。当调用 jointplot() 函数时,只
要传入 kind="hex" ,就可以绘制二维直方图,具体示例代码如下。
# 绘制二维直方图
sns.jointplot(x="x", y="y", data=dataframe_obj, kind="hex")
运行结果如图所示。
从六边形颜色的深浅,可以观察到数据密集的程度,另外,图形的上方和右侧仍然给出了直方图。注意,在绘制二维直方图时,最好使用白色背景。
3.3 绘制核密度估计图形
利用核密度估计同样可以查看二元分布,其用等高线图来表示。当调用 jointplot() 函数时只要传入 ind="kde" ,就可以绘制核密度估计图形,具体 示例代码如下。
sns.jointplot(x="x", y="y", data=dataframe_obj, kind="kde")
上述示例中,绘制了核密度的等高线图,另外,在图形的上方和右侧给出了核密度曲线图。
运行结果如图所示。
通过观等高线的颜色深浅,可以看出哪个范围的数值分布的最多,哪个范围的数值分布的最少

4 绘制成对的双变量分布

要想在数据集中绘制多个成对的双变量分布,则可以使用 pairplot() 函数实现,该函数会创建一个坐标轴矩阵,并且显示 Datafram 对象中每对变 量的关系。另外,pairplot() 函数也可以绘制每个变量在对角轴上的单变量分布。

接下来,通过 sns.pairplot()函数绘制数据集变量间关系的图形,示例代码如下

# 加载seaborn中的数据集
dataset = sns.load_dataset("iris")
dataset.head()

上述示例中,通过 load_dataset0 函数加载了 seaborn 中内置的数据集,根据 iris 数据集绘制多个双变量分布。
# 绘制多个成对的双变量分布
sns.pairplot(dataset)
结果如下图所示。
  • 11
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值