seaborn库手册翻译(第二章)
数据分布的可视化
当我们处理数据时,第一件事是探索变量的分布。这一章手册将会对seaborn库中检验单变量,双变量分布的函数进行简单介绍。
%matplotlib inline
import numpy as np
import pandas as pd
from scipy import stats, integrate
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(color_codes=True)
np.random.seed(sum(map(ord, "distributions")))
画出单变量分布
在seaborn中观察单变量分布最简便的方法是调用displot函数,在默认情况下,将会画出一个直方图和一个通过( kernel density estimate(KDE).)核密度估计计算出的概率密度函数。
x = np.random.normal(size=100)
sns.distplot(x);
直方图
直方图实际上非常普遍,marplotlib中也有hist函数。
我们在这移除概率密度函数曲线,然后画出 rug plot,这会在样本点出画出小竖杠。你可以通过rugplot函数画出rug,当然这在一功能在displot():
sns.distplot(x, kde=False, rug=True);
当画直方图时,最重要的选项是格子的数目。在缺失状态下displot()函数运用了一个很简单的准则对这一数字进行了不错的猜想。但是试试更少或者更多可能展现出数据更多的特征。
核密度估计
核密度估计并非广为人知,但是它确实是在绘制分布形状时的有力工具。与在直方图中一样,KDE图中一条轴为样本分布,另一条轴为密度。
sns.distplot(x, hist=False, rug=True);