2.3 直方图和密度图
直方图是一种条形图,用于给出值频率的离散显示,数据点被分成离散的,均匀间隔的箱,并且绘制每个箱中数据点的数量。
tips
total_bill tip smoker day time size tip_pct
0 16.99 1.01 No Sun Dinner 2 0.063204
1 10.34 1.66 No Sun Dinner 3 0.191244
2 21.01 3.50 No Sun Dinner 3 0.199886
3 23.68 3.31 No Sun Dinner 2 0.162494
4 24.59 3.61 No Sun Dinner 4 0.172069
... ... ... ... ... ... ... ...
239 29.03 5.92 No Sat Dinner 3 0.256166
240 27.18 2.00 Yes Sat Dinner 2 0.079428
241 22.67 2.00 Yes Sat Dinner 2 0.096759
242 17.82 1.75 No Sat Dinner 2 0.108899
243 18.78 3.00 No Thur Dinner 2 0.190114
244 rows × 7 columns
tips[tips['tip_pct']>1] # 这个计算方法就很迷,,,还有大于一的。。。。。
total_bill tip smoker day time size tip_pct
172 7.25 5.15 Yes Sun Dinner 2 2.452381
就是将值的范围分段,即将整个值的范围分成一系列间隔,然后计算每个间隔中有多少值,这个bins 应该就是将这个244行分成50箱。
讲的还真简略啊。。。
密度图是一种与直方图相关的图表类型,通过计算可能产生观测数据的连续概率分布估计而产生,,,通常的做法是将这种分布近似位内核 的混合,也就是像正态分布那样简单的分布。所以密度图也叫内核密度估计图KDE。。。看来要再去学学数学了。。口区
这个竖坐标的密度我是真看不懂了。。。。。
distplot 方法可以绘制直方图和连续密度估计,通过distplot 方法seaborn 使直方图和密度图的绘制更加简单,考虑由两个不同的标准正态分布组成的双峰分布:
密度估计感觉有点懂了。。。
2.4 散点图或点图
用于检验两个一维数据序列之间的关系,例如,这里我们从statsmodels 项目中载入了 macrodata 数据集,并选择一些变量,然后计算对数差。。。。
log m1 and log unemp 值的比较,x 轴是 m1 y 轴式 unemp。感觉就是对应描点,中间那个线嘛。。应该是回归方程一类的。。。
在探索性数据分析中,能够查看一组变量中的所有散点图是由帮助的,这被称为成对图或散点图矩阵。seaborn 的pairplot 函数,支持在对角线上放置每个变量的直方图或密度估计图
sns.pairplot(trans_data,diag_kind='kde',plot_kws={'alpha':0.2})
额。。y轴那些也是 cpi,m1,tblirate,unemp。。。plot_ksw 参数将配置选项传递给非对角元素上的各个绘图。更多细节。。。待补充吧,,,,,
2.5 分面网格和分类数据
针对数据集由额外的分组维度
除了根据 itme 在一个面内将不同的柱分组为不同颜色,我们还可以通过每个时间值添加一行来扩展分面网各:
也支持其他可能有用的图类型,具体取决于你要显示的内容,例如,箱型图(显示中位值,四分位数和异常值)可以是有效的可视化类型
。。。学了个啥啊。。。。