二、相关变动
变动描述的是一个变量内部的行为,相关变动描述的就是多个变量之间的行为。
查看相关变动最好的方式是将两个或多个变量间的关系以可视化的方式表现出来。
1.分类变量与连续变量
连续型变量的分布可以按照一个分类变量的值分为几个组。但是,如果一组观测的数目明显少于其他组的话,就很难看出形状上的差别。例如,我们探索钻石价格是如何随着切割质量变化的:
ggplot(data=diamonds,aes(x=price))+geom_freqpoly(aes(color=cut),binwidth=500)
1)
为了让比较变得容易,将y轴显示的内容由计数变为密度。密度是对计数的标准化,每个频率多边形下面的面积都是1。
ggplot(data=diamonds,aes(x=price,y=..density..))+geom_freqpoly(aes(color=cut),binwidth=500)
这张图的结果是令人震惊的,它显示切割最差的钻石平均价格是最高的。
2)
按分