有些长尾数据非常离散,甚至最终会高出一个量级
因此,需要转换数据——来缩短尾巴
这样才能看到标准差,使其尽可能变成正态分布/非常近似正态分布,进而使用线性递归或其他方式建模
变换的方式有两种:
- 在变量上使用包裹器
qplot(x=log(friend_count),data = pf)
qplot(x=sqrt(friend_count),data = pf)
缺点:x轴的数值也会做相应的改变
- 使用标度层
ggplot(aes(x = friend_count), data = pf) + geom_histogram() + scale_x_log10()
ggplot(aes(x = friend_count), data = pf) + geom_histogram() + scale_x_sqrt()
优点:x轴的数值仍保留原数值