问题:为什么进行平滑?
数据平滑是数据预处理中比较重要的一块,但是往往会忽略它。数据平滑通常对噪声这一块进行处理,平滑的本质就是用来解决零概率问题,尽量使概率分布趋于均匀,使数据变得更可用。
下面介绍几种自己总结的数据平滑的方法:
1.分箱法平滑
首先进行数据排序,将他们分到等宽的箱中(既是分成几部分),然后按照箱中数据的平均值(中值等)进行平滑。
2.回归法平滑
通过数据找到一个回归函数进行数据的平滑,这种方法对连续型数据较好。
例:数据有中两个相关的变量,找到它们之间的关系,用一个函数表示(例:y=kx+b),即建立数学模型去预测下一个数值。
3.加法平滑方法(拉普拉斯平滑)
Ng大牛讲到过的一个差不多的例子:
例子勇士队与湖人队2050年某四场比分如下&#x