一、特征缩放
在训练模型的过程中,我们所选取的特征可能会出现数据过大(跨度过大)的情况。过大的数据(区间)可能会导致
在梯度下降过程中收敛过慢,这时就需要对特征数据进行适当的缩放操作。
缩放方法(收敛到【0,1】【-1,1】& 其他)
1)将数据值转化为【0,1】之间:
2)将数据值转化为【-1,1】之间:
3)均值标准化:u为样本数据的均值,s为样本数据的方差
二、交叉验证法(适用于样本数据较小的模型评估方法)
将给定的样本划分为训练集和测试集,进行多次训练并计算其产生的误差,取其均值来评价模型的好坏。
如上图所示,白色部分为训练集,蓝色部分为测试集,一共训练了10次。(每一次取的训练集和测试集都不同且无交集)
三、过拟合&欠拟合
过拟合:学习器把训练样本学习的太好了,导致在新样本的泛化性能下降。
欠拟合:学习器把训练样本学习的太差了,导致在新样本的泛化性能下降。(模型拟合程度不能太高也不能太低)
如何防止过拟合现象:1、减少不必要的特征; 2、增加样本数据量; 3、正则化(附加正则项);
(两种正则化方式,通常用第一种)
四、正确率/召回率/F1指标
正确率:在检测出的所有样本中有多少是正确的;
召回率:在所有正确样本中有多少被检测出来;
F1指标:通过正确率与召回率来综合衡量的指标;(2*正确率*召回率/(正确率+召回率))
以上三个指标的值域都位于【0,1】且越接近1,说明效果越好。
捕鱼的正确率:700/(200+100+700)=0.7;召回率:700/1400=0.5;F1指标:0.35*2/(0.7+0.5)=7/12;
倘若鱼虾鳖全部被捕捞上来,三项指标又分别为:0.7、1、14/17;