机器学习(杂项)

一、特征缩放

在训练模型的过程中,我们所选取的特征可能会出现数据过大(跨度过大)的情况。过大的数据(区间)可能会导致

在梯度下降过程中收敛过慢,这时就需要对特征数据进行适当的缩放操作。

缩放方法(收敛到【0,1】【-1,1】& 其他)

1)将数据值转化为【0,1】之间:

2)将数据值转化为【-1,1】之间:

3)均值标准化:u为样本数据的均值,s为样本数据的方差

二、交叉验证法(适用于样本数据较小的模型评估方法)

将给定的样本划分为训练集和测试集,进行多次训练并计算其产生的误差,取其均值来评价模型的好坏。

如上图所示,白色部分为训练集,蓝色部分为测试集,一共训练了10次。(每一次取的训练集和测试集都不同且无交集) 

三、过拟合&欠拟合

过拟合:学习器把训练样本学习的太好了,导致在新样本的泛化性能下降。

欠拟合:学习器把训练样本学习的太差了,导致在新样本的泛化性能下降。(模型拟合程度不能太高也不能太低)

如何防止过拟合现象:1、减少不必要的特征; 2、增加样本数据量; 3、正则化(附加正则项); 

(两种正则化方式,通常用第一种)

四、正确率/召回率/F1指标

正确率:在检测出的所有样本中有多少是正确的;

召回率:在所有正确样本中有多少被检测出来;

F1指标:通过正确率与召回率来综合衡量的指标;(2*正确率*召回率/(正确率+召回率))

以上三个指标的值域都位于【0,1】且越接近1,说明效果越好。

捕鱼的正确率:700/(200+100+700)=0.7;召回率:700/1400=0.5;F1指标:0.35*2/(0.7+0.5)=7/12;

倘若鱼虾鳖全部被捕捞上来,三项指标又分别为:0.7、1、14/17;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值