[模型优化]模型欠拟合及过拟合判断、优化方法

目录

一、模型欠拟合及过拟合简介

二、模型欠拟合及过拟合判断

三、模型欠拟合与过拟合的优化方法

1、模型欠拟合

2、模型过拟合


一、模型欠拟合及过拟合简介

模型应用时发现效果不理想,有多种优化方法,包含:

 

    • 添加新特征
    • 增加模型复杂度
    • 减小正则项权重
    • 获取更多训练样本
    • 减少特征数目
    • 增加正则项权重

 

具体采用哪种方法,才能够有效地提高模型精度,我们需要先判断模型是欠拟合,还是过拟合,才能确定下一步优化方向。

 

                                   图1

模型欠拟合,即高偏差(high bias,是指模型未训练出数据集的特征,导致模型在训练集、测试集上的精度都很低。如图1左图所示。

模型过拟合,即高方差(high variance)是指模型训练出包含噪点在内的所有特征,导致模型在训练集的精度很高,但是应用到新数据集时,精度很低。如图1右图所示。

 

 

二、模型欠拟合及过拟合判断

1、数据集划分

数据集划分为训练集(Training set 80%)、测试集集(Test set 20%),损失函数定义为:

 

 

2、绘制损失函数随数据集增加的学习曲线

随着训练集样本的增加(m=1,2,3,....),训练集和测试集的损失函数变化趋势,如下图2所示:

 

图2

模型欠拟合(高偏差),如图2左图所示,拥有足够的训练样本时,训练误差和测试误差都很高,并且训练误差约等于测试误差

模型过拟合(高方差),如图2右图所示,随着训练样本的增加,训练误差在增加,测试误差在减少,但训练误差远远小于测试误差,J(train)<< J(test)

注:准备几个不同时间窗口、不同范围的训练集和测试集,然后在不同数据集里分别对模型进行交叉验证,这是工业界判断模型欠拟合或过拟合的最常用方法。

三、模型欠拟合与过拟合的优化方法

1、模型欠拟合

1)添加新特征

  从业务思路上构造新特征是最重要的优化措施!!这个思路对于模型效用的提升是根本性的,是源头上的突破。衍生变量的构建,可以从以下两个方面考虑:

   有没有更加明显且直观的规则、指标可以代替复杂的建模;

   有没有一些明显的业务逻辑在前期的建模阶段被忽视。

2)模型优化:提升模型复杂度

  模型算法,不同的建模算法针对不同的业务场景有不同的表现,尝试不同的建模算法,从中比较,择优者而用之。

  细分群体,建立多个模型,一一对应不同的核心客户群体。

3)减少正则项权重

 

2、模型过拟合

1)获取更多的训练样本

  由于模型训练了包含噪音在内的所有特征,导致模型过拟合,通过获取更多的训练样本,可以衰减噪音权重。

2)减少特征数目

   特征共线性检查,利用Pearson相关系数计算变量之间的线性相关性,如果自变量中属于中度以上线性相关的多个变量,只需要保留一个就可以。

   重要特征筛选,利用决策树模型,筛选出重要特征。

   数据降维,主成分分析,保留特征变量重要差异。

3)增加正则项权重

 

 

参考资料:

1、斯坦福大学,machie learning课程

https://www.coursera.org/learn/machine-learning/resources/LIZza

2、《数据挖掘与数据化运营实战》,第8章,常见的数据处理技巧

http://www.chforce.com/books/datamining-om-by-data/di_8_zhang_chang_jian_de_shu_ju_chu_li_ji_qiao/86shai_xuan_you_xiao_de_shu_ru_bian_liang.html

阅读更多
想对作者说点什么?

博主推荐

换一批

没有更多推荐了,返回首页