线性回归-4-欠拟合、过拟合与局部加权线性回归

最新推荐文章于 2024-05-06 11:30:06 发布

yzheately

最新推荐文章于 2024-05-06 11:30:06 发布

阅读量1.8k

点赞数

分类专栏：机器学习打基础

本文链接：https://blog.csdn.net/yzheately/article/details/51043763

版权

机器学习同时被 2 个专栏收录

34 篇文章 2 订阅

订阅专栏

打基础

33 篇文章 0 订阅

订阅专栏

欠拟合、过拟合

在线性回归问题中，我们可以通过改变 $\theta的个数或者x的指数大小来获得不同形状的拟合曲线$ 看下面的图：
这里写图片描述
左边的曲线是在假设 $y=\theta_0+\theta_1x$ 时的拟合结果，但显然中间的曲线要比左边的拟合效果更好。我们称左边的情况为欠拟合（underfitting）。
这样看来右边的不是比左边更好吗？！。。。NO！我们称右边的情况为过拟合(overfitting)！因为它已经不能反应出样本的整体分布情况！

局部加权线性回归（LWR）

在之前的线性回归中，我们的流程是：
这里写图片描述
现在，在LWR中，与上面的不同之处只是在代价函数中加了个非负的权值 $w^{(i)}$ ：

$当我们给w^{(i)}一个很大的值时，在计算选择\theta时，就会更加...更加尽可能的让（y^{(i)}-\theta^Tx^{(i)}）^2的值小。也就是说我们更加重视第i个样本。同理，当w^{(i)}很小很小时，也就代表我们基本可以忽略第i个样本$
$一般而言我们选择权重w的规则如下：$
这里写图片描述
$其中x是要预测的样本，可以看出：当|x^{(i)}-x|越小时，权重w^{(i)}越接近1；当|x^{(i)}-x|越大时，权重w^{(i)}越接近0$
其实可以理解为：对于距离非常大的样本，我们更加倾向于将其当成噪声。
但是他有一个缺点：每次预测时都要重新计算预测样本与“参考样本”（训练样本）的距离，确定新的权重。因此当训练样本量很大时，该方法效率很低。
在上式中， $\tau称为波长（bandwidth ）参数，它控制了权值大小相对于距离的变化速度，\tau越小，w变化越快；\tau越大，w变化越慢。$
这里写图片描述

yzheately

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
线性回归-4-欠拟合、过拟合与局部加权线性回归

欠拟合、过拟合在线性回归问题中，我们可以通过改变θ的个数或者x的指数大小来获得不同形状的拟合曲线\theta的个数或者x的指数大小来获得不同形状的拟合曲线看下面的图：左边的曲线是在假设y=θ0+θ1xy=\theta_0+\theta_1x时的拟合结果，但显然中间的曲线要比左边的拟合效果更好。我们称左边的情况为欠拟合（underfitting）。这样看来右边的不是比左边更好吗？！。。。N
复制链接

扫一扫