2022吴恩达第一课第二周学习总结

最新推荐文章于 2024-09-14 17:02:52 发布

星光斑斓里放歌

最新推荐文章于 2024-09-14 17:02:52 发布

阅读量317

点赞数

分类专栏：机器学习文章标签：回归人工智能

本文链接：https://blog.csdn.net/weixin_45288736/article/details/127894656

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

02_多元线性回归、多项式回归

在我们现实生活中，想要对一个数据进行预测时，能够影响其结果的往往不会是一种因素。因此当我们进行模型训练时，样本数据不再是（特征，标签）类别，而是（特征1，特征2，特征3…，标签），此时一个标签由多个特征来表示，（x1 ，x2，x3……，y）称为多维特征。

而我们在模型中训练的目标函数也变为f（x1，x2……，xn）=w1x1 + w2x2 +……wnxn+b，因此该算法称为多元线性回归。

而种表示方式在使用时，特别的繁琐，计算起来的太麻烦因此将使用“向量”的形式对其进行保存：X = （x1 ， x2，x3……xn） W = （w1，w2，w3……wn）。我们的 f（x1，x2……，xn） = f（X）= X*W + b，其中（*）为向量内积，实现多维特征的向量化。

在训练过程中，我们不可避免地将使用“梯度下降”对目标函数中的参数进行更新。对于多特征来说我们将分别对每一个wi参数进行计算，因为在对不同的wi求导时，其他的wi不会对其造成影响。因此我们可以使用向量内积相乘的形式进行计算 W = W - α ∑（f（X） - Y ），此时的W,X,Y都为向量形式，通过这样的一次计算，就实现了多元线性回归的梯度下降。

对于多维特征，不同的特征代表的含义不同，也就使得不同的特征的数据范围不同，而存在多个特征且不同特征范围差别较大时，我们初始化时如果随机定义的参数wi的不是很优秀，并且wi对应的xi又是一个取值范围很大的数比如（min=1，max=10000），那么当xi=1时学习到的wi对xi = 10000时的负影响很大。我们使用归一化（标准化）的方式对样本数据进行一个预处理。使得特征范围都在一个比较小的范围当中，这个范围可以是任意范围。因此，当我们在进行wi参数更新时，前一个xi不会对后一个xi产生较大的负影响。这种称为特征放缩，因为相同特征样本数据做相同的处理，因此不会对目标函数需要生成的wi产生影响。

当我们使用梯度下降的时候，很重要的一点是合适对停止对参数的更新？（停止梯度下降）

1.我们画出训练次数和损失函数的图像，当图像趋向于平缓是，判断该次数可以停止训练。

2.使用自动停止梯度下降，我们规定一个阈值（0.001），当w下降的值小于0.001时，我们就认为训练可以结束，停止梯度下降。

我们一直没有考虑的是 α 的取值，对于学习率α，我们一定要找到合适的值，α 过大会导致梯度下降时方向来回变换，α 较小时会使得梯度下降速率变慢。一般采用一个较小的学习率，然后同倍数开始增加。

对于多维特征来说，我们的标签不一定由已有的特征来表示特征，需要我们在已有的特征的情况下对特征进行重新的构造，得到新的特征。比如预测一个房屋的价格，我们已有其长、宽特征，而长宽可能不是影响其价格的特征，而是其面积长 * 宽，因此我们构造出新的特征面积，面积由长*宽表示，该数据样本变为（长，宽，面积=长*宽，标签），这种操作称为特征工程。

有些时候线性的方程往往不能很好的拟合我们的样本点，f（x） = wx + b 不能很好的预测。可以构造出其他类型方程。比如：f（x） = w1x1 + w2x2^2 +b 平方

f（x） = w1x1 + w2x2^2 + w3x3^3+b 三次方

f（x） = w1x1 + w2x2^2 + w3x3^3+b 开根号

称f（x）为多项式回归