李宏毅机器学习 02回归

yutc0202

已于 2022-10-13 02:06:53 修改

阅读量981

点赞数 1

文章标签：机器学习回归人工智能

于 2022-10-13 02:04:32 首次发布

本文链接：https://blog.csdn.net/yutc0202/article/details/127293109

版权

回归定义和应用例子

回归定义

Regression 就是找到一个函数function，通过输入特征 x，输出一个数值Scalar。

模型步骤

step1：模型假设，选择模型框架（线性模型）

一元线性模型（单个特征）线性模型假设 $y = b + w·x_{i}$
多元线性模型（多个特征）
$y =b+∑w_ix_i $

$x_i$ ：就是各种特征(fetrure)
$w_i$ ：各个特征的权重
b：偏移量
在这里插入图片描述

step2：模型评估，如何判断众多模型的好坏（损失函数）

损失函数（Loss function）是用来估量模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。

我们怎么衡量模型的好坏呢？从数学的角度来讲，我们使用距离。求【进化后的CP值】与【模型预测的CP值】差，来判定模型的好坏。也就是使用损失函数（Loss function）来衡量模型的好坏。
损失函数 Loss function：L(w,b)= $∑_{n=1} ^{10}\left ( {y}_n - (b + w·x_{n}) \right )^{2}$
在这里插入图片描述

step3：模型优化，如何筛选最优的模型（梯度下降）

如何筛选最优的模型（参数w，b）
已知损失函数是 L(w,b)= $∑_{n=1} ^{10}\left ( {y}_n - (b + w·x_{n}) \right )^{2}$
需要找到一个令结果最小的 f*，在实际的场景中，我们遇到的参数肯定不止 w,b。
在这里插入图片描述
引入2个模型参数 w 和 b，其实过程是类似的，需要做的是偏微分，

梯度下降：
从最简单的只有一个参数w入手，定义 $w^∗ =arg min L(w)$
arg min 就是使后面这个式子达到最小值时的变量的取值
在这里插入图片描述

首先在这里引入一个概念：学习率—移动的步长，如图上中的η

步骤1：随机选取一个 $w_0$
步骤2：计算微分，也就是当前的斜率，根据斜率来判定移动的方向
- 小于0 向右移动（增加w）
- 大于0 向左移动（减少w）
步骤3：根据学习率移动，重复步骤2和步骤3，直到找到最低点
我们有可能会找到当前的最小值（loco minima），并不是全局的最小值（global minima）

梯度下降推演最优模型的过程
如果把 w 和 b 在图形中展示：
在这里插入图片描述

每一条线围成的圈就是等高线，代表损失函数的值，颜色约深的区域代表的损失函数越小
红色的箭头代表等高线的法线方向

如何验证训练好的模型的好坏

使用训练集和测试集的平均误差来验证模型的好坏
我们使用将10组原始数据，训练集求得平均误差为31.9，如下图所示：
在这里插入图片描述

更强大复杂的模型：1元N次线性模型

在模型上，我们还可以进一部优化，选择更复杂的模型，使用1元2次方程举例，如下图，发现训练集求得平均误差为15.4，测试集的平均误差为18.4
在这里插入图片描述

更复杂更高次方的函数可能导致过拟合
在这里插入图片描述
将错误率结果图形化展示，发现3次方以上的模型，已经出现了过拟合的现象：

步骤优化

Step1优化：2个input的四个线性模型是合并到一个线性模型中
通过对 Pokemons种类判断，将 4个线性模型合并到一个线性模型中
Step2优化：如果希望模型更强大表现更好（更多参数，更多input）
在最开始我们有很多特征，图形化分析特征，将血量（HP）、重量（Weight）、高度（Height）也加入到模型中

在这里插入图片描述

更多特征，更多input，数据量没有明显增加，仍旧导致overfitting

Step3优化：加入正则化

更多特征，但是权重 w 可能会使某些特征权值过高，仍旧导致overfitting，所以加入正则化
在这里插入图片描述
- w 越小，表示 function 较平滑的， function 输出值与输入值相差不大
- 在很多应用场景中，并不是 w越小模型越平滑越好，但是经验值告诉我们 w 越小大部分情况下都是好的。
- b 的值接近于0 ，对曲线平滑是没有影响

回归演示：

# linear regression
#b = -120
#w = -4
b=-2
w=0.01
lr = 0.00001
iteration = 1000000

b_history = [b]
w_history = [w]

lr_b=0
lr_w=0
import time
start = time.time()
for i in range(iteration):
    b_grad=0.0
    w_grad=0.0
    for n in range(len(x_data)):
        b_grad=b_grad-2.0*(y_data[n]-n-w*x_data[n])*1.0
        w_grad= w_grad-2.0*(y_data[n]-n-w*x_data[n])*x_data[n]
    
    lr_b=lr_b+b_grad**2
    lr_w=lr_w+w_grad**2
    # update param
    b -= lr/np.sqrt(lr_b) * b_grad
    w -= lr /np.sqrt(lr_w) * w_grad

    b_history.append(b)

在这里插入图片描述