回归模型介绍

最新推荐文章于 2024-07-14 10:05:28 发布

侍伟

最新推荐文章于 2024-07-14 10:05:28 发布

阅读量780

点赞数

文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/weixin_43595036/article/details/118692239

版权

回归应用举例

股市预测（Stock market forecast）
输入：过去10年股票的变动、新闻咨询、公司并购咨询等
输出：预测股市明天的平均值
自动驾驶（Self-driving Car）
输入：无人车上的各个sensor的数据，例如路况、测出的车距等
输出：方向盘的角度
商品推荐（Recommendation）
输入：商品A的特性，商品B的特性
输出：购买商品A或B的可能性

回归建模步骤

Step 1 模型假设

选择模型框架，比如线性模型
$y=b+w\cdot x$
$w, b$ 是参数，可以是任何值，每一组值都会形成一个预测函数。

线性模型的一般表达式：
$y=b+\sum w_ix_i$
$x_i$ 代表输入的各种不同特征， $w_i$ 为权重， $b$ 为偏置。

Step 2 模型评估

使用训练数据评价预测函数的好坏，需要定义损失函数。
在这里插入图片描述
损失函数衡量预测函数参数的好坏。将训练数据代入预测函数会得到预测值，将预测值与真实值（标签）进行比较，以评估预测函数的好坏。

Step 3 挑选最佳模型

选择损失函数达到最小值的模型为最佳模型。
在这里插入图片描述
使用梯度下降法寻找预测函数的最佳参数。
寻找最佳参数 $w^*$ ，定义最佳参数 $w^*=argmin_wL(w)$

随机选择一个初始值 $w^0$
计算 $\frac{\mathrm{d} L}{\mathrm{d} w} |_{w=w^0}$ ，也就是当前的梯度，根据梯度来判定移动的方向，大于0减少 $w$ ，小于0增加 $w$ 。
更新 $w$ ， $w^1=w^0-\eta \frac{\mathrm{d} L}{\mathrm{d} w} |_{w=w_0}$
迭代上述步骤，直到找到损失函数最小值。

如果预测函数有两个参数，求最佳参数值的方法也是类似的，分别计算参数的偏微分，然后分别更新参数，反复迭代，使得损失函数达到最小值。
每一条线围成的圈就是等高线，代表损失函数的值，颜色约深的区域代表的损失函数越小
红色的箭头代表等高线的法线方向

梯度下降法遇到的问题

会得到局部最优解，而不是全局最优解（对于线性模型不用担心，因为线性函数是凸函数，没有局部最优解）

评价训练得到的模型的好坏

根据测试集的预测误差进行判断

选择更复杂的模型

在这里插入图片描述

过拟合问题

在这里插入图片描述

当线性模型采用四次项后，出现了过拟合，训练集上误差下降，而测试集上误差上升。

使用五次项后，线性模型出现了严重的过拟合。

复杂的模型一般会在训练集上得到的较好的结果，但不保证在测试集上会得到更好的结果，这种情况就是过拟合。

引入新特征

在这里插入图片描述
考虑物种类别，可以更好地预测进化后的数值。

2个input的四个线性模型可以合并到一个线性模型中

在这里插入图片描述

在这里插入图片描述
引入新特征，考虑类别进行预测，降低了测试集上预测误差。

是否还存在有用的特征？

在这里插入图片描述

在这里插入图片描述
加入更多的特征，以及它们的二次项后，结果出现了严重的过拟合。

采用正则化

在这里插入图片描述
采用参数平方项进行正则化，实际上是岭回归。

在这里插入图片描述

$w$ 越小，表示 function较平滑的， function输出值与输入值相差不大，对噪声不敏感；
在很多应用场景中，并不是 $w$ 越小,模型越平滑越好，但是经验值告诉我们 $w$ 越小大部分情况下都是好的。
但是过小的 $w$ 会导致欠拟合。
使用正则化，不需要考虑偏置 $b$ ，因为偏置 $b$ 和函数平滑没有关系

总结和展望

Pokemon：原始的CP值极大程度的决定了进化后的CP值，但可能还有其他的一些因素。
Gradient descent：梯度下降的做法；后面会讲到它的理论依据和要点。
Overfitting和Regularization：过拟合和正则化，主要介绍了表象；后面会讲到更多这方面的理论。
以上的实验使用了测试集来选择参数，没有使用验证集，所以得到的结果依然有过拟合测试集的风险，实际的泛化误差要比测试集上的结果更大。

回归演示

现在假设有10个x_data和y_data，x和y之间的关系是y_data=b+w*x_data。b，w都是参数，是需要学习出来的。现在我们来练习用梯度下降找到b和w。

# linear regression
b = -120
w = -4
#b=-2
#w=0.01
lr = 0.000005
iteration = 1400000

b_history = [b]
w_history = [w]
loss_history = []
import time
start = time.time()
for i in range(iteration):
    m = float(len(x_d))
    y_hat = w * x_d  +b
    loss = np.dot(y_d - y_hat, y_d - y_hat) / m
    grad_b = -2.0 * np.sum(y_d - y_hat) / m
    grad_w = -2.0 * np.dot(y_d - y_hat, x_d) / m
    # update param
    b -= lr * grad_b
    w -= lr * grad_w

    b_history.append(b)
    w_history.append(w)
    loss_history.append(loss)
    if i % 10000 == 0:
        print("Step %i, w: %0.4f, b: %.4f, Loss: %.4f" % (i, w, b, loss))
end = time.time()
print("大约需要时间：",end-start)
# plot the figure
plt.contourf(x, y, Z, 50, alpha=0.5, cmap=plt.get_cmap('jet'))  # 填充等高线
plt.plot([-188.4], [2.67], 'x', ms=12, mew=3, color="orange")
plt.plot(b_history, w_history, 'o-', ms=3, lw=1.5, color='black')
plt.xlim(-200, -100)
plt.ylim(-5, 5)
plt.xlabel(r'$b$')
plt.ylabel(r'$w$')
plt.title("线性回归")
plt.show()

在这里插入图片描述
通过运行能够得到参数最优解。

我们也可以给b和w特制化两种learning rate

# linear regression
b = -120
w = -4
lr = 1
iteration = 100000

b_history = [b]
w_history = [w]

lr_b=0
lr_w=0
import time
start = time.time()
for i in range(iteration):
    b_grad=0.0
    w_grad=0.0
    for n in range(len(x_data)):
        b_grad=b_grad-2.0*(y_data[n]-n-w*x_data[n])*1.0
        w_grad= w_grad-2.0*(y_data[n]-n-w*x_data[n])*x_data[n]
    
    lr_b=lr_b+b_grad**2
    lr_w=lr_w+w_grad**2
    # update param
    b -= lr/np.sqrt(lr_b) * b_grad
    w -= lr /np.sqrt(lr_w) * w_grad

    b_history.append(b)
    w_history.append(w)
# plot the figure
plt.contourf(x, y, Z, 50, alpha=0.5, cmap=plt.get_cmap('jet'))  # 填充等高线
plt.plot([-188.4], [2.67], 'x', ms=12, mew=3, color="orange")
plt.plot(b_history, w_history, 'o-', ms=3, lw=1.5, color='black')
plt.xlim(-200, -100)
plt.ylim(-5, 5)
plt.xlabel(r'$b$')
plt.ylabel(r'$w$')
plt.title("线性回归")
plt.show()

学习率可变，与梯度的平方成正比。
在这里插入图片描述
可变学习率虽然加快了收敛的速度，但是最终并没有得到最优解。

参考资料

感谢Datawhale对开源学习的贡献！

侍伟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
回归模型介绍

回归应用举例股市预测（Stock market forecast）输入：过去10年股票的变动、新闻咨询、公司并购咨询等输出：预测股市明天的平均值自动驾驶（Self-driving Car）输入：无人车上的各个sensor的数据，例如路况、测出的车距等输出：方向盘的角度商品推荐（Recommendation）输入：商品A的特性，商品B的特性输出：购买商品A或B的可能性回归建模步骤Step 1 模型假设选择模型框架，比如线性模型y=b+w⋅x y
复制链接

扫一扫