回归模型介绍

回归应用举例

  • 股市预测(Stock market forecast)

  • 输入:过去10年股票的变动、新闻咨询、公司并购咨询等

  • 输出:预测股市明天的平均值

  • 自动驾驶(Self-driving Car)

  • 输入:无人车上的各个sensor的数据,例如路况、测出的车距等

  • 输出:方向盘的角度

  • 商品推荐(Recommendation)

  • 输入:商品A的特性,商品B的特性

  • 输出:购买商品A或B的可能性

回归建模步骤

Step 1 模型假设

选择模型框架,比如线性模型
y = b + w ⋅ x y=b+w\cdot x y=b+wx
w , b w,b w,b 是参数,可以是任何值,每一组值都会形成一个预测函数。

线性模型的一般表达式:
y = b + ∑ w i x i y=b+\sum w_ix_i y=b+wixi
x i x_i xi代表输入的各种不同特征, w i w_i wi 为权重, b b b 为偏置。

Step 2 模型评估

使用训练数据评价预测函数的好坏,需要定义损失函数。
在这里插入图片描述
损失函数衡量预测函数参数的好坏。将训练数据代入预测函数会得到预测值,将预测值与真实值(标签)进行比较,以评估预测函数的好坏。
在这里插入图片描述

Step 3 挑选最佳模型

选择损失函数达到最小值的模型为最佳模型。
在这里插入图片描述
使用梯度下降法寻找预测函数的最佳参数。
寻找最佳参数 w ∗ w^* w,定义最佳参数 w ∗ = a r g m i n w L ( w ) w^*=argmin_wL(w) w=argminwL(w)

  • 随机选择一个初始值 w 0 w^0 w0
  • 计算 d L d w ∣ w = w 0 \frac{\mathrm{d} L}{\mathrm{d} w} |_{w=w^0} dwdLw=w0,也就是当前的梯度,根据梯度来判定移动的方向,大于0减少 w w w,小于0增加 w w w
  • 更新 w w w w 1 = w 0 − η d L d w ∣ w = w 0 w^1=w^0-\eta \frac{\mathrm{d} L}{\mathrm{d} w} |_{w=w_0} w1=w0ηdwdLw=w0
  • 迭代上述步骤,直到找到损失函数最小值。
    在这里插入图片描述
    在这里插入图片描述
    如果预测函数有两个参数,求最佳参数值的方法也是类似的,分别计算参数的偏微分,然后分别更新参数,反复迭代,使得损失函数达到最小值。
    在这里插入图片描述
    在这里插入图片描述
  • 每一条线围成的圈就是等高线,代表损失函数的值,颜色约深的区域代表的损失函数越小
  • 红色的箭头代表等高线的法线方向

梯度下降法遇到的问题

  • 会得到局部最优解,而不是全局最优解(对于线性模型不用担心,因为线性函数是凸函数,没有局部最优解)
    在这里插入图片描述

评价训练得到的模型的好坏

  • 根据测试集的预测误差进行判断
    在这里插入图片描述

选择更复杂的模型

在这里插入图片描述

过拟合问题

在这里插入图片描述
在这里插入图片描述
当线性模型采用四次项后,出现了过拟合,训练集上误差下降,而测试集上误差上升。
在这里插入图片描述
使用五次项后,线性模型出现了严重的过拟合。
在这里插入图片描述
在这里插入图片描述
复杂的模型一般会在训练集上得到的较好的结果,但不保证在测试集上会得到更好的结果,这种情况就是过拟合。

引入新特征

在这里插入图片描述
考虑物种类别,可以更好地预测进化后的数值。

2个input的四个线性模型可以合并到一个线性模型中

在这里插入图片描述在这里插入图片描述

在这里插入图片描述
引入新特征,考虑类别进行预测,降低了测试集上预测误差。

是否还存在有用的特征?

在这里插入图片描述

在这里插入图片描述
加入更多的特征,以及它们的二次项后,结果出现了严重的过拟合。

采用正则化

在这里插入图片描述
采用参数平方项进行正则化,实际上是岭回归。

在这里插入图片描述

  • w w w 越小,表示 function较平滑的, function输出值与输入值相差不大,对噪声不敏感;
  • 在很多应用场景中,并不是 w w w 越小,模型越平滑越好,但是经验值告诉我们 w w w 越小大部分情况下都是好的。
  • 但是过小的 w w w会导致欠拟合。
  • 使用正则化,不需要考虑偏置 b b b,因为偏置 b b b和函数平滑没有关系

总结和展望

  • Pokemon:原始的CP值极大程度的决定了进化后的CP值,但可能还有其他的一些因素。
  • Gradient descent:梯度下降的做法;后面会讲到它的理论依据和要点。
  • Overfitting和Regularization:过拟合和正则化,主要介绍了表象;后面会讲到更多这方面的理论。
  • 以上的实验使用了测试集来选择参数,没有使用验证集,所以得到的结果依然有过拟合测试集的风险,实际的泛化误差要比测试集上的结果更大。

回归演示

现在假设有10个x_data和y_data,x和y之间的关系是y_data=b+w*x_data。b,w都是参数,是需要学习出来的。现在我们来练习用梯度下降找到b和w。

# linear regression
b = -120
w = -4
#b=-2
#w=0.01
lr = 0.000005
iteration = 1400000

b_history = [b]
w_history = [w]
loss_history = []
import time
start = time.time()
for i in range(iteration):
    m = float(len(x_d))
    y_hat = w * x_d  +b
    loss = np.dot(y_d - y_hat, y_d - y_hat) / m
    grad_b = -2.0 * np.sum(y_d - y_hat) / m
    grad_w = -2.0 * np.dot(y_d - y_hat, x_d) / m
    # update param
    b -= lr * grad_b
    w -= lr * grad_w

    b_history.append(b)
    w_history.append(w)
    loss_history.append(loss)
    if i % 10000 == 0:
        print("Step %i, w: %0.4f, b: %.4f, Loss: %.4f" % (i, w, b, loss))
end = time.time()
print("大约需要时间:",end-start)
# plot the figure
plt.contourf(x, y, Z, 50, alpha=0.5, cmap=plt.get_cmap('jet'))  # 填充等高线
plt.plot([-188.4], [2.67], 'x', ms=12, mew=3, color="orange")
plt.plot(b_history, w_history, 'o-', ms=3, lw=1.5, color='black')
plt.xlim(-200, -100)
plt.ylim(-5, 5)
plt.xlabel(r'$b$')
plt.ylabel(r'$w$')
plt.title("线性回归")
plt.show()

在这里插入图片描述
通过运行能够得到参数最优解。

我们也可以给b和w特制化两种learning rate

# linear regression
b = -120
w = -4
lr = 1
iteration = 100000

b_history = [b]
w_history = [w]

lr_b=0
lr_w=0
import time
start = time.time()
for i in range(iteration):
    b_grad=0.0
    w_grad=0.0
    for n in range(len(x_data)):
        b_grad=b_grad-2.0*(y_data[n]-n-w*x_data[n])*1.0
        w_grad= w_grad-2.0*(y_data[n]-n-w*x_data[n])*x_data[n]
    
    lr_b=lr_b+b_grad**2
    lr_w=lr_w+w_grad**2
    # update param
    b -= lr/np.sqrt(lr_b) * b_grad
    w -= lr /np.sqrt(lr_w) * w_grad

    b_history.append(b)
    w_history.append(w)
# plot the figure
plt.contourf(x, y, Z, 50, alpha=0.5, cmap=plt.get_cmap('jet'))  # 填充等高线
plt.plot([-188.4], [2.67], 'x', ms=12, mew=3, color="orange")
plt.plot(b_history, w_history, 'o-', ms=3, lw=1.5, color='black')
plt.xlim(-200, -100)
plt.ylim(-5, 5)
plt.xlabel(r'$b$')
plt.ylabel(r'$w$')
plt.title("线性回归")
plt.show()

学习率可变,与梯度的平方成正比。
在这里插入图片描述
可变学习率虽然加快了收敛的速度,但是最终并没有得到最优解。

参考资料

感谢Datawhale对开源学习的贡献!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值