李宏毅深度学习基础

最新推荐文章于 2024-06-18 15:06:20 发布

爱写代码的ALex

最新推荐文章于 2024-06-18 15:06:20 发布

阅读量511

点赞数

分类专栏：深度学习之路文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/weixin_55064529/article/details/122462800

版权

深度学习之路专栏收录该内容

12 篇文章 0 订阅

订阅专栏

一句话：
神经网络基本形式是线性加权与非线性变换，即y=h(b+w1x1+w2x2)。
线性加权即b+w1x1+w2x2
非线性变换：h()是激活函数

回归定义和应用例子

回归定义

Regression 就是找到一个函数 $f u n c t i o n$ ，通过输入特征 $x$ ，输出一个数值。

应用举例

股市预测（Stock market forecast）
- 输入：过去10年股票的变动、新闻咨询、公司并购咨询等
- 输出：预测股市明天的平均值

模型步骤

step1：模型假设，选择模型框架（线性模型）
step2：模型评估，如何判断众多模型的好坏（损失函数）
step3：模型优化，如何筛选最优的模型（梯度下降）

Step 1：模型假设 - 线性模型

一元线性模型（单个特征）

线性模型假设 $y = b + w·x_{cp}$

多元线性模型（多个特征）

所以我们假设 线性模型 Linear model： $\sum w_ix_i$

$x_i$ ：就是各种特征(fetrure) $x_{cp},x_{hp},x_w,x_h,···$
$w_i$ ：各个特征的权重 $w_{cp},w_{hp},w_w,w_h,··$
$b$ ：偏移量

Step 2：模型评估 - 损失函数

如何判断众多模型的好坏（损失函数）

有了这些真实的数据，那我们怎么衡量模型的好坏呢？从数学的角度来讲，我们使用距离。求【进化后的CP值】与【模型预测的CP值】差，来判定模型的好坏。也就是使用损失函数（Loss function）来衡量模型的好坏，统计10组原始数据 $\left ( \hat{y}^n - f(x_{cp}^n) \right )^2$ 的和，和越小模型越好。
$\begin{aligned} L(f) & = \sum_{n=1}^{10}\left ( \hat{y}^n - f(x_{cp}^n) \right )^2，将【f(x) = y】, 【y= b + w·x_{cp}】代入 \\ & = \sum_{n=1}^{10}\left ( \hat{y}^n - (b + w·x_{cp}) \right )^2\\ \end{aligned}$

Step 3：最佳模型 - 梯度下降

如何筛选最优的模型（参数w，b）

步骤1：随机选取一个 $w^0$
步骤2：计算微分，也就是当前的斜率，根据斜率来判定移动的方向
- 大于0向右移动（增加 $w$ ）
- 小于0向左移动（减少 $w$ ）
步骤3：根据学习率移动
重复步骤2和步骤3，直到找到最低点

梯度下降推演最优模型的过程

在这里插入图片描述

梯度下降算法在现实世界中面临的挑战

问题1：具备最优（Stuck at local minima）而非全局最优
问题2：Stuck at saddle point
问题3：趋近于0（Very slow at the plateau）

注：
在非线性模型中会遇到问题2 和问题3 ，需要调整迭代次数与学习率（超参数）
在线性模型里面都是一个碗的形状（山谷形状），梯度下降基本上都能找到最优点

w和b偏微分的计算方法

在这里插入图片描述

如何验证训练好的模型的好坏

使用训练集和测试集的平均误差来验证模型的好坏
我们使用将10组原始数据，训练集求得平均误差为31.9
然后再使用10组Pokemons测试模型，测试集求得平均误差为35.0 如图所示：

更强大复杂的模型：1元N次线性模型

在模型上，我们还可以进一部优化，选择更复杂的模型，使用1元2次方程举例，如图17，发现训练集求得平均误差为15.4，测试集的平均误差为18.4

过拟合问题出现

在训练集上面表现更为优秀的模型，为什么在测试集上效果反而变差了？这就是模型在训练集上过拟合的问题。
在这里插入图片描述
将错误率结果图形化展示，发现3次方以上的模型，已经出现了过拟合的现象：

步骤优化

Step1优化：2个input的四个线性模型是合并到一个线性模型中

Step2优化：如果希望模型更强大表现更好（更多参数，更多input）

更多input，数据量没有明显增加，仍旧可能导致overfitting

Step3优化：加入正则化

更多特征，但是权重 $w$ 可能会使某些特征权值过高，仍旧导致overfitting，所以加入正则化

$w$ 越小，表示 $f u n c t i o n$ 较平滑的， $f u n c t i o n$ 输出值与输入值相差不大
在很多应用场景中，并不是 $w$ 越小模型越平滑越好，但是经验值告诉我们 $w$ 越小大部分情况下都是好的。
$b$ 的值接近于0 ，对曲线平滑是没有影响

总结

一句话：神经网络基本形式是线性加权与非线性变换，即y=h(b+w1x1+w2x2)。
线性加权即b+w1x1+w2x2
非线性变换：h()是激活函数

爱写代码的ALex

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李宏毅深度学习基础

一句话：神经网络基本形式是线性加权与非线性变换，即y=h(b+w1x1+w2x2)。线性加权即b+w1x1+w2x2非线性变换：h()是激活函数文章目录回归定义和应用例子回归定义应用举例模型步骤Step 1：模型假设 - 线性模型一元线性模型（单个特征）多元线性模型（多个特征）Step 2：模型评估 - 损失函数如何判断众多模型的好坏（损失函数）Step 3：最佳模型 - 梯度下降如何筛选最优的模型（参数w，b）梯度下降推演最优模型的过程梯度下降算法在现实世界中面临的挑战w和b偏微分的计算方法如何验
复制链接

扫一扫