【标题】深度学习与激光器设计变革

小哥伯涵

已于 2024-03-30 15:32:26 修改

阅读量822

点赞数 18

文章标签：人工智能深度学习

于 2024-03-14 17:03:18 首次发布

本文链接：https://blog.csdn.net/zhuliyeer/article/details/136702951

版权

深度学习篇：

神经网络 vs 物理/数学家P131：

	物理/数学家	神经网络
特点	从第一性原理出发，对一种现象进行功能性描述，然后从测量中估计未知的参数，从而得到一个精确的、真实世界的模型。	一组函数，近似出大范围的输入输出关系，不需要对某一现象构建解释模型。
缺点	有时缺乏能力、信息或计算资源来构建明确的模型。	利用数据驱动，放弃解释，以换取解决日益复杂问题的可能性。

神经网络单元机理【P126】：

在（深度）神经网络中，最简单的单元是线性运算（wx(缩放)+b(偏移)），然后是激活函数。

激活函数

特点

1，非线性

2，可微

3，至少有一个敏感范围。在此范围内对输入的变化会导致输出变化。且包含许多不敏感（或饱和）的范围，在此范围内输入的变化导致输出很小或无变化。

作用

一、在模型内部，允许输出函数在不同值有不同的斜率，这是线性函数无法做到的。通过为许多输出设置不同斜率，神经网络才可以近似任意函数。

二、在网络的最后一层，将前面线性运算的输出集中到指定的范围内。

在一个由“线性”+“激活”单元构成的网络中，当不同的输入呈现给网络时，不同的单元会对相同的输入在不同范围内响应；与这些输入相关的loss将主要影响对应敏感区域工作的神经元，使其他单元不受学习过程的影响。

训练的机制（P98-101）

假设有两个旋钮(params参数)的游戏机，并且屏幕有一个小球L（损失函数值）。现在需要你调节两个旋钮w和b，让给定输入数据及labels后，小球L最低，这就是训练的过程。你在调节两个旋钮中，决定往哪个方向旋转，旋转多块会导致球快速下降，就是在找当前L的梯度。

假设我们有了神经网络的正向预测函数模型 $m=m_{w,b}(x)$ 解析表达式，以及损失函数L=L（y，m）解析表达式。

那么观测L的梯度，在数学里的解析表达式为： $\bigtriangledown_{w,b}L=\left ( \frac{\partial L}{\partial w}, \frac{\partial L}{\partial b} \right ) =\left ( \frac{\partial L}{\partial m}*\frac{\partial m}{\partial w}, \frac{\partial L}{\partial m}*\frac{\partial m}{\partial b} \right )$

训练的欠拟合和过拟合：【P115】

我们训练的方法是从总数据集中取出一些点（验证集）作为“考试”，并用剩下的点进行“学习和训练”。我们要保证我们训练的题目里面不能含考试的题目。

我们一方面需要模型有足够的能力来拟合训练集，另一方面我们需要避免模型过拟合。因此，为神经网络模型选择合适的参数过程分为2步：

step1：增大参数直到拟合。

step2：缩小参数直到停止过拟合。

通过判断模型在训练集和验证集的损失函数值随着迭代轮数变化曲线，我们就可以判断是过拟合还是欠拟合。此处有判断过拟合和欠拟合的标准图，【P119】，我们的模型设计和修正是在拟合和过拟合之间寻求平衡。（注意，在训练过程中，验证集的计算需要开启不自动求导，以防“试卷”里的题目泄露到“训练册”里。这个很重要，一旦泄露混在一起，我们后续将很难评估模型的过拟合或欠拟合。）

出现的结果

可能原因——解决方法

欠拟合

1，网络模型参数数目太少，网络能够近似的函数形状太简单。——增加网络模型参数数目。

2，本身数据就没有相关性，比如温度和电场强度。——审视待拟合自变量和应变量是否相关。

过拟合

数据不够，例如从正弦曲线上定期低频率采样，我们就很难拟合一个模型。

假如我们有足够的数据，还是过拟合该怎么办？

一、在损失函数中添加惩罚项。

二、在输入样本中添加噪声

三、让我们的模型更简单。更简单的模型可能不能完美拟合训练数据，但在数据点之间可能更有规律。