DL——1

最新推荐文章于 2024-06-21 09:33:58 发布

阿龙NEO

最新推荐文章于 2024-06-21 09:33:58 发布

阅读量692

点赞数

本文链接：https://blog.csdn.net/weixin_45569078/article/details/104320361

版权

线性回归，softmax，多层感知机
一般来说，都有几个步骤：
1.生成数据集
2.读取数据
3.定义模型
4.初始化模型参数
5.定义损失函数
6.定义优化算法
7.训练模型
线性回归是最基本的
设房屋的面积为 x1 ，房龄为 x2 ，售出价格为 y 。我们需要建立基于输入 x1 和 x2 来计算输出 y 的表达式，也就是模型（model）。顾名思义，线性回归假设输出与各个输入之间是线性关系：

y^=x1w1+x2w2+b,

其中 w1 和 w2 是权重（weight）， b 是偏差（bias），且均为标量。它们是线性回归模型的参数（parameter）。模型输出 y^ 是线性回归对真实价格 y 的预测或估计。我们通常允许它们之间有一定误差。
程序就是在不断追求最佳权重。
先随便初始化一个权重
然后根据导数不断让损失值最小的过程。
但什么时候损失值最小呢，又是怎么样定义损失值呢
损失值其实就是预测值和真实值之间的偏差
我们这里这样定义：
在这里插入图片描述

1/2是由于求导后可以得到更简洁的导数形式
我们的目的是这个损失函数的最小值，所以求导后向小的方向缩进

如果把它看作神经网络

属于最简单的神经网络了
softmax属于分类型的，所以他的神经网络结构是
在这里插入图片描述
但是会出现三个类别不大的情况，这里用

y来表示概率，y的总和是1，且保持原来的大小关系
这里损失函数却不是用平方差的形式，这里用交叉熵的形式了

其中 Θ 代表模型参数。同样地，如果每个样本只有一个标签，那么交叉熵损失可以简写成 ℓ(Θ)=−(1/n)∑ni=1logy^(i)y(i) 。从另一个角度来看，我们知道最小化 ℓ(Θ) 等价于最大化 exp(−nℓ(Θ))=∏ni=1y^(i)y(i) ，即最小化交叉熵损失函数等价于最大化训练数据集所有标签类别的联合预测概率。
多层感知机是多层神经网络，他包含隐藏层
在这里插入图片描述
我们先来看一种含单隐藏层的多层感知机的设计。其输出O∈Rn×q的计算为

H =XWh+bh, O =HWo+bo,
也就是将隐藏层的输出直接作为输出层的输入。如果将以上两个式子联立起来，可以得到

O=(XWh+bh)Wo+bo=XWhWo+bhWo+bo.
从联立后的式子可以看出，虽然神经网络引入了隐藏层，却依然等价于一个单层神经网络：其中输出层权重参数为WhWo，偏差参数为bhWo+bo。不难发现，即便再添加更多的隐藏层，以上设计依然只能与仅含输出层的单层神经网络等价。
所以我们用到了激活函数
加入了非线性函数是他变成了非单层的结构，不再为线性结构使其复杂了
relu函数
tanh函数
sigmoid函数
这些函数的区别分别，并且导数易得。