DL——1

线性回归,softmax,多层感知机
一般来说,都有几个步骤:
1.生成数据集
2.读取数据
3.定义模型
4.初始化模型参数
5.定义损失函数
6.定义优化算法
7.训练模型
线性回归是最基本的
设房屋的面积为 x1 ,房龄为 x2 ,售出价格为 y 。我们需要建立基于输入 x1 和 x2 来计算输出 y 的表达式,也就是模型(model)。顾名思义,线性回归假设输出与各个输入之间是线性关系:

y^=x1w1+x2w2+b,

其中 w1 和 w2 是权重(weight), b 是偏差(bias),且均为标量。它们是线性回归模型的参数(parameter)。模型输出 y^ 是线性回归对真实价格 y 的预测或估计。我们通常允许它们之间有一定误差。
程序就是在不断追求最佳权重。
先随便初始化一个权重
然后根据导数不断让损失值最小的过程。
但什么时候损失值最小呢,又是怎么样定义损失值呢
损失值 其实就是 预测值和真实值之间的偏差
我们这里这样定义:
在这里插入图片描述
在这里插入图片描述
1/2是由于求导后可以得到更简洁的导数形式
我们的目的是这个损失函数的最小值,所以求导后向小的方向缩进
在这里插入图片描述
如果把它看作神经网络
在这里插入图片描述
属于最简单的神经网络了
softmax属于分类型的,所以他的神经网络结构是
在这里插入图片描述
但是会出现三个类别不大的情况,这里用
在这里插入图片描述
y来表示概率,y的总和是1,且保持原来的大小关系
这里损失函数却不是用平方差的形式,这里用交叉熵的形式了
在这里插入图片描述
在这里插入图片描述
其中 Θ 代表模型参数。同样地,如果每个样本只有一个标签,那么交叉熵损失可以简写成 ℓ(Θ)=−(1/n)∑ni=1logy^(i)y(i) 。从另一个角度来看,我们知道最小化 ℓ(Θ) 等价于最大化 exp(−nℓ(Θ))=∏ni=1y^(i)y(i) ,即最小化交叉熵损失函数等价于最大化训练数据集所有标签类别的联合预测概率。
多层感知机是多层神经网络,他包含隐藏层
在这里插入图片描述
我们先来看一种含单隐藏层的多层感知机的设计。其输出O∈Rn×q的计算为

H =XWh+bh, O =HWo+bo,
也就是将隐藏层的输出直接作为输出层的输入。如果将以上两个式子联立起来,可以得到

O=(XWh+bh)Wo+bo=XWhWo+bhWo+bo.
从联立后的式子可以看出,虽然神经网络引入了隐藏层,却依然等价于一个单层神经网络:其中输出层权重参数为WhWo,偏差参数为bhWo+bo。不难发现,即便再添加更多的隐藏层,以上设计依然只能与仅含输出层的单层神经网络等价。
所以 我们用到了 激活函数
加入了非线性函数是他变成了非单层的结构,不再为线性结构使其复杂了
relu函数
tanh函数
sigmoid函数
这些函数的区别分别,并且导数易得。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值