【Dive into Deep Learning |动手学深度学习（李沐）】4.1 多层感知机--学习笔记

最新推荐文章于 2024-05-21 12:24:19 发布

爱吃白菜的金小妞

最新推荐文章于 2024-05-21 12:24:19 发布

阅读量116

点赞数

分类专栏：深度学习（李沐老师）文章标签：深度学习笔记神经网络

本文链接：https://blog.csdn.net/weixin_49191101/article/details/131637288

版权

深度学习（李沐老师）专栏收录该内容

8 篇文章 1 订阅

订阅专栏

感知机

概念

在这里插入图片描述
感知机就是w与x做内积，再加上偏移b，然后再次基础上，作用一个 $\sigma$ 函数， $\sigma$ (x)。 $\sigma$ 可以根据自身需求进行定义。本质上是一个二分类问题，输出1或0 or 1或-1。
VS.回归：回归是输出实数，而这里是一个分类问题，输出0或1.
VS.Sofemax回归：Softmax回归输出的是概率。Softmax回归是一个多元分类器，它通过一个线性函数和Softmax函数来计算每个类别的概率。

训练感知机

在这里插入图片描述
这段伪代码的意思是：首先初始化参数，w、b为0，repeat即开始一个循环，从i到n(n表示有多少个样本），判断yi与y_hat是都同号，即y_hat=<w,xi>+b
是否预测正确。预测错误的情况：yi是正类，y_hat预测为负类，则两者乘积为负；yi是负类，y_hat预测为正类类，则两者乘积也为负。符合if语句的判断条件，则更新参数w，b。反之，预测正确，则乘积大于0，跳过此步骤。直到所有分类都正确为止。用一句话总结就是：yi与y_hat同号，则预测正确，继续扫描下一个样本；异号则预测错误，更新参数，直到所有分类正确。
在这里插入图片描述
这个损失函数的意思是在0，和-y<w,x>中取大的那一个，因为前面说预测错误代表yy_hat<=0,再加上一个负号，则yy_hat>=0。

收敛定理

在这里插入图片描述
这里两条绿线之间的距离就是余量 $\rho$ 。如果两类分得特别开，则 $\rho$ 的空间就会很大，收敛的速度就会相对两类隔得近的情况快一些。

感知机的局限性

XOR问题

感知机不能拟合XOR函数，它只能产生线性分割面。
在这里插入图片描述
不能用一条线将颜色相同的小球分为一个类。

小结

感知机是一个二分类模型，是最早的AI模型之一。
它的求解算法等价于使用批量大小为1的梯度下降。
它不能拟合XOR函数，导致了第一次AI寒冬。

多层感知机

学习XOR

在这里插入图片描述
一条直线不能拟合XOR问题，但两条直线却可以。可以将这两条线看作xy轴，首先对于蓝色的这条线，若x<0,划为正类，如下图1、3小球为‘+’，2、4小球为‘-’；对于黄色这条线，若y>0,则为正类，如图1、2小球为‘+’，3、4小球为‘-’。最后，两条线分类相同的为正类，反之为负类。这样就把这XOR问题解决了。
在这里插入图片描述
如图所示，即为XOR问题的网络图

隐藏层

下图有5个隐藏单元
在这里插入图片描述
单隐藏层——单分类问题：

输入x是n维的，假设设定的隐藏层个数为m，则参数w1的维度为[m,n],b1为偏移，维度为[m,1]
输出层中，w2是隐藏层的参数，维度为[m,1]。下面这个函数是第一层的输出，其中作用了一个叫 $\sigma$ 的激活函数。
在这里插入图片描述
这是最后的输出。

这里的激活函数必须是非线性的激活函数，若 $\sigma$ 是线性的，则最后得到的结果也还是一个线性模型，相当于还是一个单层感知机，所以激活函数不能是线性的。

多类分类
多类分类与softmax没有本质的区别。唯一多了的就是一层隐藏层。
在这里插入图片描述
定义：

多隐藏层：
上一层的输出是本层的输入。

拿到一个比较难得数据集，一般有两种做法：一是做但隐藏层模型，将隐藏单元的个数做多一点，模型大一点；另外一种做法是做多隐藏层模型，并且每一隐藏层的隐藏单元逐步递减，最后得到输出。

激活函数

Sigmoid函数

Sigmoid函数将数据投影到0~1的区间上。
在这里插入图片描述

Tanh函数

与Sigmoid函数类似，只是将输入投影到-1~1之间。
在这里插入图片描述

ReLU激活函数

实际上就是一个最大值函数，max(x,0)
在这里插入图片描述

小结

多层感知机使用隐藏层和激活函数来得到非线性模型。
常用的激活函数是Sigmoid、Tanh、ReLU
使用Softmax来处理多类分类
超参数为隐藏层数，和各个隐藏层大小

说明：该笔记为听课笔记，仅为个人理解，如有错误，敬请指正。

爱吃白菜的金小妞

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Dive into Deep Learning |动手学深度学习（李沐）】4.1 多层感知机--学习笔记

可以将这两条线看作xy轴，首先对于蓝色的这条线，若x<0,划为正类，如下图1、3小球为‘+’，2、4小球为‘-’；这段伪代码的意思是：首先初始化参数，w、b为0，repeat即开始一个循环，从i到n(n表示有多少个样本），判断yi与y_hat是都同号，即y_hat=<w,xi>+b。输入x是n维的，假设设定的隐藏层个数为m，则参数w1的维度为[m,n],b1为偏移，维度为[m,1]是线性的，则最后得到的结果也还是一个线性模型，相当于还是一个单层感知机，所以激活函数不能是线性的。唯一多了的就是一层隐藏层。
复制链接

扫一扫