一、感知机
感知机其实是一个很简单的模型,给定输入x,权重w,偏移b,x和w都是向量,b是标量。输出就是w和x做内积再加上b,然后做一个函数:

从图形上来看就是输入多元素,输出单元素,实际上就是二分类的一个问题。这里输出的是一个离散的类;和softmax不同这里只二分类。
训练感知机的过程:

如果分类错误就对w和b进行一次更新,一直做直到所有类分类正确;

如果分类正确,那就是0,不做更新,反之更新。
收敛定理:什么时候停?

问题:感知机不能拟合XOR函数,只能产生线性分割面。(过于简单)

二、多层感知机
学习XOR,我们想要把完全分类的话,可以:


学习一根蓝色的线和一根黄色的线。简单来说就是下面的图:

先考虑一下单分类的问题:

三、总结
多层感知机的核心定义围绕 **“层数” 和 “非线性”** 展开,是对 “感知机” 的扩展:
-
感知机(Perceptron):1957 年提出的单层线性模型(输入层 + 输出层,无隐藏层),仅能解决 “线性可分问题”(如用直线分割二维数据),无法处理非线性问题(如异或 XOR);
-
多层感知机(MLP):为解决感知机的局限性,在 “输入层” 和 “输出层” 之间加入至少 1 个隐藏层,并在隐藏层引入非线性激活函数(如 ReLU、sigmoid、tanh)的模型。
-
关键特征:同时约束 “层数”(≥1 个隐藏层)和 “非线性”(必须有激活函数),且默认采用全连接结构(因为若用局部连接或其他结构,会被归为 CNN、RNN 等其他模型)。
2316

被折叠的 条评论
为什么被折叠?



