1. 感知机概念
下图是一个接收两个输入信号的感知机的例子。
x1
、 x2
是输入信号, y
是输出信号, w1
、 w2
是权重( w
是 weight
的首字母)。图中的 ○
称为“神经元”或者“节点”。输入信号被送往神经元时,会被分别乘以固定的权重( w1*x1
、 w2*x2
)。神经元会计算传送过来的信号的总和,只有当这个总和超过了某个界限值时,才会输出 1。这也称为“神经元被激活” 。这里将这个界限值称为阈值,用符号 θ
表示。
把上述内容用数学式来表示,见下公式
感知机的多个输入信号都有各自固有的权重,这些权重发挥着控制各个信号的重要性的作用。也就是说,权重越大,对应该权重的信号的重要性就越高。
2. 感知机实现
2.1 简单实现
与门是有两个输入和一个输出的门电路。这种输入信号和输出信号的对应表称为“真值表”。如图所示,与门仅在两个输入均为 1 时输出1,其他时候则输出 0。
以逻辑与门为例来看看如何实现:
In [1]: def AND(x1, x2):
...: w1, w2, theta = 0.5, 0.5, 0.7
...: result = x1 * w1 + x2 * w2
...: if result >= theta:
...: return 1
...: else:
...: return 0
...:
In [2]:
按照同样的步骤,也可以实现与非门和或门,不过让我们来对它们的实现稍作修改。
2.2 导入权重和偏置
式(2.1)的 θ
换成 −b
,于是就可以用式(2.2)来表示感知机的行为。
式(2.1)和式(2.2)虽然有一个符号不同,但表达的内容是完全相同的。此处,b 称为偏置,w1 和 w2 称为权重。如式(2.2)所示,感知机会计算输入信号和权重的乘积,然后加上偏置,如果这个值大于 0 则输出 1,否则输出 0。
使用 NumPy
实现 2.2 所描述的感知机,代码如下:
In [2]: import numpy as np
In [3]: x = np.array([0, 1]) # 输入
In [5]: w = np.array([0.5, 0.5]) # 权重
In [6]: b = -0.7 # 偏置
In [7]: w * x
Out[7]: array([0. , 0.5])
In [8]: np.sum(w*x)
Out[8]: 0.5
In [9]: np.sum(w*x) + b
Out[9]: -0.19999999999999996 # 大约为-0.2(由浮点小数造成的运算误差)
In [10]:
在 NumPy
数组的乘法运算中,当两个数组的元素个数相同时,各个元素分别相乘,因此 w*x
的结果就是它们的各个元素分别相乘([0, 1] *[0.5, 0.5] => [0, 0.5])。之后, np.sum(w*x)
再计算相乘后的各个元素的总和。最后再把偏置加到这个加权总和上,就完成了式(2.2)的计算。
2.3 使用权重和偏置的实现
代码如下:
In [11]: def AND(x1, x2):
...: x = np.array([x1, x2])
...: w = np.array([0.5, 0.5])
...: b = -0.7
...: result = np.sum(w*x) + b
...: if result <= 0:
...: return 0
...: else:
...: return 1
In [12]:
这里把 −θ
命名为偏置 b
,但是请注意,偏置和权重 w1
、 w2
的作用是不一样的。
具体地说, w1
和 w2
是控制输入信号的重要性的参数,而偏置是调整神经元被激活的容易程度(输出信号为 1 的程度)的参数。
例如:
- 若
b
为−0.1
,则只要输入信号的加权总和超过0.1
,神经元就会被激活。 - 但是如果
b
为−20.0
,则输入信号的加权总和必须超过20.0
,神经元才会被激活。
像这样,偏置的值决定了神经元被激活的容易程度。另外,这里我们将 w1
和 w2
称为权重,将 b
称为偏置,但是根据上下文,有时也会将 b
、 w1
、 w2
这些参数统称为权重。
3. 感知机局限性
感知机的局限性就在于它只能表示由一条直线分割的空间。下图这样弯曲的曲线无法用感知机表示。另外,由下图这样的曲线分割而成的空间称为非线性空间,由直线分割而成的空间称为线性空间。
4. 多层感知机
与门、或门是单层感知机,而异或门是 2 层感知机。叠加了多层的感知机也称为多层感知机( multi-layered perceptron
)。
图2-13中的感知机总共由 3 层构成,但是因为拥有权重的层实质上只有 2 层(第 0 层和第 1 层之间,第 1 层和第 2 层之间),所以称为 “2 层感知机”。不过,有的文献认为图 2-13 的感知机是由 3 层构成的,因而将其称为“3 层感知机”。
在图2-13所示的 2 层感知机中,先在第 0 层和第 1 层的神经元之间进行信号的传送和接收,然后在第 1 层和第 2 层之间进行信号的传送和接收,具体如下所示。
- 第 0 层的两个神经元接收输入信号,并将信号发送至第 1 层的神经元。
- 第 1 层的神经元将信号发送至第 2 层的神经元,第 2 层的神经元输出 y。
这种 2 层感知机的运行过程可以比作流水线的组装作业。第 1 段(第 1 层)的工人对传送过来的零件进行加工,完成后再传送给第 2 段(第 2 层)的工人。第 2 层的工人对第 1 层的工人传过来的零件进行加工,完成这个零件后出货(输出)。
通过这样的结构( 2 层结构),感知机得以实现异或门。这可以解释为 “单层感知机无法表示的东西,通过增加一层就可以解决”。也就是说,通过叠加层(加深层),感知机能进行更加灵活的表示。
5. 总结
• 感知机是具有输入和输出的算法。给定一个输入后,将输出一个既定的值;
• 感知机将权重和偏置设定为参数;
• 使用感知机可以表示与门和或门等逻辑电路;
• 异或门无法通过单层感知机来表示;
• 使用 2 层感知机可以表示异或门;
• 单层感知机只能表示线性空间,而多层感知机可以表示非线性空间;
• 多层感知机(在理论上)可以表示计算机;
参考:《深度学习入门:基于Python的理论与实现》