感知机——神经网络基本模型

搁浅丶.

已于 2023-11-20 16:27:49 修改

阅读量172

点赞数

文章标签：算法人工智能

于 2023-11-16 19:43:41 首次发布

本文链接：https://blog.csdn.net/weixin_64924692/article/details/134427278

版权

1. 感知机

1.1 什么是感知机

X 是输入信号， y 是输出信号，W 是权重（每个输入信号都有一个对应的w），b为偏置项。图中的○称为“神经元”或者“节点”。

输入信号被送往神经元时，会被分别乘以固定的权重加上偏置项。神经元会计算传送过来的信号的总和，在经过一个符号函数 sign()输出最终的值（激活函数）。

（注：-1也常常用0表示）

因此，感知机是一个二分类模型，会产生一个线性分割超平面

1.2 w与b的作用

w 是控制输入信号的重要性的参数，而 b 是调整神经元被激活的容易程度（输出信号为1 的程度）的参数。比如，若 b 为 − 0 . 1 ，则只要输入信号的加权总和超过 0 . 1 ，神经元就会被激活。但是如果 b为− 20 . 0 ，则输入信号的加权总和必须超过 20 . 0 ，神经元才会被激活。像这样，偏置的值决定了神经元被激活的容易程度。对于只有一个神经元的感知机，W与b可以初始化为0。

1.3 数据集的线性可分性

因此感知机不能完全拟合只能由弯曲的曲线分割的数据集（但是可以部分拟合），如下图XOR函数（异或）

任何一个线性分割面都无法完全划分这两个不同的点

1.4 损失函数

损失函数的一个自然选择是误分类点的总数，但是这样损失函数与w和b无关，不是参数w和b的连续可导函数，不易优化。

于是，感知机采用误分类点到超平面S的总距离,如下图

超平面S：—用向量/矩阵表示—WX + b=0

单个样本到超平面S的距离如下公式

其中

对于每个误分类样本来说，都有成立，其中yi是xi样本对应的真实标签值。原因如下：

1.当yi=1，而wxi + b<=0，此时会错误的预测标签值为-1，上述式子成立。而且有下式：

2.当yi=-1，而wxi + b>0，此时会错误的预测标签值为-1，上述式子成立。而且有下式：

于是误分类点到超平面S的总距离可以表示为下式：

此外，1/||w||用来归一化超平面法向量，得到几何间隔，也就是点到超平面的距离，但超平面只要能够将两类样本分类开即可，下图中两条线都是正确的

于是忽略掉1/||w||，最终感知机的损失函数为：

1.5. 感知机的优化器

对于感知机来说，极小化过程中不是一次使M中所有误分类点的梯度下降，而是一次随机选取一个误分类点使其梯度下降，因此感知机的优化器使用的是随机梯度下降（SGD）。

对于一个误分类点，计算该点损失函数的梯度:

更新w，b

代码实现

# 训练参数
epochs = 100
η = 0.1

# 感知机
def perceptron(X, y, η, epochs):
    n_samples, n_features = X.shape
    # 初始化权重参数
    w = np.zeros(n_features)
    b = 0
    for epoch in range(epochs):
        for i in range(n_samples):
            # 预测值
            y_pred = 1 if (np.dot(X[i], w) + b) > 0 else -1            
            # 随机梯度下降法随机选择一个误分点进行参数更新
            if -y[i]*(np.dot(X[i], w) + b)>=0:
                w = w + η * X[i] * y[i]
                b = b + η * y[i]
                loss += 1
    return w, b

# 预测函数
def predict(X,w):
    y_pred = np.where(np.dot(X,w)+b>0,1,-1)
    return y_pred

w,b = perceptron(trainx,trainy,η,epochs)

5.多层感知机

5.1使用多层感知机解决非线性问题

使用多层感知机解决异或问题：

5.2 多层感知机的基本结构

通过在结构中加入一个或多个隐藏层来克服线性模型的限制，使其能处理更普遍的函数关系类型。要做到这一点，最简单的方法是将许多全连接层堆叠在一起，（全连接的意思就是：上一层的任何一个神经元与下一层的所有神经元都有连接）。 3层感知机的示例下所示：

5.3 前向传播

假设有m个样本n个特征的X作为输入层，一个隐藏层的神经元个数为h，则隐藏层的权重矩阵W_h的大小为n×h（每个特征与每个神经元对应一个权重），偏置矩阵b_h大小为1×h。

则隐藏层的输入H为:

H_m×h =XW_h + b_h

假设输出的标签值有q个，则输出层的权重矩阵W_o的大小为h×q，偏置矩阵b_h大小为1×q

隐藏层的输出O为:

O_m×q = HW_o + b_o（每个输入x都对应一个输出值）

5.4 激活函数

如果不加上激活函数，上式仅仅是对数据进行了线性变换，仍然是单层网络

H = XW_h + b_h （线性函数）

O = HW_o + b_o=(XW_h + b_h)W_o + b_o=XW_hW_o + b_hW_o + b_o

将上式子b=b_hW_o + b_o，W=W_hW_o，所以结果仍然是仍然是一个XW + b

引入激活函数对结果进行非线性变换，计算式为：

H = σ（XW_h + b_h）（σ为激活函数）

引入非线性后，使网络可以逼近任意非线性函数

常见的激活函数有：Relu函数、sigmoid函数以及tanh函数。

1. Relu函数

Relu(x) = max(x,0)，计算非常简单

其导函数图像为：

不存在梯度消失现象

2. Sigmoid函数

Sigmoid函数可以将输入的任何值映射到（0，1）。注意，当输入接近0时，sigmoid函数接近线性变换

导函数图像如下：

当输入为0时，sigmoid函数的导数达到最大值0.25；而输入在任一方向上越远离0点时，导数越接近0（饱和区梯度消失现象）,此时不利于参数更新。

3. tanh函数（双曲正切函数）

tanh函数可以将输入的任何值映射到（-1，1）

注意，当输入在0附近时，tanh函数接近线性变换。函数的形状类似于sigmoid函数，不同的是tanh函数关于坐标系原点中心对称

导函数图像如下图所示：

当输入接近0时，tanh函数的导数接近最大值1。同样存在饱和区梯度消失现象。

搁浅丶.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
感知机——神经网络基本模型

x1x2是输入信号，y是输出信号，w1w2是权重（每个输入信号都有一个对应的w），b为偏置项。图中的○称为“神经元”或者“节点”。输入信号被送往神经元时，会被分别乘以固定的权重加上偏置项w1x1w2x2）。神经元会计算传送过来的信号的总和如果这个值大于0则输出1，否则输出0（相当于激活函数）。因此，感知机是一个二分类模型。
复制链接

扫一扫