机器学习笔记-神经网络中激活函数(activation function)对比--Sigmoid、ReLu,tanh

为什么激活函数是非线性的?

如果不用激励函数(相当于激励函数是f(x)=x),在这种情况下,每一层的输出都是上一层的线性函数,无论神经网络有多少层,输出都是输入的线性组合,这与一个隐藏层的效果相当(这种情况就是多层感知机MPL)。

但当我们需要进行深度神经网络训练(多个隐藏层)的时候,如果激活函数仍然使用线性的,多层的隐藏函数与一层的隐藏函数作用的相当的,就失去了深度神经网络的意义,所以引入非线性函数作为激活函数。


对比激活函数Sigmoid、ReLu,tanh



Sigmoid函数



在这里插入图片描述


Sigmoid函数是深度学习领域开始时使用频率最高的激活函数,它是便于求导的平滑函数,能够将输出值压缩到0-1范围之内。

在这里插入图片描述



但是Sigmoid函数有3大缺点:
  • 容易出现梯度消失
优化神经网络的方法是Back Propagation,即导数的后向传递:先计算输出层对应的loss,然后将loss以导数的形式不断向上一层网络传递,修正相应的参数,达到降低loss的目的。但当x较大或较小时,导数接近0;并且Sigmoid函数导数的最大值是0.25,导数在每一层至少会被压缩为原来的1/4。正是因为这两个原因,从输出层不断向输入层反向传播训练时,导数很容易逐渐变为0,使得权重和偏差参数无法被更新,导致神经网络无法被优化。
  • 输出不是zero-centered
Sigmoid函数的输出值恒大于0,假设后层的输入都是非0的信号,在反向传播过程中,weight要么是都往正方向更新,要么都往负方向更新,按照图中所示的阶梯式更新,并非好的优化路径,计算量较大,模型收敛的速度减慢。


  • 幂运算相对耗时
相对于前两项,这其实并不是一个大问题,我们目前是具备相应计算能力的,但之后我们会看到,在ReLU函数中,计算机需要做的仅仅是一个thresholding,相对于幂运算来讲会快很多。


tanh函数


在这里插入图片描述

在这里插入图片描述


  • 优点
    全程可导;输出区间为-1到1;解决了zero-centered的输出问题。

  • 缺点
    梯度消失的问题和幂运算的问题仍然存在。

ReLU函数



ReLU函数(Rectified Linear Units)其实就是一个取最大值函数,注意这并不是全区间可导的,但是我们可以取次梯度(subgradient)。

![在这里插入图片描述](https://img-blog.csdnimg.cn/20190704140902298.png)![在这里插入图片描述](https://img-blog.csdn.net/20170903160414410)




  • 优点
    • 解决了梯度消失的问题 (在正区间)
    • 计算速度非常快,只需要判断输入是否大于0
    • 收敛速度远快于sigmoid和tanh
    • Relu会使一部分神经元的输出为0,这样就造成了网络的稀疏性,并且减少了参数的相互依存关系,缓解了过拟合问题的发生
  • 缺点
    • 输出不是zero-centered
    • Dead ReLU Problem
      Dead ReLU Problem指的是某些神经元可能永远不会被激活,导致相应的参数永远不能被更新。有两个主要原因可能导致这种情况产生: (1) 非常不幸的参数初始化,这种情况比较少见 (2) 学习速率太高导致在训练过程中参数更新太大,不幸使网络进入这种状态。解决方法是可以采用Xavier初始化方法,以及避免将学习速率设置太大或使用adagrad等自动调节学习速率的算法。

尽管存在这两个问题,ReLU目前仍是最常用的激活函数。

现在也有一些对relu的改进,比如prelu,random relu等,在不同的数据集上会有一些训练速度上或者准确率上的改进,在此就不展开讨论了。










  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: BP神经网络是一种常见的人工神经网络,用于解决回归和分类问题。在Python,可以使用许多库来实现BP神经网络,如TensorFlow、Keras、PyTorch、Scikit-learn等。下面是一个使用Scikit-learn库实现BP神经网络的示例代码: ```python from sklearn.neural_network import MLPClassifier # 准备训练数据和标签 X_train = [[0, 0], [0, 1], [1, 0], [1, 1]] y_train = [0, 1, 1, 0] # 创建BP神经网络分类器 clf = MLPClassifier(hidden_layer_sizes=(4,), activation='logistic', solver='sgd', max_iter=1000) # 训练模型 clf.fit(X_train, y_train) # 预测新数据 X_test = [[0, 0], [0, 1], [1, 0], [1, 1]] y_pred = clf.predict(X_test) # 打印预测结果 print(y_pred) ``` 上面的代码使用Scikit-learn库的`MLPClassifier`类创建了一个BP神经网络分类器,使用逻辑函数作为激活函数,使用随机梯度下降算法作为优化器,最多迭代1000次。然后,使用训练数据训练模型,并预测新的数据。最后,打印预测结果。 ### 回答2: BP神经网络是一种常用的人工神经网络模型,用于解决分类、回归和预测问题。BP即反向传播算法,它能够通过计算输出值与实际值之间的误差,并反向传播该误差来调整神经网络的权重和偏置值,从而提高网络的准确性。 在Python,可以使用多种库来实现BP神经网络,如TensorFlow、PyTorch、Keras等。以下是一个使用Keras库实现BP神经网络的示例: 首先,安装Keras库:pip install keras 然后,导入相应的库和模块: ```python import numpy as np from keras.models import Sequential from keras.layers import Dense ``` 接下来,定义输入和输出数据集: ```python # 输入数据 X_train = np.array([[0, 0], [0, 1], [1, 0], [1, 1]]) # 输出数据 y_train = np.array([[0], [1], [1], [0]]) ``` 然后,构建BP神经网络的模型: ```python # 创建模型 model = Sequential() # 添加输入层和隐藏层 model.add(Dense(units=4, input_dim=2, activation='relu')) # 添加输出层 model.add(Dense(units=1, activation='sigmoid')) # 编译模型 model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) ``` 最后,训练模型并进行预测: ```python # 训练模型 model.fit(X_train, y_train, epochs=1000, verbose=0) # 预测结果 result = model.predict(X_train) print(result) ``` 通过以上代码,我们可以利用BP神经网络进行分类和预测任务。 总结起来,BP神经网络是一种常用的人工神经网络模型,通过反向传播算法来调整权重和偏置值,从而提高网络的准确性。在Python,可以使用多种库来实现BP神经网络,如Keras等。 ### 回答3: BP神经网络是一种常用的人工神经网络模型,也被称为多层感知机。它在许多机器学习任务具有广泛的应用,如分类、回归和聚类等。Python是一种高级编程语言,广泛应用于数据科学和机器学习领域。接下来,我将简要介绍一下如何使用Python实现BP神经网络。 首先,我们需要通过导入必要的库来创建和训练BP神经网络模型。常用的库包括NumPy、SciPy和pandas等。使用NumPy库可以方便地进行矩阵运算,SciPy库可以提供一些优化算法,pandas库则可以用来处理数据。 接下来,我们需要准备输入和输出数据集,以便训练模型。可以从文件读取数据,或使用pandas库从数据库获取数据。 然后,我们需要定义神经网络的结构。BP神经网络通常由输入层、隐藏层和输出层组成。输入层和输出层节点的数量由数据集的特征和标签确定,隐藏层的节点数量可以根据实际需求进行调整。 接下来,我们需要初始化神经网络的权重和偏置。可以使用随机数来初始化权重和偏置,也可以使用其他初始化方法。 然后,我们需要定义激活函数。常用的激活函数sigmoid、ReLUtanh等。激活函数可以使神经网络具有非线性能力。 接下来,我们可以进行神经网络的前向传播和误差计算。首先,我们将输入数据传递给输入层,然后将数据通过隐藏层传递到输出层。最后,我们可以计算输出层的误差。 然后,我们需要根据误差来调整神经网络的权重和偏置。这可以使用反向传播算法来实现。反向传播算法通过链式法则来计算权重和偏置的梯度,并使用优化算法来更新它们。 最后,我们可以使用训练好的神经网络来进行预测。将输入数据传递给神经网络,并获得输出结果。 总结起来,使用Python实现BP神经网络可以通过导入必要的库、准备数据集、定义网络结构、初始化权重和偏置、定义激活函数、进行前向传播和误差计算、使用反向传播算法调整权重和偏置,最后使用训练好的模型进行预测。这样可以实现一个基本的BP神经网络模型。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值