BP神经网络的数学原理及其算法实现

最新推荐文章于 2025-03-12 12:41:38 发布

陈靖_

最新推荐文章于 2025-03-12 12:41:38 发布

阅读量10w+

点赞数 109

分类专栏：机器学习与数据挖掘文章标签：分类器神经网络

本文链接：https://blog.csdn.net/zhongkejingwang/article/details/44514073

版权

本文详细介绍了BP神经网络的原理，包括其反向传播的意义和隐层的作用，并提供了简单的数学推导。此外，还分享了一段简洁的Java实现代码，用于在Iris数据集上的分类，准确率接近100%。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

转载请声明出处http://blog.csdn.net/zhongkejingwang/article/details/44514073
上一篇文章介绍了KNN分类器，当时说了其分类效果不是很出色但是比较稳定，本文后面将利用BP网络同样对Iris数据进行分类。

什么是BP网络

BP神经网络，BP即Back Propagation的缩写，也就是反向传播的意思，顾名思义，将什么反向传播？文中将会解答。不仅如此，关于隐层的含义文中也会给出个人的理解。最后会用Java实现的BP分类器作为其应用以加深印象。
　　很多初学者刚接触神经网络的时候都会到网上找相关的介绍，看了很多数学原理之后还是云里雾里，然后会琢磨到底这个有什么用？怎么用？于是又到网上找别人写的代码，下下来之后看一眼发现代码写的很糟糕，根本就理不清，怎么看也看不懂，于是就放弃了。作为过来人，本人之前在网上也看过很多关于BP网络的介绍，也下载了别人实现的代码下来研究，原理都一样，但是至今为止没有看到过能令人满意的代码实现。于是就有了这篇文章，不仅有原理也有代码，对节点的高度抽象会让代码更有可读性。

CSDN博客编辑器终于可以编写数学公式了！第一次使用Markdown编辑器，感觉爽歪歪，latex数学公式虽然写起来麻烦，不过很灵活，排版也漂亮~在这里贴一个Markdown输入数学公式的教程http://ttang.name/2014/05/04/markdown-and-mathjax/很全的说！

BP网络的数学原理

　　下面将介绍BP网络的数学原理，相比起SVD的算法推导，这个简直就是小菜一碟，不就是梯度吗求个导就完事了。首先来看看BP网络长什么样，这就是它的样子：
　　这里写图片描述
为了简单起见，这里只介绍只有一个隐层的BP网络，多个隐层的也是一样的原理。这个网络的工作原理应该很清楚了，首先，一组输入 $x_1、x_2、\ldots、x_m$ 来到输入层，然后通过与隐层的连接权重产生一组数据 $s_1、s_2、\ldots、s_n$ 作为隐层的输入，然后通过隐层节点的 $\theta(·)$ 激活函数后变为 $\theta(s_j)$ 其中 $s_j$ 表示隐层的第 $j$ 个节点产生的输出，这些输出将通过隐层与输出层的连接权重产生输出层的输入，这里输出层的处理过程和隐层是一样的，最后会在输出层产生输出 $\overline y_j$ ，这里 $j$ 是指输出层第 $j$ 个节点的输出。这只是前向传播的过程，很简单吧？在这里，先解释一下隐层的含义，可以看到，隐层连接着输入和输出层，它到底是什么？它就是特征空间，隐层节点的个数就是特征空间的维数，或者说这组数据有多少个特征。而输入层到隐层的连接权重则将输入的原始数据投影到特征空间，比如 $s_j$ 就表示这组数据在特征空间中第 $j$ 个特征方向的投影大小，或者说这组数据有多少份量的 $j$ 特征。而隐层到输出层的连接权重表示这些特征是如何影响输出结果的，比如某一特征对某个输出影响比较大，那么连接它们的权重就会比较大。关于隐层的含义就解释这么多，至于多个隐层的，可以理解为特征的特征。
　　前面提到激活函数 $\theta(·)$ ,一般使用S形函数（即sigmoid函数），比如可以使用log-sigmoid： $\theta(s) = \frac{1}{1+e^{-s}}$

或者tan-sigmoid： $\theta(s) = \frac{e^s-e^{-s}}{e^s+e^{-s}}$

　　前面说了，既然在输出层产生输出了，那总得看下输出结果对不对吧或者距离预期的结果有多大出入吧？现在就来分析一下什么东西在影响输出。显然，输入的数据是已知的，变量只有那些个连接权重了，那这些连接权重如何影响输出呢？现在假设输入层第i个节点到隐层第j个节点的连接权重发生了一个很小的变化 $\Delta w_{ij}$ ，那么这个 $\Delta w_{ij}$ 将会对 $s_j$ 产生影响，导致 $s_j$ 也出现一个变化 $\Delta s_j$ ，然后产生 $\Delta \theta (s_j)$ ，然后传到各个输出层，最后在所有输出层都产生一个误差 $\Delta e$ 。所以说，权重的调整将会使得输出结果产生变化，那么如何使这些输出结果往正确方向变化呢？这就是接下来的任务：如何调整权重。对于给定的训练样本，其正确的结果已经知道，那么由输入经过网络的输出和正确的结果比较将会有一个误差，如果能把这个误差将到最小，那么就是输出结果靠近了正确结果，就可以说网络可以对样本进行正确分类了。怎样使得误差最小呢？首先，把误差表达式写出来，为了使函数连续可导，这里最小化均方根差，定义损失函数如下：