神经网络与深度学习(课程记录)

1.5感知机网络

1.5.1感知机原理

感知机(Perceptron)是1957年提出的分类方法,由Rosenblat提出,是神经网络和支持向量机的基础。

1.5.2感知机模型

输入:训练数据集{x^{i},y^{i}}(监督学习)

输出:w

1.赋初值w0,数据序号i=1,迭代次数k=0

2.选择数据点(x^{i},y^{i}) 

3.判断该数据点是否为当前模型的误分类点,即判断若y^{(i)}(w^Tx^{(i)})\leqslant 0,则更新权值:

w_{k+1}=w_k+\eta y^{(i)}x^{(i)}

4.转到2,直到训练集中没有误分类点

1.5.3训练过程

线性可分任务

 线性不可分任务

2. 1 多层感知机

2.1.1 XOR问题

线性不可分问题:无法进行线性分类。Minsky 1969年提出XOR问题。

2.1.2 解决方法:使用多层感知机

在输入和输出层间加一层或多层隐单元,构成多层感知机(多层前馈神经网络)。

加一层隐节点(单元)为三层网络,可解决异或(XOR)问题,如图。

由输入u=(u_1,u_2)得到两个隐节点、一个输出层节点的输出:

y_1^1=f[w_{11}^1u_1+w_{12}^1-\theta_1^1] 

y_2^1=f[w_{21}^1u_1+w_{22}^1-\theta_2^1]

y=f[w_1^2y_1^1+w_2^2y_2^1-\theta]

 可得到

设网络有如下一组权值和阈值,可得各节点的输出:

 

三层感知机可识别任一凸多边形或无界的凸区域。

更多层感知机网络,可识别更为复杂的图形。

多层感知器网络,有如下定理:
    定理1 若隐层节点(单元)可任意设置,用三层阈值节点的网络,可以实现任意的二值逻辑函数。
    定理2 若隐层节点(单元)可任意设置,用三层S型非线性特性节点的网络,可以一致逼近紧集上的连续函数或按 范数逼近紧集上的平方可积函数。

2.2 多层前馈网络

多层前馈网络的反向传播 (BP)学习算法,简称BP算法,是有导师的学习,它是梯度下降法在多层前馈网中的应用。

网络结构:见图,u、y是网络的输入、输出向量,神经元用节点表示,网络由输入层、隐层和输出层节点组成,隐层可一层,也可多层(图中是单隐层),前层至后层节点通过权联接。由于用BP学习算法,所以常称BP神经网络。 

 

2.3 BP算法简述

已知网络的输入/输出样本,即导师信号
BP学习算法由正向传播和反向传播组成:
①正向传播是输入信号从输入层经隐层,传向输出层,若输出层得到了期望的输出,则学习算法结束;否则,转至反向传播。
②反向传播是将误差(样本输出与网络输出之差)按原联接通路反向计算,由梯度下降法调整各层节点的权值和阈值,使误差减小。

2.4 BP算法基本思想

记法(尽量与吴恩达“深度学习”一致):
(粗整体为向量或矩阵,一般斜体为变量)
层:用上标[l]表示,供L层。其中输入为第0层,输出为L层
网络输出:\hat{y}=a^{[L]}=a;网络输入:a^{[0]}=x
网络中第l层输出:a^{[l]}=f(z^{[l]}),选取作用函数为Sigmoid函数,则可记为:a^{[l]}=\sigma(z^{[l]})
权值连接:w_{ij}^{[l]} ,表示连接第l层第i个节点和第l-1层第j个节点的权值

设算法的输入输出样本(导师信号)为:
\{x^{(1)},y^{(1)}\},\{x^{(2)},y^{(2)}\},...\{x^{(N)},y^{(N)}\}
即共N个样本。或记为 \{x^{(i)},y^{(i)}\},i=1,...,N
网络训练的目的,是使对每一个输入样本,调整网络参数,使输出均方误差最小化。这是一个最优化问题。
选取:J(x^{(i)};w)=\frac{1}{2}(y^{(i)}-\hat{y}^{(i)}(x;w))^2=\frac{1}{2}(y^{(i)}-a^{(i)}(x;w))^2

考虑迭代算法,设初始权值为w_0, k时刻权值为w_k, 则使用泰勒级数
展开,有:J(w_{k+1})=J(w_k)+[\frac{dJ}{d\theta}]^T\Delta w_k+...

问题:如何选择\Delta w_k,使J最小?

最直接的方法就是选择\Delta w_k=-\alpha \frac{dJ}{dw},0<\alpha\leq1
这样每一步都能保证J(w_{k+1})\leq J(w_k) ,从而使J最终可收敛到最小。
这就是梯度下降算法,也是BP学习算法的基本思想。

①设置初始权系数w_0为较小的随机非零值;
②给定输入/输出样本对,计算网络输出, 完成前向传播
③计算目标函数J。如J<\varepsilon, 训练成功,退出;否则转入④
④反向传播计算 由输出层,按梯度下降法将误差反向传播,逐层调整权值。

 2.5 总结

缺点
算法非全局收敛;
收敛速度慢;
学习速率α选择;
神经网络如何设计(几层?节点数?)

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值