论文阅读-One-shot learning with spiking neural network

摘要:
理解怎么一次发放学习能够被实现通过大脑的神经网络里的突触可塑性是一个主要开放问题。我们提出在脉冲神经元的循环网络中BPTT的估计值比如e-prop不能达到这个水平因为它们的区域突触可塑性被从生物学的观点临时的学习信号所门控着, 瞬时上升的随机投射损失在。网络输出,类似的在前馈网络中的传播队列。相反的,突触可塑性在大脑中被学习信号门控就好像多巴胺,被特定的大脑区域所发出的。这些大脑区域已经被可论证的被以一种幸存有关联任务被许可的方式的门控突触可塑性的演化所优化。我们发现一种相关的模型结构,学习信号被一个分离的被优化去促进快速学习的,通过本地的在学习任务大家庭的循环脉冲神经网络突触可塑性使一次发放成为可能。这相同的学习方式也支持潜在的输入来源的其次的可能性的快速的基于脉冲的学习。我们的新的学习方法也能解决一个开放问题在神经形态工程上,芯片内一次发放学习能力对于基于脉冲的神经形态设备使高度可取的,但是到目前为止没有被达到。我们的方法能能简单的被映射进神经形态的硬件,因此解决问题。
介绍:
训练一个循环神经网络最有力的方法依赖于基于导数的一个损失函数E的优化去获得一个网络参数W的执行好的集合。计算导数dE/dW的经典的方法是去实现BPTT。然而大脑不用BPTT去学习是被广泛的相信的。最近被提出的BPTT的替换物,例如RSNNs的e-prop和好像是大脑中学习的实现的基础的 人工神经网络的没有聚焦于两种变量的缓慢过程的RFLO
1、神经元和突触维持最近活动的痕迹,这个痕迹被知道去诱导突触可塑性如果被一个自顶向下的学习信号紧密跟随。这样的痕迹被称为合格的痕迹。我们把时间t从神经元i到神经元j的合格痕迹记作eijt

2、在大脑中有自顶向下的学习信号的一个丰富,有神经递质的形式和发放活动的形式,他们中的一些被知道是特别的对于不同的目标神经元数来说,和传输大量的学习相关的方面。我们把神经元j在时间t的学习信号表示为Ltj
这个理想的网络梯度下降的权重改变在循环神经网络中能被表示为:
在这里插入图片描述
在时间t的线上突触可塑性规则在这里插入图片描述
这个合格的痕迹etji 对于损失函数E是独立的并且仅仅依赖于突触前和突触后神经元的激活函数的历史这个理想的对于实现梯度下降的学习信号在这里插入图片描述的理想值是完全求导在这里插入图片描述学习信号一般不可得,因为它一般依赖于一个脉冲的一个脉冲通过未来神经元输出在损失函数的值上在时间t的影响。在随机的e-prop中它被替代为一个网络的随机映射。BPTT的估计工作的还可以,但是BPTT需要大量的训练样本。我们提出了一个更加像大脑的e-prop学习信号代,一个分离的,优化的循环神经网络引出学习信号。我们发现这更加自然的设置,我们叫做自然的e-prop,事实上能使一次学习成为可能。我们也发现它能使基于脉冲的其后的可能性的学习成为可能,因此提供一个新的基础给模拟类脑可能计算用循环神经网络
结构:
我们的目的是去提供学习案例在原则上能去实现大脑的神经网络的细节模型。我们聚焦在简单标准的模型给脉冲神经元,更精确的是LIF神经元和一个用(Spike-Frequency-Adaptation)SFA(峰值频率适应)进行转变我们叫做ALIF神经元。一个LIF神经元的隐藏层是它的细胞膜电势,是一个来自突触前神经元的脉冲训练的低通滤波器版本的突触权重的总和,ALIF神经元有一个适应性发放阈值作为一个次要的隐藏变量。它提高了神经元的每一次脉冲,并且延时回基准线用一个时间常数经典的按照生物数据的秒的范围。我们总结在循环神经网络中的ALIF神经元在图2和图3因为这些神经元的存在提高了循环神经网络的短暂计算的可能性,并且因为在大脑皮层中展示SFA的金字塔细胞的百分之20-40按照艾伦协会的数据库。我们用简单的全连接循环神经网络,但是相似的结果能被达到用更稀缺的被连接的网络。我们用这些循环神经网络到模型同时用我们学习结构的学习网络和学习信号发生器
在这里插入图片描述
图1:自然的e-prop的新奇的手臂运动的一次发放学习。A)自然e-prop的一般结构。LN的输入xt存在于一个类时钟信号的例子,输出yt是手的两个关节的速度在这里插入图片描述。LSG收到除了一个xt的副本之外还有LN的活动zt和目标行为X*,t 作为在线网络的输入。B)来自L2L策略,在这里用于内循环里的突触可塑性。C)一个手臂的端点模拟装置行为Xt,t=1,。。。,500ms。D)一个新的手臂行为X*,t t=1,。。。,500ms的一次发放学习的示范:单次学习的实验被展示在左边。LN的突触权重被更新按照自然e-prop在单次实验之后。手臂行为Xt被LN处理在突触更新之后被展示在右边的表格里。脉冲光栅图表展示了一个神经元的子集。E)MSE在目标行为X*,t和Xt之间在测试实验里被展示在右边在D里作为训练时间的功能在外部的循环里。均值和标准偏差(STD)获得用不同初始化权重的4次运行。F)这个优化的LSG生成学习信号使其充分地与被BPTT用的“理想的学习信号”区分在运动学模型的知识下。
额外的输入到一个循环神经网络用权重的总和被整合到神经元的细胞膜电势。这个来自由低通滤波脉冲的权重总和组成的学习网络输出在学习网络中从神经元中训练,以一种性质上的行为在后阶段的神经元的细胞膜电势上的学习网络中模拟学习网络的脉冲影响。他们的时间常数被视为输出时间常数,他们的在输出值上的影响在一个任意的被选择的时间点t上被黄色的阴影指出在图1D,2C,3C中。重要的,这些时间常数分别的被选择去短暂的促进网络去持续基于脉冲而不是基于比率的计算。仿真被持续1ms。完全的细节被提供在附件1中。
算法:被自然e-prop进行的学习在两个阶段。在第一个阶段,与先前的演变相一致和发展的优化并且在一定程度上也先验学习,我们应用标准的L2L或者元学习案例。一个 特别的任务C的学习来自F被持续在L2L内部的循环通过等式1,以LSG提供的学习信号在这里插入图片描述在整个第一阶段,它被嵌入带一个外部的循环,突触权重θ被与LSG和学习网络的初始化权重联系在一起被优化通过BPTT.

特别的,每一次这个这个学习网络第一次面临一个新的来自家族F的任务C,它以突触权重Winit和更新这些根据公式1。学习网络的在任务C上的学习表现被以一些损失函数Ec(y1,…,yT)评估,yt指示这些在时间t和T的学习网络来自学习网络的输出是网络花费在任务C上的完整的持续时间。然后我们最小化这个损失Ec在很多随机从家族F被引出的任务实例C上。这个在外部的循环优化被实现通过BPTT。另外这个损失函数被描述在特殊的应用上,我们用正则化的目的是去带一循环神经网络进入一个稀疏的发放制度的项。先前的L2L应用被用在内部循环的学习里是bp或者在所有里的没有突触可塑性。

在学习的第一个阶段之后,所有的被外面的循环规则化的参数被保持固定,学习网络学习表现被评估为新的被随机从F中拖拉出来的任务C。这个表现被评估在图1E,2D,3D作为在阶段1期间的外部循环的过程迭代的数量的功能。

除了自然e-prop,我们也测试一个简化了的版本的表现,叫做restricted自然e-prop。像随机e-prop,它没有用LSG和学习信号是即刻上升的损失的权重总和在LN的输出。但是与随机的e-prop对比,这些误差广播的权重-和LN的初始化权重-是不被随机选择的但是在与自然e-prop的外部循环相一致的L2L的外部循环里被优化。
合格的痕迹etij在公式1里反应了权重wji的影响在时间t神经元j的发放上,但是只需要去考虑依赖性不需要去涉及除了i和j以外的其他细胞。比如说一个标准的标准的LIF神经元它是简单的一个来自突触前神经元i到t-1时刻的脉冲训练的低通滤波版本的产物和一项依赖于在时间t的突触前神经元j的细胞膜的去极化。对于ALIF神经元这个合格的痕迹变成了有一点儿更复杂,因为它涉及了然后也神经元的功能依赖性发放阈值的短暂演变。更加精准的,如果htj表示这个神经元j的内部状态向量,也就是在LIF神经元的情况下的细胞膜的电压和在ALIF神经元中的发放阈值,这个合格的痕迹被定义为在这里插入图片描述.这个数量在这里插入图片描述是一个所谓的合格向量并且递归地被定义为在这里插入图片描述因此按照突触后神经元的动态特性及时向前传播一个合格。注意一般是没有被定义的为一个脉冲神经元的,并且因为被替换成一个假的派生物,和(Bellec et al., 2018)的相似,按照(Bellec et al., 2019)这些规范的合格的痕迹性质上是跟那些实验上已经观察到的相似的他们能被一个先前的pre-before-post发放事件的衰退的记忆所估计。学习算法的全细节,正则化,还有超参数的值被给在附件1。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值