论文阅读——CCN GAC WORKSHOP:ISSUES WITH LEARNING IN BIOLOGICAL RECURRENT NEURAL NETWORKS

一、介绍
生物中介擅长于涉及到长期短暂从属的学习任务。在学习这样的任务中的关键挑战之一是短暂信誉分配的问题:可靠地分配重要性给过去神经元状态。解决这个问题在于学习短期和长期的联合。
神经网络由周期神经网络填充,动作电势被神经元传送通过一个或者两个传递到其他本地神经元。在大脑里神经元都是以一个环状形式进行交流的。所以信誉分配机制就决定了在这个网络的哪里和什什么时候一个改变就必须被做去提升未来的表现。在人工的循环神经网络中,这个问题就可以用BPTT和一个结构的优化选择来解决。但是生物神经元的操作随从和记忆的可获得性不太够去实现BPTT。因为BPTT要求人工神经网络连续不断的跟踪他们没有连接的神经元突触活动。
他们在介绍部分讨论的包含四个部分:
1、用突触可塑性解决短暂信誉编码问题的 Bio-plausible方法。
2、在短暂信誉编码中神经回路和结构所扮演的角色。
3、目标函数在大脑的循环回路中的性质
4、实验告诉我们:比较计算模型和实验证据的限制。

用突触可塑性解决短暂信誉编码问题的 Bio-plausible方法。
他们的小组同意短暂信誉分配在一定程度上在周期性的突触上有突触可塑性。此外,循环的可塑性在早期发展阶段和成年期都有普遍的一致。
在实验中,他们发现突触强度是高度可塑的,在早期为一个突触充电的条件是没有在成年期充电严格的。就像动物变老,突触可塑性变得更可控和依赖于额外因素的存在,比如说神经递质或者抑制的释放。此外 ,感觉区域的突触往往比更高区域的可塑性要低,虽然在感觉循环突触的可塑性仍然可以在正确的条件下观察到。
在实现一个生物可塑的短暂信誉分配机制有有一些成功的案例能解决重要任务,在深层循环网络中BPTT的效率。估计梯度最成功的方法是用神经递质的结合和随着时间过去神经元对彼此的相互作用的本地估计。然而,在说起它作为对BPTT的一般功能替换,它的功效是仍然有差距的。现在仍然不知道是否它的功效被其他问题域所约束。不同的大脑区域用不用的策略去学习感觉数据的短暂结构和被其他算法所提供的特殊解决方式是局限于特殊大脑区域的特殊任务的。无论如何,被讨论的算法不能吸收每一种可能的方法去传递本地的或是全局的关于跨越时间的网络活动。就像这种对短暂信誉分配可能解决方案的范围在生物循环神经网络组中仍是非常的为充分开发的。
总的来说,小组知道现在在神经元回路里的循环突触的能力的短暂信誉分配的计算模型效果并不好。
在短暂信誉编码中神经回路和结构所扮演的角色。
微回路和和连通性通过种类和个体被保存被证实性。此外,在视觉、躯体感觉、听觉或者马达皮层的功能专门化的度连续不断的通过大脑区域引出。保存的度暗示了被要求去生成的这些结构的很多信息被保存在基因里,就像一系列人类进化。而小组同意好像极端的说学习依赖于突触前的循环回路,有清晰的约束通过提供有用的感应的偏置给自组织和学习的基因编码被施加。
这些被保存的微回路结构提供高效的短暂信誉分配吗?或者这些被保存的微回路结构潜在地提供一个不需要基于经验被更新的强感应偏置吗?最近的实验已经已经展示了突触权重改变被精选并且遵守优先结构特性。一个研究将皮层微回路的关键特征映射到艺术可控在机器学习上的循环神经网络的状态上。这就揭示了被保存的结构所支持的计算原则。用另一句话说,学习听力识别任务优先地加强与高低频率有关的突触,依赖于奖励结构。此外,在一个后续的实验中了解到,如果任务结构被改变在动物已经了解到旧任务之后,那它的突触权重就不会改变。虽然上述的实验面向工程一个区域到另一个,他们喜欢微回路结构通过在循环连接中的被限制的突触提供一个强感应偏置。
然而,展示支持确定的循环回路是否在实验中起到一部分作用或者一点也不的实验证据是困难的。所有的座谈小组同意设计一个实验顺着上面提到的线,在学习将会提供一个更好的见解去解决这个事件期间在任务相关的循环连接中学习突触可塑性。此外,在循环回路中可塑性的角色将会被破坏如果当这些特定的突触权重改变被破坏我们能评估学习的不足。显著的,一个有意义的挑战可以设计一个要求代理人去依赖于好的短暂信誉分配方案。在计算的研究中经常会发现在几个联合的学习任务中的表现用一个带有确定的动态的和可塑的和只在前馈输出权重的液体状态机能解释。可论证地,经典的行为任务被神经科学家调查也许不需要一个深度的信誉分配机制。
大脑的目标功能是什么?
我们座谈小组同意好的信誉分配很可能要求突触可塑性至少去成为对梯度下降的粗略估计顺着一些目标功能。探索统计短暂的规则对于幸存者来说是决定性的,并且基本的感觉调试要求一些信誉分配的形式。
目标函数的性质是未知的。因为动物很少被给精确的外部反馈,它很有可能被固有的信号所驱动,经常被视为自监督学习。一个很流行的假设是学习的主要驱动力是预测,在预测里微回路被训练去预测他们自己的未来活动。,并且传递预测误差或者惊奇的信号给周围的回路。通过这么做,神经元们学习去把外部特征和相似的特性放在一起,比如说这个根本的基础拥有可预测的有因果关系的相互反应的世界模型。
然而预测学习的形式也许在大脑里是重要的,在不同的大脑区域多目标的大脑学习它也许是和彼此竞争或学习。强调的大脑区域能为了控制竞争(基于习惯的或者有目标的大脑区域为了动作选择而竞争),大脑区域能合作(反馈联合的大脑皮层在感受皮层中引导可塑性)。多目标训练在深度神经网络中广泛传播,对抗的例子:变异自编码和生成对抗网络。还有合作的例子:解耦神经接口和Siamese网络)训练。
实验能告诉我们什么:在对比计算模型和实验证据中的限制。
根本的,座谈小组同意这是实验上的挑战去一直监控着大量的突触并且把它们的改变和行为联系。一个对于理论和实验的神经科学家来说困难的问题是你怎么知道什么时候可塑性是因为学习?突触强度能改变因为大量的原因,比如说:一直尝试去维持神经元活动的连续不断的度的自我平衡的机制在一个单个细胞和人口水平。(因为除了一些明显学习的原因,提升或者下降权重的自我平衡机制)此外,记忆痕迹和神经元装配被形成和被一直与行为持续改变相联系。
迄今为止,没有技术存在在一个高度暂时的决心允许突触可塑性的大量的、直接的、长期的监控。然而,Tony Zador通过概述科技发展–不久将会允许可塑性的一些形式的大规模监控来促进我们的讨论。这个被提出的技巧依赖于标记的被插入到解剖后能看到的突触后细胞膜的和被和其父神经元联合在一起的谷氨酸盐接收器。在和行为任务结合在一起,这允许突触强度的观察,这个变化发生在学习的过程中且解剖后试管实验能够被用来去询问突触的改变已经被记录下来的可塑性规则。当这个代表在现代实验方法上的一个进步时,在学习的过程中,它仍然离观察突触强度的动态变化很远。虽然它仍然没有被实现,在我们对在神经回路学习的理解上,这样一个技术将很可能有一个与这个领域转变有关的影响。
然而,一直跟踪一个网络的突触权重的工具的缺乏并没有让来自来自对躯体和树突活动的观察的推理可塑性机制。同样的,他应该可能去用一些来自实验用现在可获得的技术去收集一些见解。比如说,Gillon等人证明那个不被期待的事件信号在单个神经元里和视觉皮层末端顶上树突能不同地预测后来的改变作为对已经预测的和未预测信号做出回应。同时,在神经网络中它能够展示它可能解码那些谁的更新规则仅仅基于结点活化作用上。这展示了它也许可能提供一些关于来自神经元动态的突触动态的信息,如果模型关于突触可塑性与神经元动态相联系并且学习能被清晰的陈述的假设。
关于解决在生物循环网络中短暂信誉分配是怎么实现的很多困难来自于连接改变、突触去改变以及行为上的限制。同时,在人工循环神经回路中学习的生物激励的解决方案为充分开发的。什么特殊的任务、回路和种类我们能用来去思考这些事件。
理论上的神经元科学家的优先权应该要扩展到模型空间:

  • 我们需要去提出具体的和实验上可测试的近似的在神经回路里尊重操作的时空复杂性的信誉分配机制
  • 决定性重要的,一个被提出的算法不得不解决一个至关重要的任务在进行于电脑中。
  • 我们应该通过不同的计算估计去分析共性和不同点。

一个不同理论的有效的组别将会使实验的预测变得更灵活去测试。并且允许我们去理解在哪里、什么时候这些被提出的信息分配机制被最好地展开。
而行为上的科学家应该把设计行为上的类似物给一般的开发一个动物的本质行为的机器学习任务。

  • 我们需要设计足够复杂的去要求面对较重大的信誉分配且不能用一个浅层网络去完成的任务,比如说,应该是非线性可分离的,实验上灵活的。
  • 我们应该同时记录躯体的、理想上的神经元活动以及树突活动通过想象技巧去支持计算神经科学家们。

包括摩托控制任务的信誉分配重要的任务的好的例子,被延迟的未匹配到样本任务的和在自然的搜索或者害怕行为期间,的路径集合任务。同样的,在结构、优化器和损失函数被完全特定的情况下,从躯体和树突行为可以潜在地被直接和被学习到的陈述和被观察到的动态行为在深层人工神经网络里。这个数据也许被大脑用来帮助去揭示可塑性最强的短暂信誉分配机制。
我们用一个观众投票总结我们的研讨会为了评估读者的要点和校准座谈小组的观点。图一表明了被提交的反应的分配。
在这里插入图片描述

图一:密度图表阐明了读者对一系列关于突触可塑性问题的情感,梯度计算和发展的神经元回路。58个调查对象已经参加了这调查问卷。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值