上一篇笔记中讲到了:意识的汇聚和专注使灵长类动物能够在复杂的视觉环境中将注意力引向感兴趣的物体,例如猎物和天敌。只关注一小部分信息的能力对进化更加有意义,使人类得以生存和成功。
本篇笔记继续讨论注意力机制的内在原理与框架。
注意力是稀缺的,而环境中的干扰注意力的信息却并不少。比如人类的视觉神经系统大约每秒接收10^8位信息,这远远超出了大脑完全处理的能力。人类的祖先已经从经验中认识到“并非感官的所有输入都是一样的”。整个人类历史中,这种只将注意力引向感兴趣的一小部分信息的能力,使人类的大脑能够更明智地分配资源来生存、生长和社交。
问题1:注意力是如何应用于视觉世界中的呢?
答案从双组件框架讲起,框架中受试者基于非自主性提示和自主性提示有选择地引导注意力地焦点。
非自主性提示是基于环境中物体地突出性和易见性,如时下流行的“显眼包”,能轻松地吸引人们的注意。
自主性提示依赖于任务的意志提示(想读一本书),注意力被自主引导到书上。
自主性的与非自主性的注意力提示解释了人类的注意力的方式。
下面来看看如何通过这两种注意力提示,用神经网络来设计注意力机制的框架。
关键点1:“是否包含自主性提示”是其中的关键要素,区分人不同的处理方式!
在注意力机制背景下,自主性提示被称为查询。给定任何查询,注意力机制通过注意力汇聚将选择引导至感官输入(例如中间特征表示)。
可通过设计注意力汇聚的方式,便于给定的查询(自主性提示)与键(非自主性提示)进行匹配,这将引导得出最匹配的值(感官输入)。如下图所示: