Attention是一种近年来较为流行的机制,广泛地在自然语言处理、计算机视觉等领域应用。它的作用机制易于人类理解——给重要区域更多的注意力。
但是,如何判断什么是“重要”的?注意力又是如何影响决策的?
本文将尝试细致理解Attention机制及其几个典型变种,以期真正理解attention机制并得以在今后灵活运用和改进。
Attention alpha
首先让我们探究最原始的Attention形态及其原理。
seq2seq
Attention机制最早在机器翻译任务中被提出,在attention被应用之前,该任务采用Seq2Seq模型来解决这一问题:
x t x_t xt是 t t t时刻输入, h t h_t ht是对应隐空间编码, c c c是代表整段输入的隐空间特征, h ′ t ′ {h'}_{t'} h′t′是 t ′ t' t′时刻对应的隐空间编码, y t ′ {y}_{t'} yt′