1、处理顺序数据
处理顺序数据时考虑每个时间戳的上下文
安装命令:pip install keras-self-attention
2、基本用法
默认情况下,注意力层使用附加注意力,并在计算相关性时考虑整个上下文。下面创建一个attention层,它遵循1中的方程(attention_activation是et,t`的激活功能)
import keras
from keras_self_attention import SeqSelfAttention
model = keras.models.Sequential()
model.add(keras.layers.Embedding(input_dim=10000, output_dim=300, mask_zero=True))
model.add(keras.layers.Bidirectional(keras.layers.LSTM(units=128, return_sequences=True)))
model.add(SeqSelfAttention(attention_activation=‘sigmoid’))
model.add(keras.layers.Dense(units=5))
model.compile(
optimizer=‘adam’,
loss=‘categorical_crossentropy’,
metrics=[‘categorical_accuracy’],
)
model.summary()
3、局部注意力机制对于一条数据,
全局背景过于宽泛,通过设置attention_width能够控制本地上下文的宽度
model.add(SeqSelfAttention(attention_width=15,
attention_activation=‘sigmoid’,
name=’Attention’
))
4、多头注意力机制
可以通过设置attention_type来使用多头注意力
此时et,t`的公式变:
from keras_self_attention import SeqSelfAttention
SeqSelfAttention(
attention_width=15,
attention_type=SeqSelfAttention.ATTENTION_TYPE_MUL,
attention_activation=None,
kernel_regularizer=keras.regularizers.l2(1e-6),
use_attention_bias=False,
name=‘Attention’,
)