目录
Self-Attention
Multi-Head Self-Attention
Cross-Attention
Masked Self-Attention
Teacher Froce
Copy Meachanism
在一些任务中需要直接复制某段文字,如人名地名等。
guided attention
beam search
在需要确定性回答的模型中(语音翻译等)beam search效果不错,但在翻译系统,问答系统中效果很差。
Expourse Bias
Scheduled Sampling:在训练时不仅使用gruth训练,为了减小expourse bias需要加入一些错误信息,但这样会破坏transformer的并行性。