机器翻译及相关技术
机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。
主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。
分词: 字符串---单词组成的列表
建立词典: 单词组成的列表---单词id组成的列表
Encoder-Decoder: 可以应用在对话系统、生成式任务中。
encoder:输入到隐藏状态
decoder:隐藏状态到输出
集束搜索(Beam Search)
维特比算法:选择整体分数最高的句子(搜索空间太大)
二 注意力机制与Seq2Seq模型
解码的目标词语可能只与原输入的部分词语有关,而并不是与所有的输入有关,在seq2seq模型中,解码器只能隐式地从编码器的最终状态中选择相应的信息。然而,注意力机制可以将这种选择过程显式地建模。
两个常用的注意层 Dot-product Attention 和 Multilayer Perceptron Attention
1 Softmax屏蔽
softmax操作符的一个屏蔽操作
2 点积注意力
The dot product 假设query和keys有相同的维度,通过计算query和key转置的乘积来计算attention score,通常还会除去