序列生成问题概述
序列生成问题:
- 机器翻译问题
- 文本摘要
- 对话系统
序列生成方式:
- (条件)自回归序列生成:根据输入的内容X和Y历史序列预测序列中的下一个值的生成
- 自编码生成:利用让输出值等于输入值的神经网络经反向传播算法将输入压缩成潜在空间表征,然后将这种表征重构为输出。常用于数据的降维和去噪。深度学习中建模序列生成方法:端到端方式将一个序列化数据映射成另一个序列化数据。(Seq2Seq模型)。主要基于Encoder-Decoder框架实现。
生成式-序列生成模型
基本RNN
曝光误差(exposure bias)
https://blog.csdn.net/qq_41475067/article/details/117251469
RNN+Attention
Transformer
全部采用Attention机制,克服了RNN无法并行计算的缺点,可以高速并行,训练速度快
模型结构:
- 编码端:6层Attention堆叠
- 解码端:6层Attention堆叠
- 交叉注意力部分:解码端的每一层与编码端的最后层做cross-attention
选择式-序列生成模型
指针网络
选择-生成式序列生成模型
指针网和生成网结合,构建可生成也可将输入序列中的词拷贝到输出中的选择-生成式网络
评价指标
正确率P:测试结果中正确切分的个数占系统所有输出结果的比例
召回率R:测试结果中正确结果的个数占标准答案总数的比例
BLEU:衡量模型生成序列和参考序列之间的N元词组的重合度
RGOUGE:最早用于文本摘要领域
存在问题
曝光偏差问题
- 解决方法:Scheduled Sampling
训练-评价目标不一致问题
- 解决方法:采用强化学习的策略进行模型训练