MAUVE(MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers)阅读笔记
来源:NIPS outstanding paper
链接:https://proceedings.neurips.cc/paper/2021/file/260c2432a0eecc28ce03c10dadc078a4-Paper.pdf
1 动机
对文本生成模型进行评估成本较高;
现有的文本生成效果度量指标与人类评估结果存在差异;
2 贡献
提出MAUVE模型,从KL散度的角度进行文本生成效果评估;
经过实验证明,MAUVE的评估结果更符合人类感知。
3 方法
3.1 自回归文本生成模型
所谓自回归文本生成模型,就是通过从左向右或从右向左的单向推断,根据前面的输入序列依次推断出后面的词语的模型:

也就是说,每一个新的词汇都是根据前面输入+生成的词汇产生,最终获得一个句子输出:

3.2 文本生成误差分析
假设真实的文本分布为 P P P,生成文本分布为 Q Q Q,假如这两个分布的重合程度越高,那么就表示文本生成模型的生成效果越逼真,因此,我们可以根据分布不重合的情况定义两个文本误差:
类型一: Q Q Q生成了不符合实际的文本,比如下图右侧,没有人会在说话的时候把一个短语重复说;
类型二: Q Q Q没能生成符合实际的文本,比如下图左侧,一个人是可以描述他去了什么地方玩的过程的,但是生成模型可能没能生成这种表达。

这两种误差可以分别对应两种情况,对于类型一,可以定义为 Q ( x ) > P ( x ) Q(x)>P(x) Q(x)>P(x),对于类型二,可以定义为 P ( x ) > Q