MAUVE(MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers)阅读笔记

MAUVE是一种基于KL散度的文本生成效果评估方法,旨在解决现有指标与人类评估差异的问题。通过混合真实和生成文本分布,MAUVE计算曲线面积来度量相似性,适用于不可知分布的估计,通过实验验证了其与人类感知的相关性。
摘要由CSDN通过智能技术生成

MAUVE(MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers)阅读笔记

来源:NIPS outstanding paper

链接:https://proceedings.neurips.cc/paper/2021/file/260c2432a0eecc28ce03c10dadc078a4-Paper.pdf

1 动机

对文本生成模型进行评估成本较高;

现有的文本生成效果度量指标与人类评估结果存在差异;

2 贡献

提出MAUVE模型,从KL散度的角度进行文本生成效果评估;

经过实验证明,MAUVE的评估结果更符合人类感知。

3 方法

3.1 自回归文本生成模型

所谓自回归文本生成模型,就是通过从左向右或从右向左的单向推断,根据前面的输入序列依次推断出后面的词语的模型:

也就是说,每一个新的词汇都是根据前面输入+生成的词汇产生,最终获得一个句子输出:

3.2 文本生成误差分析

假设真实的文本分布为 P P P,生成文本分布为 Q Q Q,假如这两个分布的重合程度越高,那么就表示文本生成模型的生成效果越逼真,因此,我们可以根据分布不重合的情况定义两个文本误差:

类型一: Q Q Q生成了不符合实际的文本,比如下图右侧,没有人会在说话的时候把一个短语重复说;

类型二: Q Q Q没能生成符合实际的文本,比如下图左侧,一个人是可以描述他去了什么地方玩的过程的,但是生成模型可能没能生成这种表达。

这两种误差可以分别对应两种情况,对于类型一,可以定义为 Q ( x ) > P ( x ) Q(x)>P(x) Q(x)>P(x),对于类型二,可以定义为 P ( x ) > Q

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值