文本摘要评估方法之BLEU和ROUGE

 BLEU

         BLEU(Bilingual Evaluation Understudy)是一种用于评估机器翻译和文本摘要等生成式模型任务质量的指标。

        核心点:BLEU 作为一种评估指标,特别适合用于衡量那些可能存在多个正确翻译结果的任务中的模型精确度。

        在评估文本摘要模型中,将模型给出的摘要与对应的几条人工摘要文本作比较, 算出来一个综合的分数. 这个综合分数越高说明模型的摘要表现越好。

        BLEU值范围 [0, 1] ,两个句子完美匹配取1,完美不匹配则取0

计算公式:

        BLEU=BP\cdot exp(\sum_{n=1}^{N}w_{n}\cdot \log P_{n})
P_{n} 是 n-gram 的精确度;n-gram 包括 unigram(单个词)、bigram(两个连续词)等

w_{n} 是各个 n-gram 精确度的权重,通常各 n-gram 权重均等

BP 惩罚因子,如果模型摘要长度小于最短人工摘要,则BP 小于1 

ROUGE 

        ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 是一种常用于文本摘要任务的评估指标。它通过计算自动生成的摘要与参考摘要之间的重叠部分来评估生成摘要的质量。

        评价标准主要有:

                ROUGE-N——主要统计n-gram上的召回率, 比较人工摘要和模型摘要分别计算n-gram的结果

                ROUGE-L——比较人工摘要和模型摘要的最长公共子序列(Longest Common Subsequence, LCS)

 计算公式:

        ROUGE-N = 模型摘要和人工摘要中共同拥有的n-gram数量 / 人工摘要中的n-gram数量

        (如果有多个人工摘要,取最大值)

        计算ROUGE-L时不要求词的连续匹配,只要求按词的顺序匹配

        R_{LCS} = \frac{LCS(C,S)}{len(S)},召回率

        P_{LCS}=\frac{LCS(C,S)}{len(C)},精确率

        F_{LCS}=\frac{(1+\beta^{2})R_{LCS}P_{LCS}}{R_{LCS}+\beta^{2}P_{LCS}},ROUGE-L分数

  • 9
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值