深度学习评价指标汇总（自用）

最新推荐文章于 2024-07-25 23:06:58 发布

zerostartgo

最新推荐文章于 2024-07-25 23:06:58 发布

阅读量400

点赞数 6

文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zerostartgo/article/details/136085001

版权

1、BLEU：机器翻译评价指标。

总体思想是准确率。假如给定标准译文reference，神经网络生成的句子是candidate，句子长度为n，candidate中有m个单词出现在reference，m/n就是bleu的1-gram的计算公式。

BLEU还有许多变种。根据n-gram可以划分成多种评价指标，常见的指标有BLEU-1、BLEU-2、BLEU-3、BLEU-4四种，其中n-gram指的是连续的单词个数为n。

BLEU-1衡量的是单词级别的准确性，更高阶的bleu可以衡量句子的流畅性。

【参考文献】BLEU详解 - 知乎 (zhihu.com)

2、ROUGE：机器翻译、自动摘要、问答生成等领域常见的评估指标。

ROUGE通过将模型生成的摘要或者回答与参考答案（一般是人工生成的）进行比较计算，得到对应的得分。ROUGE指标与BLEU指标非常类似，均可用来衡量生成结果和标准结果的匹配程度，不同的是ROUGE基于召回率，BLEU更看重准确率。BLEU侧重于衡量翻译的准确性和精确匹配程度，更偏向于Precision，而ROUGE侧重于衡量摘要的信息完整性和涵盖程度，更偏向于Recall。

a. ROUGE指标是用于评估文本摘要任务的，因此我们将参考翻译和系统生成的翻译视为两个文本摘要。

b. 首先，我们计算系统生成的翻译中包含的n-gram在参考翻译中出现的次数。

c. 接下来，计算召回率（recall）：将匹配的n-gram总数除以参考翻译中的总n-gram数。例如，1-gram中有3个匹配，参考翻译总共有4个1-gram，因此召回率为3/4。

d. ROUGE得分可以根据需要使用不同的n-gram大小，通常使用ROUGE-1、ROUGE-2和ROUGE-L。

ROUGE-1 = 召回率（系统生成的1-gram匹配数 / 参考翻译中的1-gram总数）

ROUGE-2 = 召回率（系统生成的2-gram匹配数 / 参考翻译中的2-gram总数）

ROUGE-L = 最长公共子序列（Longest Common Subsequence，LCSS）的长度 / 参考翻译的总长度

缺点是这种方法只能在单词、短语的角度去衡量两个句子的形似度。并不能支持同义词、近义词等语意级别去衡量。

【参考文献】一文带你理解｜NLP评价指标 BLEU 和 ROUGE（无公式） - 知乎 (zhihu.com)

关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
深度学习评价指标汇总（自用）

ROUGE通过将模型生成的摘要或者回答与参考答案（一般是人工生成的）进行比较计算，得到对应的得分。ROUGE指标与BLEU指标非常类似，均可用来衡量生成结果和标准结果的匹配程度，不同的是ROUGE基于召回率，BLEU更看重准确率。BLEU侧重于衡量翻译的准确性和精确匹配程度，更偏向于Precision，而ROUGE侧重于衡量摘要的信息完整性和涵盖程度，更偏向于Recall。a. ROUGE指标是用于评估文本摘要任务的，因此我们将参考翻译和系统生成的翻译视为两个文本摘要。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。