大模型评估指标

最新推荐文章于 2024-07-24 09:36:46 发布

流光追不及

最新推荐文章于 2024-07-24 09:36:46 发布

阅读量977

点赞数

文章标签：机器学习数据挖掘人工智能

本文链接：https://blog.csdn.net/zwdcdut/article/details/134414848

版权

数学公式识别中的评价指标（BLEU-4 ROUGE-4 Match Match-ws）

BLEU 指标是NLP中机器翻译/文本摘要等任务常用的评价指标。它是基于精确率（Precision）来设计的。NLP中有个重要的概念是n-gram，指一个语句里面连续的n个单词组成的片段；BLEU-n其实就是基于n-gram的评价指标

举个：

【candinate】:the cat sat on the mat

【reference】:the cat is on the mat

计算n-gram的精确率（reference中在candidate中出现的gram个数占reference总gram个数的比值）：

p1=5/6=0.83333

p2=3/5=0.6

p3=1/4=0.25

p4=0/3=0 （也就是BLEU-4）

1、n单位片段(n-gram)：指一个语句里面连续的n个单词组成的片段，一个18单词的语句有18个1-gram，每个单词都是一个1-gram；有17个2-gram，这个很好理解。

2、精确度(precision)：指Candidate语句里面的n-gram在所有Reference语句里面出现的概率。

优点：计算速度快、计算成本低、容易理解、与具体语言无关、和人类给的评估高度相关。
缺点：不考虑语言表达（语法）上的准确性；测评精度会受常用词的干扰；短译句的测评精度有时会较高；没有考虑同义词或相似表达的情况，可能会导致合理翻译被否定。

除了翻译之外，BLEU评分结合深度学习方法可应用于其他的语言生成问题，例如：语言生成、图片标题生成、文本摘要、语音识别。

from nltk.translate.bleu_score import sentence_bleu

reference = [['this', 'is', 'a', 'test'], ['this', 'is' 'test']]
candidate = ['this', 'is', 'a', 'test']

score = sentence_bleu(reference, candidate)
print(score

参考链接：https://coladrill.github.io/2018/10/20/%E6%B5%85%E8%B0%88BLEU%E8%AF%84%E5%88%86/

2.ROUGE-4（Recall-Oriented Understudy for Gisting Evaluation）

Rouge-1：它衡量生成的摘要与参考摘要中单个单词的重合程度。

Rouge-2：它衡量生成的摘要与参考摘要中相邻两个单词的重合程度。

Rouge-L：它使用最长公共子序列（LCS）来衡量生成的摘要与参考摘要的相似程度。

顾名思义，ROUGE主要是基于召回率（Recall）来设计的

举个：

【candidate】：the cat was found under the bed

【reference】：the cat was under the bed

列出1-gram、2gram、n-gram，以此类推：

其实Recall就是我们生成的句子中，是真实GT的gram个数的占比，比如：

Rouge-1=6/6 （因为reference 1-gram 共有6个，而且这6个都出现在了candidate的 1-gram中）

Rouge-2=4/5=0.8 （reference 2-gram 共有5个，其中有4个出现在了candidate的 2-gram中）

L即是LCS(longest common subsequence，最长公共子序列)的首字母，因为Rouge-L使用了最长公共子序列。Rouge-L计算方式如下图：

其中L C S ( X , Y ) LCS(X,Y)LCS(X,Y)是X和Y的最长公共子序列的长度，m,n分别表示参考摘要和自动摘要的长度

Rouge-S
即使用了skip-grams，在参考摘要和待评测摘要进行匹配时，不要求gram之间必须是连续的，可以“跳过”几个单词，比如skip-bigram，在产生grams时，允许最多跳过两个词。比如“cat in the hat”的 skip-bigrams 就是 “cat in, cat the, cat hat, in the, in hat, the hat”.

原文链接：https://blog.csdn.net/qq_25222361/article/details/78694617

虽然在公式识别中用的是最基础的BLEU-4 score，但其实NLP领域对于BLEU评价指标进行了许多的改进，例如：

1.添加对句子长度的惩罚因子（因为短句通常有较大的BLEU score）

2.分子截断计数（clip）（防止“the the the the”这种句子的重复计数，所以计数时如果一个单词片段已经被匹配，那么这个片段就不能再次被匹配）

有较大的BLEU score）

2.分子截断计数（clip）（防止“the the the the”这种句子的重复计数，所以计数时如果一个单词片段已经被匹配，那么这个片段就不能再次被匹配）

BLEU-4 score计算方式https://blog.csdn.net/rainy_universe/article/details/128472123