Rouge评估方法介绍及使用

最新推荐文章于 2024-06-10 11:28:48 发布

神奇的布欧

最新推荐文章于 2024-06-10 11:28:48 发布

阅读量1.4k

点赞数 20

分类专栏： PyTorch2深度学习实战入门文章标签： nlp 自然语言处理深度学习人工智能 python 机器翻译

本文链接：https://blog.csdn.net/weixin_44144773/article/details/136051648

版权

PyTorch2深度学习实战入门专栏收录该内容

17 篇文章 7 订阅

订阅专栏

本文介绍了Rouge评估方法，包括ROUGE-N（基于n-gram的共现信息评价），如ROUGE-1、ROUGE-2和ROUGE-L（最长公共子序列），以及如何在Python中使用Rouge库计算文本摘要的质量。外部评价方法提及了文档应用中的摘要质量评估标准。

摘要由CSDN通过智能技术生成

Rouge评估方法的使用

文本摘要评估方法介绍：

内部评价方法：提供参考摘要，以参考摘要为基准评价系统摘要的质量。系统摘要与参考摘要越吻合，质量越高。

Edmundson:

适于抽取式文本摘要，比较机械文摘(自动文摘系统得到的文摘)与目标文摘(从原文中抽取的句子)的句子重合率的高低对系统摘要进行评价。

计算公式：

重合率p = 匹配句子数 /专家文摘句子数 * 100%

每一个机械文摘的重合率为按三个专家给出的文摘得到的重合率的平均值：

其中，pi为相对于第i个专家的重合率，n为专家文摘总数。

ROUGE-N:

N-gram模型：
N-gram模型认为第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关。整句的概率就是各个词出现概率的乘积。

ROUGE（Recall-Oriented Understudy for Gisting Evaluation）基于摘要中n-gram的共现信息评价摘要，是一种面向n元词召回率的评价方法。

其中，Ref summaries表示标准摘要， $count_{match}(n-gram)$ 表示生成摘要和标准摘要中同时出现n-gram的个数，count(n-gram)表示参考摘要中出现的n-gram个数。

例1：

S1. police killed the gunman.

S2. the gunman was shot down by police.

S3. police ended the gunman.

S4. the gunman murdered police.

S1,S2为参考摘要，S2和S3为候选摘要。

$ROUGE-1_{s3} = \frac{(3+3)}{(4+7)} = \frac{6}{11}$

$ROUGE-1_{s4} = \frac{(3+3)}{(4+7)} = \frac{6}{11}$

$ROUGE-2_{s3} = \frac{(1+1)}{(3+6)} = \frac{2}{9}$

$ROUGE-2_{s4} = \frac{(1+1)}{(3+6)} = \frac{2}{9}$

以s3为例，1-gram为（police、ended、the、gunman）4种

2-gram为（police ended、ended the、the gunman）3种

s1：1-gram为（police、killed、the、gunman）4种

2-gram为（police killed、killed the、the gunman）3种

s2：1-gram为（the、gunman、was、shot、down、by、police）7种

2-gram为（the gunman、gunman was、was shot、shot down、down by、 by police）6种

s3的1-gram中和s1的1-gram中同时出现的有3个

==========> 3 + 3

s3的1-gram中和s2的1-gram中同时出现的有3个

s1的1-gram总数4个

==========> 4 + 7

s2的1-gram总数7个

ROUGE-L

下图是ROUGE-L的公式，其中LCS(X,Y)是X和Y的最长公共子序列的长度，m和n分别表示人工标准摘要和机器自动摘要的长度， $R_{lcs}$ 和 $P_{lcs}$ 分别表示召回率和准确率。 $F_{lcs}$ 就是Rouge-L。最长公共子序列的一个优点是它不需要连续匹配，而且反映了句子级词序的顺序匹配。由于它自动包含最长的顺序通用n-gram，因此不需要预定义n-gram的长度。

ROUGE-L: Longest Common Subsequence LCS（最长公共子序列）
序列X = [ $x_1, x_2,...,x_m$ ]
序列Z = [ $z_1,z_2,..., z_n$ ]
如果x中存在一个下标严格递增的子序列[ $i_1, i_2, ..., i_k$ ]，使得所有的

$x_{ij} = Z_j$ ；（j=1,2, …, k）.则称Z是X的子序列。

LCS：给定序列X、Y，使得公共子序列长度最大的序列为两者的最长公共子序列。

摘要X为参考摘要，长度为m；摘要Y为候选摘要，长度为n。以F值来衡量摘要X，Y的相似度。

在DUC评测大会中， $\beta$ → $\infty$ ,所以只考虑 $R_{lcs}$

$R_{lcs} = \frac{LCS(X, Y)}{m}$

$P_{lcs} = \frac{LCS(X, Y)}{n}$

$F_{lcs} = \frac{(1 + \beta^2)R_{lcs}P_{lcs}}{R_{lcs} + \beta^2P_{lcs}}$

例2：

S1. police killed the gunman.

S2. police ended the gunman.

S3. the gunman murdered police.

S1为参考摘要，S2、S3为候选摘要。取 $\beta$ =1

$ROUGE-L_{s2}$ = $\frac{3}{4}$ ===========> $\frac{count(police、the、gunman)}{count(police、killed、the、gunman)}$

$ROUGE-L_{s3}$ = $\frac{2}{4}$ ===========> $\frac{count(the、gunman)}{count(police、killed、the、gunman)}$

得到 $s_2优于s_3$

例3：

参考摘要集句子 $r_i$

$r_i = W1W2W3W4W5$

候选摘要C包含两个句子

$C_1 = W_1W_2W_6W_7W_8$

$C_2 = W_1W_3W_8W_9W_5$

$r_i与c_1的LCS为w_1w_2$

$r_i与c_2的LCS为w_1w_3w_5$

$r_i与C的unionLCS为w_1w_2w_3w_5$

$LCS\cup(r_i, C)=4$

$\frac{4}{5}$

ROUGE-W

引入加权系数W=连续匹配的最长公共子串长度

WLCS = W * LCS

为使连续匹配比不连续匹配赋予更大的权重，公式描述如下

f(x+y)>f(x)+f(y)

例如 $f(k)=k^a·a > 1$

同时为了归一化最终的ROUGE-W值，通常选择函数与反函数具有相似形式的函数。

例如 $f(k) = K^2$ $f^{-1}(k)=k^{1/2}$
外部评价方法：不提供参考摘要，利用文档摘要代替原文档执行某个文档相关的应用。例如：文档检索、文档分类等，能够提高应用性能的摘要被认为是质量好的摘要。

Rouge库在Python中的使用：

from rouge import Rouge
# 生成文本
generated_text = "Life is a journey, not a destination."
# 参考文本列表
reference_texts = "Life is a journey, not an endpoint."
# 计算 ROUGE 指标
rouge = Rouge()
scores = rouge.get_scores(generated_text, reference_texts)
# 打印结果
print("ROUGE-1 p:", scores[0]["rouge-1"]["p"])
print("ROUGE-1 r:", scores[0]["rouge-1"]["r"])
print("ROUGE-1 f:", scores[0]["rouge-1"]["f"])