山东大学软件学院创新实训：角色疆界 - 智能电影角色扮演对话大模型（七）

z1123592075

已于 2024-06-24 10:58:43 修改

阅读量467

点赞数 19

文章标签：深度学习 pytorch

于 2024-06-23 20:42:08 首次发布

本文链接：https://blog.csdn.net/z1123592075/article/details/139905805

版权

编写脚本评估

BLUE

介绍

BLEU（Bilingual Evaluation Understudy）是一种用于评估机器翻译和其他自然语言生成系统输出的自动化指标。它通过比较机器翻译的输出与一个或多个参考翻译来计算得分，得分越高表示翻译质量越好。BLEU的基本思想是计算机器翻译与参考翻译在n-gram上的重合度。
BLEU评分的计算步骤

分词：将机器翻译结果和参考翻译分成n-gram。
统计匹配的n-gram数量：计算机器翻译结果中的n-gram在参考翻译中出现的次数。
计算精确度：匹配的n-gram数量除以机器翻译结果中n-gram的总数。
加权几何平均：对不同长度的n-gram（如1-gram、2-gram、3-gram、4-gram）的精确度进行加权几何平均。
惩罚因子：如果机器翻译结果的长度与参考翻译结果的长度差别很大，会加入一个惩罚因子（Brevity Penalty，简称BP）来修正得分。

我们针对Dialogue prediction、Action prediction、Relationship judgment、Logical analysis进行了BLUE分数评估。

代码实现

以下为代码实现。

首先需要有candidate和reference：

# Test
candidate = ['It', 'is', 'to', 'insure', 'the', 'troops','forever',
            'hearing', 'the', 'activity', 'guidebook','that', 'party', 'direct']
reference = [['It', 'is', 'a', 'guide', 'to', 'action', 'that', 'ensures', 'that',
                  'the', 'military', 'will', 'forever', 'heed', 'Party', 'commands'],
                ['It', 'is', 'the', 'guiding', 'principle', 'which', 'guarantees',
                 'the', 'military',

最低0.47元/天解锁文章

z1123592075

关注

19
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
山东大学软件学院创新实训：角色疆界 - 智能电影角色扮演对话大模型（七）

当我们谈论分类模型的性能评估时，"Accuracy"（准确率）是一个常见的指标。它衡量了模型在所有预测中正确预测的比例。具体而言，准确率通常被定义为模型正确预测的样本数与总样本数之比。假设一个分类模型对于一个数据集中的样本进行了预测，正确预测的样本数为 ( N_{correct} )，总样本数为 ( N_{total} )，则准确率 ( Acc ) 可以用以下公式表示：准确率的取值范围在 0 到 100 之间，表示的是模型预测正确的百分比。
复制链接

扫一扫