大模型评估指标

文生图模型

【全文参考这位up主:https://space.bilibili.com/510348890,讲得非常详细清除】

Inception score:越大越好

arxiv:https://arxiv.org/abs/1801.01973

Inception score:衡量生成图像的质量,通过计算生成图像的条件概率分布和边缘概率分布之间的KL散度。

Inception score 就是用inception v3模型输出一个分类概率分布,维度为1000,因为用的image数据集,一共1000个分类。
上公式:(懒得打了,看图片吧)
在这里插入图片描述

  • exp: 没有具体含义。
  • x~Pg :表示从生成器中生图片。
  • p(y|x) :把生成的图片 x 输入到 Inception V3,得到一个1000 维的向量 y ,也就是该图片属于各个类别的概率分布。表示的是图像的质量情况,分布越尖越好,因为他反应的是生成的图片属于某一个的概率,这个概率越高,就代表他生成的越准确。即对于清晰的生成图片,这个向量的某个维度值格外大,而其余的维度值格外小(也就是概率密度图十分尖)。
  • p(y) :N个生成的图片(N 通常取 5000),每个生成图片都输入到 Inception V3中,各自得到一个自己的概率分布向量,把这些向量求一个平均,代表是一个平均概率分布,代表的是一个生成器生成的多样性。他越平越好。

KL散度:度量两个概率分布之家你都差异程度,当KL散度越大,代表差异越大。我们想要的就是差异越大越好,因为一个平一个尖,越大越好。KL散度公式:

<think>嗯,用户想了解大模型评估指标,包括准确率、召回率、损失函数这些常见的,还有其他的性能评测标准。首先,我需要回忆一下常见的机器学习评估指标,然后考虑大模型特有的部分。 首先,损失函数确实是训练过程中用的,比如交叉熵损失、均方误差这些,但用户可能知道这些,需要确认是否属于评估指标。根据引用[1],损失函数是训练用的,评估指标是测试时用的,所以可能应该分开讲。 然后,基础分类指标有准确率、精确率、召回率、F1值。但引用[2]和[4]提到准确率在类别不平衡时的局限性,所以需要强调这些指标的应用场景和限制。比如准确率在数据不平衡时可能不准确,这时候需要用F1或者AUC-ROC。 接下来,回归任务常用的指标,如MAE、MSE、RMSE、R²,这些都是标准指标,应该包括进去。 大模型可能涉及生成任务,比如自然语言处理中的BLEU、ROUGE、METEOR,这些是评价生成文本质量的指标。用户可能知道准确率这些,但生成任务的不同之处需要说明。 还有特定任务指标,比如问答中的EM和F1,摘要的ROUGE,代码生成的执行准确率。这部分需要具体例子,让用户理解不同任务的不同评估方法。 性能效率指标也很重要,比如推理速度、内存占用、FLOPs,特别是大模型在部署时的资源消耗,这些影响实际应用。 新兴评估维度,比如伦理安全性、偏见检测、鲁棒性,这些是大模型特有的问题,可能需要引用相关研究,但用户提供的引用中没有提到这些,可能需要根据常识补充。 另外,大模型的多任务评估,比如MMLU、HELM,这些基准测试集用来全面评估模型能力,需要提及。 用户的问题可能更关注除了传统指标之外的大模型特有的评估方法,所以需要平衡传统和新兴指标。同时,注意引用已有的资料,比如引用[1]-[4]提到的准确率、召回率、损失函数的关系,以及类别不平衡的问题。 需要检查是否有遗漏的重要指标,比如人类评估,虽然主观但重要。或者像Toxicity评分这样的伦理相关指标。 最后,组织答案时要分点清晰,可能按任务类型分类,比如分类、回归、生成任务,再讲效率、伦理等。确保每个指标解释清楚,并提到其适用场景和限制,帮助用户全面理解。</think>### 大模型评估指标详解 大模型评估指标需要从多个维度综合衡量其性能,包括传统机器学习指标大模型特有的评估标准。以下是主要分类及说明: --- #### 一、**基础分类指标** 1. **准确率(Accuracy)** 定义:预测正确的样本占总样本的比例,公式为: $$ \text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN} $$ 适用场景:类别平衡的简单分类任务。 局限性:在类别不平衡时可能失真(例如99%负样本的数据集,模型全预测负类也能达到高准确率)[^4]。 2. **精确率(Precision)与召回率(Recall)** - 精确率:预测为正类的样本中实际为正类的比例,公式: $$ \text{Precision} = \frac{TP}{TP + FP} $$ - 召回率:实际为正类的样本中被正确预测的比例,公式: $$ \text{Recall} = \frac{TP}{TP + FN} $$ 适用场景:关注正类检测的任务(如医疗诊断、欺诈检测)[^2][^3]。 3. **F1-Score** 定义:精确率和召回率的调和平均数,公式: $$ F1 = \frac{2 \times \text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} $$ 适用场景:需要平衡精确率和召回率的场景(如信息检索)。 4. **AUC-ROC** 定义:通过绘制真正类率(TPR)与假正类率(FPR)的曲线下面积评估分类器整体性能,AUC值越大越好。 适用场景:类别不平衡或需要综合评估分类器排序能力的任务。 --- #### 二、**回归任务指标** 1. **均方误差(MSE)** 定义:预测值与真实值差的平方均值,公式: $$ \text{MSE} = \frac{1}{N} \sum_{i=1}^N (y_i - \hat{y}_i)^2 $$ 特点:对异常值敏感,反映误差的绝对大小。 2. **平均绝对误差(MAE)** 公式: $$ \text{MAE} = \frac{1}{N} \sum_{i=1}^N |y_i - \hat{y}_i| $$ 特点:鲁棒性更强,适合对异常值不敏感的任务。 --- #### 三、**生成任务专用指标** 1. **BLEU** 用途:评估机器翻译或文本生成的质量,通过比较生成文本与参考文本的n-gram重叠度。 公式: $$ \text{BLEU} = \text{BP} \times \exp\left( \sum_{n=1}^k w_n \log p_n \right) $$ 其中,BP(Brevity Penalty)惩罚过短输出。 2. **ROUGE** 用途:评估文本摘要或生成任务,关注召回率(如ROUGE-L基于最长公共子序列)。 3. **METEOR** 特点:引入同义词和词干匹配,比BLEU更接近人工评估结果。 --- #### 四、**大模型特有评估维度** 1. **任务多样性评测** - **MMLU(Massive Multitask Language Understanding)**:涵盖57个学科的多选题测试,评估模型跨领域知识掌握能力。 - **HELM(Holistic Evaluation of Language Models)**:从准确性、公平性、鲁棒性等维度综合评测。 2. **伦理与安全性** - **偏见检测**:通过特定数据集(如BOLD)评估模型输出中的性别、种族等偏见。 - **毒性评分(Toxicity Score)**:使用分类器检测生成内容中的攻击性语言。 3. **效率指标** - **推理速度(Tokens/Second)**:直接影响实际部署成本。 - **显存占用(GPU Memory)**:衡量模型对硬件资源的需求。 - **FLOPs(浮点运算次数)**:反映模型计算复杂度。 --- #### 五、**其他重要指标** 1. **损失函数(训练阶段)** 如交叉熵损失(分类)、均方误差(回归),用于优化模型参数,但需注意训练损失低不一定对应测试集高精度[^1]。 2. **人类评估(Human Evaluation)** 生成任务中常通过人工打分评估流畅性、相关性等主观指标。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值