大模型及传统模型评估指标

本文探讨了大模型的评价指标,强调了准确率、精确率、召回率和F1 Score的重要性,并提醒在样本不均衡情况下准确率的局限性。同时,对于图像类算法,解释了PR曲线和避坑指南,包括RMSE、MAE、Huber Loss以及MAPE和MSLE的选择。最后,提供了大语言模型的评价框架参考链接。
摘要由CSDN通过智能技术生成

一、大模型评价指标

在这里插入图片描述

二、图像类算法指标

避坑指南

1、准确率Accuracy有一个缺点,就是数据的样本不均衡,这个指标是不能评价模型的性能优劣的
2、如果阈值较高,那么精准率Precision会高,但是会漏掉很多数据;如果阈值较低,召回率Recall高,但是预测的会很不准确
3、F1 Score是一种调和平均数,兼顾Precision和Recall
4、AP表示的是检测器在各个recall情况下的平均值,PR曲线

指标详细公式

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值