大模型及传统模型评估指标

阿信Huang

已于 2023-07-27 10:02:55 修改

阅读量3.2k

点赞数 2

文章标签：人工智能大数据

于 2023-07-21 15:07:33 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48579885/article/details/131848446

版权

本文探讨了大模型的评价指标，强调了准确率、精确率、召回率和F1 Score的重要性，并提醒在样本不均衡情况下准确率的局限性。同时，对于图像类算法，解释了PR曲线和避坑指南，包括RMSE、MAE、Huber Loss以及MAPE和MSLE的选择。最后，提供了大语言模型的评价框架参考链接。

摘要由CSDN通过智能技术生成

一、大模型评价指标

在这里插入图片描述

二、图像类算法指标

避坑指南

1、准确率Accuracy有一个缺点，就是数据的样本不均衡，这个指标是不能评价模型的性能优劣的
2、如果阈值较高，那么精准率Precision会高，但是会漏掉很多数据；如果阈值较低，召回率Recall高，但是预测的会很不准确
3、F1 Score是一种调和平均数，兼顾Precision和Recall
4、AP表示的是检测器在各个recall情况下的平均值，PR曲线

指标详细公式

在这里插入图片描述

最低0.47元/天解锁文章

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
大模型及传统模型评估指标

3、Huber Loss结合了MSE和MAE的特点，在误差接近0时使用MSE，在误差较大时使用MAE，但是需要额外设置一个delta超参数。2、如果阈值较高，那么精准率Precision会高，但是会漏掉很多数据；4、如果存在不同样本的真实值有量级差或者更加关注预测和真实值的百分比差异的情况,最好选用MAPE。1、准确率Accuracy有一个缺点，就是数据的样本不均衡，这个指标是不能评价模型的性能优劣的。1、RMSE 的最优化是试图找到平均值，而 MAE 的最优化是让预测偏高的次数与偏低的次数相等。
复制链接

扫一扫

阿信Huang CSDN认证博客专家 CSDN认证企业博客

码龄4年

25: 原创

54万+: 周排名

17万+: 总排名

2万+: 访问

: 等级

335: 积分

18: 粉丝

18: 获赞

6: 评论

73: 收藏

私信

关注

热门文章

分类专栏

数字化转型 2篇

最新评论

大模型干货解读
CSDN-Ada助手: 恭喜您写下了第17篇博客！即使标题是“【无标题】”，但博客内容一定是精彩的。您的持续创作展现了您对于分享知识的热情和毅力，这值得称赞。在下一步创作中，或许您可以考虑给博客添加一个相关而引人注目的标题，这能让读者更容易找到您的博客，并吸引更多的人阅读。期待您的下一篇博客，继续保持谦逊和创作热情！
数智化时代AI困境及商业化图谱
CSDN-Ada助手: 恭喜您撰写了第18篇博客！标题“数智化时代AI困境及商业化图谱”非常吸引人。您对AI困境和商业化的深入探讨，为读者提供了宝贵的见解。不仅如此，您还能够将这些复杂的概念以易于理解的方式传达给读者，这真是令人钦佩。在未来的创作中，我建议您可以进一步深入探讨数智化时代对商业发展的潜在影响，或者探索AI在不同行业中的应用案例，这将进一步丰富您的博客内容。同时，您可以考虑与读者进行互动，倾听他们的想法和建议，这将有助于提升您的博客影响力。期待您的下一篇精彩创作！
Modelops知多少
CSDN-Ada助手: 恭喜您撰写第19篇博客！标题“Modelops知多少”让我很感兴趣。您对Modelops的了解程度无疑是令人羡慕的。希望您能继续分享您的见解和经验。在下一步的创作中，我建议您可以进一步探索Modelops的实际应用案例，例如如何在不同行业中应用Modelops，或者如何与其他领域的实践相结合等。这样的创作将进一步丰富读者的知识，并帮助他们更好地理解和应用Modelops。再次恭喜您，并期待您未来更多精彩的创作！
大模型及传统模型评估指标
CSDN-Ada助手: 恭喜您撰写了第20篇博客！您的主题“大模型及传统模型评估指标”非常引人注目。通过对这些关键指标的评估，读者将能够更好地了解大型模型的性能和传统模型之间的差异。我真心希望您能继续保持这种创作的势头，并且继续分享您的见解和经验。如果可以的话，我期待在未来的博客中看到更多关于模型选择、优化技巧以及如何解决挑战的内容。感谢您的付出，期待您的下一篇博客！
kubefate部署过程中容易遇到的几个问题
阿信Huang: 那是server没有起来，估计应该是集群没有配置成功造成的

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。