大语言模型质量评测(附带全部可运行代码)

本文探讨了大模型训练完成后如何通过评测集来评估其回答质量,涉及主观题(如情感分析和完整性评分)与客观题(如选择题acc)的评估方法,以及使用GPT4.0进行多维度打分的实践。
摘要由CSDN通过智能技术生成

代码仓库

大模型训练完之后,怎么知道其回答质量好不好,或者是不是可用的,这就需要我们对大模型进行评测,评测集的制定显得尤为重要。

收集相关数据,我们可以对评测集分为主观题和客观题,这些题目尽可能的包括模型的不同能力,比如情感分析、语义匹配、开放域问答、知识库问答、推理计算等等。那么如何对于主观题和客观题进行评估?下图来给你直观的解释:
在这里插入图片描述

对于客观题,我们使用acc来进行评估,制定好的prompt,例如:你是法律领域的专家,请根据你的经验,从下面的答案中挑选正确的选项。请注意你只需要给出选项,不需要任何的额外解释。

response = model.chat()

response为模型输出的正确答案选项,拿这个选项和正确答案进行对比进而计算acc。

对于主观题,我们使用GPT4.0从多个方面进行打分,制定好prompt,例如:请你参考标准答案,对模型答案从完整性进行打分,分数范围为1.0-5.0之间,保留2位小数。

response = model.chat()

response为GPT输出的分数。

  • 8
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值