第七课-OpenCompass 大模型评测实战笔记

OpenCompass 大模型评测实战

如何通过能力评测促进模型发展?

  1. 面向未来拓展能力维度:评测体系需增加新能力维度如数学、复杂推理、逻辑推理、代码和智能体等,以全面评估模型性能。
  2. 扎根通用能力聚焦垂直行业:在医疗、金融、法律等专业领域,评测需结合行业知识和规范,以评估模型的行业适用性。
  3. 高质量中文基准:针对中文场景,需要开发能准确评估其能力的中文评测基准,促进中文社区的大模型发展。
  4. 性能评测反哺能力迭代:通过深入分析评测性能,探索模型能力形成机制,发现模型不足,研究针对性提升策略。

大语言模型评测中的挑战

  1. 全面性:大模型应用场景干变万化;模型能力演进迅速;如和设计和构造可扩展的能力维度体系
  2. 数据污染:海量语料不可避免带来评测集污染;亟需可靠的数据污染检测技术;如何设计可动态更新的高质量评测基准
  3. 评测成本:评测数十万道题需要大量算力资源;基于人工打分的主观评测成本高昂
  4. 鲁棒性:大模型对提示词十分敏感;多次采样情况下模型性能不稳定

OpenCompass 2.0 司南大模型评测体系开源历程

  1. 5月1日:完成Alpha版本开发支持千亿参数语言大模型高效评测
  2. 7月6日:OpenCompass正式开源学术评测支持最亮善的评测工具之一,支持5大能力维度,70个数据集,40万评测题目
  3. 8月18日:opencompass 数据和性能对比上线支持100+开源模配的多维度性对比
  4. 9月7日:支持多编程语言代码评测,发布稳定可复现代码评测镜像提供多编程语言能力分析和对比
  5. 10月26日:联合南京大学推出大根型司法球力评测基准构建多层载力体系助力法律场景能力分析
  6. 12月1日:发布多模态评测工具套件VLMEvalKit支持包括Gemini、GPT-4V尊商业模型评测支持
  7. 2024年1月30日:Opencompass 2.0司南大模型评测体系正式发布

OpenCompass 助力大模型产业发展和学术研究

  1. 广泛应用于头部大模型企业和科研机构
  2. 获得 Meta 官方推荐唯一国产大模型评测体系
  3. 社区支持最完善的评测体系之一 100+ 评测集 50万+ 题目

如何评测大模型 ?

        模型类别

        基座模型:海量数据无监督训练(Base)

        公开权重的开源模型:使用GPU/推理加速卡进行本地推理

        对话模型:指令数据有监督微调(SFT);人类偏好对齐(RLHF)

        API 模型:发送网络请求获取回复

        客观评测与主观评测

        客观问答题

        客观选择题

        开放式主观问答

        提示词工程

        长文本评测

汇集社区力量:工具-基准-榜单 三位一体

  1. 评测集社区CompassHub:提供高时效性高质量评测集
  2. 权威性能榜单CompassRank:发布权威榜单洞悉行业趋势
  3. 全栈评测工具Compasskit:支撑高效评测支持能力分析

CompassKit:大模型评测全栈工具链

OpenCompass 核心代码库功能全面升级

  1. 数据污染检查:提供多种数据污染检测方法;支持包括GSM-8K,MMLU等主流数据集上的污染检测
  2. 更丰富的模型推理接入:支持近20个商业模型API;支持LMDeploy、vLLMLighLLM等推理后端
  1. 长文本能力评测:支持1M长度大海捞针测试;支持多个主流长文本评测基准
  2. 中英文双语主观评测:支持基于大模型评价的主观评测;提供模型打分、模型对战多种能力;灵活切换上百种评价模型

能力维度全面升级

  1. 基础能力:考察大模型在如语言、知识、理解、数学、代码、推理等维度上的基本功;语言、知识、理解、数学、代码、推理
  2. 综合能力:考察大模型综合运用各类知识、理解与分析、多步推理、代码工具等来完成复杂任务的能力水平;考试、对话、创作、智能体、评价、长文本

夯实基础:自研高质量大模型评测基准

  1. MathBench  多层次数学能力评测基准
  2. CriticBench  多维度的LLM反思能力评估基准
  3. T-Eval  大模型细粒度工具能力评测基准
  4. CreationBench  多场景中文创作能力评测基准
  5. F-Eval  大模型基础能力评测基准
  6. CIBench  代码解释器能力评测基准

群策群力:携手行业领先共建繁荣生态

  1. OpenFinData全场景金融评测基准
  2. LawBench大模型司法能力基准
  3. MedBench中文医疗大模型评测基准
  4. SecBench网络安全评测基准

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
好的,我会尽力回答你的问题。对于您的问题,我理解您想问我如何调用U-NET模型,以下是我给出的回答。 首先,U-NET模型是一个用于图像分割的深度学习模型,它使用卷积神经网络来学习图像中不同区域的特征,并将它们分割成不同的类别。在TensorFlow 2.0中,我们可以使用tf.keras API来实现U-NET模型。 以下是一个简单的U-NET模型的实现代码: ```python import tensorflow as tf from tensorflow.keras.layers import * def conv_block(inputs, filters, kernel_size=(3, 3), activation='relu', padding='same'): x = Conv2D(filters, kernel_size, activation=activation, padding=padding)(inputs) x = BatchNormalization()(x) x = Conv2D(filters, kernel_size, activation=activation, padding=padding)(x) x = BatchNormalization()(x) return x def unet(input_shape=(256, 256, 3)): inputs = Input(shape=input_shape) c1 = conv_block(inputs, 64) p1 = MaxPooling2D((2, 2))(c1) c2 = conv_block(p1, 128) p2 = MaxPooling2D((2, 2))(c2) c3 = conv_block(p2, 256) p3 = MaxPooling2D((2, 2))(c3) c4 = conv_block(p3, 512) p4 = MaxPooling2D((2, 2))(c4) c5 = conv_block(p4, 1024) u6 = Conv2DTranspose(512, (2, 2), strides=(2, 2), padding='same')(c5) u6 = concatenate([u6, c4]) c6 = conv_block(u6, 512) u7 = Conv2DTranspose(256, (2, 2), strides=(2, 2), padding='same')(c6) u7 = concatenate([u7, c3]) c7 = conv_block(u7, 256) u8 = Conv2DTranspose(128, (2, 2), strides=(2, 2), padding='same')(c7) u8 = concatenate([u8, c2]) c8 = conv_block(u8, 128) u9 = Conv2DTranspose(64, (2, 2), strides=(2, 2), padding='same')(c8) u9 = concatenate([u9, c1]) c9 = conv_block(u9, 64) outputs = Conv2D(1, (1, 1), activation='sigmoid')(c9) model = tf.keras.Model(inputs=[inputs], outputs=[outputs]) return model ``` 在这个实现中,我们使用了Conv2D、BatchNormalization、MaxPooling2D和Conv2DTranspose等层来构建U-NET模型。我们还定义了一个conv_block函数来简化代码。 使用这个实现代码,我们可以通过以下方式调用U-NET模型: ```python model = unet() ``` 这将返回一个U-NET模型的实例,我们可以使用该实例来进行训练和预测。 希望这个回答对您有所帮助。如果您还有其他问题,请随时问我。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值