速看！AI大模型性能最新排名

最新推荐文章于 2024-07-26 21:19:18 发布

yxiaoyu__

最新推荐文章于 2024-07-26 21:19:18 发布

阅读量297

点赞数 4

文章标签：人工智能 ai

本文链接：https://blog.csdn.net/yxiaoyu_/article/details/140609552

版权

今天我们来盘点一下主流AI大模型各方面性能的最新排名，分别从质量、速度、价格、对话能力、推理能力、编码、响应时间等能力来进行对比。

一、对话能力

Chatbot Arena是一个基于众包的大型模型评测基准。它为开发者和研究者提供了一个平台，在这里可以发布、测试和比较各种类型的聊天机器人，下面是根据Chatbot Arena的榜单排名。我们可以看出前三名是：GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro。

二、推理能力

MMLU（大规模多任务语言理解）是一项综合评估，MMLU 涵盖基础数学、美国历史、计算机科学和法律等 57 项任务。它需要模型来展示广泛的知识基础和解决问题的能力，下面是AI大模型根据MMLU的最新排名。我们可以看出前三名是GPT-4o、Claude 3.5 Sonnet、Claude 3 Opus。

三、编程能力

HumanEval是一个用于评估代码生成模型性能的数据集，包含164个编程问题，每个问题都包括一个函数签名、文档字符串（docstring）、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。下面是根据HumanEval排名的最新榜单。前三名是：Claude 3.5 Sonnet、GPT-4o、GPT-4。

四、上下文窗口

上下文窗口指的是输入和输出标记的最大组合数量。当涉及到 RAG（检索增强生成）和大模型的工作流时，更大的上下文窗口变得非常重要，这些工作流通常需要对大量数据进行推理和信息检索。我们可以看到前三名是：Gemini 1.5 Pro、Claude 3.5 Sonnet、Claude 3 Opus。