这么多国产大模型,哪些比较靠谱?怎么才能不挑花眼?
目前国内模型已经与国际先进水平越来越接近了,而在国内,使用国产AI大模型在安全性和响应速度上都有优势。
但,面对众多大模型,我们可能会产生以下疑问:
1)这么多个国产AI 大模型中,哪些最靠谱?
2)众多大模型能力排行榜中,哪类排行榜是最客观准确的?
3)选择大模型时,应考虑哪些要素?
如果你也有这些疑问,今天我们就来详细探讨一下。上面三个问题。
国内大模型领先排名:
以下是最新的排行榜,目前表现最突出的三大模型分别是:零一、智谱和通义千问
通义千问Qwen系列,由阿里巴巴云研发,最近开源了QWen 2.5版本。这一系列涵盖了从70亿到1100亿参数规模的全尺寸模型,并提供了文本、视觉等多模态信息处理。阿里巴巴云的全面开放策略,不仅为开发者提供了强大的技术支持,也极大地推动了AI技术在各领域的应用和发展。
YI系列,由李开复领导的零一万物团队研发,主要专注于闭源的大模型,目前在国内整体排名中位居第一。然而,与市场上的其他竞争者相比,YI系列显得较为封闭,仅开源了一款名为Yi-9B的小型模型,其他版本并未对外公开。尽管这可能对某些特定场景下的需求有所帮助,但其较小的规模限制了其广泛的应用和灵活性。
GLM系列,由智谱清言团队开发,该团队拥有清华大学的深厚学术背景。他们曾发布开源版本的glm-4模型,但这并非该系列的最先进成果。尽管如此,凭借其坚实的理论基础和丰富的实践经验,GLM系列在自然语言处理领域仍然占有一席之地。
此外,还有一些表现不错的模型,如豆包、文心和腾讯混元。
豆包系列,由字节跳动研发,特别擅长C端用户的语音识别服务。虽然与行业内的其他领先者相比,在综合能力上可能略有不足,但它凭借出色的用户体验和对特定应用场景的高度优化,赢得了众多用户的认可。
文心系列,是百度公司的产品,其功能实现和技术水平与字节跳动的产品相当。凭借百度多年来积累的丰富数据资源和技术实力,文心能够提供高质量的语言理解和生成服务,满足不同行业客户的多样化需求。
腾讯混元系列,属于腾讯集团,其性能表现与百度文心相当。依托腾讯广泛的服务生态体系,混元不仅为企业级用户提供定制化的智能解决方案,还致力于推动社会向更加智能化的方向发展。
这些模型既有来自大型科技公司的,也有来自创新性企业的。
也许看到这里,读者会有所疑问,为什么是这个排名?
其实这来源于我们经过深入研究了所有的市面上的排名榜单以后的一个判断。
我们是基于目前我认为最能体现模型能力的排名,来看大模型的能力的,下面是这些榜单的一些介绍。相信您看了以后也会跟我们一样,认识到这个榜单的客观性和中立性。
大模型客观评估方法概述
大模型本身的能力横评有两个主要方式。
第一种是“基准测试”或“考试模式”
其核心思路是通过一系列预设的固定题目来评估模型在特定任务上的表现,如理解、推理和生成等能力。常见的基准测试包括GSM-8K(侧重于数学问题解决)、MMLU(覆盖多个学科的知识广度)、TheoremQA(专注于形式逻辑与定理证明)、GPQA(强调对物理常识的理解)。这些测试因其题目固定而容易被“刷分”,也就是把Q/A训练到大模型里,自然分数就会高了,不过依然提供了有价值的对比信息。
另一种方式是“人类评估”或竞技场模式
它的流程是,随机从近百个模型中,随机抽取两个模型,让这两个模型针对用户提出的同一个开放性问题给出答案,由人评判哪个回答更优。
这种方式更加贴近实际应用场景,因为问题设置更为自然且与人的实际需求相关,同时结果往往与基准测试相吻合。
从原理来说,最可信的测试,就是人类评估竞技场模式,这个模式可以非常客观的体现机器回答对人类的帮助,而且难以作弊,非常客观。
在这里我们选择了国外的竞技场模式,来做排名依据,因为他很客观,而且基本无法作弊
基准测试,可以参考huggingface的 : https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard 。
而人类评估竞技场模式,也可以参考国外 : https://lmarena.ai 的
或者咱们国内的平替 思南平台 : CompassArena
如何选择适合业务的大模型?
我们建议,可以从如下维度进行判断:
1)榜单的排名:
选择榜单排名前20的大模型,或细分领域的冠军模型。这些模型在特定任务上经过优化,例如专门写代码或图像识别,因此在相关任务上的表现更优秀。
2)考虑国情:
优先考虑国内开发的大模型,因为国外模型可能面临访问限制及安全合规性问题,这可能会影响业务连续性和数据安全性。
3)是否支持私有化部署:
如果您的应用场景需要更高的数据隐私保护,则应选择支持私有化部署的模型。这样可以在保证数据不外泄的同时享受大模型带来的便利。
4)价格因素:
对于API调用模式,目前市场上主流供应商的价格相对透明,可根据预算挑选适合的服务商;而当采用私有化方案时,则需综合考量成本与性能之间的平衡点,通常来说,较小规模的模型虽然功能稍弱但能有效降低部署开销。
通义Qwen是我们比较推荐的:
理由是,他的能力在第一梯队的同时,又是最开放开源的,这对于中国的实际国情非常友好。
1)通义Qwen是当前最为开放的全尺寸多模态大模型之一,他开源了从7B~110B, 文生文,文生图,代码code等多个垂直行业的模型,非常开放,可以应用在所有的场景和环节
2)在国内的大模型能力对比中,通义Qwen属于绝对的第一梯队,不仅在MMLU、TheoremQA、GPQA等权威评测指标上表现出色,超越了Llama 3 70B,并且在Hugging Face的Open LLM Leaderboard榜单上名列前茅。
3) 此外,阿里云为用户提供100万免费token试用额度,无论是通过API调用还是自行构建方案,在成本方面都具有显著优势。推荐特别关注其Qwen及Qwen VL两种形态的模型,它们在国内开源项目中的表现尤为突出。