Google 最新人工智能 Gemini 双子座 到底有多强悍?

Google 就在两天前发布了迄今为止最强大的人工智能 Gemini 双子座,这个Gemini家族分为NanoSize、Ultra、Pro三个版本。Ultra用于高度复杂的任务,Pro用于增强的性能和可扩展性,Nano用于设备上的应用程序。

Gemini可以理解为一个多模态模型,而OpenAI的多模态是个组合,包括了GPT-4,Dalle3,Whisper等组件。

而最引人注目的是 Gemini Ultra 模型在 32 个基准中的 30 个基准上处于领先地位(即超过目前最强大的GPT4),特别是第一个在经过充分研究的考试基准 MMLU 上实现人类专家性能的模型,并在20 个多模态基准中改善了现有技术。我们将研究其中的一些发现。在MLU(Hendrycks等,2021a)上,Gemini Ultra可以超越所有现有的模型,达到90.04%的准确率。MMLU是一个全面的考试基准,它测量57门科目的ASET知识。人类专家的表现是衡量基准作者在89.8%,和双子座超是第一个模型超过这个阈值,与之前的国家的最先进的结果在86.4%。实现高性能需要在许多领域的专业知识(如法律,生物学,历史等),以及阅读理解和推理。

这里让我们对Chat和Gemini在不同方面进行测试,毕竟理论再怎么强大,也是要实践出真知滴

第一个测试:多模态推理能力,物理题,1:1(前者是Gemini,或者GPT-4)两者均没问题

第二个测试:测试跨模态推理能力,编码题,1:0.5,ChatGPT4产生的图形有问题
第三个测试:图文交错理解和推理能力测试,1:0.5,ChatGPT4图文交错问题理解不到位
第四个测试:多模态组合能力测试,1:1,ChatGPT4手机端图片结合语音功能也能做到
第五个测试:图表数据分析能力测试,1:0.5,ChatGPT4的分析表格没有排序
第六个测试:识别图像能力以及对错别字的鲁棒性测试,1:1,对ChatGPT4不是问题
第七个测试:图文并茂生成能力测试,1:1,Dalle3生成的小狗照片不一致,瑕不掩瑜
第八个测试:图像理解和推理能力、IQ,1:1,IQ能力旗鼓相当
第九个测试:图像理解和几何计算能力、IQ测试,1:1,几何和计算能力不相上下

........................................................................................................................................

第十七个测试:复杂图像理解和按指令代码生成能力测试,17:14.5,ChatGPT也算出了正确答案(只是只产生代码,重新让它生成图形即可)

最后可以得出,Gemini算不上遥遥领先,但毕竟是Google最大的砝码,表现也比Chat4强

不过对于大众来说,其实Chat4肯定够使,所以就没必要再去折腾找Gemini了

  • 14
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值