Google 最新人工智能 Gemini 双子座到底有多强悍？

最新推荐文章于 2024-07-10 11:32:19 发布

置顶 Aaa_yym

最新推荐文章于 2024-07-10 11:32:19 发布

阅读量523

点赞数 14

文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_73750035/article/details/134903131

版权

Google 就在两天前发布了迄今为止最强大的人工智能 Gemini 双子座，这个Gemini家族分为NanoSize、Ultra、Pro三个版本。Ultra用于高度复杂的任务，Pro用于增强的性能和可扩展性，Nano用于设备上的应用程序。

Gemini可以理解为一个多模态模型，而OpenAI的多模态是个组合，包括了GPT-4，Dalle3，Whisper等组件。

而最引人注目的是 Gemini Ultra 模型在 32 个基准中的 30 个基准上处于领先地位（即超过目前最强大的GPT4），特别是第一个在经过充分研究的考试基准 MMLU 上实现人类专家性能的模型，并在20 个多模态基准中改善了现有技术。我们将研究其中的一些发现。在MLU（Hendrycks等，2021a）上，Gemini Ultra可以超越所有现有的模型，达到90.04%的准确率。MMLU是一个全面的考试基准，它测量57门科目的ASET知识。人类专家的表现是衡量基准作者在89.8%，和双子座超是第一个模型超过这个阈值，与之前的国家的最先进的结果在86.4%。实现高性能需要在许多领域的专业知识（如法律，生物学，历史等），以及阅读理解和推理。

这里让我们对Chat和Gemini在不同方面进行测试，毕竟理论再怎么强大，也是要实践出真知滴

第一个测试：多模态推理能力，物理题，1：1（前者是Gemini，或者GPT-4）两者均没问题

第二个测试：测试跨模态推理能力，编码题，1：0.5，ChatGPT4产生的图形有问题

第三个测试：图文交错理解和推理能力测试，1：0.5，ChatGPT4图文交错问题理解不到位

第四个测试：多模态组合能力测试，1：1，ChatGPT4手机端图片结合语音功能也能做到

第五个测试：图表数据分析能力测试，1：0.5，ChatGPT4的分析表格没有排序

第六个测试：识别图像能力以及对错别字的鲁棒性测试，1：1，对ChatGPT4不是问题

第七个测试：图文并茂生成能力测试，1：1，Dalle3生成的小狗照片不一致，瑕不掩瑜

第八个测试：图像理解和推理能力、IQ，1：1，IQ能力旗鼓相当

第九个测试：图像理解和几何计算能力、IQ测试，1：1，几何和计算能力不相上下

........................................................................................................................................

第十七个测试：复杂图像理解和按指令代码生成能力测试，17：14.5，ChatGPT也算出了正确答案（只是只产生代码，重新让它生成图形即可）

最后可以得出，Gemini算不上遥遥领先，但毕竟是Google最大的砝码，表现也比Chat4强

不过对于大众来说，其实Chat4肯定够使，所以就没必要再去折腾找Gemini了

Aaa_yym

关注

14
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Google 最新人工智能 Gemini 双子座到底有多强悍？

Google 就在两天前发布了迄今为止最强大的人工智能，这个Gemini家族分为用于高度复杂的任务，用于增强的性能和可扩展性，用于设备上的应用程序。可以理解为一个，而OpenAI的多模态是个组合，包括了GPT-4，Dalle3，Whisper等组件。而最引人注目的是 Gemini Ultra 模型在 3（即超过目前最强大的GPT4），特别是第一个在经过充分研究的考试基准 MMLU 上实现人类专家性能的模型，并在20 个多模态基准中改善了现有技术。我们将研究其中的一些发现。
复制链接

扫一扫