Gemini 1.5 Pro发布,赢了榜单第一,却被网友泼冷水

在被OpenAI背刺这么多次后,谷歌终于长记性了。

没有进行任何预告,谷歌直接端上来了它的大杀器:Gemini 1.5 Pro。 并在Google AI Studio和Gemini API上,进行experimental 0801版本的测试。

图片

在LMSYS竞技场上,这个测试模型以1300分的成绩成功击败GPT-4o,夺得了排行榜第一。

图片

多语言能力拔得头筹,编码和数学仍是硬伤

Gemini 1.5 Pro建立在谷歌2月推出的Gemini 1.5模型之上,要讲它最突出的特点,那就是有高达200万个tokens的上下文长度,能处理超大量的推理任务,量大管饱。

从LMSYS竞技场的数据来看,在总榜上Gemini 1.5 Pro在众多测试标准中都尽显优势,跻身上游。特别是机器视觉方面,已经坐上了老一的位置:

图片

同样的,在多语言任务方面,Gemini 1.5 Pro在汉语、日语、德语、俄语等语言中表现依旧出色,尤其是中文,几乎是碾压诸多国外模型啊。

图片

不过,在数学、复杂prompt和编码等技术领域,虽然Gemini 1.5 Pro也展现了强大的性能,但要跟GPT-4o、Claude 3.5 sonnet和Llama 3.1 405b相比,还是略逊一筹。

图片

而这也是网友们诟病的地方。AI模型如果在硬技术的领域不能取得Top1,那它也许并不能被称为真正的Top1模型:

Gemini 1.5 Pro仍然没有在编码领域得到改善,而编码是人工智能迈向奇点的最重要指标,所以这并不是真正的进步。

图片

图片

不过,现在这个模型只是一个供开发人员测试的Experimental模型,在后续正式推出后,它在技术领域也许会得到更进一步的改善。如果Gemini 1.5 Pro也可以在技术领域战胜GPT-4o、Claude3.5等,那大模型的局面或许要翻天覆地了。

是走向开放还是着眼安全?人工智能面临新挑战

昨天,谷歌放出来了一个2b尺寸的小模型Gemma 2,我还在私下里偷偷吐槽:这些大厂都不打高端局,开始卷小型模型蒸馏了?

还好,谷歌没有忘记做大做强的初衷,马上又开放了Gemini 1.5 Pro的测试。看样子是被OpenAI背刺怕了,现在出模型都不会提前预告了。

图片

不过,这里还有一个问题。本次放出的Gemini 1.5 Pro只是一个早期测试模型,这反映了谷歌在AI行业发展的两个趋势:更开放的进行开发,以及社区参与测试。

但目前,社会上仍长久存在着人工智能发展速度与安全保障的辩论。公众讨论的焦点,仍是人工智能安全性、使用人工智能的道德规范、以及对人工智能潜在滥用的担忧。

最近几个月内,OpenAI一直在向人工智能安全的方向迈进,他们甚至将20%的计算资源匀给一个单独的安全团队,来推动人工智能的科学、安全发展,并计划在4年内解决超级对齐的挑战。

有网友甚至吐槽:你们干脆改名叫SafeAI好了。

图片

而与OpenAI不同,谷歌意图通过征求开发者和用户的反馈,进一步完善模型,并在广泛地推出之前,解决潜在的问题。

这里就有人开始担心:要安全还是要创新?Safer or better?

按标准答案来讲,那肯定很多人要说两手一起抓了。

如果硬要偏向一方的话,我个人支持加快创新。对于人工智能,我们更多地要看利好的一方面。迄今,我们能看到人工智能为经济、教育、医疗等方面强势赋能的局面。目前AI只在部分顶尖领域展开使用,但我相信,AI的势能很快就可以惠及千万家,比如卡帕西大神关于AI教育学校的设想。

图片

而今日,第一部人工智能相关的法律——欧盟的《人工智能法案》正式落地实行了。该框架期望通过法规政策、标准规范等多方面治理手段,有效限制AI的的不法使用。至少目前,AI能构成的威胁依然在人类的掌控之中,现在考虑AGI带来毁灭人类的危险,是否有些杞人忧天呢?

最后,还是愿AI发展能不忘一个初心:以人为本 。

图片

  • 23
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值