
Google的AI团队一直在与OpenAI的开创性语言模型GPT-4保持同步。我一直在尝试最近推出的Gemini,并升级到每月20美元的高级版Gemini,到目前为止,体验非常糟糕。
今天,Google发布了一个重磅消息——Gemini 1.5,这是他们旗舰语言模型的一个极大改进版本。
Gemini 1.5有哪些新功能?
Gemini 1.5带来了一些重大改进,旨在解决初始版本的不足之处:
- 100万标记上下文窗口: 这是目前任何大规模基础模型中最大的上下文窗口。OpenAI的GPT-4只有128K的上下文窗口。
- 更快的响应: Google采用了可能为GPT-4提供动力的专家混合(MoE)架构。这使得模型能够将提示分解为子任务并将其路由到专门的“专家”,极大地提高了效率和性能。
- 快速信息检索: 新模型展示了在大量文本、视频或音频数据中准确定位特定细节的能力的显著提升。
- 更擅长编码: 大上下文窗口使得对整个代码库进行深入分析成为可能,帮助Gemini模型理解代码的复杂关系、模式和理解。
100万标记上下文窗口
最令人震惊的是上下文窗口大小的升级。虽然大多数当前的大型语言模型(LLM)最多只能处理约128,000个标记,但Gemini 1.5 Pro的实验版本可以处理惊人的100万个标记。
这个容量可以处理:
- 1小时的视频
- 11小时的音频
- 超过3万行代码
- 超过70万个单词
这是一个绝对的游戏改变者——想象一下将整个特色电影剧本、数千行复杂代码或一本大部头的书籍输入到语言模型中。它提供了足够的上下文来分析微妙的互动、追踪角色发展或在大规模上找到代码错误。
可以将其视为要求聊天机器人分析30秒对话与剖析《指环王》三部曲中角色动机之间的差异。
开发者,欢呼吧!
作为开发者,最令人印象深刻的功能可能是能够上传整个代码库并要求Gemini在几分钟内构建整个模块。这有多酷?
除了带来最新的模型创新,Google还让您更容易使用Gemini进行开发。
- 简单调整: 您可以在Google AI Studio内的几分钟内为您的特定需求定制Gemini的一组示例。
- 新的开发者界面: 使用Gemini API与新的Firebase扩展一起在项目IDX的开发工作区中构建新的AI功能,或使用我们最新发布的Google AI Dart SDK。
- 更便宜的Gemini 1.0 Pro: 今天的稳定版本的价格比之前宣布的文本输入便宜50%,输出便宜25%。AI Studio的按需付费计划即将推出。
Gemini 1.5的实际应用
Google的白皮书展示了Gemini 1.5在实际应用中的令人印象深刻的用例:
在下面的示例中,他们输入了45分钟的巴斯特·基顿电影《夏洛克·福尔摩斯小姐》(1924)(2,674帧,1FPS,684k标记)。Gemini 1.5 Pro从特定帧中检索和提取文本信息,并提供相应的时间戳。
另一个例子是,在提示中输入整个《悲惨世界》的文本,Gemini 1.5 Pro根据手绘草图识别并定位了一场著名的场景。
Google还展示了Gemini Pro 1.5处理10万行代码和一系列多模态提示的能力。
如果他们真的能够做到这一点,那将是非常惊人的!
Gemini现在值得升级吗?
从理论上讲,Gemini 1.5绝对值得升级。
然而,Google最近的AI产品发布记录引发了一些合理的担忧。
- Google首次发布的Bard就失败了。
- Gemini的“发布”视频实际上是一个营销编辑,没有展示真正的产品,并受到了许多人的严厉批评。
- Gemini Ultra本应该非常好,甚至比GPT-4更好,但我的初步测试表明它仍然远远不及GPT-4。
在之前的发布遭遇挫折的几周后,我们是否应该对雄心勃勃的升级感到兴奋?可以理解人们会想知道这种模式是否反映了匆忙发布或内部努力跟上步伐。
现在,我不相信Google发布的任何不可立即进行测试的输入表单之外的东西。
需要记住的事情
- Gemini 1.5 Pro在性能上应该与Gemini Ultra相当。
- 从今天开始,开发者和企业客户可以通过AI Studio和Vertex AI获得1.5 Pro的有限预览。
- 如果您对名称感到困惑,就像我一样,这里有一个总结:
图片由Jim Clyde Monge提供
最后的思考
Google让我感到惊讶。如果上下文窗口大小确实像宣传的那样工作,那将是非常具有突破性的。
虽然仍然需要进行真实世界的基准测试,但不可否认的是,Google重新进入了竞争,并嗅到了血腥味。OpenAI面临着提高标杆的压力。
目前还没有关于何时将向消费者发布Gemini Pro的消息。Gemini Ultra 1.5已经在计划中,似乎将非常强大。1.5 Pro已经非常非常强大。