谷歌新一代Gemini 1.5多模态模型, 最长可达100万token上下文窗口

Google在人工智能领域已经发布了自己的Gemini大模型,其Gemini模型是一个多模态模型,不仅可以支持文字输入,还支持图片输入。而在Gemini ultra发布不久,Gemini 1.5大模型也相继发布。Gemini 1.5在多个维度上都有了显著的改进,并且Gemini 1.5 Pro 实现了与Gemini 1.0 Ultra 相当的质量,但是Gemini 1.5大大降低了运算。

Gemini 1.5在长上下文理解方面也取得了突破。其模型可以持续运行多达 100 万个tokens上下文窗口,实现了迄今为止任何大型基础模型中最长的上下文窗口。其模型支持一个小时的视频,11个小时的音频文件,30k 行代码,700k多的文字的一次性输入。完全可以把一部小说给Gemini 1.5大模型了。若能再配上Sora文生视频大模型,岂不是直接可以输出一部电影或者电视剧了。

动图封面

Gemini 1.5 建立在Transformer模型和MoE架构之上。传统 Transformer模型充当Gemini大型神经网络的框架,而 MoE 模型则分为更小的“专家”神经网络。根据给定输入的类型,MoE 专家模型学会选择性地仅激活其神经网络中最相关的专家路径。这种专业化极大地提高了模型的运算效率。通过Sparsely-Gated MoE, GShard-Transformer, Switch-Transformer, M4等研究,Google 一直是深度学习的先驱领袖。很多神经网络的大模型论文都是Google发布的,但是Google的使用场景方面,目前来看还是OpenAI领先一筹。

直接给模型一个阿波罗登陆月球的脚印,就可以愉快的跟Gemini 1.5聊天了。模型不仅支持输入图片,还支持输入视频。

完全可以给模型一个长达1小时的视频,这样就可以跟模型讨论里面的剧情与细节了,岂不是一个完美的电影搭档。

模型还支持30k行的代码与700k 的文字,一个完整项目的代码完全可以交给模型去找bug了。

给模型直接输入一篇长篇小说,就可以跟模型愉快的聊天,愉快的讨论小说内容了。

开发人员可以在Google AI Studio或者Vertex AI中构建基于Gemini 1.5的应用。如何使用Gemini模型,可以参考Gemini的文章。

Gemini 是Google发布的一个多模态模型 ,它是从头开始构建的多模态大模型。这意味着Gemini可以概括和无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。Gemini 也是Google迄今为止最灵活的大模型 - 能够从数据处理中心到移动设备的所有设备上高效运行。针对三种不同的尺寸优化了 Gemini 1.0版本

Gemini Ultra——最大、最有能力的模型,适用于高度复杂的任务。

Gemini Pro——可扩展各种任务的最佳模型。

Gemini Nano——最高效的移动设备端任务模型。

随着OpenAI Sora大模型的发布,所有公司打出来all in AI的口号,而最近也是看到苹果等高科技公司也宣布退出汽车研发,转型到生成式AI大模型,可见大模型之争必然成为一个趋势。

更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:启示AI科技
微信中复制如下链接,打开,免费使用chatgpt
 
https://wx2.expostar.cn/qz/pages/manor/index?id=1137&share_from_id=79482&sid=24

动画详解transformer   点击链接学习更多transformer

  • 17
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能研究所

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值