谷歌硬刚GPT-4o！60秒视频生成模型虽迟但到，还把上下文窗口卷到了200万

多模态大模型

于 2024-05-15 15:57:34 发布

阅读量680

点赞数 12

文章标签：人工智能 chatgpt 产品经理语言模型自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_59191169/article/details/138911961

版权

OpenAI出手再次惊艳世界，谷歌果然坐不住了。

GPT-4o掀起的一片“AGI已至”的惊呼声中，刚刚，Google DeepMind首席执行官哈萨比斯亲自携谷歌版《Her》登场：

同样能会还有，不仅能几乎没有延迟地和人类流畅交流，通过摄像头，这个名为Project Astra的AI助手甚至能直接帮忙读代码：

谷歌还祭出了自己的硬件优势，带来一波AR和大模型的梦幻联动。

一边撸狗一边玩转大模型已经成为现实（手动狗头）。

‍这一波操作下来，战果如何尚未可知，网友们反正是兴奋了起来：

而正面硬刚GPT-4o，还只是谷歌铆足了劲，在I/O大会上释出的冰山一角。

两个小时的主题演讲里，AI被提及了121次，CEO劈柴哥还犹嫌不足。

于是，对标Sora能生成一分钟长视频的视频生成模型Veo来了：

Gemini 1.5 Pro不仅面向所有人开放，上下文窗口还从100万token直接一步迈向200万，一口气能读1500页PDF。

连Android，现在也紧紧跟谷歌大模型Gemini绑定，摇身一变成为以AI为内核的操作系统。

总之，信息量多到爆炸，相比之下，OpenAI不到半个小时的发布真的很随性了。

谷歌版《Her》登场

第一时间引发最多讨论的，当然是谷歌版《Her》——Project Astra。

Project Astra基于Gemini系列模型打造，谷歌表示，研究人员们希望这样的智能助手，能真正在人们的日常生活中提供帮助。

有意思的是，OpenAI总裁哥Brockman昨天在场外补充了有关GPT-4o多模态能力的更详细视频，而谷歌这边，哈萨比斯也是第一时间在X上更新了与这样一个智能助手的互动。

看样子，Ta不仅能完成帮忙找眼镜这样的基础工作。

帮忙搞点文艺创作，解答一下专业书上看不懂的内容，也都是信手拈来。

还有Google DeepMind的工作人员干脆和Project Astra一起看起了I/O大会直播：

不少网友都认为，这是谷歌对OpenAI的GPT-4o的正面回应。

不过嘛，网友们也关注到了不少问题，比如，Project Astra的延迟似乎还是比GPT-4o长，谷歌的演示中也没有体现是否能打断智能助手说话。

值得关注的是，Project Astra背后，是Gemini系列模型的进一步升级迭代。

比如，Gemini 1.5 Pro的上下文窗口来到了惊人的200万token。

谷歌还最新推出了Gemini 1.5 Flash这一轻量级模型，并开源了27B的Gemma 2和视觉语言模型PailGemma。

60秒长视频生成

你可能已经默默在心里比较了一番Project Astra和GPT-4o的高下。

但桥豆麻袋，说起来，谷歌被OpenAI突然狙击，可不止这一回。

还记得在春节期间抢尽谷歌风头的Sora吗？

谷歌的回应，虽迟但到——

谷歌最强视频生成模型Veo来了。

Veo可以生成1080p的高质量视频，生成视频的长度也看齐Sora：最长超过1分钟。

谷歌还强调，Veo生成的画面一致性出色，并且可以hold住各种风格。比如“延时拍摄”和“航拍”这种术语，直接写在提示词里，Veo都能get。

目前，谷歌已经和电影制作者展开了合作，在电影项目中探索Veo的应用。

与此同时，谷歌的图片生成模型Imagen也迎来更新，Imagen 3发布。

官方提到，与此前的模型相比，Imagen 3的视觉伪影更少，生成的图像细节拉满，并且在生成文字方面效果也很好。

△提示词：一张庄严的图书馆入口的照片，刻有“中央图书馆”字样

另外，谷歌此次还推出了音乐生成模型Lyria。

Gemini进入全线产品

在这些跟OpenAI叫板的“肌肉”展示之外，谷歌对大模型应用的看重，也在此次I/O大会中尽显。

英伟达科学家Jim Fan就他的I/O观后感中表示：

谷歌做对的一件事是：他们终于开始努力把AI集成到搜索框中。

还不止是搜索，这一次，谷歌可以说是把Gemini塞进了全线产品中，包括谷歌搜索、Android，以及谷歌邮箱、谷歌Photos等。下面我们划划重点。

1、谷歌搜索

基于Gemini，谷歌搜索推出AI概述（AI Overview）新功能，彻底化身AI搜索。

用户在搜索框输入问题，马上就能得到一个AI总结的答案，包括相关链接。

而且是超长问题都能处理的那种，比如：

查找波士顿最好的瑜伽或普拉提工作室，并提供他们的入门优惠详情以及从灯塔山步行所需时间。

AI Overview秒秒钟就会列出五星好评且距离灯塔山近的店，并附带课程标价，连店在地图上的位置都标记了出来：

对于这种复杂问题的搜索，谷歌表示采用了多步推理技术，可以将复杂问题拆解成一个个小问题，然后自动对问题进行排序回答。

多步推理加持下，AI Overview已经脱离了纯粹的搜索——把制定计划一并搬进了搜索引擎里。

比如直接让它为一个团体制定一个为期三天的易于执行的餐饮计划。

AI Overview一键给出了方案，每个方案都可以点击修改，下方还可以一键将食材加入购物车：

还没完，当你没有想法、问的问题比较笼统时，谷歌搜索还会AI自动将搜索结果整理成一个个“群组”，为你提供建议。

比如问：在达拉斯找一个餐厅庆祝周年纪念日。

搜索出的结果会按照音乐餐厅、具有历史魅力的餐厅等一键分组。再往下翻，页面会从餐饮逐渐扩展到电影、酒店、购物等。

此外，谷歌搜索还支持视频搜索了。

演示中，唱片机出故障，只需一边录制视频一边说出疑问，谷歌AI Overview就会立刻分析故障原因，并给出处理建议。

谷歌搜索AI Overview功能将在本周开始在美国推出，后面将陆续推至其他国家。

2、Android 15

谷歌把Gemini也带到了安卓系统中。

凭借直接内置的Circle to Search功能，用户使用简单的手势“圈”一下手机上看到的任何内容，就能进行搜索。

比如圈出练习题，就能一键获取答案。

目前这一功能，已在Pixel和三星的部分设备上使用。

此外，还可以在一个应用之上随时调出Gemini助手层，随时使用。你还可以将Gemini生成的图片直接拖到Gmail等应用中，直接询问某个视频中的具体信息，不用滑动翻文档询问某个PDF中的信息……

甚至连电话反诈，都用上Gemini了：听到关键字“把钱转到安全账号”，马上就能给出警报。

总之，官方强调，现在，Gemini在手机上现在不止是一个App，更是安卓体验的基础。

3、谷歌Photos

谷歌Photos基于Gemini也推出了新功能——Ask Photos，可以一键从图库中帮你找到想要的照片和视频。

比如你想知道自己的baby是什么时候学会游泳的，Ask Photos会从你在谷歌Photos中存储的成百上千张照片中查找出含游泳、游泳证书等相关图片，最后总结给出回复：

Ask Photos这一功能将在今年夏天推出。

4、谷歌Workspace

Gemini也接入到了谷歌Workspace提供的一套生产力和协作工具中，包括谷歌邮箱、谷歌Docs、谷歌Calendar等。

这使得在这些工具间进行跨应用工作变得更加容易。

例如在谷歌邮箱中自动分析邮件以及附件，识别整理好收据，然后一键在Drive和Sheets中处理。

5、NotebookLM

谷歌AI笔记应用NotebookLM也大升级。

如下图所示，当你提出一个问题后，背后的Gemini模型就会结合NotebookLM中的笔记内容，进行多模态的语音对话式回答。

也就是说，所有笔记都可以变成交互式教材。

第六代TPU

最后，在硬件部分，谷歌也带来了新消息：

第六代TPU Trillium将在今年向云客户提供。

与TPU v5e，Trillium的峰值计算性能提高4.7倍，HBM和带宽增加了1倍，芯片间互联（ICI）带宽也增加了1倍。另外，Trillium的能效比TPU v5e高出了67%以上。

有关谷歌I/O的更多细节，可以戳：

https://blog.google/technology/developers/google-io-2024-collection/

那么今日份的发布会笔记，就先做到这里了。

你觉得谷歌这波表现如何？

从美股盘后的情况来看，似乎有点emmm……

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

-END-

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。