谷歌「Her」来啦!发布Gemini Live语音模式,现场演示两次翻车

重磅惊喜!

今天,在MadeByGoogle发布会上,谷歌公布了 AI语音助手 Gemini Live,对标的正是GPT-4o,而且是两周前开放测试的语音模式

Gemini Live 可以进行顺畅的语音交流,听从语音指令,可以随时打断对话、稍后继续对话。

谷歌在发布会中提到,Gemini Live 有10条声线,支持自由对话、打断AI说话、以及免提播放等等。

更惊艳的是,Gemini Live 深度集成到安卓系统里,只需要长按电源键或者说“OK Google”,就能唤起Gemini Live,能实现屏幕读取、内容感知等。

如同集成到苹果系统里的Siri一样,Gemini Live 也是以语音助手的形态呈现出来的。

Gemini Experiences和Google Assistant的副总裁兼总经理Sissie Hsiao强调:

AI的发展能引起人们重新思考:助理到底能提供什么帮助?通过这些更新,Gemini将以语音助手的形式,提供更直观和对话式的体验,使其成为复杂任务的可靠伙伴。

此外,Gemini Live 还能与所有的Google应用和工具进行集成,实现跨软件交互、图片识别等。

例如,给Gemini发音乐会传单的信息,要求它查看日历上当天是否有待办事项,来判断自己有没有空去音乐会。

还可以让Gemini设置待办,晚上七点看一下门票价格。

这个上下文记忆功能是真的强大啊!

还可以话锋一转,让Gemini把浓咖啡的原料,添加到Keep购物清单中。

不需要描述太多细节,Gemini就能get到你想要什么。但这个功能需要过几周才能上线。

我想我知道为什么要过几周才能上线,因为谷歌自己都没调试好这个功能!

你看,发布会的实机演示就翻车了,还翻车了两次:

谷歌,你们是不是线下没商量好?还不如只放个视频演示上来呢!

已向Google Advanced用户开放测试

现在,这个语音功能已经向订阅Google Advanced的用户开放测试,暂时仅支持英文交流,且只有安卓手机能优先体验。谷歌宣称,在未来几周后苹果用户也能使用,并将开放更多语言。

虽然谷歌的语音功能上线得晚,但是它开放的早呀!OpenAI的语音功能还在小范围测试,完全开放还需要等到秋季(但谁也不知道,到底是早秋还是晚秋 )。

此外——

这个发布会不仅是语音功能比较惊艳,还有谷歌的新手机Pixel 9 。相比于上一代Pixel 8,它搭载了更先进的设备端AI模型,更快的响应速度、更多的AI功能,遥遥领先。

想具体领略一下它的魅力,请看VCR:

就是这个手机背面的摄像头,有点丑……

美好愿景

这里还有一些更长期的对未来的展望,Gemini未来还会推出多步骤连续推理功能,可以实现AI高级代理:全自动做计划,用Google Doc整合整合信息做成报告,成为用户、组织、企业的自动化研究助理。

比较恐怖的是,这些展望并没有那么遥远,它们就会在未来几个月内落地实现。

剩下的就是一些客套话了。比如AI的新功能也会带来新的挑战呀,我们会继续注重于服务效率和质量呀,未来继续加油呀,等等等等。

是每家发布会都会走的一些必备流程。

但,谷歌的发布会已经惊吓到我的小心脏了,虽然很多东西都是展望、期货,但至少Gemini Live是现在就能用的新玩意。

而且,很多期货内容(例如AI高级代理),也能吓死一堆小型创业公司了。

别总是吊在只会画“草莓”饼的OpenAI上了。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值