还记得《爱丽丝梦游仙境》开头那个神奇的兔子洞吗?现在你不需要追着白兔跳进去,只要点击一下鼠标就行。
北京时间12月3日凌晨,李飞飞空间智能World Labs的首个项目推出第一个重磅成果:世界生成。
世界生成是一个可以用单个图像生成 3D 物理世界的人工智能系统,World Labs的官方账号连发9条X(原Twitter),更新项目的最新进展:
这一更新激发了AI界的热议。英伟达高级研究科学家、李飞飞高徒Jim Fan在X上表示,这是个可以和Sora媲美的跨时代的产品。他说“GenAI 正在生成越来越具高维度的关于人类体验的快照。Stable Diffusion是一个二维快照。Sora 是一个二维加时间快照。现在,World Labs 是一个三维、完全沉浸式的快照。”
a16z的合伙人Sarah Wang也表示,“AI 生成的连贯 3D 世界已经通过 @theworldlabs 问世。”
来自Google Brain的科学家Ben Poole试图拆解其背后的原理,把这一技术的开创归功于谷歌的CAT3D项目。但奈何这个项目就是没李飞飞的项目火。
而在卡内基梅隆大学机器人研究所工作过的Haoru Xue展望了这个产品的潜在应用:在具身智能里构建无穷现实世界。
看了这么多评论,World Labs是不是真的能做到跨越世代呢?从其效果看,确实可以。
从任何一张平平无奇的照片,生成一个可以进去闲逛的3D世界。这听起来像是科幻作家的幻想,但从今天开始,靠着World Labs的发明,这成了触手可及的现实。
世界生成模型,不同在哪里?
之前我们也看到过各种生成3D可交互场景的AI生成产品,包括可即时互动的《我的世界》Oasis。
但World Labs这项技术的核心突破在于直接生成三维场景,而不是停留在传统的像素层面。当一个场景被生成后,它就像真实世界一样稳定存在——你可以在其中自由移动,近距离观察一朵花的细节,或是绕到墙角后看看隐藏的风景。而像素层面生成则很难克服随机性的问题。
更重要的是,这个世界遵循基本的物理规则,具有真实的深度感和空间感。
World Labs还能做出很多场景控制。比如,镜头上,你可以调节虚拟相机的景深,做出大名鼎鼎的希区柯克变焦。
甚至还可以设置多个虚拟镜头,调节镜头在这世界中的运动。
效果方面,你还能为场景添加动态效果,让树叶随风摇曳,让水面泛起波纹。这说明World Labs可以非常好的识别到3D物品的边缘和实体,而非仅仅是复原景深。
更让惊喜的是,这个系统不仅能处理普通照片,还能应付艺术作品。
想象一下:你可以溜进梵高的《夜晚露天咖啡馆》,在那些标志性的黄色灯光下点杯咖啡;或者在爱德华·霍普的《夜游人》中,从另一个角度打量那些永恒的夜归人。这大概是最接近"穿越名画"的体验了——虽然你还是不能真的喝到那杯咖啡。
拿到测试资格的创作者,已经开始迫不及待的开始魔改这项技术,把它塞进视频生成的工作流内。你可以先用文本生成一张图片,再将其转化为3D场景,然后在其中自由设计镜头运动。已经有创作者开始尝试这种新的工作方式——他们将World Labs的技术与现有的AI工具相结合,比如Runway和AI mod,出片效果相当惊艳。
解码世界生成背后的技术
虽然World Labs并没有完全公布其背后的技术论文,但根据一些蛛丝马迹,我们还是可以大概重构其技术背景。
在World Labs提供的一系列场景控制中,有一种是景深还原。这是目前实现图片到3D场景重构的核心方法。
早在2023年末,首尔大学的Lucid Dreamer和Skybox AI 就已经实现了可探索的图片到3D场景的构成。它先用类似Stable Diffusion这样的AI模型生成图像,然后利用点云(即用大量3D坐标点来表示物体表面的数据结构,就像用无数小点描绘空间形状)来确保空间准确性。系统Diffusion 模型创造新视角画面时,会参考这些点云投影作为指引,确保生成的内容符合3D几何规律。
生成的2D图像随后通过景深估计(预测图像中物体远近的技术)转换为新的3D点,再用高斯散射技术(一种通过在空间中分布带有颜色和透明度的小球体来实现逼真3D渲染的方法)将这些离散的点转化为连续平滑的3D场景。整个过程就像是用AI来"画"3D空间,但每一笔都受到严格的几何约束,确保最终生成的虚拟世界既真实自然又能自由探索。
但以当时的技术,它无法实现360度全场景的生成,3D的景深感也非常有限。但这一技术路径很可能就是World Labs实现的基础。
而Ben Poole提到的2024年5月Deepmind 发布CAT3D,其核心是一个"两步走"的过程 - 首先用条件扩散模型(类似Stable Diffusion)基于输入图片生成多个不同视角的画面,然后使用类似NeRF(神经辐射场,一种将2D图像转换为3D场景的神经网络技术)的方法将这些视角整合成一个连续的3D空间。这就像是AI先从不同角度"想象"场景会是什么样子,然后把这些"想象"拼接成一个可以自由探索的3D世界。关键突破在于,他们把原本需要大量真实照片的NeRF技术,改造成了只需几张甚至一张图片就能工作的系统,而且处理速度快得惊人,仅需一分钟。
World Labs跟更像是两者的一种结合态,既能延展生成场景,又能使场景内的3D物品更立体多角度。
算不上重构物理世界,但未来也许可以
当然,目前展示的还是早期成果。在我们的试用之中,自由移动是有边界的。这也许是因为生成的3D模型并非即时渲染,很难能保证大规模镜头运动之后,其他部分的生成。
另外,这个世界是静止的。你虽然可以用特效调节它,但角色之类可动的内容都需要借助其他工具生成。这是个可探索的世界,但你能做的探索,可能仅仅是溜达。
至于物理世界的互动,除了我们现在能看到,从展示视频中出现的物理反弹,沿着3D轮廓的水波纹外,其他都没什么踪迹。这只能说明,World Labs创造的世界中,至多是有3D体积的建构和基础力反馈。很难说它“模拟了物理世界”。
然而,这可能只是World Labs和李飞飞空间智能野心的第一步。李飞飞自己在5月份的讲座中就提到,“如果我们想让AI超越当前能力,我们不仅想要能够看到和说话的AI,我们还想要能够行动的AI。空间智能的最新里程碑是,教计算机看到、学习、行动,并学习看到和行动得更好。“让这个静止的世界动起来,才是空间智能心之所向。
他们在博客中也表示,正在努力提升生成世界的规模和细节质量,并探索更多交互方式。在不远的将来,任何人都可能通过简单的操作创建自己的3D世界,并与之深度交互。
这让人不禁想起博尔赫斯笔下的图书馆,只不过这次不是无限的书籍,而是无限的空间。在AI技术的魔法加持下,每张图片都可能变成一个入口,通向独特的数字领地。这大概就是技术给我们的承诺:不是简单的观看,而是真正的造访;不是被动的欣赏,而是主动的探索。
所以,你们准备好钻进AI世界的兔子洞了吗?
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。