AI 能造世界了?谷歌 DeepMind 的 Genie 3 分秒生成《死亡搁浅》

极客公园·2025年08月06日 19:25
不再是一花一世界,而是「一话一世界」。

如果说过去几年,生成式 AI 的突破让我们学会了和算法对话,能让它帮我们写文章、画插画、甚至剪视频,那么 DeepMind 在这个今天抛出的 Genie 3,又让生成式 AI 走进了另一个维度。

8 月 5 日,DeepMind 在官网公布了 Genie 3,一款被称作「通用世界模型」的新模型

打开 Genie 3,输入一句 prompt「在一个暴风雨中的中世纪村庄漫步」,几秒钟后,Genie 3 就可以生成一片可以探索、可实时交互的 3D 场景,在湿漉漉的村庄,石板路上反射着雷电的光芒,你可以控制视角,在村庄里自由漫步,你走近一间小屋推开门,能看到炉火在风中摇曳的光影变化。

更神奇的是,当你离开小屋再返回,炉火还在,墙上的涂鸦也没变,此时你在指令框中输入「雨过天晴,屋外有一名骑士骑马而来。」几秒钟后,你就能再次推门而出,迎接骑士的光临。

这一刻,你宛若小小世界的造物主,这就是 Genie 3 所呈现的「通用世界模型」的生成能力。而 Genie 3 的强大能力,让谷歌在激烈的 AI 竞争中,又扳回了一分。

01

指尖创造世界

Genie 3 的前身是 2024 年底发布的 Genie 2,那时的模型虽然能生成简单的 3D 环境,但场景只能维持 10 到 20 秒,细节粗糙且经不起考验,视角稍一转头,树木可能漂浮,角色可能凭空消失,物体位置会随机变化。

短短七个月,Genie 3 实现了惊人飞跃。

从 360p 分辨率跃升到了 720p 分辨率、24 帧每秒的画面输出,Genie 3 还可以维持连续数分钟的模拟,而不是十几秒的动画片段。

更关键的是,Genie 3 不是像游戏引擎那样靠硬编码物理,而是通过模型预测,保持场景逻辑和物理一致性。简单来说,场景里的树叶会自然晃动而不是乱飞,角色的阴影随位置移动,物体在碰撞后也会给出符合物理规律的反馈。

过去,不论是 Sora 这样的文本转视频模型,还是早期的 Genie 系列,都难以解决「世界一致性」的难题。

而 Genie 3 则引入了新的视觉记忆机制,让每一帧都参考前一帧的状态,并持续维护整个环境的布局。这意味着,走过的路不会在你回头时凭空消失,树木、岩石、建筑会稳定地保持在原地,仿佛真的存在于一个连续的空间。

简单说,就是模型学会了「记住」自己刚才画过什么。于是,你不再看到那种突兀的跳变,而是看到了连续、可持续几分钟的世界。

Genie 3 已经能记住生成的物体|图片来源:Genie 3

DeepMind 在博客中直言,这类世界模型是通用智能的基石,因为真正的智能不仅需要理解世界,还要能在世界中做决策、采取行动,而这一切只能在稳定的、逻辑一致的环境里发生。

这也是为什么 DeepMind 把它称为「世界模型」而非单纯的「视频生成器」。

生成场景符合物理规律|图片来源:Genie 3

传统的生成视频模型,比如 Sora,可以把一段文本描述转换成 30 秒的视频,但本质上仍然是「一段封闭的片段」。你不能改变片段中的世界,更无法与它交互。

而 Genie 3 则在交互性上跨出了一大步。它不仅能生成一个连续世界,还能在你探索的过程中动态调整场景,同时保证逻辑不崩坏。这既是 Genie 3 的 Promptable World Events,简单理解就是「文字即指令,世界实时响应」。

比如,当你输入「水面出现一辆摩托艇」,Genie 3 不会重新生成一个全新的画面,而是空降一台摩托艇滑过河道,在两侧和身后溅起逼真的水花。

这种即时可塑性,意味着用户不仅是观众,还是导演。

同一场景,无限可能|图片来源:Genie 3

据 DeepMind 透露,Genie 3 在训练时使用了大量游戏引擎生成的数据集,以及视频预测任务,以此让模型具备「因果感」和「持久性」。更通俗地说,Genie 3 学会了两件事:世界是连续的,动作会带来后果。

另一个细节是,Genie 3 支持视角的自由移动,并能动态重绘不同视角的内容。这听起来容易,但在生成模型里极其困难,需要模型具备强大的 3D 推理能力。这也是为什么 DeepMind 在博客里强调,Genie 3 的目标不仅是视频,而是「基于世界的交互式生成」。

所以 Genie 3 不是「生图」、「生视频」,而是生成一段可探索、可编辑的虚拟现实,这就产生了无限的应用场景。

02

颠覆创意行业

只看官方的 demo 演示,都能想象出许多 Genie 3 可应用的场景,特别是在创意行业。

从最初的文字界面,到 2D,再到如今的 3D 和 VR,电子游戏一直是人类探索虚拟空间的先锋。在 Genie 3 的演示中,这一趋势被推向了一个全新高度:只需一句话,就能即时生成一个可探索、可交互的 3D 场景,这对游戏开发行业意味着什么?

在传统开发流程中,3D 场景的构建是游戏制作中最昂贵、最耗时的环节之一。尤其对于独立开发者,这往往成为他们不得不妥协的原因,很多人退而求其次,选择 2D 像素风、手绘、低多边形等形式,以降低开发成本。

但 Genie 3 彻底打破了这一限制。以往需要数周甚至数月去建模、贴图、调光,如今只要写下几句话,就能搭建一个动态可交互的场景。

是不是非常有「面包房模拟器」游戏画风即视感|图片来源:Genie 3

大型工作室或许仍会用虚幻引擎或自研引擎构建极致画质的 AAA 世界,但对于资源有限的开发者而言,Genie 3 恰好填补了那道「成本鸿沟」:它不取代专业引擎,却极大降低了场景设计的门槛,一家有创意但没技术的小团队,可以像拼乐高一样,用文本拼凑出一整张开放世界地图。

影视行业同样如此,导演和美术可以在开拍前实时预览场景风格,调整光影、添加角色,甚至让演员直接在虚拟空间中走位,实现「沉浸式分镜头」。

教育行业的想象空间更大,课本中描绘的历史古迹、地理现象,都可能通过 Genie 3 生成一个可交互、可探索的场景。

艺术也产生了新的表达,想象一下我们能「光顾」《魔戒》中的都林之门,也能「进入」拉斐尔所绘的《雅典学院》。

或许当每个人都能有「构建虚拟空间」的能力时,扎克伯格心心念念的元宇宙也能得以实现了。

而 DeepMind 更大的野心,还在对物理 Agent 的训练上。

03

AI 的「认知训练场」

DeepMind 在博客中直言,世界模型的意义在于,它能为智能体提供一个「认知训练场」,让 Agent 在虚拟世界中学习因果关系、空间感知和行动规划,而不是直接在真实世界中试错

举个例子,如果你要训练一台仓储机器人,过去的做法是搭建昂贵的物理场景,或依赖传统游戏引擎模拟。但这些方法都存在局限:前者成本高,后者缺乏多样性。

但在 Genie 3 里,你有一个可以无限生成、即时修改、逻辑连贯的世界,机器人可以在里面练习避障、搬运、协作,甚至模拟极端情况,比如训练自动驾驶汽车应对行人突然冲出马路的情况,这类场景在现实中极难复现,但在 Genie 3 中单靠文本就能创建。

这也是 DeepMind 所说的:Genie 3 有可能将 AI Agent 推到极限,它将迫使 Agents 从自己的经验中学习,类似于人类在现实世界中学习的方式。

不过 Genie 3 并非万能,它仍在技术上有明显限制。

比如目前场景分辨率只有 720p,帧率 24fps,虽然对 AI 生成来说已经不易,但距离 4K 高帧率的游戏画面标准还有差距;其次,Genie 3 生成的场景持久性仍然有限,尽管官方表示能达数分钟,但放出来的演示都控制在了 1 分钟以内。

而场景中的文字渲染仍然糟糕,你很难在它生成的路牌上看到清晰字体,物理一致性也还不够完美,在出现大批量生物、模拟雪崩等细节测试中,仍会露出「AI 异常」的破绽。

诡异的鹿群|图片来源:Genie 3

开放性也是未知数。DeepMind 表示,Genie 3 目前只在研究和合作项目中使用,尚未面向公众开放 API,更没有像 Imagen 或 Gemini 那样的在线体验入口。

然而回到更大的图景,Genie 3 不是孤立的巧思,而是 AI 技术迁移方向的一次标志性转折。

从李飞飞所创建的 World Labs、英伟达推出的 Cosmos 世界基础模型到现在 DeepMind 放出的 Genie 3,反映了一条清晰的 AI 空间智能技术的发展路径:从 2D 到 3D、再到空间可探索、最终场景物理一致、时空连贯、交互有变化和因果。

ChatGPT 让我们意识到语言可以是操作系统,Sora 让我们看到视频可以是创作界面,而 Genie 3 则进一步,把文字变成「可操作」的空间。

最终,无论是游戏、影视、教育、科研,构建虚拟世界将变成一种即时表达方式:

一行文字,一段描述,一话一世界。

本文来自微信公众号“极客公园”(ID:geekpark),作者:Moonshot,编辑:靖宇,36氪经授权发布。

+1
5

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

大洋彼岸的这番“刀光剑影”,或许更符合大家认知中的商战。

4小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业