李飞飞3D世界模型爆火后,国内首个免费版来了:我当了回「为所欲为」的造物主
还记得前段时间在 AI 圈刷屏的李飞飞「3D 世界生成模型」吗?现在,国产版终于来了。
就在上周腾讯官宣姚顺雨加盟的新闻刷屏时,腾讯混元团队低调上线了 世界模型 1.5(TencentHY WorldPlay) ,这是 国内首个开放体验的实时世界模型 。
什么叫世界模型?简单说:你输入几句话或者一张图,AI 就能给你生成一个可以「走进去玩」的虚拟世界。不是那种只能看的视频,而是可以用键盘、鼠标甚至手柄实时操控的 3D 空间。
根据首帧图片场景生成的游戏场景
这次有什么亮点 :
- 通过原创的 Context Forcing 蒸馏方案以及流式推理优化,模型可以按照 24 FPS 的速度生成 720P 的高清视频;
- : 通过重构记忆机制(Reconstituted Memory),模型支持分钟级内容的几何一致性生成,可用于构建高质量的 3D 空间模拟器;
- : 混元世界模型可广泛适用于不同风格的游戏或者现实场景,以及第一和第三人称视角,也支持实时文本触发事件和视频续写等功能。
是不是被这些晦涩的技术名词绕晕了,APPSO 下面直接带你玩起来,来创造一些脑洞大开的「世界」。
在线体验网站:https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay
文字→世界,体验 「 造物主 」 的快感
打开页面的第一眼,我发现界面做成了一台复古电视机的样子。回想我们小时候看电视,只能看央视放什么、湖南台播什么,遥控器怎么换台也逃不出编排好的节目单。
但现在不需要等晚上 8 点的黄金档,不需要等导演拍完,你自己就是这个世界的总导演。想去体验过山车?打几个字,生成。想回到千禧年跨年夜?描述一下,出现。
一个极速飞驰的过山车,手握冰凉的金属扶手,有呼啸的风灌进喉咙,一阵失重感突然袭来,还有快速掠过的模糊树影,以及头顶刺眼的阳光,第一视角体验很刺激,写实风格
一个极速飞驰的过山车,手握冰凉的金属扶手,有呼啸的风灌进喉咙,一阵失重感突然袭来,还有快速掠过的模糊树影,以及头顶刺眼的阳光,第一视角体验很刺激,写实风格
点击生成后,大约等待了 5-8 秒,画面出现了。第一眼真的有那种坐在过山车第一排的沉浸感。仔细观察画面下方的双手,皮肤纹理、骨节甚至毛孔都清晰可见,红色座椅的漆面质感与金属扶手的划痕也处理得非常真实。
按 ↑ 键前进,画面开始往后倒,好像是反坐过山车,更刺激了。
但视频后面,两侧的树影没有保持住,变形严重,不过考虑到实时生成的难度,可以理解。
一辆狂飙突进的雪地摩托,冻得发麻的金属车把攥在掌心,锋利的雪粒砸进脸颊,一阵失重感猛地翻涌上来,还有飞速掠过的模糊林影,以及头顶冷冽的碎雪天光,第一视角体验
画面生成后,我发现自己处于一个「定格瞬间」,周围的雪、林影、天光都是静态的,就像按下了暂停键。我可以自由转动视角,仔细观察这一刻扬起的雪花、这一刻的天空、这一刻金属车把上的霜痕。
起初我以为这是个 Bug,但仔细一想,有点像你刚刚穿越到一个新世界,时间在这一刻凝固,你可以从容不迫地打量周围的一切细节。
从技术角度看,可能是因为模型难以处理「第一视角+高速运动」场景。虽然不是我预期的「骑着摩托飙雪」的动态体验,但这种冻结瞬间的探索,反而能让人更清晰地感受到 AI 生成的 3D 空间质感。
一个热闹的千禧年跨年夜场景,街头有磁带摊,人们举着彩色气球围在广场倒计时,路边门店的 CRT 电视播放着跨年晚会,突然绽放的烟花照亮夜空,复古风格
如果你是 80 后、90 后,这个场景绝对值得一试。毕竟,在智能手机还没普及的千禧年,没几个人能留个视频做记录。
当镜头从磁带摊转向右侧的建筑,场景中的物体保持了良好的相对位置关系。路灯、人群和电视机都没有出现明显的漂移或错位,证明模型对三维空间的理解还是不错的。
但模型在处理磁带架时,会出现典型的 AI 粘滞感。远看色彩丰富,近看则缺乏锐利的边缘。向上仰望右侧建筑时,建筑的细节显得非常「软」,看起来更像是涂抹的油画,而不是具有坚硬物理结构的固体。
测完了怀旧风,我想试试自己做梦都想住的海景豪宅。
房间的主色调是浅蓝与白沙色,地面铺着仿贝壳肌理的哑光瓷砖,窗边有个浅灰色的亚麻沙发。落地玻璃窗没有任何遮挡,将窗外的海景框成一幅流动的画
这是一段接近 180 度的全景扫视。模型在处理大跨度的视角切换时,窗框、立柱和天花板的直线条没有发生扭曲,表现出了极佳的三维空间一致性。
虽然咱买不起海景房,但至少可以在 AI 生成的世界里躺平一会儿(笑)。万一哪天实现了,也可以用它预览下装修效果。
让千里江山「活」起来
除了文字生成,混元世界模型还支持 「单图生成场景」 功能。但在上传图片之前,有几个注意事项:
检查分辨率: 1280×704 ~ 4k×4k。如果是专业相机拍摄的几十兆的大图,请降低画质或缩小尺寸到 10MB 以下。
避开竖屏图: 手机拍摄的纵向照片不符合要求,建议裁剪成横向。
视频续写:根据首帧图片场景生成
搞定这些后,我做了个大胆的尝试:上传了一张《千里江山图》的局部。
对,就是那幅北宋天才少年王希孟 18 岁时画的青绿山水、层峦叠嶂。我想看看,硅基智能能不能读懂千年前的碳基美学。
画面生成完毕。这完全超出了我的预期:
AI 很好地保留了原画的风格特征,3D 化处理没有破坏中国画的意境,像我真的穿越回了北宋,站在王希孟当年写生的那片山水里。
这说明世界模型可能让艺术不再只是「被欣赏」,而是可以「自由游览」 。
实时触发事件
世界模型最吸引人的地方在于,你只需要说一句话,等 5 秒钟,世界就按你的意愿改变了。
别再说「没招了」,来这里过一把霸总瘾。
不是「切换场景」式的跳变,而是平滑过渡的。天色从亮到暗的渐变过程,光影变化的细腻程度,都让人感觉这个世界「活」了起来。
爆炸产生的高亮度橙色火光实时地反射在水面上,效果非常自然,不过细看之下还是会有些小瑕疵。
比如在如此巨大的爆炸发生后,近处的水面竟然没有任何波动。要知道在真实物理世界中,剧烈的空气膨胀会改变水面的状态。
看完实测,相信你和我一样好奇:技术上是怎么做的?
腾讯混元团队的技术报告提到,传统的扩散模型(Diffusion Model)生成视频时,需要先完整地去噪整个画面,然后再输出。这就导致了两个问题:一是延迟高,二是无法实时响应用户操作。
这次采用了流式 DiT (扩散变换器)架构,能像流媒体一样,边接收用户的实时手柄控制信号,边瞬间去噪并解码成画面。这种设计保证了极低的延迟,让你在操控视角时感觉不到卡顿。
世界模型最大的问题是「健忘」,你让它生成一个客厅,它生成了;转走再回来,它又生成了一个全新的客厅,跟刚才那个完全不一样。
Context Forcing 机制的作用,就是强制模型「记住」之前生成的场景细节。简单说,就是给模型加了一个「短期记忆」,让它在生成新画面时,能参考之前的几何结构、光影关系、物体位置,从而保证长时间的 3D 一致性。
测完混元世界模型,我脑子里一直回响着李飞飞的那句话:「人类智能的核心不是语言,而是对三维空间的理解和操作能力。」
过去两年,大语言模型(LLM)火爆全球,ChatGPT、Claude、Gemini 让我们惊叹于 AI 的语言能力。但冷静下来想想:会聊天的 AI,真的理解世界吗?
它不知道一张桌子有多高,不知道从客厅走到厨房需要转几个弯,不知道一个杯子掉在地上会如何碎掉……
语言智能,让 AI 学会了「说」;空间智能,才能让 AI 学会「做」。
这就是为什么 Google、Meta、OpenAI、腾讯都在押注世界模型。它不是一个更酷的视频生成工具,而是通往通用人工智能(AGI)的关键一步。
《我的世界》(Minecraft)刚发布时,很多人觉得「这有什么好玩的?」
十几年过去了,Minecraft 成了全球最成功的游戏之一,不是因为它拥有顶尖的画质与特效,而是因为它给了玩家创造世界的自由。
世界模型现在的流畅度、交互深度都还有提升的空间。但它给了我们一种关于未来的想象:每个人都能成为造物主。
亲自试试,然后回来告诉我,你创造了什么样的世界。
本文来自微信公众号“APPSO”,作者:发现明日产品的,36氪经授权发布。















