李飞飞3D世界模型爆火后，国内首个免费版来了：我当了回「为所欲为」的造物主

爱范儿·2025年12月22日 17:18

世界，如此简单

还记得前段时间在 AI 圈刷屏的李飞飞「3D 世界生成模型」吗？现在，国产版终于来了。

就在上周腾讯官宣姚顺雨加盟的新闻刷屏时，腾讯混元团队低调上线了 世界模型 1.5（TencentHY WorldPlay） ，这是 国内首个开放体验的实时世界模型 。

什么叫世界模型？简单说：你输入几句话或者一张图，AI 就能给你生成一个可以「走进去玩」的虚拟世界。不是那种只能看的视频，而是可以用键盘、鼠标甚至手柄实时操控的 3D 空间。

根据首帧图片场景生成的游戏场景

这次有什么亮点：

通过原创的 Context Forcing 蒸馏方案以及流式推理优化，模型可以按照 24 FPS 的速度生成 720P 的高清视频；
：通过重构记忆机制（Reconstituted Memory），模型支持分钟级内容的几何一致性生成，可用于构建高质量的 3D 空间模拟器；
：混元世界模型可广泛适用于不同风格的游戏或者现实场景，以及第一和第三人称视角，也支持实时文本触发事件和视频续写等功能。

是不是被这些晦涩的技术名词绕晕了，APPSO 下面直接带你玩起来，来创造一些脑洞大开的「世界」。

在线体验网站：https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay

文字→世界，体验「造物主」的快感

打开页面的第一眼，我发现界面做成了一台复古电视机的样子。回想我们小时候看电视，只能看央视放什么、湖南台播什么，遥控器怎么换台也逃不出编排好的节目单。

但现在不需要等晚上 8 点的黄金档，不需要等导演拍完，你自己就是这个世界的总导演。想去体验过山车？打几个字，生成。想回到千禧年跨年夜？描述一下，出现。

一个极速飞驰的过山车，手握冰凉的金属扶手，有呼啸的风灌进喉咙，一阵失重感突然袭来，还有快速掠过的模糊树影，以及头顶刺眼的阳光，第一视角体验很刺激，写实风格

点击生成后，大约等待了 5-8 秒，画面出现了。第一眼真的有那种坐在过山车第一排的沉浸感。仔细观察画面下方的双手，皮肤纹理、骨节甚至毛孔都清晰可见，红色座椅的漆面质感与金属扶手的划痕也处理得非常真实。

按 ↑ 键前进，画面开始往后倒，好像是反坐过山车，更刺激了。

但视频后面，两侧的树影没有保持住，变形严重，不过考虑到实时生成的难度，可以理解。

一辆狂飙突进的雪地摩托，冻得发麻的金属车把攥在掌心，锋利的雪粒砸进脸颊，一阵失重感猛地翻涌上来，还有飞速掠过的模糊林影，以及头顶冷冽的碎雪天光，第一视角体验

画面生成后，我发现自己处于一个「定格瞬间」，周围的雪、林影、天光都是静态的，就像按下了暂停键。我可以自由转动视角，仔细观察这一刻扬起的雪花、这一刻的天空、这一刻金属车把上的霜痕。

起初我以为这是个 Bug，但仔细一想，有点像你刚刚穿越到一个新世界，时间在这一刻凝固，你可以从容不迫地打量周围的一切细节。

从技术角度看，可能是因为模型难以处理「第一视角+高速运动」场景。虽然不是我预期的「骑着摩托飙雪」的动态体验，但这种冻结瞬间的探索，反而能让人更清晰地感受到 AI 生成的 3D 空间质感。

一个热闹的千禧年跨年夜场景，街头有磁带摊，人们举着彩色气球围在广场倒计时，路边门店的 CRT 电视播放着跨年晚会，突然绽放的烟花照亮夜空，复古风格

如果你是 80 后、90 后，这个场景绝对值得一试。毕竟，在智能手机还没普及的千禧年，没几个人能留个视频做记录。

当镜头从磁带摊转向右侧的建筑，场景中的物体保持了良好的相对位置关系。路灯、人群和电视机都没有出现明显的漂移或错位，证明模型对三维空间的理解还是不错的。

但模型在处理磁带架时，会出现典型的 AI 粘滞感。远看色彩丰富，近看则缺乏锐利的边缘。向上仰望右侧建筑时，建筑的细节显得非常「软」，看起来更像是涂抹的油画，而不是具有坚硬物理结构的固体。

测完了怀旧风，我想试试自己做梦都想住的海景豪宅。

房间的主色调是浅蓝与白沙色，地面铺着仿贝壳肌理的哑光瓷砖，窗边有个浅灰色的亚麻沙发。落地玻璃窗没有任何遮挡，将窗外的海景框成一幅流动的画

这是一段接近 180 度的全景扫视。模型在处理大跨度的视角切换时，窗框、立柱和天花板的直线条没有发生扭曲，表现出了极佳的三维空间一致性。

虽然咱买不起海景房，但至少可以在 AI 生成的世界里躺平一会儿（笑）。万一哪天实现了，也可以用它预览下装修效果。

让千里江山「活」起来

除了文字生成，混元世界模型还支持 「单图生成场景」 功能。但在上传图片之前，有几个注意事项：

检查分辨率： 1280×704 ~ 4k×4k。如果是专业相机拍摄的几十兆的大图，请降低画质或缩小尺寸到 10MB 以下。

避开竖屏图：手机拍摄的纵向照片不符合要求，建议裁剪成横向。

视频续写：根据首帧图片场景生成

搞定这些后，我做了个大胆的尝试：上传了一张《千里江山图》的局部。

对，就是那幅北宋天才少年王希孟 18 岁时画的青绿山水、层峦叠嶂。我想看看，硅基智能能不能读懂千年前的碳基美学。

画面生成完毕。这完全超出了我的预期：

AI 很好地保留了原画的风格特征，3D 化处理没有破坏中国画的意境，像我真的穿越回了北宋，站在王希孟当年写生的那片山水里。

这说明世界模型可能让艺术不再只是「被欣赏」，而是可以「自由游览」。

实时触发事件

世界模型最吸引人的地方在于，你只需要说一句话，等 5 秒钟，世界就按你的意愿改变了。

别再说「没招了」，来这里过一把霸总瘾。

不是「切换场景」式的跳变，而是平滑过渡的。天色从亮到暗的渐变过程，光影变化的细腻程度，都让人感觉这个世界「活」了起来。

爆炸产生的高亮度橙色火光实时地反射在水面上，效果非常自然，不过细看之下还是会有些小瑕疵。

比如在如此巨大的爆炸发生后，近处的水面竟然没有任何波动。要知道在真实物理世界中，剧烈的空气膨胀会改变水面的状态。

看完实测，相信你和我一样好奇：技术上是怎么做的？

腾讯混元团队的技术报告提到，传统的扩散模型（Diffusion Model）生成视频时，需要先完整地去噪整个画面，然后再输出。这就导致了两个问题：一是延迟高，二是无法实时响应用户操作。

这次采用了流式 DiT （扩散变换器）架构，能像流媒体一样，边接收用户的实时手柄控制信号，边瞬间去噪并解码成画面。这种设计保证了极低的延迟，让你在操控视角时感觉不到卡顿。

世界模型最大的问题是「健忘」，你让它生成一个客厅，它生成了；转走再回来，它又生成了一个全新的客厅，跟刚才那个完全不一样。

Context Forcing 机制的作用，就是强制模型「记住」之前生成的场景细节。简单说，就是给模型加了一个「短期记忆」，让它在生成新画面时，能参考之前的几何结构、光影关系、物体位置，从而保证长时间的 3D 一致性。

测完混元世界模型，我脑子里一直回响着李飞飞的那句话：「人类智能的核心不是语言，而是对三维空间的理解和操作能力。」

过去两年，大语言模型（LLM）火爆全球，ChatGPT、Claude、Gemini 让我们惊叹于 AI 的语言能力。但冷静下来想想：会聊天的 AI，真的理解世界吗？

它不知道一张桌子有多高，不知道从客厅走到厨房需要转几个弯，不知道一个杯子掉在地上会如何碎掉……

语言智能，让 AI 学会了「说」；空间智能，才能让 AI 学会「做」。

这就是为什么 Google、Meta、OpenAI、腾讯都在押注世界模型。它不是一个更酷的视频生成工具，而是通往通用人工智能（AGI）的关键一步。

《我的世界》（Minecraft）刚发布时，很多人觉得「这有什么好玩的？」

十几年过去了，Minecraft 成了全球最成功的游戏之一，不是因为它拥有顶尖的画质与特效，而是因为它给了玩家创造世界的自由。

世界模型现在的流畅度、交互深度都还有提升的空间。但它给了我们一种关于未来的想象：每个人都能成为造物主。

亲自试试，然后回来告诉我，你创造了什么样的世界。

本文来自微信公众号“APPSO”，作者：发现明日产品的，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

李飞飞3D世界模型爆火后，国内首个免费版来了：我当了回「为所欲为」的造物主

文字→世界，体验「造物主」的快感

让千里江山「活」起来

实时触发事件

最近内容

下一篇

李飞飞3D世界模型爆火后，国内首个免费版来了：我当了回「为所欲为」的造物主

文字→世界，体验 「 造物主 」 的快感

让千里江山「活」起来

实时触发事件

最近内容

下一篇

文字→世界，体验「造物主」的快感