鹏城实验室出品,一座“世界模型”融资数亿元
在如今的人工智能竞赛里,扎克伯格和他的Meta可能是最“激进”的玩家,没有之一。
在过去一年时间里,扎克伯格豪掷千金、四处摇人,试图组建世界上最强大的AI产品团队,动辄就为那些有过OpenAI、Anthropic等头部公司工作经历的人才开出1亿美元的“跳槽奖金”。其中最大一笔开支用在了汪涛身上——为了让这位天才少年顺利地加入Meta,带队人工智能团队,扎克伯格豪掷148亿美元直接收购了汪涛创办的Scale AI,直接整体打包带走。
除此而外,扎克伯格SSI的首席执行官、前Y Combinator合伙人丹尼尔·格罗斯(Daniel Gross)旗下的风险投资基金NFDG,并顺势邀请NFDG的两位合伙人——丹尼尔·格罗斯与前GitHub首席执行官、著名科技播客“Hacker Medley”的主理人纳特·弗里德曼(Nat Friedman)加入Meta,准备组建Meta自成立以来的首只产业基金(CVC)。
更重要的是小扎手中还有一张王牌,那就是Meta的首席科学家杨立昆(Yann LeCun)。
杨立昆是谁?他是计算机学界最高荣誉图灵奖的获得者、是AI之父辛顿(Geoffrey Hinton)的亲传弟子、是OpenAI前首席科学家伊利亚(Ilya Sutskever)的同门师兄,是神经网络反向传播学习算法的提出者。可以说,假如人工智能有江湖,那么杨立昆就是那位足够帮Meta开宗立派的宗师。
然而就在刀枪入库、准备大干一场的时候,这张王牌却给了所有人一个意外:杨立昆宣布自己将于年底离开Meta,成立一家属于自己的公司。因为在他看来“目前的大语言模型比猫还笨,对物理世界的理解能力很差”,声称接下来是“死路一条”——如果要做出真正的“通用人工智能(AGI)”,就需要专注另一条技术路线:“世界模型”(world models)。
这条消息一经发布,迅速引爆了全球科技圈,“世界模型”迅速成为热词。无数人都在讨论“到底什么是世界模型”?“世界模型和我们已经熟知的大语言模型,差异点到底是什么?”
而在中国,也有一群科学家们在思考相同的问题,并且不拘泥于杨立昆的理论框架,尝试给出属于自己的解决方案。据投中网获悉,近日,由鹏城实验室孵化、专注“物理空间智能模型”研发的「拓元智慧」宣布完成数亿元Pre-A轮系列融资,引入上市公司东方精工、星宸科技、金牌家居关联基金德韬资本、石溪资本等多家战略及产业投资方,粤科创业等重量级国资投资平台,鹏城愿景、红鸟启航基金等科研机构基金。深蓝资本担任长期独家财务顾问。
据悉,本轮融资资金将主要用于物理空间智能模型的研发投入、赋能模型的物理推理及跨场景迁移能力、构建具身生态并加速相关产品的商业化落地。
什么是“世界模型”?
为什么大语言模型是一条死胡同?研究了一辈子人类大脑的杨立昆认为,人类之所以能够进行推理和规划,是因为人们能够记忆事物、拥有直觉、具备常识,而大语言模型的工作原理其实是推理的是下一个最符合逻辑的词元,图像/视频模型推理的是下一个最符合逻辑的像素。
换句话说,虽然这些模型已经表现出了相当出色的推理能力,但是也仅仅是局限在“词元”“像素”的维度上,并没有真正理解三维世界。以一个简单的真实场景为例:给定“门宽80cm、桌子50cm、人的肩宽55cm”的描述,当前的语言模型往往会逐项比较数字并认为“都比门窄,因此可以一起通过”,完全忽略两者并排时的组合宽度、旋转带来的投影变化、姿态调整的约束以及物体之间的不可穿透性等基本物理规律。这样的错误不只是知识缺失,而是缺乏真正的物理空间理解能力,凸显了当前AI无法成为可靠的物理世界参与者的根本原因。
如果谈得再务实一点,大语言模型虽然在文本推理与知识处理上取得突破,但在理解真实物理空间、进行连续动作规划以及与环境实时交互方面仍然存在根本性缺陷。这类缺陷不仅让AGI的实现遥遥无期,更直接限制了人工智能技术向具身智能等更实际应用场景的拓展。
例如,由于模型无法准确理解空间结构与几何关系,机器人往往在执行简单任务时也会出现“对不准、抓不到、绕不开、走不直”等失败模式。例如,在抓取任务中,机械臂可能因为误判目标位置而多次空抓,或在移动时与桌角、墙面发生轻微碰撞,体现出对距离、可达性和避障条件的误估。在更复杂场景中,模型甚至会生成违反物理规律的行为规划,比如要求机械臂穿过障碍物、让移动平台驶向不可通行的窄隙、在倾斜平面上输出不稳定的轨迹等。此外,这些系统高度依赖训练场景,当光照变化、物体位置轻微移动或视角发生偏差时,其性能会显著下降,出现同一指令在不同场景中的执行结果可能截然不同的状况。
总之想要让人工智能真正地具备人类级别的学习能力,就需要帮助大模型真正地理解我们的“物理世界”,而这条路线就被称为“世界模型”。杨立昆说:“世界模型是你对世界运行方式的心理模型。你可以想象一系列你可能会采取的行动,而你的世界模型将使你能够预测这一系列行动会对世界产生什么影响。”
持有相同观点的还有知名华人科学家李飞飞。李飞飞认为人工智能下一个十年的主要技术方向,应该是具备空间智能的“世界模型”。而判断是否具备“空间智能”的标准是:能够生成符合物理定律且空间一致的世界,处理从图像到动作的多模态输入,并预测这些世界将如何演变或与它们互动。
当然,之所以现在出现了所谓的“路线之争”,并不是因为其他大模型开发者并不认同“世界模型”的价值,而是一切都是有难点的。
从数字世界走到真实世界,一项基本能力是判断在真实世界执行的动作、并与真实世界进行交互,目前主流的大模型架构,即视觉—语言—动作模型(VLA)内部存在着无法回避的两个缺陷,哪怕引入世界模型也难以彻底解决:
第一,VLA 通常将视觉输入先压缩到语言token空间,这一过程天然会丢失连续空间中至关重要的几何、拓扑与物理量信息,使模型难以理解精确位置关系,从而在动作控制上产生偏差,甚至输出违背物理约束的操作序列;
第二,VLA 的泛化能力极为有限。真实世界具有高度复杂性与多样性,而具身智能又对视角变化、环境布局、物体遮挡及动态条件极度敏感。这些因素耦合在一起,使得 VLA 模型很容易在训练场景中表现良好,却无法迁移到新环境中。一旦背景变化、光照不同或物体位置发生微小偏移,模型的感知—推理—动作链条就可能彻底瓦解。
可以说,这两个瓶颈存在直接导致AI在物理空间中能力严重不足,也让当前的“通往AGI之路”看上去像是一个无底洞。一个侧面例证是,就在2025年10月——也就是杨立昆官宣离职创业的一个月之前——扎克伯格曾经公开表示,为了保持行业竞争力,Meta明年的支出成本将超过1000亿美元。这个言论直接引发了人们“大模型烧钱”的焦虑,也严重地考验了投资人们的耐心,10月下旬Meta股价暴跌12.6%,市值蒸发近2400亿美元。
“VWA”,让“世界模型”更有可能?
那么,我们应该如何真实、高效地开发“世界模型”呢?李飞飞、杨立昆在思考,来自中国的科学家们也在思考,而拓元智慧就是其中之一。
拓元智慧是鹏城实验室智算生态构建的首批企业,核心创业团队由国内外顶尖AI学者组成,包括AI领域青年领袖科学家王广润博士(华为天才少年计划最高级别入选者)、国家级青年人才王可泽博士(吴文俊人工智能科学奖得主)、中大-拓元联合实验室负责人梁小丹博士(阿里巴巴青橙奖得主)。
他们给出的答案是“VWA”,即Vision-World-Action模型,是一种区别于VLA模型的全新架构。
拓元团队认为,制约当前大模型能力提升的关键瓶颈,是目前的模型普遍缺乏泛化性。想要打破这个瓶颈,就需要将整体能力解耦为“物理建模”与“空间建模”两大模块。通过这种拆分,模型能够获得高度通用、跨环境稳定的物理建模能力;而真正影响泛化性的部分,仅存在于对具体场景的空间建模上。这一机制与人类在操控陌生环境中的机器人时的行为高度一致:人类并非天然具备“泛化性”,而是依靠在新环境中快速适应空间布局来完成任务。
VWA正是基于这个思路所设计。与VLA必须将视觉信息压缩到语言token空间不同,VWA模型可以直接在物理空间进行推理与决策,在连续物理空间中进行多步roll-out、预测未来状态变换,从而在规划、安全评估与稳定控制方面迈出关键一步。
实现VWA模型架构的核心,则是拓元开发的物理自回归模型(Physical Autoregressive Model, PAR)。PAR模型通过将视频帧与机器人动作共同编码为“物理token”,使得模型能够以自回归方式逐步预测下一步视频与动作,形成“预测—执行—再预测”的闭环。尤为关键的是,PAR模型在无需进行动作预训练的前提下,即可有效学习物理世界的动态规律,在机器人操作基准ManiSkill的PushCube任务上实现了100%的成功率,并在多项任务中媲美需动作预训练的强基线模型。这一成果显著推进了从大规模视频预训练模型向真实世界机器人操控能力迁移的技术路径,为构建具备通用物理常识的具身智能奠定了重要基础。
其次在底层推理机制上,拓元开发提出了全新的Tweedie Framework,显著提升动作控制的准确性;同时引入高效的 Eon 计算机制,大幅增强模型的运行效率与长序列建模能力。两者结合,为构建更可靠、更智能、更具泛化能力的物理空间智能奠定了坚实基础。
而在数据层面,拓元智慧引入多源且高质量的物理数据,其中主要包括:(1)具备空间信息的真实人类抓取及自然场景数据:基于真实业务场景采集的数十亿级双目与多目视觉数据,覆盖多种真实环境和多样化任务场景,具备高度一致的空间结构信息与自然连续的人类动作轨迹。相较于现有以仿真或摆拍为主的数据,这类真实任务数据在规模、多样性与真实性上均具有显著优势,并通过丰富的 3D 空间线索,支持对海量物体进行精细的空间理解与语义解析。(2)训练场仿真数据:依托虚实孪生的具身智能训练场,通过高保真 3D 物理环境重建与逼真的物体资产构建,生成大规模物理仿真数据与仿真遥操作数据,为模型提供可控、可扩展、可重复的训练条件。
依托全新的模型架构和海量的真实预训练数据,模型开发的效率被大大提升,适配所需的数据极少(甚至只需一条示例数据),所涉及的参数规模也极小(例如在数百亿参数的模型中,仅更新约 4000个参数)。更重要的是模型便能在新环境中实现在线快速适配。以家庭机器人为例:一个家务机器人,不再需要漫长的学习和适应的步骤,只需对新的空间布局进行快速建模,就能立即投入使用。
拓元智慧也在这样的预期下,自成立伊始就获得了资本市场的大量关注。自2022年成立至今,拓元智慧先后完成了多轮市场化融资,投资方涵盖卓源资本、源数资本、红鸟启航基金、银杏谷资本等市场化机构,以及粤科金融集团、鹏城愿景基金等国资背景的平台。
而本轮投资方均在其专注领域拥有深厚的资源背景与战略布局,进一步确认了资本市场对拓元智慧技术与发展前景的认可。 例如本次投资方之一东方精工聚焦高端智能装备制造龙头企业。目前,东方精工以“构建具身智能机器人全产业链生态、赋能传统产业智能化升级”为核心,前瞻性布局人工智能+具身智能机器人赛道,已形成覆盖机器人本体制造、多模态大模型智能大脑端研发、应用场景拓展的全产业布局。
星宸科技是全球领先的视觉AI SoC芯片设计企业,视觉AI SoC全球市占率第一(出货量第一)、机器人视觉AI SoC市占率位居全球第二。基于“视觉+AI”的核心框架及“感知+计算+连接”的核心能力,专注为智慧视觉、智慧出行、智能机器人、智能家居、智能办公、智能工业等端边侧设备提供 AI SoC 解决方案。
德韬资本是金牌家居及建潘集团的产业投资平台,围绕“泛家居产业互联网生态平台”布局战略投资,聚焦泛家居产业链、人工智能、机器人、智能家居、工业互联网等领域,致力深耕产业提升价值,加强产业科技孵化、赋能服务产业链、培育产业细分龙头、建设泛家居产业生态、打造泛家居产业互联网。目前管理6只基金,以“资本+产业+科技+平台”模式驱动产业发展。
石溪资本由集成电路存储龙头企业与投资团队发起设立,长期聚焦于硬科技等前沿领域的投资,在半导体、人工智能等领域有着广泛布局,通过产业资源对接、技术赋能等方式助力被投企业成长。石溪资本管理多达十余支基金,目前累计投资项目近60个,其中多家企业已成功上市。
李飞飞曾经在演讲中引用过哲学家路德维希·维特根斯坦的名言“我的语言的局限性就是我的世界的局限性”,说:“至少对于人工智能来说,世界远不止是文字”。可以想象,通过本轮融资获得更多产业方支持、与更多实际生产场景发生直接关联的拓元能够进一步验证VWA的适用性,而VWA也将在不断地磨合过程中进一步优化,最终推动那个遥远的目标——世界模型——真正完成兑现。
本文来自微信公众号“东四十条资本”(ID:DsstCapital),作者:蒲凡,36氪经授权发布。















