AlphaGo之父想让AI“摆脱”人类数据,获11亿美元种子轮融资
Ineffable,一家成立仅数月,连具体产品形态都没公布的AI初创公司,获得了Sequoia Capital和Lightspeed领投的11亿美元种子轮融资,Index Ventures、谷歌、NVIDIA等参投;其他参投机构还包括英国商业银行(British Business Bank)和Sovereign AI。
类似的剧本此前已经出现过:Ilya Sutskever的Safe Superintelligence、Yann LeCun的AMI Labs,也都是在产品尚未完全清晰时,获得了超10亿美元的种子轮融资,投资人下注的,本质上是创始人的技术信誉,以及他们对下一代AI路线的判断。
图片来源:David Silver官网
Ineffable的创始人也是相似量级。他是David Silver,AlphaGo、AlphaZero、MuZero、AlphaStar、AlphaProof等强化学习代表性成果的首席研究员与核心技术驱动力。
看一下他的Google Scholar主页,总引用数超过30万,万引以上的论文有8篇,可以说他是当代强化学习技术引领者。
Ineffable的核心使命是构建超级智能(superintelligence),他们要创造一个“超级学习体”(superlearner),它能够凭借自身经验探索全部知识。
一个能自我进化的“超级学习体”,目标是发现全新的科学、技术知识
David Silver的职业生涯本质上就在连贯地证明一点:“无需人类先验经验(human priors),也能实现智能的规模化扩展”。
2016年,他在Google DeepMind参与开发的人工智能程序AlphaGo,结合人类棋谱学习、强化学习与自我对弈,在围棋领域打败李世石,让世界首次窥见了超级智能(superintelligence)的雏形。
David随后通过AlphaGo Zero将他的理念推向极致:彻底移除人类预训练数据,纯粹通过自我对弈进行学习,使系统的ELO等级分(现在大模型的排行榜也在用这个)从约3700飙升至5000以上。
他在DeepMind的另一个成果AlphaProof,与AlphaGeometry 2一起,在2024年国际数学奥林匹克竞赛题目上达到银牌水平。
最初,AlphaProof接触了约十万个人类数学家多年积累的正式证明,随后,其强化学习算法通过与形式化证明系统的持续交互,又生成了一亿个证明。这种对交互经验的侧重,使AlphaProof得以探索现有正式证明范围之外的数学可能性,从而发现解决新颖且极具挑战性问题的方案。
可以看到,David每迈出一步,他打造的AI系统就离模仿更远,离发现更近。Ineffable正是这条探索之路的下一步。
谈到现有AI系统的问题,David对《连线(WIRED)》的记者表示,他认为目前的通用做法终将失败。尽管大语言模型已经达到相当高的水平,但它们本质上是在学习人类智能,而非构建自身原生的智能。
他用一个思想实验指出大语言模型路径的局限性:如果穿越回过去,把一个大语言模型投放到一个坚信“地平说”的时代。由于无法与真实世界互动,即使这个系统不断优化自身的代码,它依然会是一个狂热的“地平说”支持者。
他做了一个比喻:“人类数据就像一种化石燃料,提供了一条极佳的捷径,而你可以把那些自主学习的系统看作可再生燃料——它们可以永无止境地持续学习下去,没有上限。”
他提出,Ineffable的使命是与超级智能进行首次接触。他对超级智能的定义是:某种真正不可思议的存在。它应当能够自主发现全新的科学、技术、治理模式或经济学体系。
想象一下,一台机器能够从第一性原理推导出物理定律;能够发明人类从未设想过的全新数学分支;能够设计出现有词汇尚无法描述的新材料、新药物和新计算机。
Ineffable目前没有公布他们的具体产品,只明确了他们要创造一个“超级学习体”(superlearner),这种智能体的目标,是凭借自身经验持续探索知识与技能,而不是主要依赖人类生成的数据。
这种“超级学习体”将由强大的强化学习算法驱动,通过试错、反馈和自我改进不断学习,最终有可能重新发现并超越人类历史上的重要发明。
图片来源:论文截图
从David与他的老师Richard Sutton(强化学习之父,图灵奖得主)在2025年4月发布的论文《Welcome to the Era of Experience》中,我们可以窥见一些Ineffable技术路径的端倪。
论文的核心观点是:一旦经验学习(experiential learning)的全部潜力被释放,将会涌现出令人难以置信的新能力。经验时代很可能由智能体与环境共同定义。
所谓经验学习的前提是,智能体通过与环境的交互生成数据,并从这些交互中学习。学习与数据生成形成了一个单一的闭环。人类生成的数据是有限的,但经验是“无限”的。只要智能体还能行动、观察并获得反馈,它就能不断生成新的学习数据。
现在以人类数据为中心的AI,面临的问题是:要想取得更重大的突破,就需要新的数据源。这种数据的生成方式必须能够随着智能体变强而不断优化;任何用于生成合成数据的静态程序,很快都会被强大的智能体超越。
人工智能正处于一个新周期的前沿,在这个时期,经验将成为能力提升的主导媒介,并最终在规模上远超当今系统所使用的人类数据。经验时代的智能体具备几个核心特征:
智能体将身处持续的经验流(streams of experience)中,而非简短的交互片段。
它们的动作与观察将深度扎根于所处环境,交互不再仅仅局限于对话形式,智能体将能采取实际行动来改变其世界,并从中获得丰富的观测反馈。
它们的奖励及其目标,将直接基于其在世界中的真实经验反馈。这不再依赖于某个标分员主观评判一个动作的好坏,而是智能体在世界中采取行动,产生好或坏的实际后果,智能体进而从这些真实后果中学习。
它们的推理不再只是模仿人类写下来的思维过程,而是会基于自己与世界的实际交互进行预测、试错和修正。
这里要强调的是,奖励和规划推理,恰恰是经验时代最关键的两个支点。
奖励回答的是“智能体到底向什么目标优化”的问题。今天的大语言模型主要依赖人类偏好,人类在没有看到真实后果前,先判断一个回答或动作好不好;而经验型智能体会更多依赖真实世界反馈,让行动结果本身成为学习信号。
规划与推理回答的则是“智能体如何利用经验采取更好行动”的问题。它不只是模仿人类写出一串思维链,而是通过与环境交互、建立世界模型、预测行动后果,再用真实反馈修正自己的判断。也就是说,经验时代的智能体不再只是学习人类已经写下来的知识,而是在真实世界的闭环中,自己发现什么有效、什么无效,以及为什么有效。
将思维直接扎根于外部世界的一种可行路径,是构建一个世界模型(world model)。它能够预测智能体行为对世界产生的后果,包括预测这些行为可能带来的奖励。
以健康助手为例,用户想“改善体能”,奖励函数可以指向睡眠、心率、步数、疲劳感等真实信号;而世界模型要做的,是在提出建议前预判不同方案的后果:推荐健身房是否能提高运动频率,晚上散步是否有助于睡眠,减少咖啡因是否会改善心率和入睡时间。
随后,用户真实的健康数据和主观反馈,又会反过来校准模型。预测错了就修正,建议有效就强化。这样,健康助手就不只是给出看似合理的建议,而是在持续的“建议—行动—反馈—修正”闭环中,逐步学会什么真正适合这个用户。
押注AI下一个颠覆性范式的可能性
OpenAI和Anthropic的估值已经被推到万亿美元附近(有消息称Anthropic的估值达到1.2万亿美元),Google,Meta也对AI做了巨量投入,这些都是建立在Transformer这个技术架构上的,而多模态模型,例如视频和图像模型,则是Transformer和Diffusion架构的结合。
一些公司,已经在试图挑战和改造Transformer架构,让它变得更快,消耗更低。例如,Together AI 、Cartesia AI就探索的是SSM架构,Liquid AI做的是边缘模型,RWKV做的是RNN+Transformer。
但是归根结底,这些范式仍然基于的是人类数据,而人类数据是有上限的。彻底的新范式,在现阶段可能离商业化远一些,但是一旦新的范式被证明有效,并形成新的生态,那它带来的好处又是巨大的,科技发展史上已经多次证明这一点,这也是Ineffable在种子轮就获得11亿美元的原因,VC们押注的不是产品,是AI的下一个颠覆性范式的可能性。
而让他们押注的原因,还是David Silver,因为他的AlphaGo,因为他的8篇万引论文,因为他敢于挑战现有AI范式的勇气和远见。这与阿尔法公社致力于发现非凡创业者,专注早期科技投资的逻辑,是不谋而合的。
本文来自微信公众号“阿尔法公社”,作者:发现非凡创业者的,36氪经授权发布。















