OpenAI 前 CTO,拿出了一个「最人性」的 AI
在「蛰伏」了 18 个月后,OpenAI 前 CTO Mira Murati 的新团队,Thinking Machines,终于交出了自己的答卷。
5 月 11 日,Thinking Machines Lab 发布了一段研究预览视频,展示了他们所谓的「交互模型」(Interaction Model)。
这不是又一个大语言模型的发布会,也不是又一轮跑分刷榜。这家公司做的事情,用一句话概括就是——让 AI 不再像发微信一样一条一条回复你,而是像面对面聊天一样,随时听、随时看、随时插嘴。
如果你看过他们的 Demo 视频,你会发现一件有意思的事:用户正在说话的时候,AI 也在说话;用户对着摄像头做俯卧撑,AI 在一旁数数;用户写代码写错了,AI 主动开口提醒——没人让它说话,它自己看到了。
这种体验,当前市场上没有任何一个商业 AI 产品能做到。
01
「回合制」的枷锁
要理解 Thinking Machines 做的事情为什么重要,得先理解当前所有 AI 对话系统的底层逻辑——回合制。
你说一句,AI 等你说完,然后回一句。在你说话的时候,AI 是「瞎」的、「聋」的,什么都感知不到。在 AI 回复的时候,它的感知也冻结了,不接收任何新信息。这就像两个人隔着一堵墙用对讲机沟通,你按下说话键的时候对方只能等着。
Thinking Machines 介绍 Demo|图片来源:YouTube
这套逻辑在打字聊天的场景下勉强够用,但一旦涉及语音、视频、实时协作,问题就暴露了。现有的 AI 模型把「自主工作」当作最重要的能力来优化,结果是人越来越难留在循环中。
Anthropic 自己的模型卡里都承认过,用户如果用同步、实时的方式操作他们的模型,体验反而不好——模型太慢,用户感知不到价值。
Thinking Machines 的核心主张很简单:交互能力应该和智能一起扩展,而不是被当成事后补丁。
02
200 毫秒的「微回合」
Thinking Machines 的技术路线有一个核心设计:时间对齐的微回合(Time-Aligned Micro-Turns)。
传统模型的输入和输出是一整段一整段处理的。而他们的交互模型把时间切成了 200 毫秒一个单位——每 200 毫秒处理一段输入,同时生成一段输出。音频、视频、文本,三条流同时进行,交替编织成一个连续的 token 序列送给模型。
这意味着什么?模型不再有「你说完了我再说」的人为边界。它可以在用户说话的时候插嘴、可以边听边做搜索、可以一边看视频一边出声提醒。这些能力在以前需要用外部组件拼凑——一个 VAD(语音活动检测)判断什么时候该打断,一个 TTS 生成语音——而 Thinking Machines 把这一切都训练进了模型本身。
他们的逻辑很明确:如果交互能力写在模型外面的「脚手架」上,那模型变大、变聪明的时候,交互能力不会跟着变好。只有把交互训练进模型,扩展模型才能同时让它更聪明、也更会协作。Rich Sutton 那篇经典的「苦涩的教训」(The Bitter Lesson)说的就是这个道理——手工设计的系统,终将被通用能力的规模化击败。
在交互中搜索并生成图表|图片来源:YouTube
在 Demo 视频中,有一个细节让人印象深刻:用户在和 AI 对话的过程中,AI 同时在后台搜索网页并生成 UI 图表,然后无缝地把搜索结果织入对话。用户甚至没有注意到 AI 在搜索,以为它全凭自己的知识在回答。这种「一边聊天一边干活」的能力,正是微回合架构带来的直接结果。
03
架构的两层:
一个管交互,一个管深度思考
Thinking Machines 的系统并不只有一个模型,而是分成了两层。
表层是「交互模型」,一直在线,持续和用户保持双向交流。
底层是「背景模型」,负责需要深度推理、调用工具、执行长链条任务的工作。交互模型在对话中遇到需要深入思考的问题时,会把任务委托给背景模型,同时继续保持和用户的对话——回答追问、接受新输入、维持对话线索。等背景模型出了结果,交互模型会选择一个合适的时机把结果织入对话,而不是生硬地打断用户。
这个设计的精妙之处在于:用户同时享受到了「即时响应」和「深度智能」,不用在两者之间做选择。在技术报告中,他们的 TML-Interaction-Small 模型是一个 276B 参数的 MoE 架构,活跃参数 12B。在 FD-bench V1.5 这个交互质量基准测试上拿到了 77.8 分,几乎是 GPT-realtime-2.0(46.8 分)的两倍。对话响应延迟只有 0.40 秒,而 GPT-realtime-2.0 是 1.18 秒,Gemini 是 0.57 秒。
更有意思的是他们自己开发的几个新测试。一个叫 TimeSpeak,测试模型能否在用户指定的时间主动说话,他们拿到了 64.7% 的准确率,而 GPT-realtime-2.0 只有 4.3%。一个叫 CueSpeak,测试模型能否在正确的语义时机开口,他们拿到 81.7%,GPT 是 2.9%。
换句话说,当前市面上的商业模型,基本上不具备这些交互能力。
04
Thinking Machines 艰难来路
Thinking Machines 的故事,某种程度上也是 OpenAI 人才战争的一个缩影。
Mira Murati 曾经是 OpenAI 的 CTO|图片来源:Techfundingnews
CEO Mira Murati 在 OpenAI 工作了六年半,2022 年升任 CTO,主导了 ChatGPT、DALL-E、Codex、Sora 等几乎所有明星产品的技术方向。2023 年 11 月 Sam Altman 被董事会罢免的那几天,Murati 还当了几天临时 CEO。2024 年 9 月,她宣布离开 OpenAI,说要「给自己留出时间和空间做自己的探索」。
五个月后,2025 年 2 月,Thinking Machines Lab 正式成立。一起来的阵容堪称 AI 行业的「复仇者联盟」——Barrett Zoph(OpenAI 前研究 VP)、John Schulman(OpenAI 联合创始人、RLHF 的关键推动者,此前曾短暂去过 Anthropic)、Lilian Weng(OpenAI 前 VP)、Luke Metz、Andrew Tulloch。顾问团队里有 Bob McGrew(OpenAI 前首席研究官)和 Alec Radford(GPT 系列论文的核心作者)。
公司成立五个月就完成了 20 亿美元的种子轮融资,a16z 领投,Nvidia、AMD、Jane Street 等跟投,估值 120 亿美元。
但接下来发生的事,恐怕是 Murati 没有预料到的。
2025 年 10 月,联合创始人 Andrew Tulloch 离开加入 Meta。2026 年 1 月,更大的震荡来了——CTO Barret Zoph 被公司「分道扬镳」,联合创始人 Luke Metz 和另一位核心成员 Sam Schoenholz 也同时回归 OpenAI。Murati 的公告措辞克制,只提了 Zoph 的离开。58 分钟后,OpenAI 应用部门 CEO Fidji Simo 在社交媒体上宣布同时欢迎三人回归。到了 2026 年 4 月,Meta 又挖走了至少七名创始团队成员。
原来的五位联合创始人,只剩下了一个——John Schulman。
但 Murati 做了一个关键决定:把 PyTorch 的创造者 Soumith Chintala(从 Meta 加入)提拔为新 CTO。
一个失去了大半创始团队的公司,在成立仅 15 个月后拿出了一个定义性的技术 Demo。这本身就说明了一些问题。
05
不只是 Demo,是一种技术信仰
Thinking Machines 这次展示的「交互模型」,当然还有很多局限——长时间对话的上下文管理、对稳定网络连接的依赖、模型规模暂时还不够大(当前版本的更大预训练模型还太慢无法部署)。他们自己在技术博客里坦诚地列出了这些问题。
但这个 Demo 传递出的信号远比技术细节更重要。
当整个行业都在追求更自主的 AI Agent、更长的推理链、更强的自主完成任务的能力时,Thinking Machines 旗帜鲜明地提出了一个不同的方向:AI 应该让人类更容易留在循环中,而不是把人推出去。
他们的技术博客里引用了经济学家哈耶克 1945 年的经典论述——真正重要的知识,往往是关于「特定时间和地点的具体情境」的知识,这种知识很难被完全形式化地传达给 AI。
换句话说,用户脑子里的东西,往往比他们能在 prompt 里写出来的要多得多。要让这些知识流入 AI 的决策过程,唯一的办法就是让人和 AI 的沟通带宽足够大。
从一家经历了联合创始人出走、被 Meta 围猎、被外界质疑产品方向的公司里,跑出了 2026 年第一个让人真正觉得「AI 交互方式要变了」的产品原型。
这或许说明,在 AI 这场竞赛里,最稀缺的资源不是算力、不是资金,而是一个清晰且有信念的技术方向。
本文来自微信公众号“极客公园”(ID:geekpark),作者:桦林舞王,36氪经授权发布。















