OpenAI 前 CTO，拿出了一个「最人性」的 AI

极客公园·2026年05月12日 10:36

Mira Murati 用一年半时间证明了「人机协作」不是一句口号。

在「蛰伏」了 18 个月后，OpenAI 前 CTO Mira Murati 的新团队，Thinking Machines，终于交出了自己的答卷。

5 月 11 日，Thinking Machines Lab 发布了一段研究预览视频，展示了他们所谓的「交互模型」（Interaction Model）。

这不是又一个大语言模型的发布会，也不是又一轮跑分刷榜。这家公司做的事情，用一句话概括就是——让 AI 不再像发微信一样一条一条回复你，而是像面对面聊天一样，随时听、随时看、随时插嘴。

如果你看过他们的 Demo 视频，你会发现一件有意思的事：用户正在说话的时候，AI 也在说话；用户对着摄像头做俯卧撑，AI 在一旁数数；用户写代码写错了，AI 主动开口提醒——没人让它说话，它自己看到了。

这种体验，当前市场上没有任何一个商业 AI 产品能做到。

01 「回合制」的枷锁

要理解 Thinking Machines 做的事情为什么重要，得先理解当前所有 AI 对话系统的底层逻辑——回合制。

你说一句，AI 等你说完，然后回一句。在你说话的时候，AI 是「瞎」的、「聋」的，什么都感知不到。在 AI 回复的时候，它的感知也冻结了，不接收任何新信息。这就像两个人隔着一堵墙用对讲机沟通，你按下说话键的时候对方只能等着。

Thinking Machines 介绍 Demo｜图片来源：YouTube

这套逻辑在打字聊天的场景下勉强够用，但一旦涉及语音、视频、实时协作，问题就暴露了。现有的 AI 模型把「自主工作」当作最重要的能力来优化，结果是人越来越难留在循环中。

Anthropic 自己的模型卡里都承认过，用户如果用同步、实时的方式操作他们的模型，体验反而不好——模型太慢，用户感知不到价值。

Thinking Machines 的核心主张很简单：交互能力应该和智能一起扩展，而不是被当成事后补丁。

02 200 毫秒的「微回合」

Thinking Machines 的技术路线有一个核心设计：时间对齐的微回合（Time-Aligned Micro-Turns）。

传统模型的输入和输出是一整段一整段处理的。而他们的交互模型把时间切成了 200 毫秒一个单位——每 200 毫秒处理一段输入，同时生成一段输出。音频、视频、文本，三条流同时进行，交替编织成一个连续的 token 序列送给模型。

这意味着什么？模型不再有「你说完了我再说」的人为边界。它可以在用户说话的时候插嘴、可以边听边做搜索、可以一边看视频一边出声提醒。这些能力在以前需要用外部组件拼凑——一个 VAD（语音活动检测）判断什么时候该打断，一个 TTS 生成语音——而 Thinking Machines 把这一切都训练进了模型本身。

他们的逻辑很明确：如果交互能力写在模型外面的「脚手架」上，那模型变大、变聪明的时候，交互能力不会跟着变好。只有把交互训练进模型，扩展模型才能同时让它更聪明、也更会协作。Rich Sutton 那篇经典的「苦涩的教训」（The Bitter Lesson）说的就是这个道理——手工设计的系统，终将被通用能力的规模化击败。

在交互中搜索并生成图表｜图片来源：YouTube

在 Demo 视频中，有一个细节让人印象深刻：用户在和 AI 对话的过程中，AI 同时在后台搜索网页并生成 UI 图表，然后无缝地把搜索结果织入对话。用户甚至没有注意到 AI 在搜索，以为它全凭自己的知识在回答。这种「一边聊天一边干活」的能力，正是微回合架构带来的直接结果。

03 架构的两层：

一个管交互，一个管深度思考

Thinking Machines 的系统并不只有一个模型，而是分成了两层。

表层是「交互模型」，一直在线，持续和用户保持双向交流。

底层是「背景模型」，负责需要深度推理、调用工具、执行长链条任务的工作。交互模型在对话中遇到需要深入思考的问题时，会把任务委托给背景模型，同时继续保持和用户的对话——回答追问、接受新输入、维持对话线索。等背景模型出了结果，交互模型会选择一个合适的时机把结果织入对话，而不是生硬地打断用户。

这个设计的精妙之处在于：用户同时享受到了「即时响应」和「深度智能」，不用在两者之间做选择。在技术报告中，他们的 TML-Interaction-Small 模型是一个 276B 参数的 MoE 架构，活跃参数 12B。在 FD-bench V1.5 这个交互质量基准测试上拿到了 77.8 分，几乎是 GPT-realtime-2.0（46.8 分）的两倍。对话响应延迟只有 0.40 秒，而 GPT-realtime-2.0 是 1.18 秒，Gemini 是 0.57 秒。

更有意思的是他们自己开发的几个新测试。一个叫 TimeSpeak，测试模型能否在用户指定的时间主动说话，他们拿到了 64.7% 的准确率，而 GPT-realtime-2.0 只有 4.3%。一个叫 CueSpeak，测试模型能否在正确的语义时机开口，他们拿到 81.7%，GPT 是 2.9%。

换句话说，当前市面上的商业模型，基本上不具备这些交互能力。

04 Thinking Machines 艰难来路

Thinking Machines 的故事，某种程度上也是 OpenAI 人才战争的一个缩影。

Mira Murati 曾经是 OpenAI 的 CTO｜图片来源：Techfundingnews

CEO Mira Murati 在 OpenAI 工作了六年半，2022 年升任 CTO，主导了 ChatGPT、DALL-E、Codex、Sora 等几乎所有明星产品的技术方向。2023 年 11 月 Sam Altman 被董事会罢免的那几天，Murati 还当了几天临时 CEO。2024 年 9 月，她宣布离开 OpenAI，说要「给自己留出时间和空间做自己的探索」。

五个月后，2025 年 2 月，Thinking Machines Lab 正式成立。一起来的阵容堪称 AI 行业的「复仇者联盟」——Barrett Zoph（OpenAI 前研究 VP）、John Schulman（OpenAI 联合创始人、RLHF 的关键推动者，此前曾短暂去过 Anthropic）、Lilian Weng（OpenAI 前 VP）、Luke Metz、Andrew Tulloch。顾问团队里有 Bob McGrew（OpenAI 前首席研究官）和 Alec Radford（GPT 系列论文的核心作者）。

公司成立五个月就完成了 20 亿美元的种子轮融资，a16z 领投，Nvidia、AMD、Jane Street 等跟投，估值 120 亿美元。

但接下来发生的事，恐怕是 Murati 没有预料到的。

2025 年 10 月，联合创始人 Andrew Tulloch 离开加入 Meta。2026 年 1 月，更大的震荡来了——CTO Barret Zoph 被公司「分道扬镳」，联合创始人 Luke Metz 和另一位核心成员 Sam Schoenholz 也同时回归 OpenAI。Murati 的公告措辞克制，只提了 Zoph 的离开。58 分钟后，OpenAI 应用部门 CEO Fidji Simo 在社交媒体上宣布同时欢迎三人回归。到了 2026 年 4 月，Meta 又挖走了至少七名创始团队成员。

原来的五位联合创始人，只剩下了一个——John Schulman。

但 Murati 做了一个关键决定：把 PyTorch 的创造者 Soumith Chintala（从 Meta 加入）提拔为新 CTO。

一个失去了大半创始团队的公司，在成立仅 15 个月后拿出了一个定义性的技术 Demo。这本身就说明了一些问题。