Harness：当模型不再是瓶颈，AI 的问题才刚刚开始

时氪分享·2026年03月27日 11:11

AI 的下一个分水岭，不在模型，而在系统。

最近，一个原本主要存在于工程语境中的词，开始频繁出现在中文科技圈——Harness。

和许多技术概念类似，它的传播速度，往往快于理解速度。

在不同语境中，人们对它的理解并不一致：有人将其视为 agent 的一种工程实现方式，也有人将其理解为某种 AI runtime，还有观点认为它只是 prompt engineering 的延伸。

一个还没被说清楚的问题：AI 能做，但做不稳

过去两年，AI 的进展几乎完全由模型能力驱动。

更强的推理能力、更长的上下文、更复杂的多步骤执行能力，使得 agent 在能力层面迅速逼近“可用”。但在一些已经进入真实系统的实践中，一个问题开始反复出现：这些任务可以一次成功，但难以稳定复现；可以接近正确，却在边界条件下偏离；即使AI能力在增强，但执行却变得不可预测…

在这些案例中，问题往往并不来自模型本身,而是系统缺乏足够的约束。于是一个新的共识开始形成：模型决定能力的上限，而系统，开始决定结果是否可复现。

也正是在这一背景下，一个原本存在于工程语境中的词，开始被反复提及：

Harness。

还没开始被讨论，有人已经跑通了

在“Harness”被命名之前，这一层能力并不存在一个统一的概念，而是以不同形态分散出现：coding agent、deep research agent，以及 multi-agent orchestrator。在工程实践中，这些能力各自独立运行，但一旦进入复杂任务场景，问题开始显现：执行路径不可控、结果难以复现、系统难以收敛。

与其说这是模型能力的限制，不如说，这是系统缺乏约束的结果。

据 36 氪了解，一支横跨中美的 AI 系统团队，长期专注于将模型能力转化为稳定可执行系统。团队核心成员来自 MIT、CMU 以及 Meta 大模型团队，创始人 Luke Wang 曾在 MIT Media Lab 从事 NLP 研究，由当时的 Twitter 首席数据科学家指导，其研究方向长期围绕语言模型与系统执行层的结合展开。MIT Media Lab 是全球最具影响力的跨学科实验室之一，长期处于新计算范式的探索前沿。诸如 Scratch 编程教育工具、“情感计算”研究方向，以及可穿戴设备的发展路径，都曾在此诞生。在持续的工程实践中，团队创始人 Luke Wang 逐渐逼近一个结论：

AI 的问题，不再是能力，而是收敛。

也正是在这一判断下，团队的切入方式发生了转变——不再继续优化模型或 prompt，而是从系统层反向入手：

如何让 AI 的行为，被结构性约束。

与其说他们在“研究 Harness”，不如说是在反复失败中，被这个问题一步步逼到这里。

一个内部项目，跑出了意料之外的结果

大约在一年前，这支团队从一个内部项目（Mynora.ai）出发，开始正面面对一个反复出现的问题：agent 在复杂任务中的执行，无法稳定收敛。

他们构建了一个强调代码安全性与系统稳定性的智能合约 Coding Agent，并将问题直接放在最困难的场景中验证：复杂任务、长链路执行、高风险环境。目标只有一个：验证系统是否可以“约束住 AI”，而不是“引导 AI”。

上线不到一个月，这个项目在北美开发者社区迅速扩散，并在一个极其具体的场景中完成了“占位”：在 ETHGlobal New York 黑客松中，接近 50% 的团队选择使用它完成智能合约开发。

同期，它登顶 2025 年 10月 Product Hunt 周榜，并获得月榜开发者工具第 2 名。而在底层代码执行层（尤其是 Rust 等系统级语言）上的稳定性表现，当时已优于包括 Cursor 在内的同类产品。

这说明，它开始在高约束场景中，被当作默认工具使用。

稳定性，是“长出来的”

对于这类系统来说，“做过”和“理解过”，往往是两件完全不同的事情。

在接近一年的持续实践中，围绕不断的迭代，Luke 团队逐步沉淀出一整套关于 agent 行为如何稳定收敛的工程经验。但这并不是某种可以被设计出来的能力。它更多来自反复的失败、修正，以及对系统行为的长期观察。

在这个过程中，团队的工作重心也在发生变化，不再只是优化某一类任务，而是不断在不同场景中测试系统的稳定边界。从软件执行，到更复杂的交互与设备环境，约束的形式、执行路径、反馈机制，都在被一层层重写。也正是在这样的反复试错中，一个共识逐渐变得清晰：

稳定性，并不是被设计出来的，而是在不断试错中“长出来的”。

这类能力，很难通过一次设计完成，它更像是一种逐渐形成的系统能力。也正因如此，Harness engineering 呈现出一种非常独特的状态，一方面推进速度极快，另一方面又始终伴随着不确定性。

用 Luke 的话说：这个方向既让人不安，也让人着迷。

为什么规则会失效？

很多团队的第一反应，是增加规则：通过 system prompt、instruction 或约束文档，试图将 agent 的行为引导至预期轨道。

但很快会发现，规则会被系统性地被违反。其原因在于，规则更多是被“理解”，而不是被“执行”。

在一个概率系统中，agent 可以理解规则、复述规则，甚至知道“应该怎么做”，但这并不意味着它会稳定地这样去执行。

这也意味着：规则本身，并不能构成真正的约束。

从“规则”到“环境”

Harness 的关键转变在于：不再让 AI 记住规则，而是让错误路径无法发生。

在持续的工程实践中，一个变化开始变得明显：团队不再试图让 agent 记住规则，而是通过系统设计，让某些错误路径在结构上无法发生。约束的形态开始发生转变：

· 从文本，走向系统

· 从指令，走向环境

· 从“禁止”，走向“无法发生”

在这一框架下，约束不再依赖理解，而是直接体现在执行结构中。如果说 prompt 是在告诉 agent 不要做什么，那么 Harness 更接近于让它根本无法这样做。

也正因如此，在一些系统中会出现一种表象，agent 看起来“更聪明了”。但在工程层面，更接近的解释是：系统的执行环境，变得更加确定。

一个新的系统层，正在形成

Harness 并不是一个突然出现的概念。它更像是多个成熟工程体系，在 LLM 出现之后被重新组合到一起。sandbox、runtime 控制、类型系统、分布式约束、tool API 设计……

这些能力一直存在，只是分散在不同领域。直到 agent 出现，这些能力才开始指向同一个问题。在传统软件中，行为是确定的；而在 agent 系统中，行为是概率的。

当行为变成概率分布时，在一些工程实践中，一个趋势逐渐显现：约束，必须进入结构层。

Harness，本质上正是这一层结构。

为什么是现在？

Harness 被集中讨论，并不是偶然。这更像是一个阶段信号：AI 的瓶颈，正在从模型，转向系统。过去的问题是模型能不能做，而现在的问题是，系统能不能稳定地让它每一次都这样做。也正是在这一过程中，价值开始发生转移：

· 从模型层，走向系统层

· 从能力竞争，走向稳定性竞争

模型能力逐渐趋同，系统能力开始分化。Harness，也因此被视为这一变化中的关键分水岭。

从失败中长出来的系统

这些认知，并非来自理论推导，而更多来自反复的工程实践。

一个典型例子是：即使明确规定必须使用 uv run 执行 Python，agent 仍然可能通过 python3、subprocess 或路径机制绕开约束。

在这一过程中，团队逐渐意识到：写下的规则，并不等于系统中的约束。于是，约束开始被逐层“做实”。从文本提示，到执行拦截，再到 runtime 控制，系统逐渐从“建议”，转变为“结构”。直到某个阶段：错误不再被禁止，而是无法发生。

从“能做”到“能一直做”

随着 agent 进入更真实的应用环境，问题开始发生变化。关注点不再是“还能做什么”，而是“能不能一直做”。当任务链路变长、环境更加复杂、运行时间更长时，模型不再是瓶颈，系统才是。

真正的挑战，也随之转向：如何在不被打断的情况下，持续完成正确执行。

结语：分水岭已经出现

如果说过去两年 AI 的核心是能力，那么接下来，分水岭将不再属于模型。真正拉开差距的，是谁能够构建出让 AI 稳定执行的系统。

而 Harness，正在成为这一层的名字。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。