汤道生:人工智能正式进入 Harness 时代

腾讯研究院·2026年04月13日 16:48
我们正站在一个时代的拐点。

2026年春天,AI行业出现了一个值得关注的变化:大家不再只聊模型了。 

过去三年,整个行业最热衷的话题是模型参数。1750亿、万亿、十万亿,数字越来越大,叙事越来越激进。每一次参数跃升,都伴随着一轮关于“涌现能力”的讨论。模型学会了推理,学会了编程,学会了创作,好像离真正的智能只差一步。 

然后,一只小龙虾搅动了整个行业。 

OpenClaw没有发布任何新模型,没有刷新任何基准测试,甚至没有训练一个新参数。它只做了一件朴素的事,给大模型搭建了一套完整的工作环境:文件系统、代码沙箱、工具链、反馈循环、自动验收。同一个模型,在这套环境中,不再是一个只会对话的聊天机器人,而是一个能持续工作、自主解决问题的智能体。 

变量只有一个:壳。而这层壳,现在有了一个正式的名字,Harness。

Harness,直译是马具,缰绳、辔头、马鞍、挽具的统称。一匹野马拥有惊人的力量,但没有缰绳,你骑不上去;没有挽具,它拉不了车;没有马鞍,你坐不稳。马的力量是原始的、澎湃的,而Harness,就是把这股力量转化为文明前进动力的那套系统。 

AI落地不只是算法题,更是一道工程题

要理解Harness,我们需要一个更清晰的框架: 

大模型是发动机,Harness是线束,使用者是驾驶员。

发动机能提供原始动力,但发动机本身不会开车。就像大模型,它能思考对话,但没有操作能力。它需要一套线束,将动力传导到车轮、将信号传导到仪表盘、将驾驶员的意图翻译成机械动作的系统,才能变成一辆可以上路的汽车。三者缺一不可,但三者的价值权重,正在经历剧烈的重新分配。 

过去三年,全世界的注意力都在发动机上。OpenAI、Google、Anthropic、Meta,最聪明的头脑和最多的资本,都砸在一件事上:造更大、更强的发动机。这当然重要,没有发动机,一切无从谈起。 

但一个行业共识正在形成:模型能力的提升曲线正在放缓。单纯增加参数和数据,已经越来越难带来显著的性能突破,边际效益在急剧递减。 

就像一百年前的汽车工业。当所有厂商都在比拼发动机马力时,福特意识到一件不同的事:关键不在马力,而在于如何让马力为普通人所用。于是,他发明了流水线、标准化零件,发明了让汽车从贵族玩具变成大众工具的整套系统。本质上,那就是工业时代的Harness。 

今天的AI行业,站在同样的拐点上。

发动机的差异化空间收窄,竞争焦点自然转向谁能更好地使用发动机。这就像当年CPU的军备竞赛,最终让位于操作系统和应用生态的竞争。芯片性能当然重要,但真正创造价值的,是上层建筑。 

2026年,Anthropic发布了一组工程实验数据:同一个模型、同一句提示词,用简单方式跑20分钟花9美元,核心功能完全无效;而用完整的Harness跑6小时,花200美元,交付了一个真正可用的游戏,核心交互全部跑通。 

模型没变,变的是驾驭它的线束。

模型之外的一切,包括代码、配置、执行逻辑、反馈循环、约束机制,都归入Harness的范畴。模型是能力的来源,Harness让能力变成可用的系统。 

我们在腾讯内部也有类似的实践感受。在同样的模型能力下,不同的脚手架设计,比如给模型调用什么工具、如何做分层的上下文工程、如何管理长记忆、如何设计工作流,对实际使用效果与tokens成本,有很大的影响。 

Harness走到台前

为什么Harness在2026年突然从幕后走到台前? 

根本原因是AI使用范式的转变。

2025年是智能体元年。大模型的定位,从回答问题进化到执行任务。过去,你给模型一个问题,它给你一个回答,一次性交互,干干净净。但智能体不同,它需要持续工作,需要记住上下文,需要调用工具,需要判断下一步做什么,需要在犯错时自我修正。 

正如APP之于移动互联网时代,智能体正在成为AI时代的主要应用载体。智能体让模型从“回答”变成了“工作”。而工作,天然就需要工作环境,工具、文件系统、反馈循环、验收标准。这套东西,就是Harness。 

在这套工作环境里,Skills是最关键的模块之一。Skills是大模型能直接读懂的、基于文本描述的能力单元,告诉模型"这个工具是什么、能干什么、怎么调用"。它的价值,在于通用性。只要是基于自然语言描述的Skills,就能被不同的Harness框架调用。SkillHub,正是为这个时代搭建的Skills流通平台,让能力可沉淀、可复用、可跨框架共享。 

在工程实践中,行业有四个关键发现,直接推动了关注点的转向。 

第一个发现:模型能力的天花板,不在模型里面,而在模型外面。

最具说服力的实验来自Nate B Jones:同一个模型,只换Harness,编程成功率从42%跳到78%。LangChain的数据也印证了这一点:同一模型仅改变Harness,Terminal Bench 2.0成绩从52.8%升到66.5%,排名从三十名开外直接进入前五。 

这颠覆了一个假设:要让AI更强,就得训练更好的模型。事实上,在当下这个节点,优化模型外面的“壳”,回报率可能比等待下一代模型更高。 

第二个发现:约束不是对智能的压制,而是对智能的引导。

Cursor团队在大规模Agent实验中,发现一个反直觉的现象:当模型可以生成任何东西时,反而浪费大量token探索死胡同;但当Harness定义了清晰的边界,Agent反而更快收敛到正确答案。约束解空间,反而提高了Agent的生产力。 

第三个发现:Harness让大模型更安全。

一个没有Harness的大模型,就像一个没有操作规程的实习生,能力不差,但你不知道他下一步会做什么。Harness通过权限边界、沙箱隔离、操作审计和人工审批节点,将模型的行动空间限定在可控范围内。多数Harness都明确规定:哪些系统可以访问、哪些操作需要二次确认、哪些数据绝对不能触碰。 

这不是对AI能力的削弱,而是让AI真正进入企业生产环境的前提。AI要让人放心,只有用得放心,才能用得起,才能真正用得上。 

第四个发现:AI无法可靠地评价自己。

Anthropic的工程师发现,当Agent评估自己刚完成的工作时,它会自信地表示“做得很好”,即便在人类看来质量明显不行。他们的描述是:“开箱即用的Claude是一个很差的QA Agent。”这意味着,仅靠模型自身无法形成有效的质量闭环,必须在模型外部建立独立的评估机制,这正是Harness的核心职责之一。 

这些实践发现汇聚成了一股不可逆转的趋势。 

回看AI工程的进化脉络: 

2022到2025年,关键词是Prompt Engineering,如何写好一条指令; 

2025年,进化到Context Engineering,如何动态构建整个上下文; 

2026年,Harness Engineering来了,如何搭建整个工作环境。 

打个比方:Prompt Engineering是给驾驶员一张地图,Context Engineering是给驾驶员一套导航系统,Harness Engineering是给驾驶员造一辆完整的车,带仪表盘、反馈系统、安全约束和自动巡航。 

每一代进化对前一代不是否定,而是包含。地图和导航都很重要,但只有地图和导航,没有车,哪儿也去不了。 

驾驶员的觉醒:AI越强大,对人的要求越高

在发动机-线束-驾驶员的三角关系中,驾驶员是最容易被忽视的角色。过去三年的叙事主角是模型,2026年的新宠是Harness,但真正决定最终产出质量的,始终是坐在驾驶座上的人。 

这里有一个深刻的命题:AI越强大,对人的要求不是降低了,而是提高了。

想想自动驾驶。表面上,自动驾驶是为了让人不用开车。但一个能够安全监督自动驾驶系统的人,需要比普通驾驶员更深刻地理解驾驶本身。他需要理解系统边界,知道什么时候该信任机器、什么时候该接管控制,需要在突发情况下做出比机器更好的判断。自动驾驶的驾驶员不是一个更轻松的角色,而是一个更高阶的角色。 

AI也是如此。对AI的驾驭,需要同时理解人类工程实践和AI的思维方式,需要对系统行为的深刻洞察,需要将错误模式抽象为规则的能力,更需要在人类智慧和机器智能之间搭建桥梁的品味。 

品味。这个词越来越被频繁提及。它不是审美偏好,而是一种更深层的东西:判断什么是好的、什么是对的、什么是值得做的能力。同样的发动机,同样的Harness,不同的驾驶员产出的东西可以有天壤之别。

对于大多数人来说,Harness时代是一个更乐观的未来。 

回到汽车的隐喻。今天的汽车行业存在两个看似矛盾的趋势:一方面,F1赛车手这些顶尖驾驶者的技能价值从未如此之高;另一方面,自动驾驶正在让普通人的出行变得前所未有的安全和便利。这两个趋势不矛盾,它们是同一枚硬币的两面。 

AI正在创造一个双层结构。在上层,顶尖的驾驶员,那些真正理解发动机、善于设计线束的人,将产出最优秀的作品。他们的竞争壁垒不是执行力,而是品味、判断力和创造性。在下层,大多数人不需要成为高阶驾驶者,也能享受AI带来的能力提升。 

这就是AI Harness的普惠性。你不需要理解发动机的每一个零件,不需要亲手设计线束的每一根导线,就能享受AI带来的生产力工具。AI Harness正在将智能变成一种基础设施,让Intelligence as a Service(智能即服务)成为现实。 

换一个更直观的说法:Harness就是那个"永不疲倦的数字员工"。它不请假,不忘事,7×24小时在岗。更重要的是,它的能力边界由你定义,它的行动范围由你把控,它的输出质量由你审核。一旦配置好,它可以在你睡觉的时候处理邮件、整理数据、生成报告、跑通流程。这不是科幻,是今天已经在发生的事情。 

让每个人都能成为AI加持的“超级个体”,一个人就能扮演多个角色,一个人就能把事情办完。这正是我们一直坚持的方向。 

当公众习惯了更高质量的内容产出,他们的审美阈值和期待值自然水涨船高。他们会更挑剔、更能分辨什么是真正的巧思,什么是平庸的套路。这反过来倒逼专业创作者去追求更风格化、更深刻的作品。这不是零和游戏,而是一个共同繁荣的生态。 

当模型自己长出手脚

但这个双层结构未必是终局。我们必须看到一个正在发生的趋势。 

随着模型能力的持续增强,上下文窗口越来越大,记忆能力不断提升,推理链条越来越长,模型正在自己长出手脚。今天需要外部搭建的工具调用、上下文管理、反馈循环、记忆系统,模型正在一项一项地内化。 

外面的这套脚手架正在变薄。极端地说,当模型足够强大时,Harness可能被模型完全吸收。就像早期汽车需要复杂的外部操作机构来转化发动机动力,而现代电动车的发动机和传动系统已经高度一体化,线束越来越简单,因为发动机自己就“懂”了。 

OpenClaw是第一只“爬上岸”的龙虾,也许明天还会出现螃蟹、海螺、皮皮虾——这些不同形态、不同侧重的Harness框架,会持续涌现和迭代。但这些都是表象,更重要的是:让大模型长出手脚、真正干活,已经是一个不可逆的趋势。框架可以换,范式不会回头。 

当这一天到来,驾驶员的角色将从“操作者”升级为“委托人”,不再告诉AI怎么跑,而是告诉它要去哪里,然后它自己找路。 

但即便模型吸收了所有的工具和流程,有一件事它永远无法自己生成:目的地。去哪里,为什么去,到了之后怎么判断值不值,这些关于方向、意义和价值的问题,永远是人的责任。模型越强,这个责任越重。因为当机器什么都能干的时候,“干什么”变成了唯一重要的问题。 

这恰恰印证了一个朴素的道理:AI的价值不在于它有多强大,而在于我们能在多大程度上驾驭这种力量,让它服务于真实的场景、真实的人、真实的需求。

结语

数千年前,人类在欧亚草原上第一次给马匹套上缰绳。那一刻,人类文明获得了前所未有的机动性:农耕范围扩大了,贸易距离延伸了,思想传播加速了。改变世界的不是马的力量,而是人类发明的那套驾驭系统。 

今天,我们站在一个相似的节点。大模型是这个时代的野马,力量惊人。Harness是我们发明的缰绳,它将这股原始力量转化为可控的、可预期的、可协作的能力。而驾驶员,你、我及每一个与AI共处的人,是决定这股力量驶向何方的主体。 

人工智能正式进入Harness时代。真正稀缺的能力,不在模型里面,在模型外面。驯服一匹野马,需要的不是更长的鞭子,而是一副趁手的缰绳,和一个知道目的地的骑手。 

在这个充满不确定的时代,我们需要继续锚定技术创新、开放协作、专注价值,让AI真正成为用得上、用得起、用得放心的普惠生产力工具。 

汤道生腾讯集团高级执行副总裁、云与智慧产业事业群CEO

本文来自微信公众号 “腾讯研究院”(ID:cyberlawrc),作者:汤道生,36氪经授权发布。

+1
14

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

硬件现金牛 + 高利润互联网 + 已跑通的汽车新业务 + 一包金融投资资产

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业