在做Harness这件事上，DeepSeek更信搞量化的

字母AI·2026年05月28日 15:20

跳过中间商，直接找个会赚钱的人帮自己赚钱

DeepSeek那张萌萌哒的招聘海报，相信你也看到了。

蓝色背景，卡通虎鲸，配上“Agent Harness研发工程师”几个大字，看起来像是哪个二次元公司在招实习生。但如果你真这么想，就错过了一个关键信号。

现在做Harness的公司很多，比如Anthropic的Claude Code，以及OpenAI的Codex。

这两个产品有个共同特点，领导者都是产品出身。

前者的创始人是鲍里斯·切尔尼（Boris Cherny），典型的产品经理，曾在Facebook做过工程和产品领导。

Codex这边是亚历山大·安布利克斯（Alexander Embiricos），Dropbox的产品经理。

但是DeepSeek不一样，这边Harness的负责人并不是什么产品经理，而是一个在Jane Street干了9年、后来联创量化基金TSY Capital的交易系统专家——崔添翼。

这个选择很反常识。一般公司无论做怎样的产品，找的都是懂用户体验、会画原型图、能协调需求的PM。

DeepSeek倒好，找了个会赚钱的量化高手。

但我却觉得DeepSeek反而做对了。

为什么?

因为量化交易和AI Agent的底层逻辑是一样的。

光有聪明的策略不赚钱，真正把策略变成钱的，是执行系统，是风控系统。

光有强模型也不够，真正把模型变成生产力的，是工具，是上下文。

DeepSeek不需要产品包装，也不需要向上管理，公司内部敞开天窗说亮话。

他们唯一需要的，就是跳过中间商，直接找个会赚钱的人，带着大家一起赚钱。

01 崔添翼其人

2008年，河南安阳一中的崔添翼凭借全国青少年信息学奥林匹克竞赛铜牌，被保送进入浙江大学计算机学院。那一年，梁文锋还在浙大信息与通信工程专业读研究生。

崔添翼在浙大的四年，几乎是在ACM竞赛的训练和比赛中度过的。他代表浙江大学参加ACM国际大学生程序设计竞赛亚洲区域赛，6次拿下金牌。

在那个年代，ACM竞赛圈里流传着一份讲义《背包九讲》，作者正是崔添翼。这份讲义系统拆解了动态规划中的背包问题，从01背包到完全背包、多重背包、分组背包、依赖背包，一直到泛化物品。至今仍在GitHub上更新。

2013年毕业后，崔添翼被Jane Street Capital香港分部聘为助理量化研究员，当时他的年薪就超过了百万人民币。

Jane Street是全球顶尖的量化交易公司，技术门槛高，面试流程严苛。

崔添翼在Jane Street一待就是9年，从事股票和固定收益领域的软件开发与研究。这9年里，他接触的不是单纯的算法题，还有真实的交易系统、风控系统、回测系统、交易管道和异常处理。

大家都说量化交易就是策略，你有了策略就能赚钱，但其实不是，光有策略是不能赚钱的。

一个策略在回测里表现再好，如果不能被稳定执行，价值接近于零。

真正把策略变成钱的，是执行系统。

策略写出来以后，一般不会立刻上真金白银，而是先放进历史行情里跑一遍，看它在过去那些涨跌里会怎么交易、最后赚不赚钱。这叫回测。但回测只是事后模拟，跑得漂亮不等于实盘也能赚钱。

系统得先看见价格怎么动，再判断要不要出手，接着把买卖指令送出去，还得盯着交易所回来的结果。“成交了吗？”、“成交价是多少？”

市场会突然暴涨暴跌，接口会延迟，数据会出错，策略也可能连续亏损。这时候系统必须知道什么时候停手，什么时候报警，什么时候把交易切断。

市场没人等你，延迟哪怕只有几毫秒，钱就没了。

这些东西不性感，也不会出现在学术论文里，但它们才是量化交易的核心竞争力。

2022年，崔添翼离开Jane Street，联合创办了量化交易机构TSY Capital，专注于全球股票市场的系统化量化交易策略。

从此以后，他就从打工人变成了创业者，他不仅要懂技术，还要从零搭建整套交易系统、组建团队、管理风险、对接市场。

TSY Capital的团队成员同样来自各大名校，但创业的现实比在大公司打工要残酷得多。2026年2月，有消息传出崔添翼离开了TSY Capital。

过了一段时间，他在LinkedIn上更新了自己的职位，加入DeepSeek Harness团队。

“又一个天才加入DeepSeek”这个事已经没啥新鲜的了，因为DeepSeek压根就不缺天才。

DeepSeek找来崔添翼，本身也不是让他过来训练模型的，而是为了让他搭建Harness。

对DeepSeek来说，其实Harness就是他们的交易系统。AI Agent的底层逻辑和量化交易是一样的。

光有强模型不够，真正把模型变成生产力的，是上下文管理、工具调用、终端执行、测试反馈、权限控制、失败回滚。

在量化里，不能被稳定执行的策略价值就是0。在AI里，不能安全操作文件、命令、代码的模型，也只是一个聊天框罢了。

崔添翼加入DeepSeek Harness团队的真正信号，是DeepSeek终于开始补那套把“聪明”变成“执行”的系统。

这是DeepSeek下半场的开局。

02 从模型效率到工作流入口

DeepSeek上半场的叙事，是模型效率。

V3、R1、开源、低成本、推理能力……

DeepSeek证明了一件事，中国团队就算没有那么多卡，也能做出全球级模型。打破了“只有美国大厂才能做强模型”的固有认知。

但是对于用户来说，永远都是谁出了什么新模型，我就跑过去用谁的模型。豆包超过DeepSeek的下载量，就是最好的例子。

模型爆红可以带来巨大的第一波流量，长期用户规模要靠产品、场景、运营和生态入口留住。字节的优势就在这里。

豆包有抖音、剪映、有SeeDance。DeepSeek虽说在模型社区里有声望，但在大众产品层面，它并没有形成豆包那种持续分发和高频使用能力。

当下半场模型能力趋同时，真正的竞争会从“谁的模型更聪明”，转向“谁离用户的工作流更近”。

虽然咱们习惯了ChatBot，可是对开发者来说，聊天框并不是入口，编辑器、终端、代码库、CI、文档、任务系统，这些玩意才是。

Claude Code和Codex这类的产品，也不只是“帮你写代码”，而是把模型嵌进开发者的日常操作路径。

谁占住这个入口，谁就拿到了付费场景。

很多人以为Harness的本质是模型性能，性能越强越好。实际上截然相反，Harness是让便宜token变得有用的系统。

Agent烧token是事实。

几年前，语言模型处理的还是很轻的任务，给它一段评论，让它判断情绪，几十个token，几乎瞬间返回。现在的编程Agent面对的是另一类任务，看完整个代码库，找到bug，写补丁，跑测试，再验证结果。

一次任务可能消耗上千万token、持续几十分钟，甚至几个小时，背后还得调用工具好几百次。

现在的GPT和Claude，本质上是Agent开着豪车送外卖，能跑通，但成本太高了。

便宜确实不是终点，问题是你至少得让我买得起，我才能舍得用吧？

而且哪怕是同一个模型，换一套Harness，结果就会完全不同。

X上有位叫做Sayash Kapoor的博主做了一个测试。

以Claude Opus 4.5为例，放进Claude Code的Harness，在CORE-Bench Hard上能达到95%。换成一个朴素的Hugging Face配置，成绩只剩42%。

同样的权重、同样的智能水平，单是Harness就拉开了53个百分点，这个差距还是挺明显的。

大家拼的已经不是模型了，而是谁的Harness更好。一个更小、更便宜的模型，只要配上优秀设计的Harness，也可能打败一个大模型加粗糙Harness。

这就是2026年所有头部大厂都在追求Harness的原因。你模型终究是要使用的。多买几张卡、多花点时间去训练模型，提升很小很小。但写好一个Harness，那简直是焕然一新。

AI编程已经过了“模型会不会写代码”的阶段，现在哪还有不会写代码的模型？

真正拉开差距的地方，就是模型能不能在真实的代码库里稳定干活。

Harness负责组织代码库、项目规则、上下文摘要，控制迭代次数、重试策略，把模型的决策转成shell命令、文件编辑和测试执行，再把测试失败、日志输出、浏览器截图重新喂回模型。

AI Agent是一个“思考、行动、反馈、修正”的长循环。这个循环能不能跑稳，靠的就是Harness。

API价格越低，单纯卖token赚的钱越少，这是无可争议的事实。

所以才要有Harness，去把低价的模型包装进高价值场景。

同样100万token，用在聊天里只是问答，用在代码Agent里可能完成一个bug修复、一次重构、一个功能原型。后者的付费意愿高得多。

DeepSeek需要从卖模型调用，转向卖工作流结果。这是下半场的核心逻辑。

03 DeepSeek的短板

DeepSeek网页端很火，APP下载量也很高，但关于模型调用这块，它是没有收集渠道的。别人用它的模型跑agent，反馈信息不回梁文锋那里。

这不是技术问题，这是机制问题，网页端和APP都是ChatBot，并不能真正去跑工作流。

要想去做Harness产品，你得有一个收集反馈的通道。用户在哪里卡住了？哪些工具调用失败率最高？哪些场景下模型表现不稳定？

这就像一家量化公司把策略发出去了，但交易日志、成交回报、风控记录都在别人手里。你知道策略有人用，却不知道它到底怎么赚钱、怎么亏钱。

收集不到这些信息，产品就是闭门造车。

Harness最值钱的地方，恰恰就在失败日志上面。

它改错了哪一行？跑测试时挂在哪个报错？终端命令为什么失败？它有没有重复读同一个文件？有没有在上下文快满时开始忘事？

拿到更多真实失败日志，谁就能更快知道Agent到底差在哪里。

Claude Code为什么能在短时间内占到GitHub公开提交量的4%？因为Anthropic不只是做了一个工具，而是建立了一个完整的反馈循环。

它把用户的每一次失败和重试，都会变成产品迭代的数据。尤其是那些集中错误，直接变成了Claude Code的新Harness。

DeepSeek现在要补的，不只是Harness本身，还有这套收集反馈、快速迭代的机制。

量化里有个词叫滑点。你以为自己能在这个价格成交，结果真下单的时候，价格已经变了，中间差出来的就是滑点。

Agent里也有滑点。模型以为自己理解了项目结构，结果读错文件；以为一条命令能跑通，结果环境变量没配；以为补丁改好了，结果测试挂了。

这些差距，就是模型从“想明白”到“做成事”之间的滑点。Harness的价值，就是把这些滑点一点点压低。

还有一点，现在Agent有一个特别让人头疼的问题就是“管不住”。

2026年4月，汽车租赁SaaS公司PocketOS，让一个运行在Cursor里的Claude Opus 4.6编码Agent，通过Railway调用一次API，结果这个Agent在9秒内删除了公司的生产数据库和同卷备份，公司最后只能从三个月前的备份恢复。

在量化公司，最怕的不是策略不赚钱，而是策略失控。亏钱可以复盘，失控会把公司拖死。所以交易系统一定要有风控：亏到什么程度要停，出现异常报价要停，接口延迟太高要停。

Agent也一样。它能读文件、改代码、跑命令，能力越大，风险越大。什么命令不能执行，哪些目录不能碰，什么时候必须问人，改坏了怎么回滚。

崔添翼值钱的地方在于，他知道什么时候该把模型摁住。

以前在产品体验这件事上，DeepSeek是不太需要操心的。模型够强，开源够快，社区自然会来。

现在不一样了。开发者对编程工具的容忍度是极低的，因为他们有些人会同时准备很多个编程工具，A工具不行就马上换B工具。

Ivern AI在2026年4月开发者调查中提到，73%的开发者经常使用2个以上AI编码工具，只有27%只用一个工具。

除了产品体验以外，工具生态也是一个大问题。

Claude Code背后有MCP协议、有插件系统，还有各类的Skills。这些东西不是一天建成的，是在无数次的真实使用场景里长出来的。

稳定性是另一个痛点。DeepSeek爆红之后，服务器压力暴增，就比如5月28日，DeepSeek就又崩了。

对聊天用户来说，等几秒钟还能接受。但对编程Agent来说，稳定性就是生命线。任务跑到一半，你突然告诉我说API超时了，那所有工作都前功尽弃了。

本文来自微信公众号“字母AI”，作者：苗正，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

在做Harness这件事上，DeepSeek更信搞量化的

01 崔添翼其人

02 从模型效率到工作流入口

03 DeepSeek的短板

最近内容

下一篇