在做Harness这件事上,DeepSeek更信搞量化的
DeepSeek那张萌萌哒的招聘海报,相信你也看到了。
蓝色背景,卡通虎鲸,配上“Agent Harness研发工程师”几个大字,看起来像是哪个二次元公司在招实习生。但如果你真这么想,就错过了一个关键信号。
现在做Harness的公司很多,比如Anthropic的Claude Code,以及OpenAI的Codex。
这两个产品有个共同特点,领导者都是产品出身。
前者的创始人是鲍里斯·切尔尼(Boris Cherny),典型的产品经理,曾在Facebook做过工程和产品领导。
Codex这边是亚历山大·安布利克斯(Alexander Embiricos),Dropbox的产品经理。
但是DeepSeek不一样,这边Harness的负责人并不是什么产品经理,而是一个在Jane Street干了9年、后来联创量化基金TSY Capital的交易系统专家——崔添翼。
这个选择很反常识。一般公司无论做怎样的产品,找的都是懂用户体验、会画原型图、能协调需求的PM。
DeepSeek倒好,找了个会赚钱的量化高手。
但我却觉得DeepSeek反而做对了。
为什么?
因为量化交易和AI Agent的底层逻辑是一样的。
光有聪明的策略不赚钱,真正把策略变成钱的,是执行系统,是风控系统。
光有强模型也不够,真正把模型变成生产力的,是工具,是上下文。
DeepSeek不需要产品包装,也不需要向上管理,公司内部敞开天窗说亮话。
他们唯一需要的,就是跳过中间商,直接找个会赚钱的人,带着大家一起赚钱。
01 崔添翼其人
2008年,河南安阳一中的崔添翼凭借全国青少年信息学奥林匹克竞赛铜牌,被保送进入浙江大学计算机学院。那一年,梁文锋还在浙大信息与通信工程专业读研究生。
崔添翼在浙大的四年,几乎是在ACM竞赛的训练和比赛中度过的。他代表浙江大学参加ACM国际大学生程序设计竞赛亚洲区域赛,6次拿下金牌。
在那个年代,ACM竞赛圈里流传着一份讲义《背包九讲》,作者正是崔添翼。这份讲义系统拆解了动态规划中的背包问题,从01背包到完全背包、多重背包、分组背包、依赖背包,一直到泛化物品。至今仍在GitHub上更新。
2013年毕业后,崔添翼被Jane Street Capital香港分部聘为助理量化研究员,当时他的年薪就超过了百万人民币。
Jane Street是全球顶尖的量化交易公司,技术门槛高,面试流程严苛。
崔添翼在Jane Street一待就是9年,从事股票和固定收益领域的软件开发与研究。这9年里,他接触的不是单纯的算法题,还有真实的交易系统、风控系统、回测系统、交易管道和异常处理。
大家都说量化交易就是策略,你有了策略就能赚钱,但其实不是,光有策略是不能赚钱的。
一个策略在回测里表现再好,如果不能被稳定执行,价值接近于零。
真正把策略变成钱的,是执行系统。
策略写出来以后,一般不会立刻上真金白银,而是先放进历史行情里跑一遍,看它在过去那些涨跌里会怎么交易、最后赚不赚钱。这叫回测。但回测只是事后模拟,跑得漂亮不等于实盘也能赚钱。
系统得先看见价格怎么动,再判断要不要出手,接着把买卖指令送出去,还得盯着交易所回来的结果。“成交了吗?”、“成交价是多少?”
市场会突然暴涨暴跌,接口会延迟,数据会出错,策略也可能连续亏损。这时候系统必须知道什么时候停手,什么时候报警,什么时候把交易切断。
市场没人等你,延迟哪怕只有几毫秒,钱就没了。
这些东西不性感,也不会出现在学术论文里,但它们才是量化交易的核心竞争力。
2022年,崔添翼离开Jane Street,联合创办了量化交易机构TSY Capital,专注于全球股票市场的系统化量化交易策略。
从此以后,他就从打工人变成了创业者,他不仅要懂技术,还要从零搭建整套交易系统、组建团队、管理风险、对接市场。
TSY Capital的团队成员同样来自各大名校,但创业的现实比在大公司打工要残酷得多。2026年2月,有消息传出崔添翼离开了TSY Capital。
过了一段时间,他在LinkedIn上更新了自己的职位,加入DeepSeek Harness团队。
“又一个天才加入DeepSeek”这个事已经没啥新鲜的了,因为DeepSeek压根就不缺天才。
DeepSeek找来崔添翼,本身也不是让他过来训练模型的,而是为了让他搭建Harness。
对DeepSeek来说,其实Harness就是他们的交易系统。AI Agent的底层逻辑和量化交易是一样的。
光有强模型不够,真正把模型变成生产力的,是上下文管理、工具调用、终端执行、测试反馈、权限控制、失败回滚。
在量化里,不能被稳定执行的策略价值就是0。在AI里,不能安全操作文件、命令、代码的模型,也只是一个聊天框罢了。
崔添翼加入DeepSeek Harness团队的真正信号,是DeepSeek终于开始补那套把“聪明”变成“执行”的系统。
这是DeepSeek下半场的开局。
02 从模型效率到工作流入口
DeepSeek上半场的叙事,是模型效率。
V3、R1、开源、低成本、推理能力……
DeepSeek证明了一件事,中国团队就算没有那么多卡,也能做出全球级模型。打破了“只有美国大厂才能做强模型”的固有认知。
但是对于用户来说,永远都是谁出了什么新模型,我就跑过去用谁的模型。豆包超过DeepSeek的下载量,就是最好的例子。
模型爆红可以带来巨大的第一波流量,长期用户规模要靠产品、场景、运营和生态入口留住。字节的优势就在这里。
豆包有抖音、剪映、有SeeDance。DeepSeek虽说在模型社区里有声望,但在大众产品层面,它并没有形成豆包那种持续分发和高频使用能力。
当下半场模型能力趋同时,真正的竞争会从“谁的模型更聪明”,转向“谁离用户的工作流更近”。
虽然咱们习惯了ChatBot,可是对开发者来说,聊天框并不是入口,编辑器、终端、代码库、CI、文档、任务系统,这些玩意才是。
Claude Code和Codex这类的产品,也不只是“帮你写代码”,而是把模型嵌进开发者的日常操作路径。
谁占住这个入口,谁就拿到了付费场景。
很多人以为Harness的本质是模型性能,性能越强越好。实际上截然相反,Harness是让便宜token变得有用的系统。
Agent烧token是事实。
几年前,语言模型处理的还是很轻的任务,给它一段评论,让它判断情绪,几十个token,几乎瞬间返回。现在的编程Agent面对的是另一类任务,看完整个代码库,找到bug,写补丁,跑测试,再验证结果。
一次任务可能消耗上千万token、持续几十分钟,甚至几个小时,背后还得调用工具好几百次。
现在的GPT和Claude,本质上是Agent开着豪车送外卖,能跑通,但成本太高了。
便宜确实不是终点,问题是你至少得让我买得起,我才能舍得用吧?
而且哪怕是同一个模型,换一套Harness,结果就会完全不同。
X上有位叫做Sayash Kapoor的博主做了一个测试。
以Claude Opus 4.5为例,放进Claude Code的Harness,在CORE-Bench Hard上能达到95%。换成一个朴素的Hugging Face配置,成绩只剩42%。
同样的权重、同样的智能水平,单是Harness就拉开了53个百分点,这个差距还是挺明显的。
大家拼的已经不是模型了,而是谁的Harness更好。一个更小、更便宜的模型,只要配上优秀设计的Harness,也可能打败一个大模型加粗糙Harness。
这就是2026年所有头部大厂都在追求Harness的原因。你模型终究是要使用的。多买几张卡、多花点时间去训练模型,提升很小很小。但写好一个Harness,那简直是焕然一新。
AI编程已经过了“模型会不会写代码”的阶段,现在哪还有不会写代码的模型?
真正拉开差距的地方,就是模型能不能在真实的代码库里稳定干活。
Harness负责组织代码库、项目规则、上下文摘要,控制迭代次数、重试策略,把模型的决策转成shell命令、文件编辑和测试执行,再把测试失败、日志输出、浏览器截图重新喂回模型。
AI Agent是一个“思考、行动、反馈、修正”的长循环。这个循环能不能跑稳,靠的就是Harness。
API价格越低,单纯卖token赚的钱越少,这是无可争议的事实。
所以才要有Harness,去把低价的模型包装进高价值场景。
同样100万token,用在聊天里只是问答,用在代码Agent里可能完成一个bug修复、一次重构、一个功能原型。后者的付费意愿高得多。
DeepSeek需要从卖模型调用,转向卖工作流结果。这是下半场的核心逻辑。
03 DeepSeek的短板
DeepSeek网页端很火,APP下载量也很高,但关于模型调用这块,它是没有收集渠道的。别人用它的模型跑agent,反馈信息不回梁文锋那里。
这不是技术问题,这是机制问题,网页端和APP都是ChatBot,并不能真正去跑工作流。
要想去做Harness产品,你得有一个收集反馈的通道。用户在哪里卡住了?哪些工具调用失败率最高?哪些场景下模型表现不稳定?
这就像一家量化公司把策略发出去了,但交易日志、成交回报、风控记录都在别人手里。你知道策略有人用,却不知道它到底怎么赚钱、怎么亏钱。
收集不到这些信息,产品就是闭门造车。
Harness最值钱的地方,恰恰就在失败日志上面。
它改错了哪一行?跑测试时挂在哪个报错?终端命令为什么失败?它有没有重复读同一个文件?有没有在上下文快满时开始忘事?
拿到更多真实失败日志,谁就能更快知道Agent到底差在哪里。
Claude Code为什么能在短时间内占到GitHub公开提交量的4%?因为Anthropic不只是做了一个工具,而是建立了一个完整的反馈循环。
它把用户的每一次失败和重试,都会变成产品迭代的数据。尤其是那些集中错误,直接变成了Claude Code的新Harness。
DeepSeek现在要补的,不只是Harness本身,还有这套收集反馈、快速迭代的机制。
量化里有个词叫滑点。你以为自己能在这个价格成交,结果真下单的时候,价格已经变了,中间差出来的就是滑点。
Agent里也有滑点。模型以为自己理解了项目结构,结果读错文件;以为一条命令能跑通,结果环境变量没配;以为补丁改好了,结果测试挂了。
这些差距,就是模型从“想明白”到“做成事”之间的滑点。Harness的价值,就是把这些滑点一点点压低。
还有一点,现在Agent有一个特别让人头疼的问题就是“管不住”。
2026年4月,汽车租赁SaaS公司PocketOS,让一个运行在Cursor里的Claude Opus 4.6编码Agent,通过Railway调用一次API,结果这个Agent在9秒内删除了公司的生产数据库和同卷备份,公司最后只能从三个月前的备份恢复。
在量化公司,最怕的不是策略不赚钱,而是策略失控。亏钱可以复盘,失控会把公司拖死。所以交易系统一定要有风控:亏到什么程度要停,出现异常报价要停,接口延迟太高要停。
Agent也一样。它能读文件、改代码、跑命令,能力越大,风险越大。什么命令不能执行,哪些目录不能碰,什么时候必须问人,改坏了怎么回滚。
崔添翼值钱的地方在于,他知道什么时候该把模型摁住。
以前在产品体验这件事上,DeepSeek是不太需要操心的。模型够强,开源够快,社区自然会来。
现在不一样了。开发者对编程工具的容忍度是极低的,因为他们有些人会同时准备很多个编程工具,A工具不行就马上换B工具。
Ivern AI在2026年4月开发者调查中提到,73%的开发者经常使用2个以上AI编码工具,只有27%只用一个工具。
除了产品体验以外,工具生态也是一个大问题。
Claude Code背后有MCP协议、有插件系统,还有各类的Skills。这些东西不是一天建成的,是在无数次的真实使用场景里长出来的。
稳定性是另一个痛点。DeepSeek爆红之后,服务器压力暴增,就比如5月28日,DeepSeek就又崩了。
对聊天用户来说,等几秒钟还能接受。但对编程Agent来说,稳定性就是生命线。任务跑到一半,你突然告诉我说API超时了,那所有工作都前功尽弃了。
本文来自微信公众号“字母AI”,作者:苗正,36氪经授权发布。















