年营收 10 亿美元的 Surge AI CEO:比算力更重要的,是 AI 的品味

AI深度研究员·2025年12月10日 09:45
Surge AI:不融资,靠数据质量与价值观重塑AI未来。

这两年,大部分 AI 创业故事都从一轮又一轮融资讲起。

Surge AI 反着来。

创立四年,不到百人团队,从未融资,2024 年营收突破 10 亿美元,从第一天起就盈利。

但比商业成绩更重要的,是他们在做的事。

当 OpenAI、Anthropic、Google 在拼参数、争排名时,Surge 在做一件被行业忽视但极其关键的事:在模型还没成型时,就决定它该成为什么样的模型。

你看到的是算力大战,看不到的是背后那套决定模型如何思考、如何表达、如何做决策的人类系统。

2025 年 12 月 7 日,在一场播客中,创始人 Edwin Chen 说:

我们不是在教模型如何对话,而是在教它什么是对、什么是好。

这件事看似简单,却极其决定 AI 的上限。

当别人还在堆算力时,Edwin 已经在重新定义标准。这家被严重低估的公司,正在影响主流大模型的行为边界。

这是一个关于品味、判断力与 AI 未来的故事。

第一节|不融资、不刷榜、不造势,Surge靠什么赢?

如果只看表面,Surge AI 完全不像一家10亿美元公司。

没有媒体报道,没有病毒式传播,没有顶级 VC 站台背书。官网首页朴素得像个科研项目。

但就是这样一家低调到极致的公司,却成为 OpenAI、Anthropic、Meta 等实验室的核心数据合作方,产品渗透到大模型训练的关键环节。更重要的是:他们从第一天起就盈利,从未融过一分钱。

Edwin Chen说:我们从不打算玩硅谷那一套。

他的逻辑非常清晰:

不融资,因为融资会引入错误的目标函数,你开始为投资人而不是为产品优化;

不扩张,因为优秀人才在少而精的团队里反而更能专注,不受内耗干扰;

不刷榜,因为最好的客户是那些真正理解数据价值的实验室,而不是冲着新闻来的甲方。

Surge 从一开始就不为估值而活,而是为产品而活。他们选择的是一条极难的路径:靠口碑打入实验室核心圈,靠真实效果赢得续约。

这意味着他们必须打造10倍好的产品,而不是差不多就行的交付。

在传统 AI 数据公司靠堆人力、接订单、外包打标签驱动时,Surge彻底反其道而行:

自建训练系统,精细追踪每一位标注者的数千个行为信号;

用机器学习反向分析,判断谁擅长写诗、谁擅长技术文档;

不止提供数据,还提供评估标准、验证器和微型 RL 训练工具,直接参与客户的模型调优。

这套体系让他们服务的不是边缘创业团队,而是行业最顶尖的前沿实验室。而且,凭借真实的效果提升,他们建立了极高的客户信任。

Edwin说:我们成功的唯一方式,是让产品好到客户愿意主动推荐。

在这个充满增长技巧和融资话术的AI创业浪潮中,Surge是个例外。他们用一个近乎反商业的姿态,验证了高质量×小团队×深耕一事的极致杠杆效应。

成功不一定要靠融资。真正理解模型需要什么,也能走到最后。

第二节|AI的地基不是算力,是数据质量

Surge AI 做的不是标注猫狗图像,也不是让模型输出用户喜欢的回复,而是教模型如何判断世界上的好与坏。

Edwin Chen 举了个例子:

“我们不是在检查这首诗有没有提到月亮、有没有八行,我们在问,这首诗有没有打动你?”

换句话说,Surge 的数据标准不是机械的指标,而是能否打动人。

要做到这一点,Surge 建立了一套完全不同的系统。每位标注者的输出不只看是否完成任务,更看是否展现专业直觉、能否引发深度反馈。数据不是静态结果,而是经过多轮模型验证后的动态优选值。

他们真正在做的不是打标签,而是训练判断力。

在这个体系下,Surge 更像是模型的品格塑造者。

什么样的行为是合格的?

什么样的偏差需要被消除?

什么样的表达能代表真实的人类智慧?

这些看似模糊的品味问题,最终都被系统化成可评估、可追踪的指标。

而这,正是大多数数据公司做不到的核心壁垒。普通数据供应商只能标注你让它判断的东西,Surge 能定义你该判断什么才对。

这直接影响模型的走向。

你希望 AI 成为尽职的助手,还是能挑战你的同事?不同的判断标准,塑造出完全不同的模型性格。

这才是 AI 工厂里最容易被忽视、却最难被替代的关键环节。

算力决定速度,数据决定方向。Surge的系统,不是给模型铺路,而是先问清楚:你到底想去哪?

第三节|训练AI不是教对话,是让它学会做事

大多数人以为,训练AI就是给它喂数据、写prompt、评输出。但真正进入模型能力的核心阶段,这种单步训练方法就会失效。

让 AI 写再多邮件,也训练不出能修复生产系统的智能体。写邮件是单一任务,修系统需要连续决策。

Edwin Chen 倡导的 RL 环境训练,提供了一个极具现实性的突破思路:不是在对话框里调教模型怎么回答,而是把它丢进一个真实世界,看它如何解决问题、规划路径、完成任务。

举个例子:

模型的任务是修复宕机的网站。它要能读懂Jira工单、理解服务器日志、检查PR、阅读代码注释,甚至发送Slack消息、写复盘文档。而不是一句“请帮我写一封道歉邮件”就结束了。

这不是 prompt 工程,这是智能体级别的能力训练。

在Surge 的系统中,他们设计了大量模拟现实场景的RL环境。

例如:

企业系统被攻击,模型需完成威胁排查到修复部署的全流程;

财务报表出现异常,模型需理解业务逻辑、核对数据、生成分析报告;

代码无法上线,模型需定位问题、评估风险、给出方案。

这是从工具调用到任务协作的跃迁。

Edwin指出:即便模型最后答对了,如果它中途瞎试了50次,我们也不会认为这是好行为。

这就是 RL 环境训练的核心差异。传统训练(SFT、RLHF)像是让学生模仿老师怎么说,而 RL 环境是让学生自己动手做事,失败后一起复盘哪里错了。

这才是真实世界的智能挑战:任务是开放的,不是选择题;工具是动态的,不是固定选项;决策是连续的,每一步都影响后续。

RL环境不仅是调优工具,更是未来AI工厂的新型基础设施。Prompt是过去的界面,环境是未来的场景。单轮对话是练习题,多轮任务才是实战。

Surge 正在搭建这样的实战训练场,让模型在真实任务中干活、犯错、成长。

人类不是靠看书长大的,AI 也不是靠喂prompt变聪明的。

第四节|不做流量号:AI该追求真相,不是讨好

当下,大多数模型在训练的不是做对,而是说得像对的。

你在 ChatGPT 里问一个问题,它会微笑回应:你是对的,而且你太棒了。再顺手送上五种彩色 Markdown 格式的改写版本。看起来丰富、热情、聪明,但往往答非所问、幻觉频出。

Edwin Chen点出了这个行业真相:

我们不是在训练 AI 去理解世界,而是在训练它讨好人类的注意力机制。

而这背后的根源,是榜单文化和参与度陷阱

以当前风靡 AI 圈的排行榜LM Arena为例,它本意是让用户评比不同模型的回答好坏,结果变成了幻觉加粗体加表情包大赛:

模型 A 逻辑严谨但输出干净,

模型 B 胡说八道但字体大、排版花、语气夸张,

普通用户 2 秒打分,B 赢了。

Surge 团队实测发现: 只要在输出中加入更多 Markdown 标题和 Emoji,就能显著提升排名。甚至输出越长、内容越偏离事实,评分越高。

这种现象正在系统性污染 AI 模型的训练方向。研究员为了年底晋升优化榜单,销售为了签单展示排名,管理层为了估值只看数据。

最终形成一条恶性循环:错误的评估→错误的激励→错误的建模→错误的行为。

Edwin 说,这和社交媒体没什么两样:

“我们不是在训练AI讲真话,而是在训练它做流量号。”

更严重的是,这些模型最终被部署到企业系统、医疗工具、教育产品中,承担的是决策职责。如果训练它们的方向错了,哪怕只偏 3 度,未来就会偏到无法回头的地方。

我们本该建设能治愈癌症、解决贫困、理解宇宙的 AI,却在优化流量内容。我们在教模型追逐多巴胺而不是真相,为那些沉迷八卦的用户优化模型。

行业需要的不是更多会讨好人的模型,而是敢于说“不”的系统。

当用户花 30 分钟让 AI 改了 50 版邮件时,理想的模型应该说:停下来,你的邮件已经够好了,别浪费时间。但现在的训练方向是:你绝对是对的,还有 20种改进方法,让我们继续 50 次迭代。

AI 的竞争,表面看是谁更强大,但最终会是谁更正确。

技术决定上限,价值观决定终局。

结语|AI 的尽头,是价值观之战

四年时间,Surge 把一套被行业忽视的方法,变成了影响整个 AI 行业的力量。

它不靠噱头赢市场,而是靠清晰的价值取向赢得未来。

在大多数公司还在调教模型说得更像人的时候,Surge 已经在问:我们真的知道自己想要 AI 成为什么吗?

数据是门槛,环境是工具,模型是结果。但一切都取决于最初的选择。

这不是工程问题,是人类选择。

参考资料:

https://www.youtube.com/watch?v=dduQeaqmpnI

https://www.lennysnewsletter.com/p/surge-ai-edwin-chen?utm_source=chatgpt.com

https://www.inc.com/jennifer-conrad/surge-ai-edwin-chen-scale-ai-meta-alexandr-wang/91204563?utm_source=chatgpt.com

https://podpulse.ai/podcast-notes-and-takeaways/lennys-podcast-product-growth-career-the-100-person-ai-lab-that-became-anthropic-and-googles-secret-weapon-edwin-chen-surge-ai?utm_source=chatgpt.com

本文来自微信公众号“AI 深度研究员”,作者:AI深度研究员,36氪经授权发布。

+1
3

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业