比996还狠,让面试者8小时复刻出自家Devin,创始人直言:受不了高强度就别来

AI前线·2025年08月28日 16:02
应聘硅谷顶流 AI 公司?面试先在 8 小时内现场造个“Devin”,通不过连996的资格都没有

你能想象如今去找工作,人家已经不满足于考你一道算法题了,而是要你在面试现场,8 小时从零肝出他们自家的产品——类似 Devin、Windsurf、Cursor 这样的 AI 工具。还得顺手把数据库接上、依赖修完、测试跑通。

更夸张的是,这样的公司真的存在——正是那个号称要重塑软件工程未来的 Cognition。它的 CEO Scott Wu 在播客里亲口说,这就是 Cognition 的面试流程:给你 6 到 8 个小时,看你能不能做出一个端到端的代理,一个属于你自己的“Devin”。

此前,Scott Wu 在收购 Windsurf 时曾直言:Cognition 的文化就是高强度、超长工时、毫不掩饰的 996。“我们不信什么工作生活平衡——打造软件工程的未来是我们所有人都深深在意的使命。在这里我们每周要在办公室干 6 天,工时超过 80 小时。”

相比之下,真正的地狱也许不是入职后的 996,而是还没进门就要先完成“8 小时写一个 Devin”的创业模拟。996 是长期透支,而这个面试更像是瞬间压榨,把“造一家公司”硬生生当成了入职考题。

更讽刺的是,Cognition 的团队本身也不是普通打工人。在最初的 35 名成员里,有 21 位曾经是公司的创始人。Scott Wu 认为,死记硬背知识点、熟悉语法细节这些都不再重要,真正重要的能力是高层次决策、对技术的深入理解、对产品的直觉判断,以及极强的自我驱动和责任心。换句话说,他们干脆把“创业者标准”写进了招聘流程。

我们翻译了这期播客的完整内容,带你看看这家 AI 企业的疯狂逻辑。

一些亮点如下:

  • 我最高的学历严格来说是初中毕业证,没有真正完成高中,也没有读完大学。
  • 在早期,直觉敏锐、敢于自我推理就非常有优势。但一旦领域成熟,最后的答案往往就是数学。
  • 我们之所以要设立各种流程,本来就是因为人类也会犯错。这就是为什么我们 CI 流程和各种检查。
  • 即使把今天的模型能力完全冻结,不再有新的模型或研究突破,产品层面依然有十年的进步空间。
  • 我们的原则是:必须让大家“自愿选择”加入这种(加班)文化。

硅谷“数学帮”中的初中文凭 AI 创业者

John Collison:能讲讲你的成长经历,以及你在数学上的故事吗?我觉得大家现在都知道你是“数学竞赛大神”。 

Scott Wu: 是的,我在巴吞鲁日长大。我父母都是化工工程师,他们为了读研究生从中国移民过来。后来他们找工作时,就做空气排放许可相关的工作。路易斯安那州有很多石油和天然气产业,所以他们最后留在那里。

我从小就喜欢数学。我有一个哥哥 Neal,我们一直非常亲近,他比我大五岁。Neal 在中学时就开始参加数学竞赛,大概是六年级的时候,而我那时才上一年级。作为弟弟,我就会去看他在做什么,试着学一些同样的数学。这就是我最初接触数学的方式。

后来我发现自己真的很喜欢数学竞赛。我二年级时就开始参加了。我记得有一次在当地的大学参加比赛,那个比赛是为中学生和高中生开的。我作为二年级小学生参加了七年级组别的竞赛,这是针对初中生和高中生的竞赛,也是我第一次参赛。当时只是单纯喜欢数学,结果颁奖时,三等奖、二等奖、一等奖都没叫到我。我记得自己非常难过。

John Collison:这就是你的“超级反派起源故事”啊。 

Scott Wu: 没错,基本就是这样开始的。后来我很努力训练,到了三年级时参加代数一的组别,结果那一年得了冠军。之后我就一直参加各种数学竞赛。到了高中最后一年,我参加了 IOI 国际信息学奥林匹克竞赛。我参加了三次 IOI,并且都拿了金牌。

John Collison:那你后来上了哪所学校? 

Scott Wu: 其实我中间休学了一年。我提前一年就离开了高中。我学习不太好。

John Collison:这听起来很惊讶,你不是很擅长上学? 

Scott Wu: 嗯,我并不是不擅长学习,而是“不擅长把学业完成”。我最高的学历严格来说是初中毕业证,没有真正完成高中,也没有读完大学。

所以我提前一年离开高中,去湾区待了一年,在一家叫 Addepar 的公司做软件工程师。那是 2014 年,已经很久以前了。当时的经历对我来说很特别。

之后我决定还是去试试大学,于是去了哈佛,读了两年后就退学了。

John Collison:你是怎么加入 Addepar 的?他们招收一个高中辍学生,显然很有远见。 

Scott Wu: 当时其实挺有意思的,我们有四个高中生同一天入职。我、Alexandr Wang(Scale 的创始人,现在 Meta),我们是同一天开始的。还有 Eugene Chen(现在在做 Phoenix DEX),以及 Sreenath Are(最近是 Sandbar 的 CEO)。

John Collison:这也太“团体小圈子”了吧,你和 Alex 同时在那里? 

Scott Wu: 对啊。我和 Alex 早就认识了,最早在中学时认识的。他来自新墨西哥,我来自路易斯安那,我们在一次叫 MATHCOUNTS 的全国数学竞赛上遇见的。后来我们一直保持联系,那时还是用 Google Hangouts 聊天。

事实证明,我们这一代很多人最后都走上了相似的道路。我觉得有一种创业传染效应。Alex 应该算是我们这群人里最早一个,他让我第一次认真考虑创业。但也不仅仅是他。像 Johnny Ho(Perplexity 联合创始人)、Demi Guo(创办了 Pika)、Jesse Zhang(创办了 Decagon),我们这一群人很多都是在同一年参加这些数学和编程竞赛的,大家彼此都认识。

John Collison:之前有人讨论过一个问题:年轻创业者都去哪儿了?过去总有人二十出头就做出突破性公司。比如 Michael Dell 19 岁创办戴尔,23 岁上市;Mark Zuckerberg 在 Facebook 崛起时也还很年轻。后来似乎有一段时间没有那么多年轻创始人。但现在又涌现出很多,你才 28 岁就做 Cognition。那么,年轻人担任行业领先公司的创始人,本身是否就是产业活力的一个指标? 就像 PC 时代的起飞对应着年轻的 Michael Dell,社交网络起飞对应着年轻的 Mark Zuckerberg,如今 AI 编码工具的爆发,也伴随着一批年轻创始人。 

Scott Wu: 首先谢谢你还把我算“年轻”。但我觉得相比 18、19 岁已经算晚了。

我对这个问题也有一些想法。我的看法是:如今做创始人总体上变得更难了。 这大概是最核心的原因。过去那些年轻创始人之所以能做得很好,是因为归根到底,“第一性原理思考”往往比经验更有优势。很多创业本质上就是去做一些前所未有的事,然后自己得出结论。

但现在不一样了。现在有很多人,既具备第一性原理思考的能力,又有丰富的经验。整个创业空间变得更加“成熟”。所以做创始人确实更难了,能真正从大学一毕业就直接成功创业的人更少了。

John Collison:当然,说“以前创业容易”也不准确。Facebook 当时面临大量竞争,戴尔也不是唯一的 PC 厂商,他们都绝对谈不上轻松。不过你说得没错,现在的大公司对生态的感知和连接都很敏锐。比如 Satya(纳德拉)或 Mark Zuckerberg,他们对 AI 的一切发展都非常关注,不断投入精力。因此,可能不会再有那种“巨大的机会就静静躺在地上、等着被人捡走”的情况。 

Scott Wu: 所以,更准确的说法也许是:不是更难,而是整个行业更加成熟,积累了更多经验和“玩法手册”。比如“股权该怎么设计”“融资该怎么谈”“初始团队怎么招”——这些问题,现在很多经验都能借鉴。

而在过去,这些几乎没有现成答案,全靠创始人自己敏锐和果敢的判断。如今则可以从前人经验里汲取更多。所以,这或许是为什么年轻创始人相对减少的原因之一。

我还有一个理论,可以叫做“Moneyball 化”。我平时有个爱好是打扑克。很多人以为扑克只是运气和直觉,但实际上比人们想象的更数学化。

你能从顶尖玩家的演变中看到这一点。八九十年代的职业高手,并不是竞争较小,而是他们成功的关键技能是极强的直觉。他们当然理解一些数学概念,但更多是在“系统一”(直觉思维)的层面快速感知,并且对游戏有很好的感觉,知道该如何调整自己的打法。

而现在,全是数学怪才。当一个领域逐渐成熟时,就会发生这种转变。

在早期、不成熟的阶段,人们甚至不知道该问哪些问题,也不知道该用什么参照系思考。在这种情况下,直觉敏锐、敢于自我推理就非常有优势。但一旦领域成熟,最后的答案往往就是数学。

就像国际象棋一样。19 世纪的时候还有所谓“浪漫派”风格,凭直觉下棋。但今天棋力引擎已经能算出“41 步必胜”。棋局也就演化成“找到最优解,并看你离它多近”。

另一个例子是任天堂的《任天堂明星大乱斗:近战》,我以前也打过比赛。最初 6-8 年,选手都是灵活、有创造力的玩家。后来全变成了数学化的打法,靠精确计算而不是灵感。即时战略(RTS)游戏也有类似趋势。

这种转变当然也有美感,只是说随着领域成熟,最终都会走向数学化。而创业可能也在经历这样的过程。

Cognition 的 AI 软件工程师 Devin 

John Collison:什么是 Cognition?它做什么? 

Scott Wu: 我们正在构建 AI 软件工程师。过去一年半我们一直在开发 Devin,最近还收购了 Windsurf。Devin 是 Windsurf 中的智能代理,也是 IDE 中的一部分。但从更高层面来说,我们的目标是构建软件工程的未来。

John Collison:会不会让人困惑?公司叫 Cognition,产品叫 Devin,又有点拟人化,现在还加上 Windsurf,好像有第三个名字。 

Scott Wu: 我们也在讨论这个问题。可能做一些整合会更好。

John Collison:好的。很多人对 GitHub Copilot 或 IDE 辅助编程的范式很熟悉,比如在 IDE 里写代码时,它帮你自动补全,或者你输入一些指令,它帮你写。这和 Cognition-Devin 的范式不同。 

Scott Wu: 没错。用 Devin,你是在 Slack 频道里和它对话,比如“帮我做个 X 或 Y”,就像和同事说话一样。

John Collison:所以你既可以从 Slack、Linear、Jira 调用它,也可以从 IDE 里用它,但并不一定要在 IDE 里。 

Scott Wu: 对,完全正确。之前的范式,比如 GitHub Copilot,算是 IDE 模式里最早、最知名的代表。我会把它描述为:当你在键盘前写代码时,它让你写得更快,提供一些工具和快捷方式。

而 Devin 完全是另一种范式,我称之为异步体验:你把任务交给一个智能代理,它去执行。所以 Devin 更像是在任务单或项目层面工作。你在 GitHub 里有个 issue,然后你 @Devin,它就开始干活。

John Collison:Devin 目前在哪些任务上表现最好? 

Scott Wu: 我们喜欢称 Devin 现在是一名“初级工程师”。它在某些方面比所有人都强,比如百科知识、查找事实。但它在某些事情上也会做出很糟糕的决定。总体平均来看,用“初级工程师”来形容是比较准确的。

我们看到大家最常用 Devin 的场景是:

修 bug;

做一些简单的功能请求和小修小补;

或者执行团队里大家已经决定要做的某个任务,你只需要“@Devin,帮我搞定这个”。

另外一类很常见的,是那些重复且枯燥的任务,比如迁移、现代化改造、重构、版本升级。全球软件工程师花在这些事情上的时间,往往比真正“创造性构建”要多得多。比如修复 Kubernetes 部署、做依赖管理、写测试和文档等等。

John Collison:你能分享一些业务指标吗? 

Scott Wu:Devin 已经部署在全球成千上万家公司里,从高盛、花旗这样的大银行,到两三个人的小型创业公司。

我们衡量的主要指标是合并的 pull request 占比。在成功的团队里,Devin 通常会完成 30% 到 40% 的合并请求。

John Collison:不过现在 IDE 工具(比如 GitHub Copilot、Cursor、Claude Code)也不是完全同步,你输入提示后,它们也会去执行。你说的同步与异步的区分,是暂时的吗?未来会融合吗? 

Scott Wu: 我认为这两种体验在接下来一段时间会共存。真正有意思的是如何找到它们之间的共享体验。我们最近收购 Windsurf 也是在考虑这点,很快会发布一些相关的新功能。

John Collison:你知道“本质复杂性(essential complexity)”和“偶然复杂性(accidental complexity)”的概念吗? 

Scott Wu: 是的。作为软件工程师的本质,其实就是在代码的语境下解决问题。工程师要告诉计算机该做什么,同时不断做各种决策:大到整体架构的选择; 小到某个余额小于零时,是报错还是请求补充。 这些逻辑性的决策就是所谓的“本质复杂性”。

而“偶然复杂性”是所有其他事情:规模化时的支撑性工作,或者每个类都必须有的一些标准化特性。这些东西大家都知道必须有,但不涉及真正的决策。

在 AI 编码出现之前,软件工程的主要部分就是做决策,但人们 80%-90% 的时间却花在了重复实现、例行工作上。未来的混合体验是:需要人类决策的部分保持同步; 纯粹执行的部分交给 AI 异步完成。

一个项目通常会在同步和异步之间交替。同步体验更像 IDE,直接看代码、逐行修改;异步体验更像智能代理,接收任务后独立完成。关键是让工程师在高影响力的决策点上互动,而不是被繁琐的执行细节拖住。

John Collison:那在企业里呢?比如数据库迁移,最后一步删除旧表是很吓人的,大家担心 AI 幻觉。怎么让企业放心地给 Devin 足够的权限? 

Scott Wu: 我们非常明确地建议用户,不要给 Devin 开放过于宽泛的数据库访问权限。这就是一种做法。到目前为止,我没听说过出现过严重问题,但显然,最好还是不要冒这个风险。

坦白说,我的看法是:我们之所以要设立各种流程,本来就是因为人类也会犯错。 这就是为什么我们有 pull request、代码审查,有 CI 流程和各种检查。Devin 其实能很自然地融入这些流程。

通常大家和 Devin 的工作方式是:比如做大规模代码迁移,会把任务拆分开。可能有 5 万个文件要从某个 Angular 版本升级到另一个版本。Devin 就会逐个去改,并且为每个改动提交 PR。接着你只需要去审查代码,确认修改正确。

这样做背后还是有人类把关。这就呼应了你之前说的“偶然复杂度”问题:迁移真正耗时的并不是那一步“删除旧表”,而是所有周边琐碎的环节。

在实践中,我们发现,尤其是在企业级的迁移场景里,当用户内部去测量时,通常能看到 8 到 15 倍的效率提升。因为正如你说的,工程师只需要审查代码,而不是亲自写下每一行,或逐个检查每个引用。

John Collison:很多组织都想知道 AI 编码工具的生产力影响。现在工程师都想用,但从 PR 数量这些指标看,不是很明显。你可能会说,如果代码质量下降了,那后续维护成本会增加;或者别的什么情况。所以现在几乎所有人都在寻找一种“铁证般的生产力数据”,能一锤定音地说明 AI 的影响力。估计很多 CTO 也在找这种数据,好向 CFO 证明开销是合理的。那你怎么看?AI 工具的生产力提升究竟大吗?能真正量化吗? 

Scott Wu: 当然能。我认为,随着行业逐步从 IDE 辅助过渡到智能代理,这个问题的答案会越来越清晰。

老实说,我觉得 IDE 带来的生产力提升其实常常被低估。原因就在于,它很难被准确量化。比如我们看自己团队的数据,平均下来,每个工程师在一周里会使用 Tab 自动补全 238 次。直觉上,这肯定是有价值的,也确实会让人更快。但要说它到底让你快了多少,就很难精确衡量。

相比之下,智能代理(Agent)要清晰得多。因为代理是直接帮你把整个任务完成。比如一个 Jira 任务,或者一次大规模迁移。通常情况下,你对这些任务需要多少工程师工时是有数的。而当代理能端到端完成这些事情时,提升是显而易见的:比如过去需要人力做的迁移,现在只需要你花五分钟审查 PR,一切就完成了。

所以,随着时间推移,这种生产力的提升会变得越来越明显。

John Collison:有人认为,编码工具只是一个过渡阶段,很快就会被 GPT-6 或 GPT-7 这样的更强模型取代。你显然不是这么认为的吧?怎么避免被大模型实验室“碾压”? 

Scott Wu: 当然。我觉得那些实验室本身就是非常了不起的企业。但在我理解里,这种观点其实是一种“虚无主义的计算机使用论”。意思是:我们在现实世界里从事的各种知识工作,本质上都要借助计算机。AI 会越来越擅长使用计算机,直到某一天,什么都不剩下,只剩下 AI 自己操作你的电脑,把你的工作全都做掉。这,大概就是这种论调的核心。

我能理解其中的道理,这种观点很难被彻底反驳。但在实践中我们看到的情况是,现实世界中存在大量的上下文知识和行业细节。比如前面说的 Angular 迁移。并不是说这些事做不好,事实上模型会越来越擅长。但要让模型真的变得更好,关键还是得有合适的数据。

如果它从没见过 Angular,从没做过 Angular 迁移,那么它的能力就是有上限的。再比如调试 Datadog 错误。现实中的软件工程非常混乱,充满了各种意外情况。其实大多数学科都如此,无论是法律还是医学。

所以虽然通用智能会越来越强,但要让它真正适用于某个特定场景,还需要很多工作。既要在能力层面针对具体用例表现得足够好,也要在产品体验层面真正把它交付给客户,落地到现实中。

John Collison:换句话说,这不是一个“通用智能”任务,而是一个“特定智能”任务。比如在 Stripe 的代码库里工作,当然需要一些通用智能,但更需要上下文和与现有工作流的结合。所以你认为这是一个需要持续专精的领域? 

Scott Wu: 也许可以这样理解:这个虚无主义的观点其实指向“超级智能”。某种程度上,我们的确正在向“短程超级智能”迈进。通过 RL(强化学习)不断优化,模型逐步逼近一种“柏拉图式理想”——能够在任何基准测试(benchmark)上达到满分。

无论基准是什么,哪怕是未解的数学难题,我们最终希望能把它输入数据集,让模型达到 100%。而且说实话,这个进展比很多人预期的快得多。比如 IMO 金牌、某些顶级基准分数已经出现了令人惊讶的突破。

但即便如此,我不认为我们最后会得到一个纯粹的 ASI(人工超级智能),然后终结人类知识工作。更可能的情况是:问题变成“接下来基准测试是什么?”

定义 benchmark 本身就是世界的混乱现实。比如在软件工程里,你每天接触哪些工具?怎么使用?如何建立长期的代码库表征?怎么判断一个功能是否成功上线?这些都需要环境和标准的设计。

John Collison:那 Devin 有没有合适的 benchmark?还是说它的营收本身就是基准? 

Scott Wu: 我们内部其实有很多 benchmark。最主要的一个叫“初级开发 benchmark”,可能很快就得升级为“高级开发 benchmark”了。它涵盖了各种真实的初级开发任务。

举例来说,任务可能是“修复一个 Grafana dashboard 并拉取结果”。难点不在算法,而在于现实复杂性:比如服务器运行的包版本不对,需要读懂报错信息,换成正确依赖,再重新跑,最后验证结果是否正确。这类任务尽可能接近真实工程师日常的工作。

至于最新模型,Claude 4.1 和 GPT-5 在这个基准上的表现,已经超过此前所有模型。

找差异化,活下去 

John Collison:那从产业角度看,未来 5 到 10 年 AI 产业链的各层(数据中心、实验室、应用层)会是什么格局?哪些环节更竞争?哪些更稳定?会不会变成寡头格局? 

Scott Wu: 每次我说这个,大家总是笑,但我真的认为:所有层都会发展得很好。

首先,会有大量的 AI。各层的价格现在都相对便宜。我过去 6 到 12 个月一直在说这点,现在我们确实看到各层的价格都有明显上涨。但从宏观来看,第一点就是:AI 会极大规模存在

过去 10 年,B2B SaaS 主要做的是很多增量改进。往前看 30 年,大的浪潮其实只有几个:

90 年代到 2000 年初的互联网;

2000 年代末到 2010 年代初的智能手机和云计算; 这些都是过去几十年最重要的变化。

但这 10 年里,很多新产品更多是在特定垂直领域或某个工作流环节做小幅优化。而 AI 的不同在于,它直接作用于所有知识工作,甚至可能扩展到物理劳动(取决于机器人进展)。

所以第一点:未来会有大量的 AI。第二点是价值的积累。我的观点是,价值会沉淀在每一个存在显著差异化的层里。举个例子:NVIDIA 和台积电(TSMC)。只要双方互相依赖,就算有摩擦,它们依然会持续做得很好。这种逻辑同样存在于技术堆栈的各层。不同层面要解决的问题完全不同,差异化非常明显。

John Collison:所以你认为这会避免过度纵向整合? 

Scott Wu: 对。硬件层是一个逻辑,大模型训练又是另一套逻辑:需要顶尖研究员、尽可能多的 GPU 和对应的文化氛围。而应用层的 DNA 则完全不同。我们当然也涉及研究,但我们专注的只是一个问题:如何把“未来的软件工程”真正做出来。

很多公司谈“AI 写代码”,是抽象地谈。但我们考虑的是 软件工程整体——包括其中的混乱、产品接口、交付方式、使用模式,以及一堆细节能力。

每一层都有各自的 DNA,各自最擅长的事。

John Collison:在 Stripe,我们一直在思考如何构建 AI 的经济基础设施,以及它需要具备什么条件。你可以让一个代理(agent)代表某个人行动,而你只需要在应用里下达指令或进行操作。而代理的工具使用能力之一,就是可以代表你去现实世界里进行商业交易。所以我们正在为此搭建基础设施。 

我们注意到,AI 的经济模式几乎都是基于使用量计费的,不管是按 token 还是其他单位。因此我们正在构建基于使用量的计费系统。而我们在 Stripe 上看到的 AI 计费系统,和传统 SaaS 非常不同。经典 SaaS 的模式是按席位(seat)计费,而 AI 几乎全部是按使用量消耗。甚至你可以想象代理之间会彼此进行商业交易,完全没有人类参与。这些情况也在影响我们的产品路线图。那么,你觉得 AI 的经济基础设施应该长什么样?我们需要特别注意什么? 

Scott Wu: 是的,按席位到按用量的转变绝对是核心。而且在两个层面都说得通:

从一个角度看,按席位不再合理,因为 AI 本身就相当于“席位”,它们也在做大量劳动。

从另一个角度看,按使用量收费也更自然,因为最终都是 GPU 花销,即模型推理消耗了多少算力。

这很有道理。另一个显而易见的大变化是:会形成一个完整的 代理经济(agent economy)

今天来看,它还更像是一个谈论中的概念,而非现实。但变化非常快,很快我们就能看到代理在真实环境中执行任务。

Cognition 的团队与招聘:当场写代理!

John Collison:那 Devin 的存在,会怎么影响你们自己招聘工程师? 

Scott Wu: 从我们的角度来看,我们一直喜欢保持核心工程团队精干而且精英化。

John Collison:大概多少人? 

Scott Wu: 直到几周前,我们整个团队大约 35 人,覆盖所有岗位。几乎每个人其实都有工程师背景。有趣的是,我们所谓的“核心工程”团队当时只有 19 人。

在收购 Windsurf 之后,团队规模确实大了不少,但核心工程团队本身并没有显著扩张,从 19 人增加到了 30 到 35 人的范围。

John Collison:所以你们有意保持工程团队的小规模。那这些工程师和 20 年前创业公司里的工程师有何不同? 

Scott Wu: 其实差别很大。今天很多执行和实现类的工作 Devin 都能完成,所以人类工程师不需要再去做这些。我们更关注的是,他们能否在高层次上做出决策,理解技术概念,并具备很强的产品直觉。

举个例子,我们的整个面试过程,其中很多都是让候选人构建自己的 Devin,八个小时后,看看他们能做到什么程度。

John Collison:是要构建他们自己的 Devin 版本,还是利用 Devin 来做一些东西? 

Scott Wu: 是要他们构建自己的版本,属于他们自己的代理,完整的端到端代理,不论是 6 小时还是 8 小时。

我们发现——而且我认为这也是软件工程未来的普遍趋势——死记硬背各种知识点、熟悉各种细节、或者特别精通某种语言的语法,这些能力的重要性会逐渐降低。

真正更重要的是:

  • 能在高层次上做决策;
  • 对技术概念有深入理解;
  • 对产品有敏锐的直觉,知道该构建什么、该如何推进;
  • 具备很强的自我驱动和责任心。

有趣的是,我们团队里很多人以前是创业者。在最初的 35 人中,有 21 人创过业。

John Collison:哇,这比例很高。 

Scott Wu: 是的,这算是我们团队的一个特点。

John Collison:你们什么时候会雇佣最后一个工程师? 

Scott Wu: 这是个好问题。我想先做个区分:在未来两三四年左右,会出现一个临界点——我们将不再把“代码”作为主要界面。

那时,软件工程师的工作不再关注代码,而是指导电脑该做什么。你看着自己的产品,对电脑说:“我们需要新建一个页面;这部分数据要这样保存;索引要按照 X、Y、Z 来做,因为查询需求是这样的。”很多都是架构层面的决策,而不是直接看代码。至少在大多数情况下是这样。

到那时,工作的性质会发生巨大变化。但有趣的是,软件工程师的数量可能会更多,而不是更少。因为即便界面不再是代码,核心的软件技能依然重要。

很多人问我:“我的孩子正在上高中 / 刚上大学,还应该学计算机科学吗?”我的回答一直是“绝对应该”。实际上,我一直觉得大学计算机科学的缺点恰恰是过于偏理论:它教你计算机科学的概念,却很少教你实际语法,比如怎么搭一个 React 应用。未来我们可能会走向这样的状态:编程的本质就是理解计算机模型,学会如何用它来做决策和解决问题。这反而让软件工程师更多。

大家经常提到杰文斯悖论(Jevons Paradox)和 AI 的关系。我认为它在软件领域体现得最明显。因为我们永远都写不完新的软件。

尽管全世界已经有这么多软件工程师,但我们都知道,还有无数糟糕的产品。比如登录银行系统、零售收银台的结账流程,或医疗平台,界面依旧老旧、漏洞百出、体验糟糕。换句话说,我们还没把该写的软件都写完。

John Collison:令人震惊的是 UI 这么多年几乎没变。我们今天依然在浏览器里、Slack 里给 Devin 发提示,就像在 1980 年代玩 Zork 那样输入命令。什么时候我们才能看到真正的 AI UI? 

Scott Wu: 我总体的看法是,每一波新技术都会经历这样的阶段。移动互联网就是例子:最初的手机应用看起来就像是网页搬到小屏幕上,但随着时间推移,才发展出丰富的触摸交互和良好的 UX 科学。

我觉得我们现在正处在类似的阶段。过去几年主要是用 AI 替代现有流程;而现在开始出现一些生成式的交互流。最简单的例子就是,很多产品底部加了一个聊天框,用户不用点菜单,直接在里面问就能找到功能。这只是最基础的一种形式,未来会有更多创新。

John Collison:我想到的另一个类比是:晶体管和芯片发明后,大家很快意识到“一切都需要嵌入计算机”。汽车、洗碗机都装上了小电脑。类似地,未来所有信息在被消费前,都会经过一次 transformer 模型的处理。 

Scott Wu:AI 和过去几波技术浪潮有一个独特的不同。无论是个人电脑、互联网还是手机,它们都有两个共同特征:

硬件门槛:必须先把调制解调器、电脑、手机分发出去,让大家先能上网、能用设备。

网络效应:互联网要等到你的朋友、餐馆、信息都在网上时,才真正好用。

但 AI 没有这两个问题。它是纯软件,只要技术对某个人有效,它就能在“单人模式”下立即提供巨大的价值。于是你会看到,只要 AI 产品能跑起来,就能立刻对所有人有效。

这也是为什么几乎每隔几周,就会有人宣布他们是“从 100 万到 1 亿用户增长最快的公司”。因为 AI 的扩展性太快了——一旦成功,就能立刻惠及所有人。

不过,也因此现在产品端出现了滞后。我认为,即使把今天的模型能力完全冻结,不再有新的模型或研究突破,产品层面依然有十年的进步空间

过去,产品进展和技术分发是同步推进的;但 AI 则不同。它的能力突然一下子就摆在那里,大家才在短短两年(甚至如果算上最近的 agent 能力,其实不到一年)的时间里集体思考:我们应该怎样设计正确的用户体验?

所以说,产品创新会花更多时间,大家还在消化。

John Collison:你的 AGI 时间表是怎样的? 

Scott Wu: 我认为我们已经有 AGI 了。

这听起来像开玩笑。2017 年如果你问“我们有 AGI 吗?”,答案肯定是没有。现在如果你问这个问题,大家的第一反应是:“先定义一下什么是 AGI。” 于是开始各种模棱两可的回答。

但从某种意义上说,这也没错。毕竟 Devin 能帮你点 DoorDash,这听起来也像 AGI。虽然这带点调侃,但我的真实想法是:人们常说的那种“快速奇点”和“超级智能”,我猜在近期不会发生。因为正如我们之前讨论的,还有大量现实世界的问题需要解决:到底要解决什么问题?怎样定义“成功”?

换句话说,这不是一个二进制问题。我们会不断推出更多改进,这些系统会越来越强,但至少在未来几年,不会出现某种突然的断点式跃迁。

收购 Windsurf:只用了三天,包括不休息的周末 

John Collison:我们必须聊聊 Windsurf,这个收购看起来发生得太快了。说说全过程吧。 

Scott Wu: 我们在同一时间看到新闻,说 Google 要收购 Windsurf(虽然严格意义上并不是直接收购)。那是周五,我们跟大家一样,当天才听到消息,前一晚只听到了一些传言。

当天下午我们就在讨论:“我们要不要做点什么?” 在 AI 行业,突然冒出一些疯狂的新闻并不罕见,但这次尤其和我们的领域直接相关,所以我们认真考虑了这个想法。

我们当晚就主动联系了 Windsurf 的新管理团队——Jeff、Graham 和 Kevin,并在晚上见了面。聊下来我们很快得出一个结论:如果要做这件事,那 最迟必须在周一早上完成。因为客户们已经在慌了,团队成员也在想,“我到底还有没有工作?” 整个局面就像一块正在融化的冰块。

如果等到周四而不是周一,客户可能就会取消合同,员工也会去别的公司面试。所以我们决定,既然要做,那就整个周末不眠不休地推进。

那周六我们基本上达成了初步的握手协议,接下来就是法律和合同的细节要处理。周日晚上我们几乎是彻夜未眠。

John Collison:周六晚上你们也熬夜了吗? 

Scott Wu: 周六只睡了几个小时。其实 Jeff、Graham 和 Kevin 前几天已经经历了很艰难的时刻,他们来谈判时本来就已经严重缺觉。我们原本乐观地以为周日晚就能签好文件,然后可以把精力放在录制视频、安抚团队、对外宣布这些事情上。但最终还是到周一上午 9 点才签下,因为我们和律师们一晚上都在处理各种细节。

最后,我们是在 Windsurf 的工作室录的视频。我们当时说,不管怎样,先把视频录了。

John Collison:你知道收购其实不一定要配视频吧? 

Scott Wu: 哈哈,当然,但有个视频总归是好事。签完文件之后,我们马上就在全体团队面前宣布了消息,并很快公开了这件事。那真是让人兴奋的时刻,我其实很享受这种瞬间。

John Collison:所以,你们是周五看到新闻,周一就签署并宣布交易。这意味着你们几乎是立刻就决定要买下 Windsurf 的剩余部分? 

Scott Wu: 对,周五晚上我们就聊透了。站在我们的角度,这里面有几个特别好的点:

首先,我们非常熟悉这个领域,所以对产品和客户没必要再做过多尽调。其次,经过了解我们发现,Windsurf 的核心研究和产品工程团队确实去了谷歌,但其他职能团队几乎完好无损地保留下来,包括企业工程、基础设施、交付工程、市场拓展、营销、财务、运营等等。

而对 Cognition 来说,我们的核心研究和产品工程团队算是做得不错,但在其他职能上的建设有些滞后。所以这刚好形成了一种天然的互补。比如他们服务的客户里有摩根大通,而我们有高盛……很多地方都能天然对接。

从一开始我们就觉得这里面有很有意思的协同价值,剩下的就是把细节敲定。

John Collison:所以你们收购的不仅是有领域经验的人才,还有一套和 Devin 相邻但不完全重合的产品。这意味着你们能加快市场拓展,也能扩充产品线,对吗? 

Scott Wu: 没错。而且产品层面上其实也有一些很自然的互补。我们一直在思考:异步产品(比如 Devin)和同步产品应该如何结合? 我们曾想过要不要自己去做一些同步场景,但没打算单独做一个 IDE,因为市场里已有几家玩家。但通过这次收购,我们发现其实有很多天然的契合点。

比如,我们在收购完成后的几天就发布了 Wave 11,里面就包含了一些增强功能:

能在 IDE 里直接访问 DeepWiki;

能在 IDE 中调用 Devin 的代码表示进行搜索;

能在 IDE 中直接拉起代理。

这些都让人感觉非常自然。

John Collison:那么六个月后,用户会是买 Devin 时顺带获得 Windsurf,还是分别购买? 

Scott Wu: 目前还有待确定。我们肯定会保持两个产品的哲学各自独立:我认为同步和异步工具都会长期存在。但我们会让它们之间的整合更顺畅、体验更好。这样一来,从客户的角度看会简单很多。

当然,如果有人只想用其中一个,我们也会保持选择的灵活性。

John Collison:在 AI 领域,有一个颇有趣的现象,就是出现了不少“49% 授权”式的交易,来规避收购可能被监管阻止的风险。公司会购买某项知识产权的使用许可,同时确保他们需要的人才也能随公司一起留下。 你觉得这种模式会在 AI 行业持续下去吗? 

Scott Wu: 这是一个挺特殊的时间节点现象。我当然不敢说自己是这方面的专家,但我觉得挺有意思的是,每次都会冒出一些新的“花招”。不管是法律结构、债务安排还是合同条款,总会多一层新玩法。你会看到,之前是这样,现在又变成那样……这套元游戏本身还在不断演化。

我认为在 AI 产业的顶层,确实存在一定程度的两极分化。因为这些事情的确是随着资源规模而扩展的,越到后面“游戏”就越大。对大多数公司来说,问题就是:你是觉得自己能单打独斗做到那里,还是要与其他公司合作,共同走下去?

John Collison:所以你的意思是,不管是传统的并购,还是这种新型的“授权式并购”,都可能越来越多? 

Scott Wu: 对。我甚至有一个“小热看法”:当然,AI 领域也会有不少中等规模的成功案例,但相比之前的产业浪潮,这一波更倾向于“要么成为超大规模玩家,要么就出局”。所以有些公司会选择孤注一掷冲击超大规模,另一些则会选择和别人合作。

John Collison:Windsurf 团队加入之后,Cognition 的文化本来就很强烈。比如你们周末也工作,就像这次收购要约。 

Scott Wu: 是的。我们很清楚,这种文化并不适合所有人。大部分人加入后都很兴奋,但也有一小部分选择接受补偿离开。我们的原则是:必须让大家“自愿选择”加入这种文化,因为说实话,这并不是适合所有人的。

John Collison:你希望他们选择加入的到底是什么? 

Scott Wu: 是选择加入这种高强度的文化,以及我们正在追求的雄心勃勃的目标。

从营收体量来看,可能有人会称我们是中期甚至后期公司,但从我们的角度看,我们依然处于早期阶段。因为未来还有太多要去构建、要去实现的东西。既然是早期阶段,团队成员就必须愿意面对不确定性,愿意每周接受全新的挑战,并愿意付出更多时间和努力来维持这种文化。这是我们坚持的一个核心点。

当然,无论怎样,我们都会确保每个人都得到妥善的照顾。

John Collison:你每天都在经营你有史以来最大的公司,就像我在 Stripe 一样。你是怎么快速学习如何当 CEO 的? 

Scott Wu: 我还有很多要学的。过去我们对某些职能投入不足,现在正在补课。我不太相信所谓的职业教练,但我从同辈和朋友那里学到很多。他们在做类似的事情,可以非常坦诚地交流困难。

比如 RAMP 的 Eric 和 Karim,还有我以前的合伙人 Vlad(Lunchclub 创始人),以及很多数学竞赛圈的朋友们。我可以直接跟他们说:“这件事完全搞砸了,我不知道怎么办,你们有类似经验吗?” 这种对话帮了我很多。

John Collison:最后一个问题:你的信息获取方式是怎样的? 

Scott Wu: 我觉得 Twitter 依然是科技新闻的最佳来源。虽然现在算法里视频很多,越来越像 TikTok,但我基本不看视频,最多看几秒。所以如果做视频内容,要能在前三秒、无声的情况下传达核心信息。

AI 对我的信息获取的影响,其实也主要就是 Twitter 算法。

John Collison:那你有没有用 Devin 来帮你做信息整理? 

Scott Wu: 还没有,但这是个好主意。比如让 Devin 每天跑一个 GitHub Action,生成晨报,就像总统的每日简报一样。这块还有很多优化空间。

参考链接:

https://www.youtube.com/watch?v=MmKkNmnoEvw

本文来自微信公众号 “AI前线”(ID:ai-front),作者:Tina,36氪经授权发布。

+1
54

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业