入职仅一年,套现5000多万后背刺马斯克搬走 Grok 核心代码库,业内专家:拥有菜谱不等于能做出同样的菜
1
马斯克起诉前员工偷走 xAI 整个代码库
马斯克又因为打官司上了热搜,这次他起诉的不是公司,而是前员工。
上周末,xAI 起诉自己的一名前员工,指控其窃取商业机密,并称此举可能使竞争对手受益。
这家人工智能初创公司在向加州联邦法院提交的一份新文件中声称,前雇员 Xuechen Li“故意恶意复制 xAI 机密信息”和“商业机密”,从 xAI 发放的笔记本电脑复制到他个人控制的一个或多个非 xAI 物理或在线存储系统中。”xAI 开发了 X 的内部聊天机器人 Grok,该机器人与 OpenAI 的 ChatGPT 等工具竞争。
诉讼称,这些被盗用的数据“可能被 xAI 的竞争对手(例如 OpenAI)和 / 或外国实体利用,抢占 xAI 的产品供应和市场扩张,并了解和使用其现有和正在开发的产品功能来增强他们自己的 AI 模型。” 诉讼声称,获取此类数据将在 AI 竞赛中带来“潜在的不可逾越的竞争优势”。
这场诉讼在圈内引发了轩然大波,有业内专家向 InfoQ 表示,大模型的核心竞争力并不完全依赖于代码本身。模型的表现更多取决于训练数据、算力投入、工程优化和迭代速度。即便对手拿到了代码,也难以复制整个训练流程和底层基础设施。就像拥有菜谱不等于能做出同样的菜,关键还在于食材、火候和厨师的经验。
在诉讼中,xAI 称开发大模型所耗费的成本是巨大的,需要极为庞大的资金和技术投入。Grok 4 是他们花了数十亿美元投资的成果。
“必须涵盖数据获取与处理、计算基础设施以及顶尖人才。巨额资本投入是必需的,以便筛选高质量数据集、运行成千上万块高性能 GPU,并聘用一流的人工智能研究人员。
xAI 于 2023 年 11 月进入市场,仅仅两年时间,通过在人力和技术上的大量投入,已经成长为一家领先的生成式人工智能公司。xAI 的愿景是通过其先进的人工智能(包括其生成式人工智能模型 Grok),推动人类理解力和能力的提升。Grok 是一款顶尖的前沿模型,代表着人工智能研究与开发的最前沿,不断突破人工智能在多个领域的能力边界。与 OpenAI 的 ChatGPT、谷歌的 Gemini 以及中国的 DeepSeek 同台竞争,xAI 最新发布的 Grok 4 是全球最先进、最强大的生成式人工智能系统之一,在推理和预训练能力等行业基准测试中处于领先地位。
Grok 4 是多年研究开发与数十亿美元投资的成果。这一进展离不开高技能工程师、科学家和其他专业人士的紧密合作,他们共同推动了人工智能技术的最前沿发展。”
如此大的成果如今对外宣称被盗走,可想而之马斯克该有多愤怒。因此该诉讼要求金钱赔偿,并旨在阻止 Xuechen Li 继续在 OpenAI 工作。
那么,这个 Xuechen Li 什么来头?
Xuechen Li 于 2024 年在斯坦福大学获得计算机科学博士学位,并成为 xAI 的首批 20 名员工之一,拥有加拿大国籍。他一直致力于开发和训练 xAI 的先进人工智能模型 Grok。
7 月份,Xuechen Li 在他的个人 X 上向他的 14000 多名 X 粉丝发文称:“一小群才华横溢的人,通过高度专注和努力,在很短的时间内能够取得如此大的成就,这总是让我感到惊讶。”
作为薪酬方案的一部分,xAI 还向被告授予了期权和股份。
为了给包括 Xuechen Li 在内的员工股东提供流动性,xAI 于 2025 年 6 月促成购买了 Xuechen Li 部分股份,金额超过 470 万美元,Xuechen Li 于 2025 年 7 月 23 日收到现金收益。
在寻求更多流动性时,Xuechen Li 于 2025 年 7 月说服 xAI 促成再次购买他更多股份,金额为 220 万美元。xAI 之所以同意该交易,是因为公司重视他的贡献,并希望留住他作为一名有成效和成功的员工。Xuechen Li 于 2025 年 7 月 25 日收到了此次出售的现金收益。
Xuechen Li 在离职时获得了约 700 万美元的股票期权,他在公司的工程团队工作,在此岗位上,他能够接触并负责 xAI 技术栈的各个组成部分。
2
离职前一天,将机密信息复制到个人电脑
xAI 声称,2025 年 7 月 25 日(Xuechen Li 获得股票出售现金收益的同一天),他将公司的“机密信息”和“商业机密”从工作用笔记本电脑复制到“个人控制的非 xAI 物理或在线存储系统”。
该公司声称,Xuechen Li 采取了广泛措施来掩盖其不当行为,包括删除浏览器历史记录和系统日志、重命名文件以及在将文件上传到个人设备之前对其进行压缩。
三天后,Xuechen Li 辞职。此前,他已接受 OpenAI 的录用通知,原定于 8 月 19 日入职。
xAI 表示,在 8 月 11 日对其用于检测和防止数据泄露的安全软件日志进行例行审查时,发现了 Xuechen Li 的行为。同一天,xAI 向 Xuechen Li 发送电子邮件,要求他归还并删除数据。
据报道,Xuechen Li 此时已聘请了一名刑事律师。在 xAI 律师与 Xuechen Li 律师的会面中,Xuechen Li 承认故意窃取 xAI 文件并掩盖其踪迹。他允许 xAI 复制他的个人笔记本电脑以供检查,但该公司表示,他隐瞒了关键账户的密码,而这些密码可能会暴露盗窃的全部范围。
马斯克现在表示,Xuechen Li 掌握着 xAI 的整个代码库。xAI 的代码库包含该公司用于构建其众多模型的所有代码,以及可能包含 xAI 工程师为使自己在竞争中脱颖而出而想出的许多算法技巧。
马斯克声称 Xuechen Li 有意将所有这些代码提供给 OpenAI,而 xAI 在诉讼中表示,这些信息本可以用来构建优于 ChatGPT 的模型。AI 模型公司的价值高达数千亿美元,其大部分价值在于驱动其模型的代码和权重。保护这些代码可能应该是最重要的优先事项之一——由于研究人员经常更换实验室,有人将他们的代码带给竞争对手的风险必然是他们最大的生存风险之一。
为了避免模型代码和权重被盗用,作为雇佣条件之一,xAI 要求每一位员工签署一份《员工保密信息与发明转让协议》(以下简称“协议”)。
协议对 xAI 员工在保密信息方面设定了明确义务。协议将“保密信息”定义为属于 xAI 的“任何及所有机密知识、数据或信息”,其中包括但不限于:
商业秘密、专有技术、发明、掩膜作品、创意、流程、公式、源代码或目标代码形式的软件、数据、程序、其他著作作品、专有技能、改进、发现、开发、设计和技术,以及任何其他类型的工作成果及其所有知识产权(如下所定义,合称“发明”),其中包括所有公司发明;
任何其他可能被公司竞争对手利用、从而对公司造成竞争劣势的非公开信息。
协议的部分主要内容包括:
要求员工承认雇佣关系“在涉及 xAI 保密信息时建立了一种信任关系”,且公司“对此享有可保护的权益”;
要求员工在“任职期间及离职后”保持保密,不得披露、使用或发表保密信息,除非是履行工作职责所需或经 xAI 高管明确授权。;
要求员工在终止雇佣时归还“所有”包含或披露保密信息的材料,包括文件、笔记和设备及所有副本,以及“任何其他包含或披露保密信息的材料”;
要求员工向 xAI 提供一份可在计算机上使用的副本,涵盖存储在个人设备或系统中的保密信息,并“永久删除和清除”相关系统中的这些信息;
要求员工“同意在合理要求下向 [xAI] 提供对 [其] 系统的访问权限,以验证所需的复制和 / 或删除已完成”;
要求员工“同意:(a)向 [xAI] 提供访问任何 [xAI] 财产或需归还信息的所有所需资料……包括但不限于登录信息、密码和账户信息”。
3
外界怎么看?
虽然马斯克过去经常提起诉讼,但这一次依然在网上引起了广泛讨论,尤其是在 Reddit 上掀起了大量阴谋论的猜测。
有 Reddit 用户认为,Xuechen Li 加入 OpenAI 的职位并非真正的工作机会,而是为了执行“间谍活动”。在他们看来,既然他已经将 xAI 的核心资料带走,OpenAI 就不需要给他重要岗位,反而可能安排一些无关紧要的工作。
“他不会被聘用到任何真正的职位。他们提供这份工作是作为间谍活动的一部分。既然他们已经得到了他们想要的东西,他就只能在 OpenAI 做相当于清洁厕所的编程工作了。”
另一些用户则猜测,OpenAI 早就暗中支付了报酬给 Xuechen Li,这场诉讼和所谓的“跳槽”不过是早已计划好的阴谋。
在舆论热议中,InfoQ 就事件背后的影响与防范问题,采访了杭州悦数 CTO 叶小萌。
4
“核心代码泄露”是否致命?
对于 xAI 起诉前员工窃取 Grok 代码一事, 叶小萌认为:
“源代码泄露虽然严重,但不太可能对 xAI 造成不可逆的竞争影响。这类问题在 AI、数据库、基础软件等技术领域并不罕见。代码泄露最直接的后果是让竞争对手获得了对其系统架构和实现细节的深入了解,从而缩短追赶的时间。
不过,大模型的核心竞争力并不完全依赖于代码本身。模型的表现更多取决于训练数据、算力投入、工程优化和迭代速度。即便对手拿到了代码,也难以复制整个训练流程和底层基础设施。就像拥有菜谱不等于能做出同样的菜,关键还在于食材、火候和厨师的经验。
“从竞争角度看,代码泄露最大的影响是加速了对手的跟进节奏。原本 xAI 可能领先半年甚至更久,但泄露后对手可以快速借鉴关键技术点,缩小差距。这反过来会迫使 xAI 必须加快产品迭代,持续推出更强的版本来维持领先,也就是要‘move faster’。”
至于后续修复竞争力的成本,叶小萌称这主要体现在几个方面:一是加强内部安全管控,比如代码访问权限、审计机制和员工离职流程;二是加大研发投入,提升模型更新频率和技术壁垒;三是通过法律手段遏制信息滥用,同时强化自身知识产权保护。
不少业内人士认为,若诉状内容属实,Xuechen Li 几乎掌握了整个 Grok 4 的核心代码库,这或许意味着 xAI 最重要的技术护城河被拱手送出。
但叶小萌持不同观点。他认为这件事不会从根本上动摇 xAI 的技术路线或市场地位。只要能保持快速创新,xAI 依然有机会在竞争中占据主动。
事实上,还有个问题值得注意,诉状显示,Xuechen Li 通过“技术伪装”绕过了常规防护措施。这也让外界疑问:市面上被企业普遍采用的数据防泄漏(DLP)系统,为何没能及时识别并阻止?针对这一问题,叶小萌表示:
“从技术角度看,这次事件中前员工通过删除浏览器历史、压缩重命名文件、隐瞒账户密码等方式试图掩盖行为,说明这是一次有预谋的窃取。而现有 DLP 系统之所以未能有效阻止,主要原因在于设计理念和实际执行之间存在脱节。
目前企业常用的 DLP 方案在国内外存在明显差异。很多国外科技公司,尤其是 AI 和大型软件企业,更倾向于“事后监控”而非“事前防控”。也就是说,他们不会过度限制员工对代码或数据的访问权限,而是尽可能保留开发者的自由度,以保障研发效率和创新能力。但与此同时,会完整记录所有操作日志——比如谁在什么时候访问了哪些文件、执行了哪些查询、下载或复制行为。
像 Facebook 早年就允许工程师访问大量核心数据,但每一步操作都会被审计追踪。这种模式的核心逻辑是:信任人才,但保留追责能力。一旦发现问题行为,可以通过日志回溯快速定位。
从 xAI 这次能发现员工删除历史、隐藏密码等动作来看,说明他们的监控系统其实做得比较完善——即便对方试图擦除痕迹,依然能还原部分行为路径。这恰恰体现了这类“重监控、轻阻断”策略的有效性。
但这也暴露出当前 DLP 技术的一个明显短板:它很难防御内部人员的蓄意规避行为。特别是当员工具备技术能力,且提前规划行动时,常规的告警规则(如大文件下载、异常外传)很容易被绕过。比如把代码打包成隐蔽文件名、通过分段传输等方式,就可能逃过自动检测。
此外,过于严格的防控措施又会影响研发效率。如果每个代码访问都要审批、每次数据导出都受限,反而会拖慢迭代节奏。这也是为什么很多 AI 公司宁愿选择“先放权、后审计”的方式。
因此,单纯依赖技术手段并不足够。理想的数据防护应该结合三方面:一是健全的操作审计系统,确保行为可追溯;二是权限的动态管理,根据岗位和项目需求最小化授权;三是配合法律约束和员工合规培训,形成技术和管理的双重防线。”
从事件过程来看,Xuechen Li 既是核心研发人员,又在离职前完成高额股票套现。这一细节引发外界对“核心员工利益绑定机制”的反思。叶小萌认为,这类问题本质上是信任与风险的权衡。对于核心研发岗位,尤其是 AI 这种高度依赖创新能力的领域,企业必须给予足够的数据和代码访问权限,过度限制反而会阻碍研发效率。因此,像 xAI 这样的公司通常不会在事前严格设限,而是通过持续的行为监控和离职审计来管控风险。
“关键在于:你可以接触,但所有操作都会被记录。比如对代码下载、数据导出等敏感行为进行日志追踪,并通过系统自动识别异常模式——如短时间内大量拷贝、非工作时间访问核心资产等。从本案来看,Xuechen Li 在离职前大量复制代码到个人设备,正是通过这类审计机制被发现的。这说明,相比‘堵’,更有效的做法是‘看’——放权给人才,同时保留追溯和追责能力。
要避免‘人走机密失’,企业应在三方面发力:一是建立完善的操作审计系统,确保行为可查;二是强化离职流程审查,对关键岗位做专项审计;三是通过法律协议(如竞业限制、保密条款)形成约束。
说到底,核心员工是 AI 企业的宝贵资产,不能因防风险而牺牲创新效率。真正的安全,不在于把权限锁死,而在于让每一次访问都处在可监控、可追溯的范围内。”
事实上,AI 行业正处于人才高度流动的阶段。研究人员频繁更换实验室或公司,“代码随人走”的风险越来越被视为企业最大隐患。那么,该如何从根源上降低机密泄露风险?
叶小萌表示,从现实角度看,尤其是在初创或高速发展的 AI 公司中,过度设置权限壁垒反而会影响协作效率和创新节奏。这类企业更需要的是在开放与安全之间找到平衡。
“我认为目前最可行的路径,仍然是以操作行为监控为主、法律约束为辅的模式。至于是否可以通过行业协作建立‘核心技术共享边界’或‘人才流动诚信档案’,听起来是个理想方向,但短期内落地难度较大。不同企业间的技术资产、保密标准和商业利益差异太大,很难达成统一规则。类似‘诚信档案’也涉及隐私、合规和执行公信力等问题,缺乏权威机制支撑,容易流于形式。”
采访嘉宾简介:
叶小萌,杭州悦数科技有限公司首席技术官(CTO),图技术领域资深专家,拥有超过 20 年的数据库产品设计、研发与管理经验。他主导打造了全球首个原生支持 ISO GQL 标准的分布式图数据库——悦数图数据库,广泛应用于金融风控、反欺诈等复杂关联分析场景。
他曾任蚂蚁集团 GeaBase 图数据库负责人,以及 Facebook(现 Meta)资深软件工程师,深度参与大规模数据系统与基础设施的建设。叶小萌长期致力于图技术的创新与产业化落地,持续推动图数据库在企业级应用中的深度实践与广泛发展。
参考链接:
https://officechai.com/ai/xuechen-li-accepted-openai-offer-and-uploaded-entire-xai-codebase-elon-musk/
本文来自微信公众号“InfoQ”(ID:infoqchina),作者:冬梅,36氪经授权发布。