马斯克甩出王炸,X平台推荐算法重磅开源,6小时斩获1.6k Star,放话:没有对手这样做
“我们将在 7 天内把 X 平台最新的内容推荐算法开源。”
几天前,X 平台掌舵者埃隆·马斯克抛出的这句话,着实让不少人愣了一下。毕竟这意味着,外界将第一次有机会系统性地了解:X 到底是如何决定向用户推荐哪些自然内容、哪些广告内容的。
彼时话一说出口,很多人翘首以盼,也在 X 上每天“蹲守”,等着看马斯克会不会“爽约”。
让人有些兴奋的是,X 平台工程团队的 Engineering 官方账号于今天给出了答案。他们重磅宣布,正式开源新的 X 推荐算法——该算法采用了与 xAI 的 Grok 模型相同的 Transformer 架构。
与此同时,相关的 GitHub 仓库也一并公开:https://github.com/xai-org/x-algorithm ,上线六小时便已经获得了 1.6k 个 Star。
这并不是一次象征性的“放点代码看看”。对于外界讨论了多年的那个问题——“X 的推荐系统到底是怎么运作的”,这一次,终于有了可以直接翻源码的对象。
从“放话”到“交卷”:马斯克为什么非要开源算法?
要聊这次开源,得先搞懂马斯克的“执念”。
在社交平台领域,推荐算法向来是各家的“核心机密”:用户刷到的每条动态、每个广告,背后都是算法根据用户行为、内容标签、商业诉求等维度计算的结果。此前,无论是 Facebook、Instagram 还是其他社交平台,算法都被牢牢锁在“黑箱”里,外界只能靠逆向工程猜测逻辑,平台正常也不会主动交底。
但马斯克偏不。接手 X 平台前后,他不止一次吐槽过“算法不透明”的问题。于是,其势要打造一个「自由广场」。
这次立“开源的 Flag”,与其说是一时兴起,不如说是他对 X 平台改造的关键一步:一方面,通过开源让全球开发者、用户监督算法逻辑,减少“算法偏见”、“流量操纵”的质疑,也应对监管;另一方面,借助社区的力量优化算法——毕竟全球程序员的智慧,远比内部团队“闭门造车”来得高效,借此可以巩固 X 生态护城河。
当然,这只是第一步。马斯克此前还表示,“后续将每四周更新一次代码,同时附带开发者说明,标注算法和逻辑上的改动内容。”
这种“持续开源+透明更新”的模式,在社交平台领域几乎是前所未有的尝试。那么,这次他们到底开源了什么,我们接下来再一探究竟。
GitHub 开箱:X 的推荐算法,到底长什么样?
打开https://github.com/xai-org/x-algorithm 这个仓库,我们首先看到这次 X 平台开源的是「For You(为你推荐)」信息流的核心推荐系统。
据 X 工程团队介绍,「For You」信息流的内容主要来自两大来源:
一是站内内容(Thunder 模块),即用户关注账号发布的帖子;
二是站外内容(Phoenix 召回模块),也就是从全网内容库中筛选出的帖子。
两类内容整合后,会交由 Phoenix 模型(基于 Grok Transformer 模型,Transformer 实现移植自 xAI 开源的 Grok-1,并针对推荐系统的具体使用场景进行了适配和调整)分析——该模型会通过用户的点赞、回复、转发等互动历史,预测用户对每篇帖子的各类互动概率,最终的内容得分便是这些概率的加权组合。
X 工程团队还透露,该系统已剔除所有手工设计的特征及绝大部分启发式规则,核心计算工作完全由这款 Grok Transformer 模型承担,其核心逻辑就是通过分析用户互动历史,判断内容与用户的相关性。
系统架构如下所示:
Rust 语言为主,Python 为辅,「For You」推荐系统大揭秘
从技术栈维度来看,这一仓库主要使用了 Rust 和 Python 两种编程语言。项目遵循了Apache License 2.0 开源许可。
该仓库的代码文件按功能模块划分,核心模块分工明确:
phoenix/:包含 Grok 模型适配、推荐系统模型(recsys_model.py)、召回模型(recsys_retrieval_model.py)等核心代码,以及模型运行、测试脚本;
home-mixer/:以 Rust 语言开发,是推荐系统的 “编排层”,包含候选内容补全、查询数据补全、打分器、过滤器等核心逻辑;
thunder/:基于 Rust 开发,负责处理 “站内内容”(关注账号帖子)的检索、反序列化、Kafka 消息处理等;
candidate-pipeline/:候选内容流水线相关逻辑,是连接内容源与后续处理的关键环节。
该推荐系统的工作原理、核心执行流程有清晰的逻辑链路——从响应用户的信息流请求开始,算法会通过七个核心阶段完成内容筛选与推送,每一步都围绕 “精准匹配用户兴趣”展开,同时规避重复、低质或用户反感的内容。
第一步:调取用户核心数据
算法启动的首要环节是“用户数据补全”:系统会先抓取用户近期的互动记录,比如点赞、回复、转发、点击等行为,同时调取关注列表、账号偏好设置等基础元数据,这些信息是后续推荐的核心依据,相当于为算法搭建起“用户画像” 的基础框架。
第二步:抓取两类候选内容
基于用户数据,算法会从上述提到的两大渠道检索候选内容:
一类是“站内内容”,由 Thunder 模块负责,来源是用户已关注账号发布的近期帖子,也是用户日常刷到的核心内容之一;
另一类是“站外内容”,由 Phoenix 召回模块通过机器学习技术,从全网内容库中挖掘出的、用户未关注但可能感兴趣的帖子,这也是系统“推荐陌生内容”的核心来源。
第三步:补全内容完整信息
为了让后续打分更精准,算法会对所有候选内容做“信息补全”,譬如补充帖子的文本、图片/视频等核心素材,作者的用户名、认证状态,视频类帖子的时长,以及内容对应的订阅权限等关键信息,确保每一条候选内容的信息维度完整。
第四步:打分前先过滤无效内容
在进入核心打分环节前,算法会执行“前置过滤”,直接剔除不符合要求的内容,包括重复帖子、超期的过期内容、用户本人发布的帖子,以及来自已屏蔽/静音账号、包含用户静音关键词的内容。
此外,用户已经查看过、近期刚推送过的内容,或是无权限访问的付费内容,也会在这一步被筛除,避免低质内容占用后续计算资源。
第五步:多维度打分并排序
过滤后的内容会进入核心打分环节(Scoring),系统会依次调用四款打分器计算“适配得分”:
首先是 Phoenix 打分器,从基于 Grok 的 Transformer 模型中获取机器学习预测结果;
接着加权打分器将这些预测结果整合为最终的相关性得分;
作者多样性打分器会刻意降低重复作者内容的得分,保证信息流的内容多样性;
站外内容打分器(OON Scorer)则针对性调整全网挖掘内容的得分,平衡站内与站外内容的展示比例。
第六步:筛选
最终算法会按得分高低对所有内容排序,选取排名前 K 的候选内容进入最后环节。
第七步:最终验证后推送
即便内容得分靠前,也需经过“筛选后处理”的最终验证:系统会对候选内容做最后一轮合规性、有效性校验,确认无误后才会正式推送到用户的信息流中,这也是内容呈现给用户前的最后一道把关。
在算法底层设计上,X 平台的推荐系统有五大核心决策,这些设计也成为其区别于传统推荐算法的关键:
该系统完全摒弃了手工设计的特征,核心依赖基于 Grok 的 Transformer 模型,从用户的互动行为序列中自主学习内容与用户的相关性,不再靠人工设定内容相关性特征,这一设计大幅降低了数据处理流水线和推送基础设施的复杂度;
在排序环节,模型对候选内容采取“隔离计算”的方式,推理过程中候选内容之间不会相互影响,仅围绕用户上下文进行打分,确保单篇帖子的得分不受同批次其他内容干扰,让得分结果更稳定且可缓存;
召回和排序两大核心环节均采用多个哈希函数实现嵌入向量的查找,提升了算法运行效率;
不同于传统模型仅预测单一的“相关性”得分,该模型会同时预测用户对内容的多种行为概率,让打分维度更全面;
此外,系统基于 candidate-pipeline 框架搭建了可组合的流水线架构,不仅实现了流水线执行、监控逻辑与业务逻辑的分离,支持独立环节并行执行和优雅的错误处理,还能便捷地新增内容来源、数据补全规则、过滤器及打分器,让算法具备高度的灵活性和可拓展性。
马斯克:“其他社交媒体公司都没有这样做”
此次开源之际,马斯克直言:“我们知道这个算法很笨拙,需要大幅改进,但至少你可以实时、透明地看到我们努力改进它的过程。”
他同时强调,“其他社交媒体公司都没有这样做。”
对于 X 开源的举措,也引发了不少的热议。
于普通开发者来说,此次开源的价值远超“看代码”本身,好处无疑是明显的,正如网友 AbundanceVsWar 评论道:
「之所以重要,是因为当分配注意力的系统不透明时,丰富性是不可能出现的。
当人们不了解影响力是如何分布的,注意力就会显得零和、被操控、充满政治性。仅这种认知本身,就会引发冲突。而将推荐算法开源,则把注意力从一个神秘资源变成了一个可理解的系统。而可理解性,会改变人们的行为。
确实,一开始透明度会让“玩法”更容易被利用。但这并不是缺陷,而是一个阶段。封闭系统会冻结权力,而开放系统会暴露漏洞、适应变化并不断改进。随着时间推移,系统的平衡会从愤怒和部落化转向优化和贡献。
这就是减少人工稀缺的方式。方法不是去道德化内容,而是让规则可见,从而让价值可以扩展,而不是让注意力成为争夺的对象。」
不过也有用户担忧开源以后,现在更容易作弊,优质内容浏览量很快就会爆炸式增长。
整体而言,马斯克的这波操作,也让人开始猜测,其他平台是否会跟风开源算法吗?其实如果 X 平台的“开源+透明更新”模式被证明有效,可能会倒逼其他平台做出改变。毕竟用户对算法透明的需求只会越来越高,谁先满足这个需求,谁就能占据用户心智的优势。
至于马斯克的“第一步”之后,还会有多少惊喜?我们不妨拭目以待。
参考:
https://x.com/XEng/status/2013471689087086804
https://github.com/xai-org/x-algorithm
本文来自微信公众号“CSDN”,整理:屠敏,36氪经授权发布。















