月之暗面Kimi:激进的野心,克制地扩张

中国企业家杂志·2026年06月29日 15:20
技术无人区与偏执的审美坚持,这种独特性是月之暗面Kimi存在的最大意义。
月之暗面
D轮北京市2023-04
AI初创大模型公司
我要联系

过去一年里,月之暗面Kimi(以下简称“Kimi”)完成了从“AI六小虎”到全球资本追逐对象的纵身一跃。

2025年12月,Kimi完成5亿美元C轮融资,投后估值43亿美元。今年5月,Kimi又完成20亿美元D轮融资,估值来到200亿美元。6月,传闻Kimi正洽谈新一轮最高20亿美元融资,投前估值达300亿美元。

在技术层面,2026年1月Kimi K2.5的发布成为关键转折点。这款支持全模态处理的旗舰模型上线不到一个月,Kimi20天内累计收入便超过2025年全年总和,ARR(年度经常性收入)突破2亿美元。

此后,Kimi的产品输出节奏愈发紧凑:2026年4月发布Kimi K2.6,主打编程和Agent集群能力,单次任务最高可调度300个专业化子代理并行协作;6月中旬,又发布了电脑端本地通用Agent产品Kimi Work,以及K2.7 Code编程专用模型。

据悉,Kimi K2.7 Code在基准测试上相较于上一代有极大提升。在长程任务上,K2.7平均Token消耗直接减少30%,多语言代码生成能力大幅提升。

“编程能力是AI生产力提升的起点,从词元(Token)消耗看,编程占了90%。但这只是AI智能被采纳的开始,通用Agent带来的生产力变革将从3000万程序员扩展到10亿的知识工作者。”Kimi创始人杨植麟表示。

在他看来,大模型展开的星辰大海更值得期待。“大模型研发正在发生范式转变,到2026年下半年至2027年,AI将会更多地在研究层面发挥主导作用。”

01

激进的技术野心

回望2025年初,DeepSeek异军突起,一度打乱了Kimi的研发节奏。而2025年7月发布的全球首个万亿参数的开源MoE模型Kimi K2,再度让人们看到了杨植麟的技术底牌。

Kimi K2发布后,一名Kimi内部研究员在博客中写道:“在(2025年)年初的反思会上,我提出了一些相当激进的建议,没想到植麟后续的行动比我想的还要激进,比如不再更新K1系列模型,集中资源搞基础算法和K2。”

接近Kimi的人士告诉《中国企业家》,K2诞生于公司的关键时刻,杨植麟放弃K1开始做K2这个决定,对公司来说至关重要。

而多模态模型K2.5的发布,标志着Kimi技术路线的进化。其原生多模态架构首次将文本与视觉输入在底层融合,Agent集群支持100个子Agent并行协作,单次任务可调用1500个步骤。这款1万亿参数模型上线后迅速供不应求,直接推动Kimi ARR突破1亿美元。

4月,K2.6将Agent集群扩容至300子Agent,且支持4000步协调执行,编程能力实现跨越式提升——在SWE-Bench Pro上以58.6%击败GPT-5.4,可持续编码13小时、修改超4000行代码。6月,K2.7 Code进一步聚焦垂直场景,推理Token减少30%,Kimi Code Bench V2提升21.8%,多语言代码生成大幅优化。

半年三次迭代,Kimi的产品路径也逐渐清晰:以架构创新打开能力边界,再以to B垂直迭代逼近专业场景的精度极限。

据Kimi算法研究员分享,产品迭代速度加快的背后,存在一个关键的技术突破:视觉强化学习训练反哺了纯文本能力。杨植麟称之为“一个打破行业认知的发现”。“之前普遍认为引入视觉能力会降低文本能力,但我们发现二者是可以互相提升的。”

在杨植麟看来,过去10年间,Transformer架构、Adam优化器、残差连接等构成了深度学习的技术底座,一度被视为行业共识性基础设施。然而,随着模型规模的持续扩张与任务复杂度的不断抬升,这些曾经的“标准配置”或将成为模型进化的阻碍。

因此,Kimi的技术路径也表现出了鲜明特征——专挑底层动刀,不仅在现有架构上做工程优化,更是回到AI系统最底层的组件,逐个问题解决,对优化器、注意力机制、残差连接等逐一优化,提高算法效率,换取智能上限。

例如,K2采用的MuonClip优化器将Token处理效率提升到了AdamW的2倍;Kimi Linear混合线性注意力架构在128K至1M超长上下文中,实现了5至6倍解码速度提升。K2对神经网络架构层的改进技术Attention Residuals,对神经网络中的核心残差连接机制进行了重新设计,在效果相近的前提下,训练计算量减少了约20%,相当于获得了1.25倍的效率优势。

“MuonClip、Kimi Linear、Attention Residuals本质上都是为了效率,通过算法创新,充分利用现有资源,达到更高的Token效率和模型智能水平。”一位Kimi研究员说。

面向下一代模型K3,杨植麟表示,下一代模型会采用新的模型架构,目标之一是让模型更适配Agent长程任务能力,因为这是最关键的能力。

“未来Kimi将持续研究重构底层技术,大量底层技术也将在未来2到3年内被重新改写。希望K3可以成为更与众不同的模型,让用户体验到全新的、其他模型没有定义过的能力。”杨植麟说。

02

克制的组织扩张

与激进的技术野心形成鲜明对比的是,Kimi在组织扩张上相当克制。

在组织内部,Kimi维持着灵活的“小团队”作战状态。作为估值已超300亿美元的独角兽,Kimi全公司约300人,也是头部大模型创业公司中人数最少的一家。

“精锐部队”模式也是杨植麟刻意为之,他公开表示:“这几个大模型创业公司里,我们始终保持人数最少,保持卡和人的比例最高非常关键。我们不希望团队扩那么大,(扩大)对创新有致命性伤害。”

《中国企业家》获悉,Kimi内部不设OKR,也没有部门墙,甚至没有传统意义上的部门,公司取消了各种总监、副总裁等职位标签。Kimi的组织架构极致扁平,几位联创直接对接数十位团队成员。杨植麟的微信签名也只有四个字:直接沟通。

Kimi创始人杨植麟

接近Kimi的人士告诉《中国企业家》,在谈及模型时,杨植麟常反复提及一个词——“品味”(taste)。在算力和数据日益同质化的竞争中,“品味”成为Kimi建立差异化壁垒的核心驱动力。

总裁张予彤如此解释Kimi的人才理念:Kimi偏好“有抽象能力”和“有些偏执”“会疯狂做事”的人,“你有一个很好的想法,会不会为它尝试1000次?绝大部分人可能尝试10次就觉得这件事不能做。但也有极少数人会更相信自己的想法,并且在尝试中形成新的认知。”

“Kimi成立初期聚集了多项AI核心技术的发明者,这些人后续又找到更多同路人。”在杨植麟看来,技术本身仍然是AI大模型最大的变量,而Kimi对技术人才的吸引力是竞争力的关键。

03

不被定义的LLM

2025年12月底,当MiniMax、智谱相继敲定IPO进展时,市场将目光投向Kimi。杨植麟一度对此冷然处之,他在全员邮件中表示:公司现金流充足,不急于上市。

但大模型行业水流湍急,玩家仍在急剧收敛。

2026年5月7日、8日两天,中国大模型赛道在48小时内密集宣布了逾百亿美元的融资消息。媒体评价:“钱不是在流向行业,而是在流向最后几个玩家。”Kimi已经证明了自己的技术实力,还需要向市场证明商业变现能力。

K2.5发布后的3月,Kimi的ARR突破1亿美元;4月,这一数字来到2亿美元。“很长一段时间里,K2.5供不应求。”接近Kimi的人士告诉《中国企业家》。

6月12日,Kimi发布桌面AI Agent产品Kimi Work,支持300个Agent并发,且内置了Cron调度器。同时,Kimi Work还实现了金融数据直连,Agent也可直接读写电脑上的文件,且所有操作在本地完成、数据不出设备。

加速商业化效率之外,算力、人才、资源以及和互联网大厂之间的竞合关系,也都在等待Kimi解答。

杨植麟的姿态始终清晰。“我们不是为了竞争而建立的公司。”他在一次早期采访中如此表态。2025年底,他进一步阐释了自己的判断:“行业发展进入了一个新的阶段,它从一开始有很多公司在做,变成现在少一点的公司在做,接下来大家做的东西会逐渐不一样。”

开源社区中的技术流动,也为这种“和而不同”的格局提供了注脚。DeepSeek发布V4时,其技术报告中明确致谢了Kimi创新并开源的Muon优化器。杨植麟对此的回应平静而坦诚:“这是开源的意义,我们受益于开源技术,也希望把我们的贡献带给社区。”

未来的Kimi将会成为谁?杨植麟在2025年底的内部信中,表达清晰坚定,也带着自己卓尔不群的“taste”和底气。

“2026年Kimi会成为一个‘与众不同’和‘不被定义’的LLM(大语言模型)。不管是别人没敢押注的技术无人区,还是需要一点偏执的审美坚持,我相信有更多Kimi-defined的创新能对人类文明加速发展产生独特贡献。这种独特性是我们存在的最大意义。”

本文来自微信公众号 “中国企业家杂志”(ID:iceo-com-cn),作者:孙欣,36氪经授权发布。

+1
6

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

报道的项目

月之暗面
我要联系
AI初创大模型公司

下一篇

每个省份和城市都有自己的禀赋,无论是城市还是个人发展,思考靠近谁固然重要,但更重要的,永远还是投资自己。

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业