月之暗面Kimi：激进的野心，克制地扩张

中国企业家杂志·2026年06月29日 15:20

技术无人区与偏执的审美坚持，这种独特性是月之暗面Kimi存在的最大意义。

月之暗面

D轮北京市2023-04

AI初创大模型公司

36氪报道前沿技术

我要联系

过去一年里，月之暗面Kimi（以下简称“Kimi”）完成了从“AI六小虎”到全球资本追逐对象的纵身一跃。

2025年12月，Kimi完成5亿美元C轮融资，投后估值43亿美元。今年5月，Kimi又完成20亿美元D轮融资，估值来到200亿美元。6月，传闻Kimi正洽谈新一轮最高20亿美元融资，投前估值达300亿美元。

在技术层面，2026年1月Kimi K2.5的发布成为关键转折点。这款支持全模态处理的旗舰模型上线不到一个月，Kimi20天内累计收入便超过2025年全年总和，ARR（年度经常性收入）突破2亿美元。

此后，Kimi的产品输出节奏愈发紧凑：2026年4月发布Kimi K2.6，主打编程和Agent集群能力，单次任务最高可调度300个专业化子代理并行协作；6月中旬，又发布了电脑端本地通用Agent产品Kimi Work，以及K2.7 Code编程专用模型。

据悉，Kimi K2.7 Code在基准测试上相较于上一代有极大提升。在长程任务上，K2.7平均Token消耗直接减少30%，多语言代码生成能力大幅提升。

“编程能力是AI生产力提升的起点，从词元（Token）消耗看，编程占了90%。但这只是AI智能被采纳的开始，通用Agent带来的生产力变革将从3000万程序员扩展到10亿的知识工作者。”Kimi创始人杨植麟表示。

在他看来，大模型展开的星辰大海更值得期待。“大模型研发正在发生范式转变，到2026年下半年至2027年，AI将会更多地在研究层面发挥主导作用。”

01 激进的技术野心

回望2025年初，DeepSeek异军突起，一度打乱了Kimi的研发节奏。而2025年7月发布的全球首个万亿参数的开源MoE模型Kimi K2，再度让人们看到了杨植麟的技术底牌。

Kimi K2发布后，一名Kimi内部研究员在博客中写道：“在（2025年）年初的反思会上，我提出了一些相当激进的建议，没想到植麟后续的行动比我想的还要激进，比如不再更新K1系列模型，集中资源搞基础算法和K2。”

接近Kimi的人士告诉《中国企业家》，K2诞生于公司的关键时刻，杨植麟放弃K1开始做K2这个决定，对公司来说至关重要。

而多模态模型K2.5的发布，标志着Kimi技术路线的进化。其原生多模态架构首次将文本与视觉输入在底层融合，Agent集群支持100个子Agent并行协作，单次任务可调用1500个步骤。这款1万亿参数模型上线后迅速供不应求，直接推动Kimi ARR突破1亿美元。

4月，K2.6将Agent集群扩容至300子Agent，且支持4000步协调执行，编程能力实现跨越式提升——在SWE-Bench Pro上以58.6%击败GPT-5.4，可持续编码13小时、修改超4000行代码。6月，K2.7 Code进一步聚焦垂直场景，推理Token减少30%，Kimi Code Bench V2提升21.8%，多语言代码生成大幅优化。

半年三次迭代，Kimi的产品路径也逐渐清晰：以架构创新打开能力边界，再以to B垂直迭代逼近专业场景的精度极限。

据Kimi算法研究员分享，产品迭代速度加快的背后，存在一个关键的技术突破：视觉强化学习训练反哺了纯文本能力。杨植麟称之为“一个打破行业认知的发现”。“之前普遍认为引入视觉能力会降低文本能力，但我们发现二者是可以互相提升的。”

在杨植麟看来，过去10年间，Transformer架构、Adam优化器、残差连接等构成了深度学习的技术底座，一度被视为行业共识性基础设施。然而，随着模型规模的持续扩张与任务复杂度的不断抬升，这些曾经的“标准配置”或将成为模型进化的阻碍。

因此，Kimi的技术路径也表现出了鲜明特征——专挑底层动刀，不仅在现有架构上做工程优化，更是回到AI系统最底层的组件，逐个问题解决，对优化器、注意力机制、残差连接等逐一优化，提高算法效率，换取智能上限。

例如，K2采用的MuonClip优化器将Token处理效率提升到了AdamW的2倍；Kimi Linear混合线性注意力架构在128K至1M超长上下文中，实现了5至6倍解码速度提升。K2对神经网络架构层的改进技术Attention Residuals，对神经网络中的核心残差连接机制进行了重新设计，在效果相近的前提下，训练计算量减少了约20%，相当于获得了1.25倍的效率优势。

“MuonClip、Kimi Linear、Attention Residuals本质上都是为了效率，通过算法创新，充分利用现有资源，达到更高的Token效率和模型智能水平。”一位Kimi研究员说。

面向下一代模型K3，杨植麟表示，下一代模型会采用新的模型架构，目标之一是让模型更适配Agent长程任务能力，因为这是最关键的能力。

“未来Kimi将持续研究重构底层技术，大量底层技术也将在未来2到3年内被重新改写。希望K3可以成为更与众不同的模型，让用户体验到全新的、其他模型没有定义过的能力。”杨植麟说。

02 克制的组织扩张

与激进的技术野心形成鲜明对比的是，Kimi在组织扩张上相当克制。

在组织内部，Kimi维持着灵活的“小团队”作战状态。作为估值已超300亿美元的独角兽，Kimi全公司约300人，也是头部大模型创业公司中人数最少的一家。

“精锐部队”模式也是杨植麟刻意为之，他公开表示：“这几个大模型创业公司里，我们始终保持人数最少，保持卡和人的比例最高非常关键。我们不希望团队扩那么大，（扩大）对创新有致命性伤害。”

《中国企业家》获悉，Kimi内部不设OKR，也没有部门墙，甚至没有传统意义上的部门，公司取消了各种总监、副总裁等职位标签。Kimi的组织架构极致扁平，几位联创直接对接数十位团队成员。杨植麟的微信签名也只有四个字：直接沟通。

Kimi创始人杨植麟

接近Kimi的人士告诉《中国企业家》，在谈及模型时，杨植麟常反复提及一个词——“品味”（taste）。在算力和数据日益同质化的竞争中，“品味”成为Kimi建立差异化壁垒的核心驱动力。

总裁张予彤如此解释Kimi的人才理念：Kimi偏好“有抽象能力”和“有些偏执”“会疯狂做事”的人，“你有一个很好的想法，会不会为它尝试1000次？绝大部分人可能尝试10次就觉得这件事不能做。但也有极少数人会更相信自己的想法，并且在尝试中形成新的认知。”

“Kimi成立初期聚集了多项AI核心技术的发明者，这些人后续又找到更多同路人。”在杨植麟看来，技术本身仍然是AI大模型最大的变量，而Kimi对技术人才的吸引力是竞争力的关键。

03 不被定义的LLM

2025年12月底，当MiniMax、智谱相继敲定IPO进展时，市场将目光投向Kimi。杨植麟一度对此冷然处之，他在全员邮件中表示：公司现金流充足，不急于上市。

但大模型行业水流湍急，玩家仍在急剧收敛。

2026年5月7日、8日两天，中国大模型赛道在48小时内密集宣布了逾百亿美元的融资消息。媒体评价：“钱不是在流向行业，而是在流向最后几个玩家。”Kimi已经证明了自己的技术实力，还需要向市场证明商业变现能力。

K2.5发布后的3月，Kimi的ARR突破1亿美元；4月，这一数字来到2亿美元。“很长一段时间里，K2.5供不应求。”接近Kimi的人士告诉《中国企业家》。

6月12日，Kimi发布桌面AI Agent产品Kimi Work，支持300个Agent并发，且内置了Cron调度器。同时，Kimi Work还实现了金融数据直连，Agent也可直接读写电脑上的文件，且所有操作在本地完成、数据不出设备。

加速商业化效率之外，算力、人才、资源以及和互联网大厂之间的竞合关系，也都在等待Kimi解答。

杨植麟的姿态始终清晰。“我们不是为了竞争而建立的公司。”他在一次早期采访中如此表态。2025年底，他进一步阐释了自己的判断：“行业发展进入了一个新的阶段，它从一开始有很多公司在做，变成现在少一点的公司在做，接下来大家做的东西会逐渐不一样。”

开源社区中的技术流动，也为这种“和而不同”的格局提供了注脚。DeepSeek发布V4时，其技术报告中明确致谢了Kimi创新并开源的Muon优化器。杨植麟对此的回应平静而坦诚：“这是开源的意义，我们受益于开源技术，也希望把我们的贡献带给社区。”

未来的Kimi将会成为谁？杨植麟在2025年底的内部信中，表达清晰坚定，也带着自己卓尔不群的“taste”和底气。

“2026年Kimi会成为一个‘与众不同’和‘不被定义’的LLM（大语言模型）。不管是别人没敢押注的技术无人区，还是需要一点偏执的审美坚持，我相信有更多Kimi-defined的创新能对人类文明加速发展产生独特贡献。这种独特性是我们存在的最大意义。”

本文来自微信公众号 “中国企业家杂志”（ID：iceo-com-cn），作者：孙欣，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

月之暗面Kimi：激进的野心，克制地扩张

01

激进的技术野心

02

克制的组织扩张

03

不被定义的LLM

最近内容

报道的项目

下一篇