“大模型第一股”加入“春节AI战”,交出最强旗舰模型GLM-5,从写代码转向写工程

36氪的朋友们·2026年02月12日 09:44
差的程序员,用不好大模型。

2月12日,智谱正式发布并开源新一代旗舰基座模型 GLM-5,定位为面向复杂系统工程与长程Agent任务的基座模型,在大型编程任务中提供对标顶尖闭源模型的可靠生产力,为懂行的顶尖程序员而生。

几周前,开源社区曾流传一个名为Pony Alpha的模型。它能进行长程交互、拆解复杂任务、在多轮对话中保持稳定上下文,一度引发广泛猜测。如今答案揭晓,Pony Alpha正是GLM-5的匿名测试版本。

过去一年,AI Coding正在发生一次深层次的能力迁移。前OpenAI研究科学家Andrej Karpathy在 “vibe coding” 实践一周年时提出,开发者的角色正从“写代码”转向“编排 AI Agent”。

这一趋势在顶尖闭源阵营中已经得到验证。Claude Opus 4.6与 GPT-5.2 在长上下文、复杂编排和工具调用上的表现,推动市场对大模型的“系统级能力”重新定价。

在开源世界,月之暗面(Moonshot AI)在 2026 年 1 月 27 日正式发布了 Kimi K2.5,是一个主打超长上下文与多智能体协作的原生多模态模型,能够自主调度上百个子智能体高效完成跨领域的复杂任务。

模型能力真正的分水岭,开始转向工程稳定性与长期任务表现。

在这样的背景下,智谱的进化路径清晰可见:从 2024 年初 GLM-4 问世并开启“All Tools”时代,初步实现了 Agent 的产品化;到 2025 年中 GLM-4.5 正式确立 ARC 原生融合架构,从底层架构上完成了智能体、推理与代码的深度对齐。随后,2025 年底发布的 GLM-4.7 通过大规模强化学习,扩展模型的编程与逻辑处理边界。而作为最新旗舰的 GLM-5,是这一技术路线的继续升级,向“长程长时执行者”跨越。

图:Pony Alpha即GLM-5的开源匿名测试版

01

技术架构:更大的模型,更长的记忆

从技术规格看,GLM-5参数量从 GLM-4.7 的355B(激活 32B)扩展至 744B(激活 40B),预训练数据从 23T token 增加到 28.5T token。

更大的模型容量意味着更强的知识储备和推理能力,但真正的差异化在于两个方面。

第一是名为"Slime"的强化学习框架。根据智谱的说法,这套系统支持异步智能体强化学习,让模型能够从长程交互中持续学习。这与传统的短对话优化不同,理论上能让 GLM-5 在处理需要数十步操作的工程任务时保持策略一致性。不过,这种能力在实际应用中的表现如何,还需要更多开发者的验证。

第二是集成了 DeepSeek 的稀疏注意力机制。通过只对高相关性 token 执行完整注意力计算,这套机制能在保持长文本处理能力的同时降低计算成本。对于需要处理大型代码仓库的场景,这是一个实用的工程优势。

这带来两个直接收益:在维持长文本处理效果无损的同时,大幅降低部署成本,显著提升 Token Efficiency。对于需要处理大型代码仓库的 Agent 场景而言,这是关键的工程优势。

从官方公布的关键Benchmark来看,GLM-5 在编程能力上实现了对齐 Claude Opus 4.5。在 SWE-bench-Verified 和 Terminal Bench 2.0 中分别获得 77.8 和 56.2 的开源模型最高分数,超过 Gemini 3 Pro。

在内部Claude Code评估集合中,GLM-5 在前端、后端、长程任务等编程开发任务上显著超越上一代的GLM-4.7(平均增幅超过20%),能够以极少的人工干预自主完成 Agentic 长程规划与执行、后端重构和深度调试等系统工程任务。

GLM-5 在Agent 能力上实现开源 SOTA,在多个评测基准中取得开源第一。在 BrowseComp(联网检索与信息理解)、MCP-Atlas(大规模端到端工具调用)和 τ²-Bench(复杂场景下自动代理的工具规划和执行)均取得最高表现。

Vending Bench 2是 2025年设立的一个新的Benchmark,测试要求模型在模拟环境中经营一家自动售货机公司,周期长达一年。它要自己决定进货、定价、库存结构、现金流管理,在资源有限的情况下持续优化利润。在这个测试中,GLM-5自己做生意的结果是“最终账户余额达到 4432 美元,经营表现接近 Claude Opus 4.5”。

当然,模型Benchmark的分数,和实际的应用体验不一定会一致,我们选择了 5 个真实场景,来看看GLM-5的应用效果。

前两个Case考验工程输出的完成度,它们可以看出GLM-5在视觉理解、长代码生成和系统级架构上的“一次性交付”能力。

第三和第四个Case看模型作为引擎驱动真实应用的表现,一个是多智能体仿真世界,考验长程记忆和人格一致性;一个是可上架应用商店的成型产品,考验从理解内容到构建产品的全链路能力。最后一个Case,给模型挖坑,考验一个AI模型很容易做错的常识题。

02

五个案例

// Case 1:一键克隆Web UI

“一键克隆 Web UI”需要模型先看懂页面的视觉结构,还要抽象出组件与布局逻辑,推断间距和样式规则,完成 CSS 到 Tailwind 的语义映射,并在整个页面中保持一致、可维护和可复用。它可以测试出模型在视觉理解、工程抽象、规则推理和长程一致性上的综合能力。

以下这个案例,是让GLM-5直接克隆Claude的交互界面。

图:原版网页

图:克隆网页

如果按克隆的标准,只能说整体完成度较高,但UI布局与原版还是有很大不同,字体气质、行高节奏、留白比例、阴影层级等细节上仍存在差距,设计系统的一致性和精细度也没有完全对齐。

整体可以达到 80分,进行修改之后基本能够达到可用,但是还没有达到高度统一的一比一复刻。

// Case 2:用单个HTML文件(内联CSS和JavaScript)创建一个高度还原的macOS Sonoma风格桌面操作系统模拟器。

这个case主要测试模型是否具备构建一个完整“操作系统级”前端应用的系统工程能力,包括桌面环境、窗口管理、多应用架构、状态管理、动画交互以及复杂逻辑实现。考察界面还原能力,以及模块化设计、长程一致性、复杂交互协调和算法实现能力。

从最终呈现效果来看,这个 macOS 仿真桌面整体完成度较高,视觉结构清晰,Finder 窗口布局、侧边栏层级、面包屑导航和文件区域划分都较为准确,深色主题氛围、窗口圆角与阴影效果也较为自然,Dock 的毛玻璃质感和图标排布具有较强的还原度,整体已经达到一个可交互的高质量演示级 Demo 水平。

不过,细节层面仍存在差距,例如字体气质与系统默认字体的精细程度、间距节奏的统一性、动画的弹性与流畅度、Dock 放大曲线的物理感、菜单栏交互深度以及 Finder 功能完整度等方面可能还未完全达到系统级精度。因此,它在结构与整体视觉上表现优秀,但在设计语言的微妙细节与系统级打磨程度上还有有不少的提升空间。

// Case 3: GLM-5驱动的智能体世界Pookie World

以下这个Case是网友@Banana Lab 基于 GLM-5 构建了一个类似“斯坦福小镇”的多智能体世界 Pookie World。按照作者的介绍,他们通过多层生物—心理框架为自主智能体注入持续的叙事动机与行为驱动力,打造了一个具有“代谢能力”的模拟社会。在这个数字世界中,Agent 会根据自身的生理与情感状态,自发产生社交、冲突与协作,即使没有玩家干预,整个城市依然能够自行运转与演化,形成真正“非玩家依赖”的社会涌现。

同时,项目还设计了角色防崩坏机制,确保在大规模、混沌式的交互环境中,Agent 依然保持稳定的人格设定与行为逻辑,避免人设漂移或叙事断裂。这意味着模型不仅能够持续生成符合角色动机的行为链,还具备较强的长程记忆整合能力和人格一致性控制能力。

// Case 4 沉浸式论文探索工具

以下是@书同文制作的AI论文探索工具,因为对阅读论文的痛点深有体会,所以个人十分喜欢这个设计,它能够支持竖屏沉浸式的浏览,垂直无限滚动的交互,将枯燥的论文转化为视觉化的动态卡片。每张卡片精炼展示标题、一句话摘要、核心金句及配图,完全可以利用碎片化时间去消化长篇难懂的论文。并能够每日自动抓取 Hugging Face 每日 TOP10 热门论文,还能保证是最新的研究。

根据作者介绍,这个App 甚至已提交APP store申请,即将上线。在这其中,GLM-5模型不仅负责理解论文、做出摘要和结构化内容,还参与了产品逻辑与应用构建,加速了从创意到可用产品的落地过程。

// Case 5 简单常识翻了车

“我想洗车,如果我家离洗车店步行只有50米的脚程,你建议我开车去还是走路去。”

这种题,属于人类都不用过脑子,就能回答对的问题。对于大模型来说,却很难。Gemini 3 pro,Optus 4.5都答对了,但是强如GPT-5.2也没能答对,建议人类“走路去洗车”。当GLM-5还是Pony Alpha的时候,也是翻了车;但是当它以GLM-5正式亮相的时候,就已经能够答对这道难倒一众大模型的简单问题了。

图:GPT-5.2让人走路去洗车,Gemini的回答很完美

图:Pony Alpha答错了,GLM 5答对了

大模型之所以容易在这道题上“翻车”,是因为它们的底层基因是概率:当模型捕捉到“50米”和“建议”这两个高权重关键词时,会条件反射式地关联起语料库中无数次出现的“短距离建议步行”的环保准则,从而让“步行”的概率瞬间盖过了“洗车必须有车”的物理常识。

这也反映了 AI 在处理问题时,有时会过度关注表面的数值逻辑和所谓政治正确的回复,却缺乏对物理世界运作规律的实际理解,为了维持上下文一致性而自我圆说,然后犯下胡编乱造的错误。

03

写在最后

在实测及围观其它专业开发人员的应用案例之后,GLM-5确实能够达到帮助专业开发人员提效的效果。但是,作为一个没有编程基础的“文科生”,在没有任何使用情景指导的情况下,仅通过一句话的简单prompt,生成出来的案例效果差强人意。

它更适合于专业的程序员,基于真实的场景,实现复杂的、长时的、系统级的任务。在小白和专业人员间,第一次能够如此明显看出模型的差异。这也反向证明了,大模型开始从一个玩具,走向真正的生产力工具。而真正的工具,要在“行家”手里,才能用出最好的效果。

另外,虽然说GLM-5号称能够达到Claude Opus 4.6的体感,但是测试了两个case之后,最终呈现的效果差距还是肉眼可见的。

不过,作为Claude的会员,我也就只能测试两个case,就达到了模型使用量的上限。不得不说,能力巅峰的Opus 4.6价格也是真的贵。而开源的GLM-5,性价比一目了然;在行家手里,也能发掘出不错的效果。

开放+性价比,是另外一种王炸。

本文来自微信公众号“腾讯科技”,作者:晓静,编辑:徐青阳,36氪经授权发布。

+1
2

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

组织钱花了但依然缺乏活力的根源

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业