AI 的「精算时代」正式开启,英伟达打响第一枪
在 AI 领域,小型模型正迎来属于它们的高光时刻。从 MIT 子公司 Liquid AI 发布的可装入智能手表的新 AI 视觉模型,到能在谷歌智能手机上运行的模型,小型化、高效化已成为显著趋势。而如今,英伟达也强势加入这一浪潮,带来了全新的小语言模型(SLM)——Nemotron - Nano - 9B - v2。这款模型不仅在选定基准测试中达到同类最高性能,更具备让用户自由开启和关闭 AI “推理” 的独特能力,为 AI 应用开辟了新的想象空间。
“小” 模型从边缘玩具到生产主力
过去三个月,AI 圈的 “迷你军团” 接连亮剑,掀起了一场无声的革命。MIT 子公司 Liquid AI 推出的视觉模型,小巧到能轻松装入智能手表,让可穿戴设备的智能体验迈入新台阶;谷歌则将 Gemini-Nano 成功塞进 Pixel 8 手机,让移动端 AI 能力实现质的飞跃;而今,英伟达带着 90 亿参数的 Nemotron-Nano-9B-v2 登场,将其部署在单张 A10 GPU 上,再次刷新了人们对小型模型的认知。
这绝非一场 “小而美” 的技术炫技,而是一次对成本、效率与可控性的精准平衡实验。正如英伟达 AI 模型后训练主管 Oleksii Kuchiaev 在 X 上直言:“120 亿参数精简到 90 亿,就是专门为了适配 A10—— 那可是企业部署中最常见的显卡。”
一句话:参数大小不再是衡量模型优劣的 KPI,投资回报率(ROI)才是硬道理。
把思维链条做成可计费功能
传统大模型的 “黑盒思维” 一直是企业使用的痛点 —— 一旦触发长时间推理,token 账单就如同脱缰野马般失控。而 Nemotron-Nano-9B-v2 给出的解法简单直接且高效:
在 prompt 中加入 /think,模型便会启用内部思维链,像人类思考一样逐步推导;加入 /no_think,则会直接输出答案,省去中间环节;系统级的 max_think_tokens 功能,如同 AWS 的 CPU credit 机制,能为思维链设定预算,精准控制成本。
现场实测(官方报告)数据更能说明问题:
一句话:把「推理」从默认能力变成可选项,企业第一次可以像买云硬盘一样,按思考深度付费。
Transformer 的「省油」补丁
为何 9B 模型能在长上下文里打平 70B?答案藏在Mamba-Transformer 混合架构里:
用 Mamba 状态空间层替换 70% 的注意力层,显存占用 ↓ 40%;
序列长度与显存呈线性关系,而非平方爆炸;
128k token 实测吞吐量比同尺寸纯 Transformer高 2.3×。
一句话:Mamba 不是取代 Transformer,而是把它改造成省油的混动引擎。
商业核弹:宽松许可证 + 零门槛商用
英伟达此次在许可协议上的举措堪称 “商业核弹”,做到了 “三不要”:
不要钱:无版税、无收入分成,企业无需为使用模型支付额外费用;不要谈判:直接下载即可商用,省去了繁琐的合作洽谈流程;不要法务焦虑:仅要求遵守可信 AI 护栏和出口合规,降低了企业的法律风险。
对比 OpenAI 的分级许可、Anthropic 的使用上限,Nemotron-Nano-9B-v2 几乎成了 “开源界的 AWS EC2”—— 拿来就能上线赚钱,极大地降低了企业的使用门槛。
场景切片:谁最先受益?
一句话:任何边缘/私有化场景,都多了一张「足够聪明又付得起」的牌。
AI 的「精算时代」正式开幕
过去四年,我们见证了 scaling law 的魔法:参数 × 算力 = 性能。而今天,Nemotron-Nano-9B-v2 用 90 亿参数告诉我们:架构 × 控制 × 许可证 = 可持续的 AI 经济。
当 Liquid AI 把模型塞进手表,当英伟达把推理做成开关,“小” 不再是技术上的妥协,而是经过精打细算后的最优解。
下一次融资路演,创业者们或许不会再说 “我们比 GPT-4 更强”,而是会自信地宣称:“我们用 1/10 的算力,做出了 90% 的效果,并且还能赚钱。” 这标志着,AI 的 “精算时代” 已正式拉开帷幕。
本文来自微信公众号“山自”,作者:Rayking629,36氪经授权发布。