搜索

36氪Auto
数字时氪
未来消费
智能涌现
未来城市
启动Power on
36氪出海
36氪研究院
潮生TIDE
36氪企服点评
36氪财经
职场bonus
36碳
后浪研究所
暗涌Waves
硬氪
氪睿研究院
媒体品牌
企业号
企服点评
36Kr研究院
36Kr创新咨询
企业服务
核心服务
城市之窗
政府服务
创投发布
LP源计划
VClub
VClub投资机构库
投资机构职位推介
投资人认证
投资人服务
寻求报道
36氪Pro
创投氪堂
企业入驻
创业者服务
创投平台
AI测评网

搜索

我要入驻

OpenAI新模型Day0就被嫌弃，排名拉垮，不如一月底发布的国产模型

量子位·2026年03月18日 20:40

OpenAI也出龙虾专供模型了

OpenAI刚推出的GPT-5.4 mini，Day0就已经被嫌弃了。

根据公开的大语言模型评测基准Vals，今天新出的GPT-5.4 mini仅排行第13名，优于OpenAI半年前发布的GPT-5。

值得一提的是，排行第12的是一月底出的的Kimi 2.5，而Kimi 2.5比新出的5.4mini便宜一倍多，延迟还更低。

在同步的拓扑证明中，新出的mini和nano模型在全球范围内表现也只是中规中矩，分别排行第九第十，不如早前发布的Kimi、Qwen、DeepSeek等模型。

（OpenAI后来居下这一块）

还有人指出，这次GPT‑5.4 mini的baseline对比的是老GPT‑5 mini（运行速度快两倍），也就是大半年前的版本，而不是其他厂家的新模型。

不少网友甚至直言，换新GPT‑5.4 mini“还真没必要”。

虽然OpenAI的博客表示，在输出tokens 上，性能近似的mini版本比GPT‑5.4便宜三倍，nano版本则几乎便宜十二倍。

但如果你拿GPT‑5.4 mini与旧版GPT‑5 mini对比，会发现同为mini档的模型，价格却上涨了大约三倍。

可以说，在龙虾热中，全球所有模型厂家都在涨价，奥特曼这么精的小子自然也没放过。

所以，这是拿着专门优化过编程和agent的小模型就来了？

新版mini和nano模型

今天，OpenAI推出主打快速和经济的GPT-5.4 mini和nano模型，专门针对编程、计算机操作、多模态理解以及子代理（subagent）做了优化。

相比前代GPT‑5mini，新版mini和nano在性能上有不错的提升，同时运行速度提升超过两倍。

值得注意的是，在多个评测中，mini/nano模型与满血版GPT‑5.4的差距已经不大，性能上也基本与谷歌，Anthropic的轻量模型持平。

根据OpenAI官方博客，新模型主打编程和子代理。

其中，GPT‑5.4 mini在编程、推理、多模态理解和工具使用方面进行了优化，运行速度提升超过两倍，在SWE-Bench Pro和OSWorld-Verified等评测中表现接近满血版GPT‑5.4。

GPT‑5.4 nano则是GPT‑5.4系列中最小、最经济的版本，适合速度和成本敏感的任务，例如分类、数据提取、排序，以及处理较简单的辅助编程任务。

总的来说，这俩新模型适合延迟直接影响产品体验的工作负载，比如编码助手、子代理、屏幕截图解析、多模态应用。

说白了就是龙虾这类已经抽象出skill的agent，部署在mini/nano这类反应快速，能力够用的小模型就更实惠。

在具体的使用上，GPT‑5.4 mini可在API、Codex和ChatGPT中调用，而nano仅能通过API使用。

价格方面，mini版本每百万输入tokens0.75美元，每百万输出tokens4.5美元。Nano版本在API中费用更低，每百万输入0.2美元，每百万输出1.25美元。

不过，横向对比来看，有网友指出，Gemini Flash 3 lite则更智能，而且总体要便宜六倍多。

评测结果

在实际评测中，mini和nano主要是针对编程和Agent任务做了优化。

在编程任务中，它们能够低延迟完成代码修改、调试循环和库导航，快速迭代，高效处理需要速度和成本兼顾的工作流程。

Mini的通过率接近GPT‑5.4，同时速度更快。

在子代理场景中，开发者可以让大模型负责决策和规划，同时将较小的任务并行委派给mini子代理，比如搜索代码库、处理文档或辅助操作。

随着小型模型越来越快，这种模式的价值愈发凸显。

在计算机操作和多模态任务中，mini表现同样出色，能够快速解析复杂用户界面截图，高效完成操作任务。

在OSWorld-Verified测试中，它的表现几乎接近满血版GPT‑5.4，同时明显优于GPT‑5 mini。

有些网友的实际测试也佐证了这些亮点。

reddit网友Rent_South系统地测试新版mini在分类、总结、翻译等任务上的表现，并给出了高度评价：

我在它们身上跑了些基准测试，结果发现——在一些真实场景任务中，它们更便宜、更快，也更好用。自从大约一年前，我在构建一个RAG流水线时，gpt‑4.1-mini在某些代理任务步骤上打败了GPT‑4原版之后，我对mini/nano版本的热情就比对原版还高。

在分类任务中，nano准确率达70%，成本比GPT‑5.4降低十二倍。

当调用超过超过一万次时，GPT-5.4大约花费20.30美元，GPT-5.4-nano则只有1.64美元，节省幅度约91.9%。

在翻译任务上，nano得分略低，为55分，但与GPT‑5.4的63分差距不大，仍可作为替代选择。在超万次调用后，节省幅度仍达到了91.3%！

在写作任务中，mini版本反倒得分最高，成本比满血版低约六成。在超过1万次调用时，mini花费29.61美金，nano仅花费10.30美金。

此外，还有网友测试了模型描述图片的能力，nano在描述博物馆照片时，输出详细准确，使用token极少，总成本甚至不到一分钱。

比如，这位网友让nano模型描述自己随手拍的博物馆的照片：

nano模型输出了以下描述：

图片显示了一间博物馆展厅的内部，有一面长长的展墙。白色砖墙上整齐排列着许多装框肖像画。肖像画下方是多个玻璃展示柜，木框深色，顶部/前方为玻璃，展示柜内摆放着各种历史文物和设备。房间铺设了抛光木地板，吊顶上有悬挂灯具及电线，墙顶附近可见少量管道。前景中，沿房间长度排列的玻璃柜映出了其他展区的物品。

生成这么一段描述这次操作用了2751个输入tokens和112个输出tokens，费用为0.069美分（不到一分钱的十分之一）。

即便在创意任务上，如生成鹈鹕骑自行车的SVG图，nano和mini与满血版GPT‑5.4仍有一定差距，但它们完成基础创作任务完全可行。

起码随着推理强度的提升，我们能看到画面可以保持相对的正确性。

整体看下来，这次模型跟OpenAI自家的产品来比，的确是可圈可点。

但对于这是否就是市面上最好的、最经济的小模型，还有待讨论。

one more thing

有趣的是，在OpenAI总裁Greg Brockman发布新模型的评论区，最火热的讨论居然不是新模型的能力，也不是价格，甚至几乎和新模型本身没有关系。

评论区里刷屏的，几乎全是带keep4o标签的：“让4o回来！”

参考链接

[1]https://x.com/gdb/status/2034003374627049909

[2]https://simonwillison.net/2026/Mar/17/mini-and-nano/

[3]https://www.reddit.com/r/OpenAI/comments/1rwd9hd/breaking_openai_just_dropped_gpt54_mini_and_nano/

[4]https://x.com/scaling01/status/2033958931874099560

本文来自微信公众号“量子位”，作者：henry ，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

+1

21

好文章，需要你的鼓励

你可能也喜欢这些文章

在硅谷，中美具身公司聊了聊了4个问题的解法

又一算力独角兽，冲击IPO

苹果官方App误打包了Claude.md，这么大的公司也Vibe Coding啊？

那个在OpenAI修中文的人

AI抢走了你的内存条

续集没翻车，但这次“女魔头”也顶不住了

马斯克翻车了！一边告OpenAI，一边偷偷蒸馏ChatGPT

AI时代有自己的“手势舞”

DeepSeek给AI装了根赛博手指，于是它能看见了

特邀作者

TA没有写简介，但内敛也是一种表达

最近内容

苹果官方App误打包了Claude.md，这么大的公司也Vibe Coding啊？

GPT之父：只用上世纪数据训AI，它居然也会写Python？

DeepSeek识图模式是个新模型？一手实测在此

你的电脑已被手机接管，Anthropic亮出Dispatch：AI 24小时给你代工

Anthropic发布Dispatch，手机遥控Mac执行任务，成功率50%。

2026-03-18

关于36氪

投资者关系

36氪欧洲站 36氪欧洲站 36氪欧洲站 Ai产品日报

网络谣言信息举报入口

热门推荐

合作伙伴

36氪APP下载

iOS & Android

36氪APP让一部分人先看到未来

36氪

鲸准

氪空间

推送和解读前沿、有料的科技创投资讯