GPT-5.5 深夜发布，它不是最好用的，但就是现在最强的 AI

唐韧·2026年04月24日 16:16

留给人类的时间或许真的不多了

昨晚我就有个预感，觉得 OpenAI 可能要放点大招了。

结果，我半夜起来上厕所时看了一眼手机，GPT-5.5 发布了，顿时睡意全无。

光看过去一周时间，全世界这些顶级 AI 公司都是模型连发，根本应接不暇，或许留给人类的智力空间真的在缩小。

目前，GPT-5.5 已经可以在 ChatGPT 和 Codex 里用了，但需要 Plus 以上的会员。

也就是说，你至少需要花 20 美金一个月的价格才能体验到这个可能是目前最强的 AI 模型。

我第一时间用了下，感受就是它的确很强，但并不是我自己觉得目前最好用的。

我先说下它到底哪里强，然后再给你们看几个我自己用 GPT-5.5 做的案例。

在 OpenAI 介绍 GPT-5.5 的官网上，他们在模型底下写上了这么一句话「A new class of intelligence for real work」。

意思很明显了，这是专为解决真实工作问题而生的新一代智能模型。

怎么理解呢？

用大白话说，就是 GPT-5.5 在完成工作任务上的效率比其他模型更高，而成本反而会更低。

先看官方发布的一个多领域测试榜单，不理解那些英文没关系，你只要知道这里面基本涵盖了日常工作、科研、工具使用的方方面面。

重点看 GPT-5.5 和 Claude Opus 4.7 的对比，因为这就是巅峰比拼。

可以看到，GPT 基本是完胜 Claude 的。

我就挑几个跟我们普通打工人有关的测试来跟你们说下，看看 GPT-5.5 到底有多强。

下面这个是一个叫 GDPval 的测试，它模拟的是让 AI 在 44 个职业领域中完成知识型工作，GPT-5.5 的得分是 84.9%。

还原到现实工作场景中，意思就是使用这个模型来完成各领域的知识型工作的能力会更强。

比如，产品经理分析需求、做竞品报告、做原型设计、分析数据，创作者做内容，财务分析以及文档写作、PPT设计等。

再就是 GPT-5.5 的编码能力。

你们可能会好奇，为什么每家 AI 大厂发新模型是都喜欢强调自己的编码能力？

其实很简单，因为编程往往是解决复杂问题，这能很好考察模型的问题分析、路径规划、方案执行能力，还有就是解决问题的成功率。

过去有些模型是很强，也能编程，但是需要人和它互动调教很多次才能搞定。

现在的新 AI 模型，讲究的是自我分析、自我规划、自我执行，人为的干预越少越好。

GPT-5.5 现在主打的 Agentic Coding 就是这个意思，说白了就是让 AI 自己干。

在官网给出的测试基准里，5.5 是全面超过之前的 5.4 版本的。

当然，还有一个原因，就是编码工作是为 AI 付费的一大主流场景。

GPT-5.5 里还有一个重要信息，就是在完成特定任务的基础上，消耗 Token 和 5.4 持平，但是效率和成功率更高。

这么一来，实际消耗的 Token 是减少的，因为过去你可能需要多轮会话才能搞定一件事，现在一次就可以搞定了。

还有，GPT-5.5 的工具调用和对电脑的视觉化操作能力也是目前最强的。

尤其是对电脑的视觉化操作，这是未来 Agent 来替我们完成实际工作的很重要的标准。

也就是说，如果给 OpenClaw 或者 Hermes 配上 GPT-5.5 的模型，他们替你干活的能力又提升了。

说了这些榜单和能力，接下来我们看几个案例。

这是 OpenAI 自己做的一个案例，上传了一张参考图，然后让 GPT 自己做一个基于真实数据的太空轨迹应用，里面展示了地球、月球、猎户座的动效轨迹。

提示词：Implement this as a new app using webgl and vite using real data from the artemis II mission. Make sure to test the app thoroughly until it is fully functional and looks like the app in the picture. Pay close attention to the rendering of the planets and fly paths. I want to be able to interact with the 3D rendering. Ensure it has realistic orbital mechanics.

我觉得，这个做出来的效果还是挺强的。

然后再给你们看一下我自己用 GPT-5.5 做的一套高保真原型图，而且是带页面交互效果的。

原始需求就是我的一句话。

提示词：设计一套关于健康管理App的高保真原型页面，带交互，产品名字是EasyLife，核心功能包括注册、登录、主页、个人身体数据显示，包括一些图表等。设计风格带圆角，整体简洁风。

注意，在这段需求里，我既没有说详细业务逻辑，也没有描述功能模块，甚至单一模块的逻辑都没说。

丢给它自己分析、设计、执行，然后把前端代码也写好了。