GPT-5.5 深夜发布,它不是最好用的,但就是现在最强的 AI
昨晚我就有个预感,觉得 OpenAI 可能要放点大招了。
结果,我半夜起来上厕所时看了一眼手机,GPT-5.5 发布了,顿时睡意全无。
光看过去一周时间,全世界这些顶级 AI 公司都是模型连发,根本应接不暇,或许留给人类的智力空间真的在缩小。
目前,GPT-5.5 已经可以在 ChatGPT 和 Codex 里用了,但需要 Plus 以上的会员。
也就是说,你至少需要花 20 美金一个月的价格才能体验到这个可能是目前最强的 AI 模型。
我第一时间用了下,感受就是它的确很强,但并不是我自己觉得目前最好用的。
我先说下它到底哪里强,然后再给你们看几个我自己用 GPT-5.5 做的案例。
在 OpenAI 介绍 GPT-5.5 的官网上,他们在模型底下写上了这么一句话「A new class of intelligence for real work」。
意思很明显了,这是专为解决真实工作问题而生的新一代智能模型。
怎么理解呢?
用大白话说,就是 GPT-5.5 在完成工作任务上的效率比其他模型更高,而成本反而会更低。
先看官方发布的一个多领域测试榜单,不理解那些英文没关系,你只要知道这里面基本涵盖了日常工作、科研、工具使用的方方面面。
重点看 GPT-5.5 和 Claude Opus 4.7 的对比,因为这就是巅峰比拼。
可以看到,GPT 基本是完胜 Claude 的。
我就挑几个跟我们普通打工人有关的测试来跟你们说下,看看 GPT-5.5 到底有多强。
下面这个是一个叫 GDPval 的测试,它模拟的是让 AI 在 44 个职业领域中完成知识型工作,GPT-5.5 的得分是 84.9%。
还原到现实工作场景中,意思就是使用这个模型来完成各领域的知识型工作的能力会更强。
比如,产品经理分析需求、做竞品报告、做原型设计、分析数据,创作者做内容,财务分析以及文档写作、PPT设计等。
再就是 GPT-5.5 的编码能力。
你们可能会好奇,为什么每家 AI 大厂发新模型是都喜欢强调自己的编码能力?
其实很简单,因为编程往往是解决复杂问题,这能很好考察模型的问题分析、路径规划、方案执行能力,还有就是解决问题的成功率。
过去有些模型是很强,也能编程,但是需要人和它互动调教很多次才能搞定。
现在的新 AI 模型,讲究的是自我分析、自我规划、自我执行,人为的干预越少越好。
GPT-5.5 现在主打的 Agentic Coding 就是这个意思,说白了就是让 AI 自己干。
在官网给出的测试基准里,5.5 是全面超过之前的 5.4 版本的。
当然,还有一个原因,就是编码工作是为 AI 付费的一大主流场景。
GPT-5.5 里还有一个重要信息,就是在完成特定任务的基础上,消耗 Token 和 5.4 持平,但是效率和成功率更高。
这么一来,实际消耗的 Token 是减少的,因为过去你可能需要多轮会话才能搞定一件事,现在一次就可以搞定了。
还有,GPT-5.5 的工具调用和对电脑的视觉化操作能力也是目前最强的。
尤其是对电脑的视觉化操作,这是未来 Agent 来替我们完成实际工作的很重要的标准。
也就是说,如果给 OpenClaw 或者 Hermes 配上 GPT-5.5 的模型,他们替你干活的能力又提升了。
说了这些榜单和能力,接下来我们看几个案例。
这是 OpenAI 自己做的一个案例,上传了一张参考图,然后让 GPT 自己做一个基于真实数据的太空轨迹应用,里面展示了地球、月球、猎户座的动效轨迹。
提示词:Implement this as a new app using webgl and vite using real data from the artemis II mission. Make sure to test the app thoroughly until it is fully functional and looks like the app in the picture. Pay close attention to the rendering of the planets and fly paths. I want to be able to interact with the 3D rendering. Ensure it has realistic orbital mechanics.
我觉得,这个做出来的效果还是挺强的。
然后再给你们看一下我自己用 GPT-5.5 做的一套高保真原型图,而且是带页面交互效果的。
原始需求就是我的一句话。
提示词:设计一套关于健康管理App的高保真原型页面,带交互,产品名字是EasyLife,核心功能包括注册、登录、主页、个人身体数据显示,包括一些图表等。设计风格带圆角,整体简洁风。
注意,在这段需求里,我既没有说详细业务逻辑,也没有描述功能模块,甚至单一模块的逻辑都没说。
丢给它自己分析、设计、执行,然后把前端代码也写好了。
这里面还有一个细节,我的原始需求里其实没有「活动」和「报告」两个模块,但它开发出来的版本里默认带了,只不过页面是空的。
我点击的时候会提示该页面暂未开发,于是我就跟它说了这句话。
大概一两分钟后,它就给了我一版完整的,就是上面你们看到的那样。
如果看过我之前文章的读者,或许对这个案例有点印象,就是我去年减脂期间用其他 AI 产品手搓过的一个 App。
只不过当时折腾了很久,而且出来的效果不太好,现在 GPT-5.5 这个效果我觉得可以直接用了。
关键是,没有多轮会话,基本是一两步就完成了。
回到我一开始说的,GPT-5.5 确实很强,或者说就是目前最强的 AI 模型,但对我来说它不是最好用的。
原因很简单,取决于你在什么场景下用它来干嘛?
也就是说,你的工作流是什么。
对我来说,内容创作、产品设计、咨询业务,这些是我已经形成工作流的,所以我也用 5 个正职 AI 员工实现了自动化。
这一点,我在昨天的文章里讲了。
但是,在这些工作流里并没有一个全能模型可以胜任所有工作。
所以,我是在不同场景和需求任务下让不同的 Agent 配不同的模型使用,就像雇有不同脑子和能力的人一样。
比如,在内容辅助创作这一块,我觉得目前最强的还是 Claude Opus 4.6,在 Agent 事务处理和本地化操作上,GPT-5.4 是我主要用的。
当然,接下来我有可能切换为 GPT-5.5,但考虑性价比的话,5.4 还是更合适。
在产品类工作上,我觉得 Claude 和 GPT 的表现其实差不太多,但 Claude 性价比就不是很高了。
我也用国产模型,一些事务型的工作或者 AI 团队调度管理类的,我现在用 Kimi 和 MiniMax 比较多,还有就是 GLM。
其实不管你用什么模型,核心还是我前面说的,有没有自己的工作流可以让 AI 接入。
如果只是用 AI 来查查信息,聊聊天,其实用什么区别都不大。
我知道现在 AI 发展很快,很多人也会焦虑,但这种情绪并没有什么用,关键是要想清楚你可以用 AI 来干嘛?
每次打开那个对话框,发现自己无所适从时,我觉得这才是真正值得深思的。
这个时代发展的速度只会越来越快,让很多人焦虑的不是技术的进展,而是自己跟不上的那个节奏。
核心问题,在于传统思维和认知的受限,以及信息差的存在,再加上行动能力的匮乏。
或许你们也发现了,我最近更新文章的频率很高,有时候甚至是一天写两篇。
不是我时间变多了,而是我把自己放在这一轮的发展进程中,而且有了一个 AI 团队。
我不想错过,所以投入。
正当我写完这篇文章时,AI 圈又发生了一件大事。
DeepSeek V4,来了!
或许,我在这篇文章里刚刚才得出的一些结论,又要被推翻了。
本文来自微信公众号“唐韧”(ID:RyanTang007),作者:唐韧,36氪经授权发布。















