硅谷一夜两弹,GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了
一天之内,两大编程AI轮番轰炸硅谷。Claude Opus 4.6之后,奥特曼紧急放出GPT-5.3-Codex。双雄争霸,彻底撕开AI王座争夺战的帷幕。
硅谷今夜难眠!
Claude Opus 4.6毫无征兆地深夜突袭,没想到,却让奥特曼措手不及。
作为回应,OpenAI仓促应战,不过半小时紧急祭出最强智能体编程模型——GPT-5.3-Codex。
没有GPT-5.3,只有GPT-5.3-Codex!
它完美融合了GPT-5.2-Codex顶尖编程能力与GPT-5.2卓越的推理及专业知识能力,且运行速度更提升了25%。
那些涉及深度研究、工具调用及复杂执行的长程任务,都能够轻松驾驭。
GPT-5.3-Codex就像一位并肩作战的同事,你可以在它工作时进行实时引导和互动,且完全无需担心上下文丢失。
值得一提的是,GPT-5.3-Codex还是首个在自身创造过程中发挥了关键作用的模型。
随着GPT-5.3-Codex的问世,Codex的角色发生了质的飞跃:
从一个只会编写和审查代码的AI智能体,进化为一个几乎能完成开发者和专业人士在计算机上能做的任何事情的AI智能体。
GPT-5.3-Codex现已加入ChatGPT付费计划,覆盖Codex所有应用场景:App、CLI、IDE扩展及Web端。
如今,整个硅谷成为了Anthropic和OpenAI双雄决战的「修罗场」,空气中都充满了火药味儿。
有趣的是,原本奥特曼在凌晨12点预告了新模型发布,却让Anthropic抢占了发布的先机。
一夜之间,两大最强编程AI怼脸PK,网友们纷纷吐槽,「简直跟不上AI迭代的速度了」。
GPT-5.3-Codex登场,编码更强了
GPT-5.3-Codex实力有多强,亮一亮成绩单就知道了。
软件工程新SOTA
GPT-5.3-Codex在评估现实世界软件工程的SWE-Bench Pro评测中,创下了行业新高。
与此同时,在衡量编程智能体终端技能的Terminal-Bench 2.0中,它的表现也远超此前的SOTA。
值得一提的是,GPT-5.3-Codex实现这一切所消耗的Token,比以往任何模型都要少得多。
相较于只测试Python的SWE-bench Verified,SWE-Bench Pro涵盖四种语言,不仅更能抵御数据污染,也更具挑战性、多样性和行业相关性
从0造出游戏
结合前沿的编程能力、美学和紧凑性的改进,GPT-5.3-Codex能产出惊人的成果,甚至能在几天内从零开始构建功能高度复杂的各类游戏和应用。
为了测试该模型的Web开发和长程智能体能力,OpenAI让GPT-5.3-Codex做了两款游戏:
Codex App发布时的赛车游戏第二版,以及一款潜水游戏。
利用开发Web游戏的技能以及预先选好的通用后续提示词(比如「修复bug」或「改进游戏」),GPT-5.3-Codex在数百万个Token的交互中,自主对游戏进行了迭代。
赛车游戏:包含不同的赛车手、八张地图,甚至还有可以用空格键触发的道具
潜水游戏:玩家可以在其中探索各种珊瑚礁,收集它们以完成你的鱼类图鉴,同时还要管理氧气
· 更懂你的意图
相比GPT-5.2-Codex,当你让GPT-5.3-Codex制作日常网站时,它能更精准地理解你的意图。
对于简单或描述模糊的提示词,它现在默认会生成功能更丰富、设置更合理的网站,为你提供更优质的起步画布,助力创意落地。
· GPT-5.3-Codex vs GPT-5.2-Codex
举个例子,同时要求GPT-5.3-Codex和GPT-5.2-Codex构建落地页。
GPT-5.3-Codex会自动将年度计划显示为折算后的月付价格,让折扣看起来清晰且经过精心设计,而不是简单地算出年度总额。
此外,它还制作了一个包含三条不同用户引语的自动切换证言轮播,而非单调的一条。这使得页面默认看起来更完整,更像是一个可以直接上线的产品。
GPT-5.3-Codex
GPT-5.2-Codex
提示词:
为Quiet KPI构建一个落地页,这是一个对创始人友好的每周指标摘要。美学风格采用柔和的SaaS风,玻璃质感卡片,薰衣草色到蓝色的渐变,微妙的模糊效果。板块包括:带有邮箱收集的首屏,示例报告卡片网格,集成列表行,客户证言轮播,月付/年付价格切换,常见问题解答,页脚。
· 字体使用Satoshi或类似的几何无衬线字体。
· 按钮采用圆角,14px半径,强烈的聚焦状态。
· 添加一个有品位的基于滚动的显现效果。
超越编程的通用能力
软件工程师、设计师、产品经理和数据科学家所做的工作远不止生成代码。
GPT-5.3-Codex不仅为软件生命周期中的所有环节,如调试、部署、监控、编写PRD、编辑文案、用户研究、测试、指标等提供了支持。
而且,它还能帮用户构建任何想做的东西——不管是制作精美的幻灯片,还是在表格里进行复杂的数据分析。
在衡量专业知识工作的GDPval中,GPT-5.3-Codex表现出色,与GPT-5.2处于同一顶尖水平。
1. 财务建议幻灯片
2. 零售培训文档
3. NPV分析电子表格
4. 时尚演示PDF
· 计算机使用能力
OSWorld是一个关于计算机使用的基准测试,要求智能体在可视化的桌面计算机环境中完成生产力任务。
在这里,GPT-5.3-Codex展现出远超之前GPT模型的计算机操作能力。
在OSWorld-Verified中,模型使用视觉来完成各种计算机任务(人类得分约为72%)
总之,这些在编程、前端、计算机操作和现实世界任务中的优异表现表明,GPT-5.3-Codex不仅在单项任务上表现更好,更是向单一通用智能体迈出的跨越性一步。
这意味着智能体已能够在全方位的现实世界技术工作中进行推理、构建和执行。
协同作战,还能中途喊停
随着模型能力越来越强,现在的挑战已经从「智能体能做什么」,变成了「人类如何轻松地与并行工作的多个智能体进行交互、指挥和监督」。
在GPT-5.3-Codex的加持下,操作过程的更新也会更加频繁。
这样,开发者就可以在它工作时随时掌握关键决策和进。
你不必干等着最终结果,而是可以实时交互——提问、讨论方法,并引导它走向解决方案。
GPT-5.3-Codex会把它的操作讲给你听,响应你的反馈,并让你从头到尾都全程同步。
自我加速迭代,接管研发工作流
现在的Codex,懂你意图,更懂效率。
OpenAI内部甚至出现了一种「套娃」式的进化:Codex正在加速Codex的诞生。
短短两个月,OpenAI的研究员和工程师们发现,工作方式已被彻底颠覆。
他们正在用GPT-5.3-Codex的早期版本,去训练、部署和优化现在的正式版。
这一波「自我进化」的实战成绩,相当炸裂:
研究团队
从监控训练运行、深挖交互模式,到给人类同事开发分析工具,Codex全程参与,不仅修Bug,还能提建议。
工程团队
它是最硬核的战友。无论是优化测试框架、定位缓存失效的根源,还是在流量洪峰中动态调度GPU集群,它都稳得住。
Alpha测试实战
为了搞懂生产力差异,Codex自己写正则分类器,跑遍海量日志,直接甩出一份精准报告。
面对反直觉数据,它联手数据科学家构建新管道。人类需要几小时?Codex只用了三分钟,就从数千个数据点中提炼出了关键洞察。
不止编程,更是全能操盘手
GPT-5.3-Codex的野心,早已溢出了代码框。
随着这次发布,Codex也开始从单纯的写代码工具,转型为操作计算机并端到端完成工作的得力助手。
OpenAI正在解锁更广阔的战场——从构建软件,到深度研究、复杂分析,乃至执行一切案头工作。
曾经,它的目标是做「最强编程智能体」; 现在,它是你电脑里无所不能的「通用协作者」。
Codex的适用边界被无限拓宽,而我们创造力的天花板,也将被彻底重写。
参考资料:
https://openai.com/index/introducing-gpt-5-3-codex/
https://x.com/OpenAI/status/2019474152743223477
https://x.com/sama/status/2019474754529321247
本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。















