OpenAI最强编程模型登场，连续干活24小时，一次处理几百万token

智东西·2025年11月20日 16:23

Token效率的提升有望转化为使用成本的下降。

智东西11月20日报道，今天，OpenAI发布了其最新的智能体编程模型GPT‑5.1‑Codex‑Max，这一模型基于OpenAI最新的推理模型打造，专门面向软件工程、研究、数学等复杂任务进行训练。

与此同时，OpenAI还将GPT-5 Pro升级为GPT-5.1 Pro，据说这一模型在写作、数据分析等方面的能力比前一代模型更强。不过，OpenAI并未披露更多GPT-5.1 Pro的细节。

GPT‑5.1‑Codex‑Max能在单一任务中连贯地处理上百万个token，跨多个上下文窗口运行。这得益于一项叫做压缩（compaction）的技术：模型在接近上下文窗口限制时会自动压缩上下文，保留重要信息，并赋予对话新的上下文窗口，直到任务完成。

这一模型是由OpenAI研究科学家Noam Brown牵头完成的，他在OpenAI专门从事测试时计算，也就是推理的研究。

OpenAI认为，能够持续进行连贯工作，是迈向更通用、更可靠AI系统的基础能力。GPT-5.1-Codex-Max可以独立工作数小时。在OpenAI的内部评估中，GPT-5.1-Codex-Max甚至可以针对同一任务连续工作24小时，持续迭代实现，修复测试失败，最终交付成功的结果。

性能方面，GPT‑5.1‑Codex‑Max在多个编程基准测试中评测优于前代GPT‑5.1‑Codex。该模型还是OpenAI训练的首个适用于在Windows环境里进行编程操作的模型。

推理效率上，GPT‑5.1‑Codex‑Max在中等推理强度下完成任务时，所使用的思考token比GPT‑5.1‑Codex少约30%，但仍能取得更高准确性。

对于不那么敏感延迟但追求质量的任务，还可以开启超高强度推理，让模型花更多时间思考，输出更优解。

OpenAI预计，这种token效率的提升，可以为开发者带来实际的成本节省。

▲GPT‑5.1‑Codex‑Max用更少token实现更高的准确率

目前，GPT-5.1-Codex-Max现已在Codex中提供，可用于CLI、IDE扩展、云端和代码审查，API访问也即将推出。

OpenAI分享了GPT-5.1-Codex-Max打造的多个网页。根据提示词，GPT-5.1-Codex-Max直接打造了一个完全运行在浏览器中的CartPole（倒立摆）强化学习沙箱。

用户不仅可以观看倒立摆的动态，还能通过内置的策略梯度控制器直接训练模型，让AI在实验中不断优化策略。

它提供了神经网络可视化功能，在训练或推理时，用户可以实时观察模型的权重和激活状态，直观理解决策机制。

此外，应用界面清晰展示了每个回合的步数和奖励，并记录了上一次存活时间及历史最佳存活时间，让训练过程和成果一目了然。

在成功实现类似功能的前提下，GPT-5.1-Codex-Max所使用的token数量为27k，而GPT-5.1-Codex的用量为37k。

GPT-5.1-Codex-Max还开发出一个太阳系重力的模拟器。这一应用的目标是让用户直接观察天体的运动轨迹，通过拖拽、点击与操控界面元素，直观理解轨道、速度与引力之间的关系。

这一网页的功能运行流畅，提示词中的功能都得到了不错的实现。用户可点击画布放置带质量的天体，再次点击即可为测试设置初速度向量，借此构建出任意的简易行星系统。

界面提供用于调节中心天体质量与整体时间缩放因子的滑块，允许用户观察同一轨道结构在不同物理条件下的演化过程。

GPT-5.1-Codex-Max打造的下一个案例，可帮助用户直观、动态的方式理解光在两种介质界面上的折射规律——斯涅尔定律（Snell’s Law）。

用户可以通过左右滑块调节介质1与介质2的折射率。折射率改变时，界面实时更新折射角度，呈现不同光学环境下的光线偏折情况。

也有不少网友分享了自己的使用体验。这位网友试着让昨天发布的Gemini 3 Pro和GPT-5.1-Codex-Max对决，提示词是创建一个鹈鹕骑自行车的SVG。

可以看到，GPT-5.1-Codex-Max打造的鹈鹕、自行车等元素明显包含更多细节，也更逼真。

英国定制化贺卡公司Moonpig的AI部门负责人Peter Gostev分享，自己试着让GPT-5.1-Codex-Max打造了一个金门大桥模拟器，他称这绝对是自己从类似提示词中获得的最好的效果。

与GPT-5.1-Pro相比，Gostev认为GPT-5.1-Codex-Max明显更勤快，而且速度也更快。要让GPT-5.1-Pro完成类似的效果，需要不断指出问题，给出明确要求，GPT-5.1-Codex-Max则更有主动性。

AI工程师Peter Dedene分享，自己体验时发现，GPT-5.1-Codex-Max盯着问题看了5分钟，决定以后再处理，自己以前从没见过Codex这么做。在他看来，模型似乎已经拥有意识了。

不过，需要注意的是，随着模型能力的持续提升，安全性也成为一大挑战。OpenAI称GPT-5.1-Codex-Max尚未在内部的Preparedness Framework中达到“高等级网络安全能力”，不过其安全能力已经是业内迄今为止最强大的。

目前，Codex系列模型默认运行在高度隔离的安全沙箱中，文件写入仅限自身工作空间，网络访问被关闭，除非开发者主动启用。这些措施可减少提示词注入（prompt injection）等风险。

OpenAI希望通过渐进式部署的方法从真实世界收集反馈，并及时更新模型的安全防护。

结语：编程模型正在走向“智能体化”时代

从GPT-5.1-Codex-Max可以看出，新一代编程模型已不再是简单的代码生成器，而是能够持续工作、自动调试、主动规划的编程智能体。其长时推理、上下文压缩、自我修复等能力，让模型能独立完成项目级任务。

随着运行成本下降、安全沙箱强化、能力全面增强，未来的软件开发方式也可能出现变化，从“写代码”转向“描述需求+审核结果”，智能体有望承担更多实现与迭代工作。

本文来自微信公众号 “智东西”（ID：zhidxcom），作者：陈骏达，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。