短短两天内,OpenAI发了四个大招

锦缎·2026年02月09日 10:50
新模型、新机制、新平台、新规范接连发布?一文看懂。

短短两天之内,OpenAI频频“放大招”。

新模型、新机制、新平台、新规范接连发布,技术含量拉满,令人头昏眼花。

别担心,只用这一篇文章就能快速讲清楚。

01 从编程代理到通用代理:GPT-5.3-Codex的能力跃迁

最令人关注的肯定是OpenAI刚刚发布的新产品:GPT-5.3-Codex。

Codex是OpenAI开发的能够理解自然语言指令、可自动编写和修改代码的智能AI代理。

而GPT-5.3-Codex作为OpenAI目前最强大的代理编程模型,融合了GPT-5.2-Codex的编码性能和GPT-5.2的推理及专业知识能力,推理速度能够提升约25%,可处理设计研究、工具调用和复杂操作的长时间任务。用户可在代理过程中实时引导和互动,模型不会丢失上下文。

更重要的是,GPT-5.3-Codex是OpenAI第一个在自身开发中发挥了关键作用的模型:研究团队使用Codex监控并调试训练过程,不仅能定位基础设施问题,还能追踪训练模式的变化、分析交互的质量并构建可视化工具,便于研究团队更好地理解模型行为差异。

同时,工程团队借助Codex优化代理工具链,识别出上下文渲染漏洞和缓存命中率等问题。在测试阶段,模型自主设计正则表达式分类器以分析会话日志,能够在三分钟内完成上千个数据点的关键总结。

模型能够参与自身的开发,让研究员和工程师的工作方式在两个月内发生了根本性的转变,同时有力证明了Codex已经从编程代理专用工具变成了可在计算机上完成几乎任何工作的通用代理。

接下来我们来看看新模型的技术突破。首先是最直观的网页开发功能:

GPT-5.3-Codex在开发了一款赛车游戏和一款潜水游戏后,还能够花费数百万token进行自主迭代,对游戏进行优化,最终生成功能完备、设计合理的可交互作品。

而面对日常的网站构建请求,GPT-5.3-Codex相比前代模型能更好地理解用户意图。以生成产品登录页面为例,新版本模型能自动将年费计划展示为折扣月价,并加入一个包含三条不同用户评价的自动轮播组件。

下一项技术突破是GPT-5.3-Codex的能力边界已经超过代码生成。

研究团队注意到开发者们的工作不仅仅是编写代码,还有调试、部署、编写需求文档、测试设计、指标分析等多个环节。

GPT-5.3-Codex不但能够支持软件开发生命周期的全流程,而且其代理能力已经进一步延伸到制作PPT、电子表格、数据分析等通用知识工作。

理财建议幻灯片:

零售培训文档:

净现值分析电子表格:

时尚展示PDF:

图文清晰,格式规范,可见OpenAI不仅扩充了知识库,还在多模态生成和视觉识别领域下了不少功夫。

最后,是模型对计算机的操控能力得以显著提升。

GPT-5.3-Codex在OSWorld-Verified基准测试中取得了64.7%的分数,远超前代模型GPT-5.2-Codex的38.2%和GPT-5.2的37.9%,接近人类平均水平72%。同时,模型的编程水平再创新高,完成同等任务的token消耗量相比前代模型减少了一半以上。

虽然模型在其他几项基准测试上的提升幅度各有不同,但测试结果已经证明GPT-5.3-Codex不仅在单项任务上表现出色,还能在真实的工作环境中进行更好的推理、构建和执行。

种种事实表明,Codex已经不再是以前那位“代理程序员”,而是能够端到端操控计算机的“万能职员”,OpenAI正在重新定义AI代理的能力边界。

02 统一编程代理的“通用插座”:App Server

接下来,是OpenAI发布的技术博客——阐述了Codex的核心架构:Codex App Server。

App Server是一套用于统一调度Codex的标准化通信协议。

随着Codex的推广,它被大量集成到网页应用、命令行工具、VS Code等集成开发环境(IDE)扩展以及macOS桌面应用等多个平台。为了避免为每个界面都单独“造一次轮子”,OpenAI需要一种机制,使得这些不同的界面能够共享同一套核心逻辑。

而App Server正是为此设计的桥梁。它基于JSON-RPC(即一种结构化的远程过程调用协议,允许程序通过标准数据格式相互调用各自的功能)构建,并采用双向通信模式,客户端和服务器可以主动互相发送请求。

数据的通信通道则建立在标准输入输出(stdio)之上,这是一种操作系统提供的基础数据流机制,不同的进程可以借此稳定交换信息。

相比命令行和集成开发环境,人与AI代理之间的交互要复杂得多。为了更加精准地描述这些交互,App Server自底向上定义了三层对话原语:

Item:即条目,是最小的交互单元,例如用户发送的一条消息、代理回复的一条消息、代理请求一次工具调用等。每个条目都具有明确的生命周期:开始→流式更新→完成,便于客户端实时显示代理的推理过程。

Turn:即回合,代表一次由用户指令触发的完整代理工作周期。例如,“修复某个Bug”,其中包含阅读代码、思考、修改代码、解释原因等一系列条目。

Thread:即线程,是持久化的会话容器,可以保存全部对话历史并安全存储于服务器端,支持跨设备恢复。

在实际部署中,App Server支持多种集成模式:

VS Code扩展等本地应用通常将App Server的二进制文件作为子进程启动,并在沙盒中运行工具调用;

网页端将App Server部署在云端容器内,浏览器通过HTTP和服务器推送事件(SSE)技术实现前后端通信,用户即使关闭标签页,后台任务仍可继续执行;

终端界面(TUI)未来将重构为标准化的客户端,支持连接远程运行的Codex代理。

相比其他集成方式,Anthropic推出的用于统一不同AI工具调用的开源MCP协议适用于已有工具链的轻量集成,但通用协议难以表达人与AI代理交互时的复杂语义;早期发布的TypeScript SDK虽然提供原生库接口,但覆盖的功能有限。

OpenAI官方已经明确表示App Server将成为未来主推的标准集成方案,在功能完整性和协议稳定性之间取得平衡。

与此同时,App Server源码已随Codex CLI开源发布,用于降低智能代理技术的接入门槛,让更多开发者将Codex的编程能力深度嵌入自有产品。

03 弥合机会差距:企业级AI代理协作平台Frontier

AI代理已经深度融入真实工作流,75%以上的企业员工表示AI能够帮助他们完成此前无法完成的任务。

但与此同时,也浮现出了一个矛盾的现象:模型能力飞速提升,但企业实际部署的AI代理会因为缺乏上下文而彼此孤立,新代理的出现反而会增加复杂性。

OpenAI将这种现象定义为“AI机会差距”,其原因并非模型不够智能,而是企业仍然缺乏将AI代理规模化投入到真实工作流的端到端能力。

因此,OpenAI正式推出了Frontier平台来帮助企业构建、部署和管理能完成实际工作的AI代理。这个平台借鉴了人类社会中已经成熟的企业培养员工的方法,给“AI同事”们加入四项关键的能力:

一是理解企业运作的逻辑。

Frontier打通了原先隔离的数据仓库、客户管理系统和内部应用,使得所有AI代理都能共享统一的业务知识库,并让AI理解信息是如何流动的、决策是如何发生的、哪些结果是重要的。共享上下文相当于企业构建了一套AI可理解的内部语言,每个AI代理无需重复学习基础的业务规则。

二是安全地操作真实工具。

在受控的执行环境中,AI需要能像人类一样完成分析报表、修改文件、调用系统等具体任务。这些操作能够在本地服务器、私有云或OpenAI托管环境之间灵活切换,无需重构现有的工作流程。对于那些需要快速响应的场景,平台要优先实现低延迟连接以保证交互的流畅。

三是能在实践中持续改进。

Frontier内置了评估机制,管理者能够看到代理的哪些操作是有效的,哪些操作需要调整。在多次识别问题并优化输出后,AI即可逐渐掌握企业对“高质量工作”的具体标准,变得更加可靠。

四是严格的身份和权限管控。

每个AI代理都有独立的身份,操作权限和人类员工一样有固定的边界。就像财务代理能看到预算但不能修改人事档案、客服能查看订单但不能看到用户信息隐私一样,防护机制内嵌于平台底层。

现阶段,多数AI代理具有完备功能却无法投入使用的原因在于上下文缺失,以及每次集成都需要定制化开发。

但Frontier基于开放标准构建,企业不必推翻现有的系统,就可以让AI代理通过ChatGPT界面交互、嵌入自动化工作流或是直接集成至Salesforce等业务软件中发挥作用。

根据OpenAI透露,HP、Oracle、Uber等企业已成为第一批平台使用者。未来,OpenAI将与更多AI原生企业建立合作,拓展医疗记录分析、客户数据整合等垂直化场景。

由此可见,OpenAI率先将AI的竞争焦点从模型能力迁移到了规模化落地能力。对于企业来说,能否将孤立的AI工具连结为协同工作的劳动力,将成为在生产力变革中取得领先优势的关键。

04 能力与责任:可信访问机制

GPT-5.3-Codex等前沿模型凭借出色的编程能力在网络漏洞发现和修复这一领域展现出了强大的潜力。

OpenAI值此之际,同步推出了“网络安全可信访问(Trusted Access for Cyber)”计划,试图在加速防御能力部署和防范技术滥用之间寻找平衡。

AI安全治理不能仅靠模型内置的安全训练机制,还要结合身份验证、行为监控、分级授权构建多层次的防护体系。

OpenAI指出,网络安全领域天然具备双重用途:既可用于识别安全漏洞发起攻击,也可用于针对安全漏洞进行防护。但传统基于规则的限制措施却难以区分用户意图,善意的安全研究可能会被当作恶意攻击而被阻碍。

因此,OpenAI则推出了采用信任分级策略的新规范:个人用户可通过chatgpt.com/cyber验证身份,企业则可以为团队批量申请可信访问,而拿出实际成果的安全研究团队才能参与仅限邀请的深度计划。

获得授权的用户也必须严格遵守相关安全政策,但可以更加顺畅地调用GPT-5.3-Codex等顶尖模型执行漏洞分析等敏感性任务,模型自动化监控系统也会持续检测数据窃取、恶意软件生成等非法行为。

为了扩大防御性应用的覆盖范围,OpenAI将网络安全资助计划的规模提升到了1000万美元API额度,以此支持那些在开源软件和关键基础设施领域中展现了修复漏洞实际成果的团队。

这也对应了OpenAI此前的关键判断:在AI竞争发展到具备网络能力的模型随处可见的阶段,事先用前沿技术确保生成安全,比事后用政策防止滥用更为有效。

05 结语

从App Server的协议标准化开始,到GPT-5.3-Codex的能力跃迁,再到Frontier的企业级协同框架,最后落脚于网络安全可信访问的责任机制。OpenAI在短短两天内的四次发布并非孤立的技术堆砌,而是系统性地思考:AI代理的能力已经逼近人类员工,而技术突破必须与治理规范同步前进。

模型之间的分水岭并不在于谁的代码写得更好,而是谁能像人类一样理解协同工作的方式。GPT-5.3-Codex在OSWorld取得高分证明了AI代理已经掌握跨应用的操作逻辑,Frontier构建的共享语义层使得多个AI代理能够像团队一样工作。AI代理落地的关键并非单项任务的精度,而是如何潜移默化地深度融入真实工作流。

更可贵之处在于,OpenAI在AI能力爆发的临界点主动设置了“可信访问”的防火墙。传统内容过滤早已无法应对种种风险,用“谁可以使用AI”代替“禁止AI做什么”或许是对AI代理身份的重新定义:它们早已不是无主的工具,而是需要独立身份、行为监管和责任归属的职员。

可以确定的是,OpenAI已经率先开始了人类与智能体共处的制度性探索。

本文来自微信公众号“硅基星芒”,作者:思齐,36氪经授权发布。

+1
12

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

以 TPU 为代表的 ASIC 芯片正以不可阻挡之势,从英伟达手中接过主角的剧本,重塑全球AI算力的权力版图。

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业