搜索

36氪Auto
数字时氪
未来消费
智能涌现
未来城市
启动Power on
36氪出海
36氪研究院
潮生TIDE
36氪企服点评
36氪财经
职场bonus
36碳
后浪研究所
暗涌Waves
硬氪
氪睿研究院
媒体品牌
企业号
企服点评
36Kr研究院
36Kr创新咨询
企业服务
核心服务
城市之窗
政府服务
创投发布
LP源计划
VClub
VClub投资机构库
投资机构职位推介
投资人认证
投资人服务
寻求报道
36氪Pro
创投氪堂
企业入驻
创业者服务
创投平台
AI测评网

搜索

我要入驻

谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己

量子位·2025年09月26日 18:29

新基准优质子集已开源

OpenAI发布最新研究，却在里面夸了一波Claude。

他们提出名为GDPval的新基准，用来衡量AI模型在真实世界具有经济价值的任务上的表现。

具体来说，GDPval覆盖了对美国GDP贡献最大的9个行业中的44种职业，这些职业年均创收合计达3万亿美元。任务基于平均拥有14年经验的行业专家的代表性工作设计而成。

专业评分人员将主流模型的输出结果与人类专家的成果进行了对比。

最终测试下来，Claude Opus 4.1成为表现最佳的模型，47.6%的产出被评定媲美人类专家成果。

GPT-5 38.8%的成绩和Claude还是有些差距，位居第二；GPT-4o与人类相比只有12.4%获胜或平局。

没能成为最优，OpenAI也给自己找补了：不同模型各有优势，Claude Opus 4.1主要是在美学方面突出，而GPT-5在准确性上更优。

OpenAI还表示，同样值得注意的是模型的进步速度，其前沿模型在短短一年内，胜率几乎实现了翻倍。

最后OpenAI还开源了包含220项任务的优质子集，并提供公开的自动评分服务。

网友看后纷纷表示，非常因吹斯汀的研究：

OpenAI各代模型的性能呈线性增长，以及感谢对竞争对手的认可。

还有网友认为，这也可能是奥特曼精心设计的宣传手段，通过吹嘘AI能为GDP带来增长而筹集资金。

下面具体来看一下这项测试。

测试AI的“挣钱”能力

OpenAI指出，GDPval相比现有的AI评估，好就好在：

任务基于真实工作成果且关联完成时间与成本，具备现实性；
涵盖O*NET（美国职业信息网络）追踪的大部分职业工作活动，具有代表性广度；
任务要求处理多种格式文件并解析多个参考文件，涉及计算机使用与多模态；
除了正确性还需考虑结构、风格等主观因素，数据集也可作为评估自动评分系统性能的测试平台；
以胜率为主要指标无上限，支持持续评估；
任务难度高，行业专业人士平均需7小时完成，复杂任务甚至耗时数周。

其任务构建流程，首先从确定核心行业与职业入手。

OpenAI先是筛选出了对美国GDP贡献超5%的9个行业（依据2024年第二季度各行业增加值占美国国内生产总值百分比数据），再在每个行业内挑选5个贡献工资总额最多且以数字任务为主的职业。

判断职业是否“以数字任务为主”时，参考ONET中该职业的所有任务，借助GPT-4o对任务按“数字/非数字”分类，结合ONET中任务的相关性、重要性和频率得分加权计算，若60%以上任务为数字任务，则将该职业纳入。

最终OpenAI筛选出了44个职业，这些职业合计年创收3万亿美元。

接着进行行业专业人士招募，要求参与任务创建的专家至少有4年相关职业经验，简历需体现专业认可度、晋升经历及管理职责。

经统计，招募来的行业专家平均经验达14年。

这些人还需进一步通过视频面试、背景调查、培训及测试才能参与该项目（OpenAI还会给到一笔优厚报酬），其前雇主涵盖苹果、谷歌、微软、Meta、三星、甲骨文、IBM、摩根大通等众多知名企业与机构，确保专家具备扎实的行业实践基础。

任务创建环节，每个GDPval任务包含“需求”和“交付成果”两部分，行业专家会对照O*NET中自身职业的任务分类设计任务，以保证任务覆盖的广度与代表性。

为了评估任务质量，OpenAI要求这些专家根据其职业的实际标准，对每项任务的难度、代表性、完成时间和整体质量等进行打分，并结合OEWS（美国劳工统计局职业就业统计）数据中对应职业的中位时薪，通过“平均完成时间×时薪”计算每个任务的经济价值。

最终，GDPval全集中总共包含1320项任务，所有任务均经过了“自动化模型筛选+多轮人类专家审核”的迭代流程，每个任务会获得至少3次、平均5次的人工审核。

专家在各评审阶段会给出详细意见。任务会根据意见反复修改完善。

Claude表现媲美人类专家

OpenAI开源了包含220项任务的优质子集，采用了盲态专家pairwise对比法（即专家不知晓待评成果来源的成对对比评分方式），对该子集进行评级。

每项对比评分平均耗时超过1小时。OpenAI表示还额外邀请了更多职业领域专家，对人类专家与模型输出的成果进行评分。专家需为其选择及排序结果提供详细依据。

针对优质子集，OpenAI同时开发了实验性自动评分器，其与人类专家评分的一致性达66%，仅比人类间评分一致性（71%）低5%。

对GPT-4o、o4-mini、o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro及Grok 4这几款模型进行评估后，结果显示：

在GDPval优质子集任务中，Claude Opus 4.1是整体表现最佳的模型，尤其在美观性方面（如文档格式、幻灯片布局）表现突出。

其输出的成果中，有47.6%被评定为优于或等同于人类专家水平的成果。

OpenAI各代模型在GDPval上的表现大致呈线性提升。

而根据下图所示，GPT-5在准确性方面（如严格遵循指令、完成正确计算）优势显著。

换句话说，GPT-5在纯文本任务上表现更优，但Claude在.pdf、.xlsx、.ppt等文件类型的处理上表现更佳，展现出更强的视觉感知与美观设计能力。

在GDPval优质子集的全部任务中，有略多于50%的任务里，至少有一个模型的输出成果优于人类专家或与人类专家相当。

OpenAI还指出，将AI模型与人类监督结合，在完成任务时有望比单独人类专家更经济高效。

无论是“先让模型试做，不满意再自己改”的模式，还是“直接用模型成果”“只让模型试一次就自己做”等模式，都能帮人类节省成本和时间。

此外，研究发现增加推理努力（如对o3、GPT-5设置不同推理强度）、提供更多任务背景、优化提示词与智能体辅助框架（如通过在容器中支持GET请求，采用“N=4”的“最优N选1”抽样策略，搭配GPT-5作为判断模型）能显著提升模型性能。

OpenAI也指出了GDPval的局限性，如数据集规模有限（仅44种职业）、聚焦可在计算机上完成的知识工作（不包含体力劳动等）、任务为精准指定的一次性任务（缺乏交互性）、自动评分器存在不足、评估成本高等。

目前，GDPval尚处于初步阶段，OpenAI计划在未来的迭代版本中，逐步拓展其覆盖范围、增强真实性与交互性，并纳入更多场景细节。

By the way，不光OpenAI觉得Claude好，曾经的亲密盟友微软最近传来消息：携手Anthropic优化Microsoft 365 Copilot AI助手（doge）。

参考链接：

[1]https://x.com/OpenAI/status/1971249374077518226

[2]https://evals.openai.com/

本文来自微信公众号“量子位”，作者：西风，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

+1

21

好文章，需要你的鼓励

你可能也喜欢这些文章

WAIC之夜：Token堆不出“AI原生”组织

基于超1万肿瘤样本训练，哈佛医学院等提出泛癌症基础模型COMPASS，平均性能优于22种现有方法

Linus一句话说透AI局限：代码不能直接用，bug只能创可贴式地修

李飞飞第一篇「触觉」论文：机器人会盲摸麻将了

AI巨头正在争夺人类的错题本

三年AI牛市，洗了三波普通人

关于面壁智能，聊聊我的一些新思考

Token收费，不再“天经地义”？

AI短剧主角都长着同一张脸，是双向奔赴的结果

特邀作者

TA没有写简介，但内敛也是一种表达

最近内容

大模型给图片打分不再“靠嘴说”，结构图、频谱图当“物证”，用“视觉证据”来给图片打分

冷门的哲学，成了“治”AI的热门

大模型内存焦虑，办法被想到了U盘上

36氪AI测评

选靠谱AI，看真实评测

查看

36氪AI测评官方交流社区

加入

36氪寻求报道

咨询报道审核和入驻

联系

36氪寻求报道订阅号

关注

爆火一年，你已经被羽衣甘蓝包围了

从网红到长红，这杯草凭什么火了一年？

2025-09-26

关于36氪

投资者关系

36氪欧洲站 36氪欧洲站 36氪欧洲站 Ai产品日报

网络谣言信息举报入口

热门推荐

合作伙伴

36氪APP下载

iOS & Android

36氪APP让一部分人先看到未来

36氪

鲸准

氪空间

推送和解读前沿、有料的科技创投资讯