GPT-5争议、开源追赶、能力飞跃:Epoch AI年终报告揭示AI能力加速

36氪的朋友们·2025年12月25日 11:35
12月25日消息,专注于人工智能基准测试的非营利组织Epoch AI发布的年终报告显示,整体来看,AI模型的能力正在快速提升。

12月25日消息,专注于人工智能基准测试的非营利组织Epoch AI发布的年终报告显示,整体来看,AI模型的能力正在快速提升。

顶尖国际模型如GPT、Gemini在专家级数学难题FrontierMath上表现优异,但在真正高难度问题面前仍未满分,显示出推理能力仍有提升空间。与此同时,AI推理能力和强化学习的进步让增长速度几乎翻倍,成本大幅下降,许多模型已能在消费级硬件上运行。

在此背景下,中国开源大模型也有所进步,但与国际顶尖模型相比仍存在明显差距。在FrontierMath测试中,绝大多数中国模型几乎未能得分,最高也只有DeepSeek-V3.2取得约2%的成绩。这表明,中国模型虽然在追赶,但在处理真正复杂难题时仍面临挑战。

01 中国模型的“七个月追赶”:开源力量正在重塑格局

中国模型的最高分仍落后全球前沿水平约七个月

在Epoch AI的FrontierMath最新评测中,中国开源模型交出了一份令人瞩目的答卷。FrontierMath是一个由专家数学家精心设计的高难度数学基准测试,涵盖数论、实分析、代数几何、范畴论等现代数学主要分支。完整数据集包含350道问题,其中300道为基础集(第1-3层),50道为极难问题(第4层)。解决这些问题,研究人员通常需要数小时甚至数天的努力。

FrontierMath题集

FrontierMath题集分为公开与私有两类:基础集前3层的10道题目向公众开放,其余290道题构成私有集;第4层极难题中公开2道,其余48道为私有集。

评测结果显示,在第1-3层题库上,中国模型的最高分仍落后全球前沿水平约七个月。这一数字看似不小,但放在AI发展历史上,它意味着中国模型正在以惊人速度缩小与OpenAI、Anthropic等顶级实验室的差距。仅两年前,开源模型与闭源前沿模型的差距还按“年”计算,而现在,消费级GPU上运行的最佳开源模型与绝对前沿的性能差距已不足一年。

更令人关注的是第4层题库——50道“需要数天才能解决”的极难数学问题。DeepSeek V3.2(Thinking)成为唯一在此层取得非零分的中国模型,正确回答了1道题(约2%)。虽然看似微小,但象征意义重大:它表明中国模型已具备挑战顶尖数学难题的潜力。即便是OpenAI的o3和o3-mini,在这类题目上的准确率也仅在个位数。

技术上,DeepSeek通过多头潜在注意力(MLA)、混合专家(MoE)架构创新以及多标记预测,使模型在仅用十分之一算力的情况下,达到了与Meta Llama 3相当的预训练水平。随后推出的推理模型R1,在性能上媲美OpenAI的o1,但开发成本仅为后者的一小部分。这印证了Epoch AI的观点:AI训练成本下降的主要动力,并非硬件便宜,而是算法优化和数据改进。

Epoch AI的评测使用第三方API完成(DeepSeek用Fireworks,其余模型用Together),以保障FrontierMath题库安全。Epoch AI分析指出,部分第三方API可能轻微影响模型得分,新发布模型受影响更大。这意味着,中国模型的实际能力可能比公开评测显示的更强。

FrontierMath的答题方法同样值得了解:模型需提交一个返回答案的Python函数 answer,答案通常为整数或sympy对象。模型可以思考、运行Python代码、并在有把握时提交答案。每个问题都有严格标记限制(硬性上限1,000,000个标记),评测系统会记录提交结果并评分。使用Python工具运行代码的时间上限为30秒,确保评测可在商用硬件上重复验证。

数据还显示一个趋势:任何前沿AI能力,从出现到广泛可用的时间窗口不到一年。这既为中国模型提供了追赶前沿的机会,也带来了挑战:因为前沿本身仍在高速前进,追赶永远没有终点。

02 全球前沿模型的“军备竞赛”:从GPT-5到Gemini 3

GPT-5于2025年发布时,引发了部分市场的“失望”。相比Claude 3.7、Gemini 2.5等中间版本,性能提升似乎有限。然而,Epoch AI数据显示,GPT-5相较GPT-4的飞跃,与GPT-4相较GPT-3几乎相同:

·MMLU:+43%

·MATH:+37%

·TruthfulQA:+40%

·HumanEval:+67%

·GPQA Diamond:+55%

·MATH Level 5:+75%

·Mock AIME 24-25:+84%

“震撼感”减弱的原因,在于发布节奏加快:从GPT-3到GPT-4用了约两年,从GPT-4到GPT-5仅一年。市场已经被Claude 3.7、Gemini 2.5、o1等中间模型“喂饱”,对GPT-5的期待自然水涨船高。

Gemini 3 Pro在FrontierMath评测中也遇到了挑战,主要来自API稳定性问题。在Tier 1-3题库上,其准确率38%,但因API错误导致10道题失分;在Tier 4超难题中,准确率19%,有3道题受API错误影响。Epoch AI至少重试10次,确保评测严谨。这显示出API稳定性已成为前沿模型表现的重要约束。

xAI的Grok 4则遭遇更严重的网络和超时问题:在Tier 4的48道问题中,有8道(16%)无法正常评分。Epoch AI采用特定规则处理,同时保持完全独立编辑,确保评测透明度。

此外,OpenAI的研发开支也揭示了真实成本结构:2024年50亿美元算力预算中,90%用于实验性训练和基础研究,而非最终发布的GPT-4.5或其他模型。这说明,打造顶尖模型的核心成本并非“做出模型”,而是“弄清楚怎么做”。因此,DeepSeek能够用更低成本实现相似性能,得益于其站在前沿实验室肩膀上的优势。

03 AI模型能力加速:前沿模型进步速度翻倍

AI模型的能力正在以前所未有的速度提升

最新数据显示,AI模型的能力正在以前所未有的速度提升。根据Epoch AI的能力指数(Epoch Capabilities Index,ECI)分析,自2024年4月起,顶尖模型在各类基准测试中的进步速度几乎是此前两年的两倍。具体来看,断点前的年度能力增幅约为8分,而断点后的增幅提升到约15分,显示出显著加速。

这一加速与几个重要变化同步发生:推理模型(如OpenAI的o1、DeepSeek R1等)迅速崛起,同时前沿实验室加大了强化学习的投入。这表明AI的发展模式正发生转变:不再仅依赖大规模预训练,而是通过预训练、推理计算和强化学习的多重策略来提升模型能力。

全球主要模型ECI排名

Epoch AI的报告追踪了2021年底至2025年底的149个前沿模型,包括所有核心前沿模型。分析采用分段线性模型拟合顶尖模型能力随时间变化的趋势,并确定最佳“断点”为2024年4月。断点前后能力增长率分别为8.2分/年和15.3分/年,加速比例约1.86倍。统计分析显示,这一加速信号稳健且显著,与单线性趋势相比更能反映实际发展速度。

这意味着,2024年之后,前沿模型的性能提升不仅在绝对数值上增加,而且迭代速度更快。领先实验室在算力、算法和训练数据上的投入,将直接决定其保持领先的能力。同时,这也给开源团队提出了更高要求:在更短的时间窗口内追赶闭源模型,需要持续优化算法和训练策略。

简而言之,AI能力提升的速度正在加快,全球AI竞赛的节奏也随之被压缩,领先优势难以长期保持。

04 2025年AI十大趋势:技术、经济与社会影响

在刚刚过去的2025年,Epoch AI发布了36篇数据洞察和37篇通讯,共计70篇关于AI的短调查。哪些内容最受读者关注?年终盘点显示,这些洞察和通讯的阅读量与互动数据,为我们筛选出了十大趋势的核心方向。

在这些最受欢迎的调查中,前五篇是读者最关注的数据洞察,它们揭示了AI能力进步、算力分布、成本变化等最核心的行业动向。紧随其后的五篇,则反映了政策、社会应用和行业实践等方面的趋势。

也就是说,本年度十大趋势,并非单纯由研究者设定,而是结合了读者的关注度与数据洞察的权重,呈现了一个既专业又贴近市场和公众视角的AI全景。

趋势一:推理成本暴跌,但任务差异明显

从2023年4月至2025年3月,推理成本在相同性能水平下呈指数下降:

最慢任务:下降9倍/年

中速任务:下降40倍/年

最快任务:下降900倍/年

成本下降主要受两大因素驱动:市场竞争加剧(API提供商更多、定价更透明)和效率提升(推理算法优化、硬件利用率提高)。然而,不同任务享受成本红利的速度差异巨大:简单任务(如文本分类)几乎免费,而复杂任务(如博士级科学推理)下降速度较慢。这说明,AI能力平民化带来的经济优势并非对所有任务均等,企业和开发者仍需针对特定应用优化策略。

趋势二:消费级硬件与前沿模型差距缩短至7个月

Epoch AI发现,单个消费级GPU(如RTX 4090、RTX 5090)上运行的最佳开源模型,与绝对前沿模型的差距已压缩至约7个月。

这意味着:数十亿用户可以在个人电脑上运行接近前沿水平的AI;企业若仅依赖固定模型能力,很难长期保持竞争优势;政策上,“技术封锁”难以阻止能力扩散。

这一趋势凸显了开源AI的颠覆性影响:前沿能力快速普及,市场竞争窗口变短,创新优势需要依靠持续迭代和整体服务能力,而非单一模型性能。

趋势三:OpenAI算力主要投入实验,研发成本远超训练

Epoch AI数据显示,OpenAI 2024年的大部分算力并未直接用于模型推理或最终训练,而是用于支撑实验和研发活动。具体开支结构如下(均为云算力费用):

基础研究与实验性算力:约45亿美元,包括基础科研、实验性/风险规避运行(用于最终训练准备)以及未发布模型。

GPT-4.5 最终训练:约 4亿美元(90%置信区间:1.7亿–8.9亿美元)

其他模型训练:约 8000万美元(包括 GPT-4o、GPT-4o mini、Sora Turbo,以及 GPT-4o 更新和 o 系列后训练;90%置信区间:2400万–4.35亿美元)

研发算力总计:50亿美元

推理算力:20亿美元(不包括微软为自家产品运行 OpenAI 模型的成本)

这说明,AI开发极为资本密集,领导者需要大量算力用于探索和实验,而不仅仅是最终训练和部署。大部分开支用于“弄清楚如何做”,而非直接产出模型。这也解释了为什么部分开源或后起模型能够用更少成本达到接近性能:他们站在前沿实验室的肩膀上,跳过了大量试错环节。

换句话说,OpenAI的算力使用策略显示了研发本身的巨大价值:实验是推动AI能力突破的核心,而训练和部署只是结果的一部分。

趋势四:英伟达算力存量每10个月翻番

自2020年以来,全球已安装的英伟达AI算力每年增长约2.3倍,新旗舰芯片在发布后三年内占据大部分现有算力。

H100发布于2022年,到2025年已成为主流,H200、B100等下一代芯片将在2026-2028年接棒。

算力的指数级增长是维持AI能力进步的前提,但也提出供应链压力问题:芯片短缺或物流受阻,将直接影响模型训练和推理能力。Epoch AI强调,这种“算力军备竞赛”仍将持续,是AI发展速度的核心支撑。

趋势五:GPT-5在基准测试上延续飞跃,但市场震撼感有限

Epoch AI数据显示,GPT-4和GPT-5在各大基准测试上的表现,相比前一代均实现了显著提升。例如,在MMLU、MATH、TruthfulQA、HumanEval、GPQA Diamond、MATH Level 5以及Mock AIME 24-25等关键测试中,GPT-4相较GPT-3的成绩提升幅度从37%到84%不等,而GPT-5在同样基准上的提升幅度几乎与GPT-4持平,继续巩固了其在前沿AI模型中的领先地位。

尽管GPT-5在性能上相比GPT-4依旧有大幅进步,但部分市场人士感到“震撼感不足”。Epoch AI分析认为,这主要是由于过去两年模型发布节奏加快所致,而非能力增长放缓。从GPT-3到GPT-4用了约两年,而从GPT-4到GPT-5仅一年,因此公众对GPT-5的期待被抬高,而实际性能飞跃依然非常显著。

这一趋势表明,AI能力增长仍在高速推进,但频繁的中间版本更新容易导致公众对“性能进步幅度”的感知与实际情况存在偏差。

趋势六:ChatGPT单次查询能耗低于开灯泡五分钟

Josh估算了GPT-4o一次查询的平均能耗,结果显示其消耗低于点亮一只灯泡五分钟。这一估算后来得到了Sam Altman的确认,也与Google公布的Gemini模型每次查询能耗数据相近。

AI能源消耗一直是公众关注的焦点。这个数据帮助量化了成本,将AI的能耗放在日常家庭活动的背景中进行比较:单次查询消耗相对微小。然而,随着全球使用量的指数级增长,AI整体能耗仍在持续上升,未来可能成为更显著的问题。

趋势七:DeepSeek优化Transformer架构,实现低成本高性能

2025年,DeepSeek团队在其v3论文中提出了三项关键技术,使其开源预训练模型在当时达到了最佳性能,同时所需算力仅为下一优开源模型Llama 3的十分之一。具体技术包括:

多头潜在注意力(MLA)——降低推理内存占用,提高计算效率

混合专家(MoE)架构创新——提升模型参数利用率

多标记预测(Multi-token Prediction)——加速训练过程,提高学习效率

仅三天后,DeepSeek发布了推理模型R1,其性能与OpenAI的o1相当,但开发成本可能只为后者的一小部分。

这一案例展示了AI训练算力效率的趋势:通过算法创新和数据优化,模型开发成本每年可降低约3倍。换句话说,随着训练技术和数据改进,前沿模型不必依赖极端算力,也能在性能上快速追赶顶尖实验室成果。这不仅为开源模型提供了可行路径,也推动整个行业在效率和成本上实现质的提升。

趋势八:推理模型扩展空间或仅剩1-2年

Josh分析了强化学习(RL)在推理训练中的算力增长情况。OpenAI和Anthropic等前沿实验室在2025年初指出,这类强化学习扩展的速度无法长期维持,可能在1-2年内触及算力基础设施的极限。

推理能力已成为AI模型性能提升的核心因素,尤其在数学、编程和复杂推理任务中表现显著。然而,这种能力的进一步扩展面临硬件和成本瓶颈,意味着2024-2025年的能力爆发期可能即将放缓。企业若想保持领先,需要寻找新的增长路径,例如更高效的数据利用、更优的模型架构,或通过递归式“AI辅助AI研发”实现性能突破。

推理能力增长受限提醒行业,算力并非无限,性能提升有天花板。未来的竞争将更依赖算法创新、数据优化和研发策略,而非单纯增加算力。

趋势九:“AI曼哈顿计划”潜力惊人

Epoch AI分析指出,如果美国建立一个类似曼哈顿计划或阿波罗计划规模的国家级AI项目,其训练规模可能达到比GPT-4大约10,000倍。

2024年11月,美国-中国经济与安全审查委员会建议,国会应“建立并资助类似曼哈顿计划的AI项目,竞相获取通用人工智能能力”。这一设想表明,国家级集中投入在理论上可以实现前所未有的AI算力规模,但也提出了两大问题:投入与回报——动辄数千亿美元的资金是否能带来实际的AGI突破尚不确定;技术与管理挑战,因为如此大规模的训练不仅需要算力,还涉及数据、算法优化、硬件保障以及跨机构协调。

这一趋势揭示了AI能力扩展的极端可能性,同时提醒政策制定者和公众:国家级项目虽有潜力,但其可行性与风险必须审慎评估。

趋势十:AI价值主要来自广泛自动化,而非科研加速

许多关于AI爆炸性增长的叙事,例如山姆·奥特曼(Sam Altman)德米斯·哈萨比斯(Demis Hassabis)达里奥·阿莫迪(Dario Amodei)提出的观点,都认为研发自动化是推动AI快速发展的关键杠杆。这意味着,AI可能会迅速、明显地在特定领域产生影响,例如自动化科研中的最后环节,从而在AI公司内部带来快速突破。

然而,更可能的情况是,AI对社会的影响呈现分散且渐进的模式:随着不同组织采用AI提高效率,其效应将在数年甚至数十年间逐步显现。这提示政策制定者和企业决策者,应关注AI在各行业的广泛应用与效率提升,而不仅仅寄希望于短期科研奇迹。

总的来说,AI能力仍在加速,算力、算法、数据和强化学习持续推动模型进步;成本持续下降,为开源和中小团队提供了追赶机会;但能源消耗、算力瓶颈、评测差异和能力天花板仍是行业必须面对的现实。

未来的AI发展呈现双重特征:一方面,能力与效率持续提升,前沿实验室不断刷新极限;另一方面,迭代加速、市场期望、政策和监管的不确定性,使得整个行业面临高度动态的竞争环境。

正如Epoch AI所示,AI行业在狂热与理性之间不断重写自己的故事:从“更大模型”到“更优算法”,从“闭源垄断”到“开源狂飙”,从“算力军备竞赛”到“效率革命”。唯有通过数据与分析,公众才能在信息洪流中保持清醒,理解AI发展的真实节奏与潜在影响。

本文来自“腾讯科技,编译:无忌,编辑:博阳,36氪经授权发布。

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

折叠屏不是昙花一现,但接下来还要证明能变成什么。

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业