周伯文团队提出NatureBench:AI写的论文,能登上顶刊Nature吗?
目前的AI Agent,能在顶级学术期刊Nature论文的核心实验中超过人类研究者吗?
过去的评测体系,要么侧重论文复现能力,衡量是否能够还原已有方法,要么关注 Kaggle 竞赛或模型后训练任务的工程优化能力,但仍缺乏对一个更关键问题的系统评估:
AI Agent 是否能够在真实科学论文设定下独立改进方法,并超越原论文 SOTA。
针对这一问题,清华大学教授、上海人工智能实验室主任周伯文团队及其合作者提出了跨学科基准NatureBench,用于评估AI coding Agent在Nature系列论文核心实验中的复现与改进能力。
论文链接:https://arxiv.org/pdf/2606.24530
结果显示,即使是实验中表现最强的Claude Opus 4.7 + Claude Code,也只在 17.8% 的任务上实现Surpass-SOTA、在 47.8% 的任务上达到或超过论文SOTA。这些结果表明,当前AI Agent已经能在部分真实科学任务中接近甚至超过原论文结果,但稳定超越能力仍然有限。
NatureBench是如何设计的?
NatureBench 包含 90 个真实科学任务、覆盖 6 大领域的基准,其核心是把真实科学论文做成能运行、能评分、也能复现的容器化任务。
为此,研究团队设计了自动化流程NatureGym,一套将Nature系列已发表论文转化为可直接运行的Agent任务的流水线。
NatureGym将格式、工具链和数据模态各异的论文统一标准化为同一可复现的任务格式,同时设置了一个信息防火墙(information firewall),对原始方法保密,要求 Agent 自主发现解决方案而非直接复现。评估器、真实标签与 SOTA 目标均驻留于宿主侧评估服务中,Agent无法直接访问。
具体流程分为以下三步:
第一步是筛选论文。他们从 10 本 Nature 系列期刊中收集 2022 到 2025 年约 5500篇论文,去掉新闻、社论、综述等非研究文章,再筛出能转成机器学习任务、评估可自动化、数据公开完整且不超过 50GB 的论文。
第二步是获取代码和数据,并划定任务起点,保证 Agent 只能从核心算法的输入端开始,不能看到中间结果或最终结果。
第三步是把论文封装成标准任务包,并通过 36 项自动化检查,最后约 160 个任务包进入后续校准。
图|NatureGym 流程。
任务包构建完成后,他们进行了质量校准,分两轮检查任务。Base模式用于排查任务定义、评测和环境是否有问题;Reproduce模式则让Agent额外看到源论文,用来验证任务包是否支持复现原方法。
最终,NatureBench定稿为 90 个任务、333 个评估实例,覆盖 6 本Nature 系列期刊的多个研究方向,共涉及 81 种主要指标。
图|NatureBench 覆盖情况。
为统一比较不同任务的结果,他们定义了归一化相对差距 g。g ≥ 0,表示达到或超过论文 SOTA,g > 0.1,则算作明确超越。每个任务给 Agent 留出 4 小时完成,并允许通过评估多次提交查看反馈。任务结束后,他们使用Claude Sonnet 4.6做事后检查,排除伪造输出、反查答案,以及利用反馈机制取巧等行为。
图|NatureBench 的任务构建与评测流程。
实验结果
研究团队共评测了 10 款Agent配置,覆盖Claude Code、Codex CLI 和 Gemini CLI 三种 harness。所有 Agent 均禁用 Web 搜索,以避免直接检索源论文或数据集内容。整体结果如下:
在 10 款配置中,Claude Opus 4.7 + Claude Code 按整体 Surpass-SOTA 排名第一,Surpass-SOTA为17.8%,Match-SOTA为47.8%。
图|NatureBench 上的主要结果,按整体 Surpass-SOTA 排序。
在提交质量上,Claude Opus的两种配置最稳定,Completion Rate和Score Rate均为100%,没有无效提交;GPT-5.5的Score Rate为98.9%,Completion Rate 为 84.4%,还有 13 次提交被事后 judge 判定为无效捷径。
图|NatureBench 上各 Agent 的 gap 总结与提交率。
从任务分布看,关系推理的 Match-SOTA 率最高,达到 60.0%;蛋白质生物学和细胞组学分别为 37.5% 和 35.5%;物理建模、分子设计和生物医学建模则分别为 26.9%、18.2%和 17.9%。
图|NatureBench 在不同科学领域和学科范围下的表现。
此外,相比单学科任务,跨学科任务的 Match-SOTA率和中位 g 都更低。75 个单学科任务的Match-SOTA率为33.1%,15 个跨学科任务为 28.0%;中位 g 分别为 -0.13 和 -0.21。
图|NatureBench 上各 Agent 的差距分布与汇总。
研究团队还对 900 次运行进行了路径标注。在达到 Match-SOTA 的运行中,监督代理预测、搜索/调参、工程流水线和预训练/扩展共计占 82.7%。在未达到 Match-SOTA 或没有有效分数的运行中,失败更多出现在方法层和执行层,分别占 61.1% 和 28.7%;其中,错误方法选择占 45.1%,预算或时间不足占 24.4%。
图|900 次 NatureBench 运行中所有 Agent 的解题机制。
研究团队还给出了几个具体案例。
例如,在癌症基因识别任务中,Claude Opus 4.7 采用 ChebNet/GNN 集成方法,将 g 值从 -0.017 提升至 +0.177,达到 Match-SOTA 水平;在基因组序列预测任务中,GPT-5.5 共进行了 258 次提交,最佳 g 值为 -0.141,仍低于 SOTA;在有机反应产物预测任务中,DeepSeek-V4-Pro 使用 Seq2Seq 反应建模方法,Top-1 准确率为 58.5%,距离原任务 90.8% 的 SOTA 水平仍有明显差距。
不足与未来方向
尽管 NatureBench 让科学任务评测变得更可执行、更标准化,但研究团队也指出,这套基准也存在以下不足:
首先,它只覆盖能够被抽象为机器学习任务且可以自动评分的核心定量问题。湿实验验证、纯理论推导、硬件或物理交互类研究,以及依赖人工判断或外部服务评分的贡献,NatureBench 都未涉及。
其次,研究团队指出,部分任务并非完整复现整篇论文,而是抽取其中一个核心实验进行评测。这些任务仍对应论文中的关键定量问题,但只覆盖部分实验实例和指标。因此,NatureBench 衡量的是 Agent 在具体任务上的表现,而不是对原论文全部贡献的完整评价。
此外,统一的 4 小时墙钟预算和单卡设置,也可能影响部分任务的完成度。研究团队观察到,失败案例主要源于方法选择不当和执行深度不足,其中一部分与计算资源或时间预算受限有关。部分失败并不完全反映 Agent 对任务理解不足,也可能源于既定资源约束下的方法探索和执行不足。
NatureBench 基于公开论文和公开数据构建,尽管研究团队通过禁用 Web 搜索、设置隐藏评测服务,并使用 post-hoc judge 过滤投机式提交,但仍然存在数据泄露方面的隐患。
最后,g 值本身也有解释边界。当论文 SOTA 已经接近指标上限时,普通性能差距可能被放大为较大的负值;而单一主指标也可能只覆盖原论文多目标评估的一部分。因此,未来需更强调 Surpass-SOTA、Match-SOTA 和中位数表现,而不是只看平均分。
当然,研究团队也指出了几个可能的未来研究方向。例如:
扩大任务覆盖范围,从单个核心实验进一步走向更完整的论文复现;设计更细分的资源预算,区分短时、长时、单卡和多卡设置;改进评测判定方式,更清楚地区分理解错误、方法选择错误、执行不足和资源受限带来的失败;引入更丰富的实验实例和指标,让评测结果更接近真实科研复现中的复杂度。
本文来自微信公众号“学术头条”(ID:SciTouTiao),作者:学术头条,36氪经授权发布。















