为防AI刷题，Nature等顶刊最新封面被做成数据集，考验模型科学推理能力

量子位·2025年08月26日 09:21

开源模型Qwen2.5-VL-7B准确率仅为56.8%

近年来，以GPT-4o、Gemini 2.5 Pro为代表的多模态大模型，在各大基准测试（如MMMU）中捷报频传，纷纷刷榜成功。

然而，这些令人瞩目的进展也带来了一个愈发严峻的问题：当现有的“题库”逐渐被提前预训练进模型，我们如何才能持续、准确地评估这些顶尖AI的真实能力？

为了应对这一挑战，上海交通大学王德泉教授课题组巧妙地将“动态基准”这一理念与不断更新的科学前沿相结合，提出了MAC（多模态学术封面）基准：既然科学知识本身在不断演进，为什么不用最新的科学内容来测试AI呢？

研究团队利用《Nature》《Science》《Cell》等188种顶级期刊的最新封面作为测试素材，从超过25,000个图文对中构建测试集。这些期刊每周或每月都会发布新刊，每期封面都经过顶尖科学家和专业编辑精心打造，蕴含着最前沿、最复杂的科学概念，从而评测多模态大模型是否能够理解艺术化表达的视觉元素与科学概念之间的深层关联。

结果发现，包括GPT-5-thinking在内的顶尖模型在面对这些最新科学内容时表现出了令人意外的局限性。表现最好的Step-3，准确率也仅为79.1%，开源模型Qwen2.5-VL-7B准确率仅为56.8%。

这项研究将发表在2025年语言模型大会（COLM）上。

测试设计：精心设计的”语义陷阱”

MAC的核心挑战在于：如何确保AI不能通过肤浅的视觉特征“蒙对”答案，而是更加深入的建立科学概念的理解。

研究者们设计了两种测试任务：

看图选文：给出期刊封面，从四个封面故事中选出对应的文本；
看文选图：给出封面故事，从四张封面中选出最匹配的图片。

关键在于“陷阱”的设计，为了防止AI通过肤浅特征作答，研究者们利用先进的嵌入模型（如CLIP）精心筛选出三个“语义干扰项”，从而使得它们在表面上与正确答案极为相似，只有真正理解科学概念的AI才能做出正确选择。

举个例子，如果正确的封面故事是关于“癌症耐药性机制”，那么干扰项可能是“癌症产生机理”或“癌细胞”——都与癌症相关，但科学概念完全不同。

尽管顶尖模型例如GPT-5-thinking和Gemini 2.5 Pro都能准确识别出选项图片中的“药丸”和“处方单”等视觉元素，但它们都未能将这些元素与封面故事中核心的“耐药性”或“癌症治疗机制”等科学概念联系起来，最终导致选择错误。

此外，研究者们还构建了MAC-2025年度快照，专门选取2024年1月至2025年2月发布的最新期刊内容，并计划每年更新，从而尽可能减少评估中的数据污染问题，确保即使对最新的模型也能保持足够的挑战性。

顶尖AI也会“理解偏差”

研究团队使用MAC-2025测试集，对包括GPT-4o和Step-3在内的业界领先模型进行了全面评估。

结果令人意外：即便是表现最强的Step-3，准确率也仅为79.1%，这与它们在其他基准上近乎完美的表现形成了鲜明对比。更有趣的是，开源模型Qwen2.5-VL-7B准确率仅为56.8%。

同时，GPT-5-thinking和Gemini 2.5 Pro的案例分析也暴露出当前多模态AI的一个关键局限：虽然在视觉识别方面已经相当出色，但在需要跨模态深层推理的科学理解任务上，距离人类水平还有相当差距。

DAD方法：让AI学会“分步思考”

面对这一挑战，研究团队没有止步于发现问题，而是进一步提出了DAD的解决方案。

DAD的核心思想是“分工协作”：

描述阶段：让多模态大模型（如GPT-4o）对封面图片进行详细的视觉描述，并生成伪思维链；
推理阶段：将描述结果和原始问题一起交给专门的语言推理模型，由它进行高层分析并做出最终选择。

这种结构化的两步法显著提升了模型表现。实验结果显示，使用DAD方法后，多个模型的准确率都获得了明显提升，证明了推理时间扩展在多模态科学理解任务中的有效性。

有趣的是，这种”先看再想”的方式，某种程度上模拟了人类专家在面对复杂科学问题时的思维过程——先仔细观察现象，再结合背景知识进行深入分析。

双重动态机制：确保持续挑战性

传统基准测试的最大问题是“一次性”——发布后内容固定，很快就会被模型“学会”。MAC通过动态数据和动态问题构建两种机制提出了一种动态基准构建范式：

动态数据：时间推进带来的自然难度提升

研究团队做了一个巧妙的对比实验：让模型分别在早期期刊数据（MAC-Old）和最新数据（MAC-2025）上测试。结果发现，所有模型在处理新知识时都表现出明显的性能下降。

这说明科学知识的自然演进本身就能为基准测试提供持续的挑战性。随着新理论、新发现、新技术的不断涌现，期刊封面所展现的科学概念也在持续更新，自然而然地对AI模型形成新的考验。

动态问题构建：利用最新AI技术提升测试难度

更有意思的是第二种机制：研究者们保持MAC-2025的题目内容不变，仅使用更强的嵌入模型（如与论文同期发布的SigLip2）重新生成语义干扰项。

结果显示，所有模型的准确率都出现了进一步的下滑。这揭示了一个有趣的现象：AI领域的进步不仅能提升模型能力，也能同步提升测试难度。

当我们有了更好的语义理解工具时，就能构造出更加精妙的“陷阱”，让基准测试始终保持在技术发展的前沿。这两种机制的结合，确保了MAC能够与科学发展和AI技术发展“齐头并进”，避免了传统静态基准容易过时的问题。

展望未来，MAC基准有望发展成为一个更加完善的评估平台。研究团队计划不仅扩展到更多科学期刊，还将考虑加入其他形式的动态科学内容，如最新的学术会议论文、科学新闻等。

同时，随着AI技术的快速发展，MAC基准本身也需要通过年度为周期的持续发布，来实现基准测试的持续演进。

当AI的能力不断逼近人类时，我们需要的正是这样能够与科学发展和技术进步一同演进的“试金石”，让我们更真实地理解AI的能力边界，也更清晰地看到通往真正智能的道路。

作者简介

论文第一作者是上海交通大学博士研究生蒋沫晗。他的研究方向包括多模态大模型，大模型智能体等。

论文的通讯作者为上海交通大学长聘教轨助理教授、博士生导师王德泉，他本科毕业于复旦大学，博士毕业于加州大学伯克利分校，师从Trevor Darrell教授。他的研究工作发表在CVPR、ICCV、ECCV、ICLR、ICML、ICRA、IROS等国际顶级会议，近五年论文谷歌学术总引用次数12000余次，H-index23。