谷歌发布“AI协同数学家”：刷新最难数学基准SOTA，与牛津教授攻克数十年无解难题

账号已注销·2026年05月11日 17:30

一个专为数学研究设计的多 Agent 系统

群论领域数十年无解的第21.10号问题，最近在 Google DeepMind 新 Agent 系统 AI Co-Mathematician 的协助下，被牛津大学数学家 Marc Lackenby 破解了。

以往的数学研究，研究团队需要反复确认问题边界，判断哪些文献真正相关，做小规模计算实验建立直觉。AI 在数学上的提升，也更多体现在局部能力上：比如更强的推理、更成熟的形式化证明、更方便的工具调用。但这些能力，还没有被整合成可以持续推进的研究流程。

AI Co-Mathematician 试图解决的，正是这一问题：它不再只是回答某一步推理、补一段证明，而是打造能长期协作的多Agent工作台。在群论问题的解答上，它没有直接给出答案，而是提出了一条富有启发性的证明思路。正是在这一份存在缺口的草稿里，牛津大学数学家 Marc Lackenby 看到了突破口，经过他与 Agent 的反复配合，该问题最终被推进到解答。

新 Agent 上线后，Google DeepMind 研究团队在论文指出，AI Co-Mathematician 刷新了最难数学基准 SOTA ，在 FrontierMath Tier 4 上取得了 48% 的准确率。这说明该 Agent 的参与不仅改变了协作方式，也带来了可量化的性能提升。

论文链接：https://arxiv.org/abs/2605.06651

AI Co-Mathematician：长期协作的多Agent工作台

AI Co-Mathematician 是一个专为数学研究设计的多 Agent 系统。

据论文描述，在这一系统中，用户主要与最上层的项目协调 Agent 交互，由它先澄清问题边界、确认研究目标，再把任务拆分给不同工作流。各条工作流会继续调用文献检索、代码实验、证明尝试、结果审查等子 Agent，并把中间结果写回共享文件系统。最终交付的内容，也不是一段容易丢失上下文的对话，而是一份持续更新的工作文稿，里面保留了边注、来源说明、内部链接和审查痕迹。

图｜典型 AI Co-Mathematician 工作空间中各类 Agent 组织结构的简化示意图。箭头表示标准的信息传递路径，这些路径用于从用户收集信息，并向各 Agent分发来自用户的指令

研究团队强调，Agent 会持续记录所有失败的假设、走不通的路线和审查中暴露出的漏洞，并将这些内容作为正式的研究上下文保存下来，而不是简单丢弃。他们提出，在数学研究里，“什么方法不行”本身就是重要信息，因此，失败的探索并不是可以忽略的噪音，而是后续重设问题、调整策略和重新开辟研究路径的重要依据。围绕同一研究目标，这一系统可以并行推进多条工作流，并根据需要随时增补；各条工作流会持续回传阶段性进展、产出经过审阅的报告；若某条工作流最终未能完成任务，系统会直接给出醒目警告。

图｜单个工作流由一系列动作构成，这些动作由工作流协调 Agent 执行，并可能引起项目状态和/或用户界面的更新

同时，研究团队也在“不确定性管理”上设置了约束：代码未通过测试，不能算完成；报告未通过审查，不能直接定稿；如果某条研究路径长时间卡住，Agent 也必须把问题明确暴露给用户，而不是继续用形式完整的文稿掩盖其中的逻辑缺口。

图｜一旦研究问题和目标被确定，项目协调者就会安排各个工作流，以推动目标的实现

刷新最难数学AI基准SOTA，参与真实数学研究

在基准测试上，AI Co-Mathematician 在 FrontierMath Tier 4 上取得了 48% 的准确率，创下了 AI 在该基准上的新 SOTA 分数。具体来说，在去掉 2 道公开样例题后，它答对了 48 道非公开题中的 23 道。

FrontierMath 是 Epoch AI 开发的高难数学基准，共收录 350 道原创题目，覆盖现代数学多个分支。其中最难的 Tier 4 只有 50 题。Epoch 团队描述，这一层级里的部分问题，AI 可能在未来数十年内仍无法解决，人类专家解出一道题通常也需要数天。

相比之下，其基座模型 Gemini 3.1 Pro 在同一测试中的准确率为 19%。并且，研究团队强调，这 23 道答对的题目里，有 3 道此前从未被任何已评测系统解出。

图｜Gemini 3.1 Pro、Gemini 3.1 Deep Think，以及 AI Co-Mathematician（同样基于 Gemini 3.1）在一项内部研究级数学基准测试上的准确率得分

真实使用案例同样值得注意。研究团队指出，这些结果均由数学家直接完成，中间没有 Google DeepMind 研究人员介入。

其中，牛津大学数学家 Marc Lackenby 借助该系统推进了 KourovkaNotebook 第 21.10 号问题；数学家 Semon Rezchikov 在哈密顿系统相关子问题上得到了一条包含关键引理的证明路线；数学家 Gergely Bérczi 则获得了关于 Stirling 系数问题的证明尝试与计算证据。不过，在 Bérczi 的研究中，相关证明在论文中仍被标注为“处于详细人工审查中”，Rezchikov 的研究比较也主要是个案经验，而非受控实验。这说明该模型在回路中的协作形态已经具有现实价值，但不能直推出 Agent 已经能够稳定、独立地完成开放式数学研究。

不足与未来方向

研究团队也承认了该 Agent 系统的不足：

例如，多轮评审并不必然带来更可靠的结果。有时候原本存在缺陷的论证，会在反复修改后变得越来越像“已经通过审查”，但其中的真实漏洞并没有消失；其次，不同 Agent 之间可能迟迟无法形成共识，导致 Agent 陷入无休止的修改与驳回循环，推理质量反而不断下降。

同时，该 Agent 系统目前也还无法脱离人类持续介入，稳定完成长程研究任务。长时间自治也意味着用户必须让出一部分控制权，而当前模型在遭遇意外困难时，何时止步、何时求助的判断，仍然明显落后于人类研究者。此外，预期排版精良的 LaTeX 文稿，很容易让人产生“内容严谨”的错觉。

此外，研究团队对未来方向的表述也相对克制。他们认为，下一步更重要的，不是单纯追求更强的结果生成能力，而是发展新的评估框架，用来衡量协作效果、有状态探索能力，以及对不确定性的严格管理。与此同时，如何控制自动化输出带来的语义噪声、减轻同行评审负担，并保住人类对论文价值的整体判断，也是未来研究者必须面对的问题。

与其说 AI co-mathematician 正在成为一名能够独立攻克难题的“数学家”，不如说它正在显露出另一种可能：在漫长、曲折而充满试错的研究过程中，AI 作为人类可以持续协作的对象存在。

本文来自微信公众号 “学术头条”（ID：SciTouTiao），作者：学术头条，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

谷歌发布“AI协同数学家”：刷新最难数学基准SOTA，与牛津教授攻克数十年无解难题

AI Co-Mathematician：长期协作的多Agent工作台

刷新最难数学AI基准SOTA，参与真实数学研究

不足与未来方向

最近内容

下一篇