谷歌发布“AI协同数学家”:刷新最难数学基准SOTA,与牛津教授攻克数十年无解难题
群论领域数十年无解的第21.10号问题,最近在 Google DeepMind 新 Agent 系统 AI Co-Mathematician 的协助下,被牛津大学数学家 Marc Lackenby 破解了。
以往的数学研究,研究团队需要反复确认问题边界,判断哪些文献真正相关,做小规模计算实验建立直觉。AI 在数学上的提升,也更多体现在局部能力上:比如更强的推理、更成熟的形式化证明、更方便的工具调用。但这些能力,还没有被整合成可以持续推进的研究流程。
AI Co-Mathematician 试图解决的,正是这一问题:它不再只是回答某一步推理、补一段证明,而是打造能长期协作的多Agent工作台。在群论问题的解答上,它没有直接给出答案,而是提出了一条富有启发性的证明思路。正是在这一份存在缺口的草稿里,牛津大学数学家 Marc Lackenby 看到了突破口,经过他与 Agent 的反复配合,该问题最终被推进到解答。
新 Agent 上线后,Google DeepMind 研究团队在论文指出,AI Co-Mathematician 刷新了最难数学基准 SOTA ,在 FrontierMath Tier 4 上取得了 48% 的准确率。这说明该 Agent 的参与不仅改变了协作方式,也带来了可量化的性能提升。
论文链接:https://arxiv.org/abs/2605.06651
AI Co-Mathematician:长期协作的多Agent工作台
AI Co-Mathematician 是一个专为数学研究设计的多 Agent 系统。
据论文描述,在这一系统中,用户主要与最上层的项目协调 Agent 交互,由它先澄清问题边界、确认研究目标,再把任务拆分给不同工作流。各条工作流会继续调用文献检索、代码实验、证明尝试、结果审查等子 Agent,并把中间结果写回共享文件系统。最终交付的内容,也不是一段容易丢失上下文的对话,而是一份持续更新的工作文稿,里面保留了边注、来源说明、内部链接和审查痕迹。
图|典型 AI Co-Mathematician 工作空间中各类 Agent 组织结构的简化示意图。箭头表示标准的信息传递路径,这些路径用于从用户收集信息,并向各 Agent分发来自用户的指令
研究团队强调,Agent 会持续记录所有失败的假设、走不通的路线和审查中暴露出的漏洞,并将这些内容作为正式的研究上下文保存下来,而不是简单丢弃。他们提出,在数学研究里,“什么方法不行”本身就是重要信息,因此,失败的探索并不是可以忽略的噪音,而是后续重设问题、调整策略和重新开辟研究路径的重要依据。围绕同一研究目标,这一系统可以并行推进多条工作流,并根据需要随时增补;各条工作流会持续回传阶段性进展、产出经过审阅的报告;若某条工作流最终未能完成任务,系统会直接给出醒目警告。
图|单个工作流由一系列动作构成,这些动作由工作流协调 Agent 执行,并可能引起项目状态和/或用户界面的更新
同时,研究团队也在“不确定性管理”上设置了约束:代码未通过测试,不能算完成;报告未通过审查,不能直接定稿;如果某条研究路径长时间卡住,Agent 也必须把问题明确暴露给用户,而不是继续用形式完整的文稿掩盖其中的逻辑缺口。
图|一旦研究问题和目标被确定,项目协调者就会安排各个工作流,以推动目标的实现
刷新最难数学AI基准SOTA,参与真实数学研究
在基准测试上,AI Co-Mathematician 在 FrontierMath Tier 4 上取得了 48% 的准确率,创下了 AI 在该基准上的新 SOTA 分数。具体来说,在去掉 2 道公开样例题后,它答对了 48 道非公开题中的 23 道。
FrontierMath 是 Epoch AI 开发的高难数学基准,共收录 350 道原创题目,覆盖现代数学多个分支。其中最难的 Tier 4 只有 50 题。Epoch 团队描述,这一层级里的部分问题,AI 可能在未来数十年内仍无法解决,人类专家解出一道题通常也需要数天。
相比之下,其基座模型 Gemini 3.1 Pro 在同一测试中的准确率为 19%。并且,研究团队强调,这 23 道答对的题目里,有 3 道此前从未被任何已评测系统解出。
图|Gemini 3.1 Pro、Gemini 3.1 Deep Think,以及 AI Co-Mathematician(同样基于 Gemini 3.1)在一项内部研究级数学基准测试上的准确率得分
真实使用案例同样值得注意。研究团队指出,这些结果均由数学家直接完成,中间没有 Google DeepMind 研究人员介入。
其中,牛津大学数学家 Marc Lackenby 借助该系统推进了 KourovkaNotebook 第 21.10 号问题;数学家 Semon Rezchikov 在哈密顿系统相关子问题上得到了一条包含关键引理的证明路线;数学家 Gergely Bérczi 则获得了关于 Stirling 系数问题的证明尝试与计算证据。不过,在 Bérczi 的研究中,相关证明在论文中仍被标注为“处于详细人工审查中”,Rezchikov 的研究比较也主要是个案经验,而非受控实验。这说明该模型在回路中的协作形态已经具有现实价值,但不能直推出 Agent 已经能够稳定、独立地完成开放式数学研究。
不足与未来方向
研究团队也承认了该 Agent 系统的不足:
例如,多轮评审并不必然带来更可靠的结果。有时候原本存在缺陷的论证,会在反复修改后变得越来越像“已经通过审查”,但其中的真实漏洞并没有消失;其次,不同 Agent 之间可能迟迟无法形成共识,导致 Agent 陷入无休止的修改与驳回循环,推理质量反而不断下降。
同时,该 Agent 系统目前也还无法脱离人类持续介入,稳定完成长程研究任务。长时间自治也意味着用户必须让出一部分控制权,而当前模型在遭遇意外困难时,何时止步、何时求助的判断,仍然明显落后于人类研究者。此外,预期排版精良的 LaTeX 文稿,很容易让人产生“内容严谨”的错觉。
此外,研究团队对未来方向的表述也相对克制。他们认为,下一步更重要的,不是单纯追求更强的结果生成能力,而是发展新的评估框架,用来衡量协作效果、有状态探索能力,以及对不确定性的严格管理。与此同时,如何控制自动化输出带来的语义噪声、减轻同行评审负担,并保住人类对论文价值的整体判断,也是未来研究者必须面对的问题。
与其说 AI co-mathematician 正在成为一名能够独立攻克难题的“数学家”,不如说它正在显露出另一种可能:在漫长、曲折而充满试错的研究过程中,AI 作为人类可以持续协作的对象存在。
本文来自微信公众号 “学术头条”(ID:SciTouTiao),作者:学术头条,36氪经授权发布。















