谷歌发布“AI协同数学家”:刷新最难数学基准SOTA,与牛津教授攻克数十年无解难题

账号已注销·2026年05月11日 17:30
一个专为数学研究设计的多 Agent 系统

群论领域数十年无解的第21.10号问题,最近在 Google DeepMind 新 Agent 系统 AI Co-Mathematician 的协助下,被牛津大学数学家 Marc Lackenby 破解了。

以往的数学研究,研究团队需要反复确认问题边界,判断哪些文献真正相关,做小规模计算实验建立直觉。AI 在数学上的提升,也更多体现在局部能力上:比如更强的推理、更成熟的形式化证明、更方便的工具调用。但这些能力,还没有被整合成可以持续推进的研究流程。

AI Co-Mathematician 试图解决的,正是这一问题:它不再只是回答某一步推理、补一段证明,而是打造能长期协作的多Agent工作台。在群论问题的解答上,它没有直接给出答案,而是提出了一条富有启发性的证明思路。正是在这一份存在缺口的草稿里,牛津大学数学家 Marc Lackenby 看到了突破口,经过他与 Agent 的反复配合,该问题最终被推进到解答。

新 Agent 上线后,Google DeepMind 研究团队在论文指出,AI Co-Mathematician 刷新了最难数学基准 SOTA ,在 FrontierMath Tier 4 上取得了 48% 的准确率。这说明该 Agent 的参与不仅改变了协作方式,也带来了可量化的性能提升。

论文链接:https://arxiv.org/abs/2605.06651

AI Co-Mathematician:长期协作的多Agent工作台

AI Co-Mathematician 是一个专为数学研究设计的多 Agent 系统

据论文描述,在这一系统中,用户主要与最上层的项目协调 Agent 交互,由它先澄清问题边界、确认研究目标,再把任务拆分给不同工作流。各条工作流会继续调用文献检索、代码实验、证明尝试、结果审查等子 Agent,并把中间结果写回共享文件系统。最终交付的内容,也不是一段容易丢失上下文的对话,而是一份持续更新的工作文稿,里面保留了边注、来源说明、内部链接和审查痕迹

图|典型 AI Co-Mathematician 工作空间中各类 Agent 组织结构的简化示意图。箭头表示标准的信息传递路径,这些路径用于从用户收集信息,并向各 Agent分发来自用户的指令

研究团队强调,Agent 会持续记录所有失败的假设、走不通的路线和审查中暴露出的漏洞,并将这些内容作为正式的研究上下文保存下来,而不是简单丢弃。他们提出,在数学研究里,“什么方法不行”本身就是重要信息,因此,失败的探索并不是可以忽略的噪音,而是后续重设问题、调整策略和重新开辟研究路径的重要依据。围绕同一研究目标,这一系统可以并行推进多条工作流,并根据需要随时增补;各条工作流会持续回传阶段性进展、产出经过审阅的报告;若某条工作流最终未能完成任务,系统会直接给出醒目警告

图|单个工作流由一系列动作构成,这些动作由工作流协调 Agent 执行,并可能引起项目状态和/或用户界面的更新

同时,研究团队也在“不确定性管理”上设置了约束:代码未通过测试,不能算完成;报告未通过审查,不能直接定稿;如果某条研究路径长时间卡住,Agent 也必须把问题明确暴露给用户,而不是继续用形式完整的文稿掩盖其中的逻辑缺口。

图|一旦研究问题和目标被确定,项目协调者就会安排各个工作流,以推动目标的实现

刷新最难数学AI基准SOTA,参与真实数学研究

在基准测试上,AI Co-Mathematician 在 FrontierMath Tier 4 上取得了 48% 的准确率,创下了 AI 在该基准上的新 SOTA 分数。具体来说,在去掉 2 道公开样例题后,它答对了 48 道非公开题中的 23 道

FrontierMath 是 Epoch AI 开发的高难数学基准,共收录 350 道原创题目,覆盖现代数学多个分支。其中最难的 Tier 4 只有 50 题。Epoch 团队描述,这一层级里的部分问题,AI 可能在未来数十年内仍无法解决,人类专家解出一道题通常也需要数天

相比之下,其基座模型 Gemini 3.1 Pro 在同一测试中的准确率为 19%。并且,研究团队强调,这 23 道答对的题目里,有 3 道此前从未被任何已评测系统解出。

图|Gemini 3.1 Pro、Gemini 3.1 Deep Think,以及 AI Co-Mathematician(同样基于 Gemini 3.1)在一项内部研究级数学基准测试上的准确率得分

真实使用案例同样值得注意。研究团队指出,这些结果均由数学家直接完成,中间没有 Google DeepMind 研究人员介入。

其中,牛津大学数学家 Marc Lackenby 借助该系统推进了 KourovkaNotebook 第 21.10 号问题;数学家 Semon Rezchikov 在哈密顿系统相关子问题上得到了一条包含关键引理的证明路线;数学家 Gergely Bérczi 则获得了关于 Stirling 系数问题的证明尝试与计算证据。不过,在 Bérczi 的研究中,相关证明在论文中仍被标注为“处于详细人工审查中”,Rezchikov 的研究比较也主要是个案经验,而非受控实验。这说明该模型在回路中的协作形态已经具有现实价值,但不能直推出 Agent 已经能够稳定、独立地完成开放式数学研究。

不足与未来方向

研究团队也承认了该 Agent 系统的不足:

例如,多轮评审并不必然带来更可靠的结果。有时候原本存在缺陷的论证,会在反复修改后变得越来越像“已经通过审查”,但其中的真实漏洞并没有消失;其次,不同 Agent 之间可能迟迟无法形成共识,导致 Agent 陷入无休止的修改与驳回循环,推理质量反而不断下降。

同时,该 Agent 系统目前也还无法脱离人类持续介入,稳定完成长程研究任务。长时间自治也意味着用户必须让出一部分控制权,而当前模型在遭遇意外困难时,何时止步、何时求助的判断,仍然明显落后于人类研究者。此外,预期排版精良的 LaTeX 文稿,很容易让人产生“内容严谨”的错觉

此外,研究团队对未来方向的表述也相对克制。他们认为,下一步更重要的,不是单纯追求更强的结果生成能力,而是发展新的评估框架,用来衡量协作效果、有状态探索能力,以及对不确定性的严格管理。与此同时,如何控制自动化输出带来的语义噪声、减轻同行评审负担,并保住人类对论文价值的整体判断,也是未来研究者必须面对的问题。

与其说 AI co-mathematician 正在成为一名能够独立攻克难题的“数学家”,不如说它正在显露出另一种可能:在漫长、曲折而充满试错的研究过程中,AI 作为人类可以持续协作的对象存在。

本文来自微信公众号 “学术头条”(ID:SciTouTiao),作者:学术头条,36氪经授权发布。

+1
6

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业