上海交大团队:让Claude Code在你睡觉时做“靠谱”科研,两篇论文被AI顶会接收

账号已注销·2026年05月07日 19:54
如何让AI写的论文更靠谱?

目前,自主科研 AI Agent 已经能够跑通“从灵感到论文”的完整流程。我们一觉醒来,Agent 也许已经跑完实验、甚至能够写出一篇有模有样的论文了。

听起来很美好,但我们怎么知道,Agent 有没有在结论里悄悄“说谎”

目前,Agent 仍存在两个关键问题,一是生成和审查常常由同一模型系列完成,许多系统性错误因此难以在内部暴露;其二,当一个 Agent 在几乎无人监督的情况下连续工作数天后,其最终给出的结论往往难以判断是否真的有充分证据支撑

针对这些问题,上海交通大学团队提出了“在睡眠中自动研究”(Auto-Research-in-sleep,ARIS),一个用于自动化科研的开源研究 harness

论文链接:https://arxiv.org/abs/2605.03042

 

这项工作的重点,不是让 Agent 更快地写出论文,而是让写出的论文更经得起检验

值得一提的是,在社区实操案例展示中,已有研究人员使用 ARIS 全流程完成了各自论文,并被会议接受。

Aris:让Claude Code在你睡觉时做科研

据论文描述,Aris的系统拓扑由三层构成:

第一层:执行层,提供具体能力。由可复用的 Markdown 定义技能和持久化研究 Wiki 构成

第二层:编排层,负责把这些能力串成完整流程,5 个端到端工作流—— idea发现、实验桥接、自动审查循环、论文撰写、rebuttal,覆盖从发现到投稿后的 4 个研究阶段。

第三层:保障层,这是 Aris 最核心的创新,负责证据到主张的审计以及文稿检查。包括 3 阶段证据-声明审计级联、5 遍科学写作编辑流水线、数学证明检查器、视觉PDF审查,以及引用审计。

图|Aris 系统拓扑。6 组组件通过带标签的关系相互交互(见左侧边栏):Meta-Optimization 外循环对 Assurance 层进行门控,后者负责检查 Artifacts;Artifacts 由 Workflows 生成和消费,而 Workflows 负责编排 Skills;Skills 则调用 MCP 与 Tool Bridges,以访问外部模型和数据。右侧的 executor 和 reviewer 使用来自模型系列。ARIS-Code CLI 将所有组件打包为一个独立的二进制程序。

核心机制:跨模型对抗协作

研究团队判断,单个 Agent 难以可靠地完成长程研究任务。因此,他们采用跨模型家族的“执行-审查-修正”循环。

其中,执行者(默认推荐 Claude 家族)负责产出代码、实验或论文草稿;审查者(默认推荐 GPT-5.4 家族)在预定义评分标准下打分,并返回结构化的行动项;执行者据此修正后再次提交如此反复,直到评分达标。

图|跨模型对抗式协作通过“执行者生成”与“外部模型批评、可执行的修订请求以及收敛性检查”交替进行。审查者的访问权限范围可以从仅查看文档,到访问整个代码仓库

端到端工作流

在这套机制之上,ARIS 组织了 5 条端到端工作流。如下:

工作流1:创意发现,负责文献调研、新颖性检查和实验规划;

工作流2:实验桥接,把计划推进到代码实现、算力执行和结果回收;

工作流3:自动审查循环,每轮将草稿提交给跨模型审查者进行结构化评分,提取行动项,按需运行 GPU 实验获取新证据,修订受影响章节,检查收敛;

工作流4:论文写作阶段,系统会依次完成 7 个关键步骤:先做论文规划和图表生成,再进行 LaTeX 撰写与五轮编辑;如有需要,再加入证明检查,随后进行结论审计、编译,并通过两轮基于 GPT-5.4 xhigh 的视觉审查与自动修订进入自动改进循环;

工作流5:投稿后阶段,系统会一次完成解析审稿意见、拆分关键问题、规划回应策略、起草回复、通过三道安全检查、进行压力测试,最后定稿。其中的安全检查分别用于防止捏造、过度承诺和遗漏回应

图|ARIS 工作流库。上:5 条工作流及其产物契约的端到端组合,按研究的 4 个阶段分组,分别为发现、实验、成稿和投稿后阶段;虚线表示审稿人反馈、由 GPU 触发的证据收集,以及 Wiki 记忆。下:正文未单独展开的几条工作流的压缩内部结构,包括 W1创意发现(带有审稿人门控的迭代细化)、W1.5 实验桥接(带有代码审查和自动调试回退)以及 W4 回复审稿意见(带有安全门和压力测试)。

为AI输出增加“自证安全网”

ARIS 最有特点的设计在于设置了 3 步审计链。第一步,研究团队检查实验本身是否可靠,重点排查伪标签、幽灵结果、未执行指标和超范围外推等问题;第二步,他们把每一条候选结论与现有证据逐一对应,判断其是“有支持”“部分支持”还是“不成立”;第三步,他们则再回到论文文本,直接核对原始结果、实验设置和文中的数字与表是否一致

在这条审计链之外,研究团队还设置了额外保障。初稿完成后,ARIS 会进行 5 轮科学编辑,依次处理冗余表达、主动语态、局部连贯、术语一致性数字一致性;对于理论成分较重的论文,还会调用证明检查器审查证明义务;在审稿阶段,系统会检查图注错位、版面异常和表格可读性问题;最后进行引文核验,不仅检查文献是否存在、元数据是否正确,也检查引用是否真的支持正文中的论断。

图|证据到主张审计级联。阶段 1(experiment-audit,实验审计):审查者对评估脚本和结果文件进行审计,以检查完整性失效模式。阶段 2(result-to-claim,从结果到主张):将结果映射为明确的主张判定(支持、部分支持、被证伪);凡存在审计失败的问题,相关主张都会被降级处理。阶段 3(paper-claim-audit,论文主张审计):一名不带任何上下文信息的全新审查者,将稿件中的每一条定量主张与主张台账及原始结果文件逐一比对。

从“反复试错”到“螺旋式学习”

研究知识库也是 ARIS 的重要组成部分。它不是普通笔记,而是项目级的持久化记录系统,持续保存相关论文、研究想法、实验过程和阶段性结论,并记录它们之间的关联。没有这套记忆机制时,同一个被证明行不通的想法,可能会在不同轮次中被反复提出;有了它,失败方向会被及时排除,已经验证的结论则会成为下一轮研究的起点。

图|为什么 wiki 很重要。没有 wiki 时(左),每次会话都从一张白纸开始;同一个失败的想法 A 可能会被无限次重复尝试,因为系统无法记住先前的结果。有了 wiki 之后(右),第 1 次会话中的失败会被记录下来;第 2 次会话在构思阶段会读取 wiki,跳过 A,转而成功尝试 B;第 3 次会话则在 B 的基础上继续推进,并探索 C/D。失败的想法会变成“禁试清单”,而已验证的论断则会成为下一轮构思的基础,从而把一次性的研究过程转变为螺旋式学习。

效果怎么样?

截至目前,ARIS 的技能库已从最初的 21 个核心技能扩展到 65 个以上,覆盖机器人学、硬件设计、通信、数学证明、基金申请和演示生成等多个方向。同时,ARIS 也已在 Claude Code、Codex CLI 和 Cursor 三个平台上完成测试,审查端目前可接入 GPT、Gemini、DeepSeek 等多种模型后端。

研究团队还给出了一次真实的隔夜运行记录。在大约 8 小时内,ARIS 完成了 4 轮“审查-修改”循环,内部审查分数从 5.0/10 提升到 7.5/10,其间触发了 20 多次 GPU 实验,并主动删除了一些缺乏足够证据支撑的结论。这说明,ARIS 至少已经能把“审查驱动修改”变成可执行的流程,而不只是停留在措辞润色层面。

不过,研究团队对这组结果的表述非常克制。他们在论文强调,这些都只是观察性证据,不能据此做出因果判断。也就是说,这次运行只能说明“结论裁剪”和“审查驱动修改”可以在真实流程中被操作化,不能进一步证明跨家族审查一定优于同家族审查,也不能说明当前的双审查者结构已经是最优方案。

不足与未来方向

缺乏受控评估是目前研究最主要的局限。论文中所有报告结果均为观察性记录,研究团队也承认,模型选择、任务难度和运行强度都会影响结果,无法将效果在因果层面归因于 ARIS 本身。

另一方面,ARIS 并不能保证任何输出一定正确、新颖,或保证科学上合理。三阶段审计链可以拦住不少常见失真,但不能保证发现所有错误或伪造。如果审查者持续偏好某种方法论,系统最终优化的可能是对审查口味的迎合,而不一定是真正的科学质量。论文也指出,最终的研究方向选择、证据核验和提交决定,仍然需要由人负责;在安全层面,仓库级审查还可能涉及将源代码发送给外部模型接口,而本地审查路由目前仍处于规划阶段。

值得肯定的是,ARIS 里这套机制未必只服务于论文写作。审查者独立、“证据到结论”审计和可追溯台账,理论上都可以被置于在模型输出与后续训练信号之间,成为自我改进系统的一层显式监督。

归根结底,ARIS 真正推进的,不是自动化科研的速度,而是它的可信性。它未必已经给标准答案,但至少把一个长期被忽视的问题摆到了台面上,对自动化科研来说,这或许比再快一点、更自动一点更重要。

本文来自微信公众号 “学术头条”(ID:SciTouTiao),作者:学术头条,36氪经授权发布。

+1
1

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

超1亿人使用Suno制作音乐。

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业