上海交大团队：让Claude Code在你睡觉时做“靠谱”科研，两篇论文被AI顶会接收

账号已注销·2026年05月07日 19:54

如何让AI写的论文更靠谱？

目前，自主科研 AI Agent 已经能够跑通“从灵感到论文”的完整流程。我们一觉醒来，Agent 也许已经跑完实验、甚至能够写出一篇有模有样的论文了。

听起来很美好，但我们怎么知道，Agent 有没有在结论里悄悄“说谎”？

目前，Agent 仍存在两个关键问题，一是生成和审查常常由同一模型系列完成，许多系统性错误因此难以在内部暴露；其二，当一个 Agent 在几乎无人监督的情况下连续工作数天后，其最终给出的结论往往难以判断是否真的有充分证据支撑。

针对这些问题，上海交通大学团队提出了“在睡眠中自动研究”（Auto-Research-in-sleep，ARIS），一个用于自动化科研的开源研究 harness。

论文链接：https://arxiv.org/abs/2605.03042

这项工作的重点，不是让 Agent 更快地写出论文，而是让写出的论文更经得起检验。

值得一提的是，在社区实操案例展示中，已有研究人员使用 ARIS 全流程完成了各自论文，并被会议接受。

Aris：让Claude Code在你睡觉时做科研

据论文描述，Aris的系统拓扑由三层构成：

第一层：执行层，提供具体能力。由可复用的 Markdown 定义技能和持久化研究 Wiki 构成。

第二层：编排层，负责把这些能力串成完整流程，5 个端到端工作流—— idea发现、实验桥接、自动审查循环、论文撰写、rebuttal，覆盖从发现到投稿后的 4 个研究阶段。

第三层：保障层，这是 Aris 最核心的创新，负责证据到主张的审计以及文稿检查。包括 3 阶段证据-声明审计级联、5 遍科学写作编辑流水线、数学证明检查器、视觉PDF审查，以及引用审计。

图｜Aris 系统拓扑。6 组组件通过带标签的关系相互交互（见左侧边栏）：Meta-Optimization 外循环对 Assurance 层进行门控，后者负责检查 Artifacts；Artifacts 由 Workflows 生成和消费，而 Workflows 负责编排 Skills；Skills 则调用 MCP 与 Tool Bridges，以访问外部模型和数据。右侧的 executor 和 reviewer 使用来自模型系列。ARIS-Code CLI 将所有组件打包为一个独立的二进制程序。

核心机制：跨模型对抗协作

研究团队判断，单个 Agent 难以可靠地完成长程研究任务。因此，他们采用跨模型家族的“执行-审查-修正”循环。

其中，执行者（默认推荐 Claude 家族）负责产出代码、实验或论文草稿；审查者（默认推荐 GPT-5.4 家族）在预定义评分标准下打分，并返回结构化的行动项；执行者据此修正后再次提交如此反复，直到评分达标。

图｜跨模型对抗式协作通过“执行者生成”与“外部模型批评、可执行的修订请求以及收敛性检查”交替进行。审查者的访问权限范围可以从仅查看文档，到访问整个代码仓库

端到端工作流

在这套机制之上，ARIS 组织了 5 条端到端工作流。如下：

工作流1：创意发现，负责文献调研、新颖性检查和实验规划；

工作流2：实验桥接，把计划推进到代码实现、算力执行和结果回收；

工作流3：自动审查循环，每轮将草稿提交给跨模型审查者进行结构化评分，提取行动项，按需运行 GPU 实验获取新证据，修订受影响章节，检查收敛；

工作流4：论文写作阶段，系统会依次完成 7 个关键步骤：先做论文规划和图表生成，再进行 LaTeX 撰写与五轮编辑；如有需要，再加入证明检查，随后进行结论审计、编译，并通过两轮基于 GPT-5.4 xhigh 的视觉审查与自动修订进入自动改进循环；

工作流5：投稿后阶段，系统会一次完成解析审稿意见、拆分关键问题、规划回应策略、起草回复、通过三道安全检查、进行压力测试，最后定稿。其中的安全检查分别用于防止捏造、过度承诺和遗漏回应。

图｜ARIS 工作流库。上：5 条工作流及其产物契约的端到端组合，按研究的 4 个阶段分组，分别为发现、实验、成稿和投稿后阶段；虚线表示审稿人反馈、由 GPU 触发的证据收集，以及 Wiki 记忆。下：正文未单独展开的几条工作流的压缩内部结构，包括 W1创意发现（带有审稿人门控的迭代细化）、W1.5 实验桥接（带有代码审查和自动调试回退）以及 W4 回复审稿意见（带有安全门和压力测试）。

为AI输出增加“自证安全网”

ARIS 最有特点的设计在于设置了 3 步审计链。第一步，研究团队检查实验本身是否可靠，重点排查伪标签、幽灵结果、未执行指标和超范围外推等问题；第二步，他们把每一条候选结论与现有证据逐一对应，判断其是“有支持”“部分支持”还是“不成立”；第三步，他们则再回到论文文本，直接核对原始结果、实验设置和文中的数字与表是否一致。

在这条审计链之外，研究团队还设置了额外保障。初稿完成后，ARIS 会进行 5 轮科学编辑，依次处理冗余表达、主动语态、局部连贯、术语一致性和数字一致性；对于理论成分较重的论文，还会调用证明检查器审查证明义务；在审稿阶段，系统会检查图注错位、版面异常和表格可读性问题；最后进行引文核验，不仅检查文献是否存在、元数据是否正确，也检查引用是否真的支持正文中的论断。

图｜证据到主张审计级联。阶段 1（experiment-audit，实验审计）：审查者对评估脚本和结果文件进行审计，以检查完整性失效模式。阶段 2（result-to-claim，从结果到主张）：将结果映射为明确的主张判定（支持、部分支持、被证伪）；凡存在审计失败的问题，相关主张都会被降级处理。阶段 3（paper-claim-audit，论文主张审计）：一名不带任何上下文信息的全新审查者，将稿件中的每一条定量主张与主张台账及原始结果文件逐一比对。

从“反复试错”到“螺旋式学习”

研究知识库也是 ARIS 的重要组成部分。它不是普通笔记，而是项目级的持久化记录系统，持续保存相关论文、研究想法、实验过程和阶段性结论，并记录它们之间的关联。没有这套记忆机制时，同一个被证明行不通的想法，可能会在不同轮次中被反复提出；有了它，失败方向会被及时排除，已经验证的结论则会成为下一轮研究的起点。

图｜为什么 wiki 很重要。没有 wiki 时（左），每次会话都从一张白纸开始；同一个失败的想法 A 可能会被无限次重复尝试，因为系统无法记住先前的结果。有了 wiki 之后（右），第 1 次会话中的失败会被记录下来；第 2 次会话在构思阶段会读取 wiki，跳过 A，转而成功尝试 B；第 3 次会话则在 B 的基础上继续推进，并探索 C/D。失败的想法会变成“禁试清单”，而已验证的论断则会成为下一轮构思的基础，从而把一次性的研究过程转变为螺旋式学习。

效果怎么样？

截至目前，ARIS 的技能库已从最初的 21 个核心技能扩展到 65 个以上，覆盖机器人学、硬件设计、通信、数学证明、基金申请和演示生成等多个方向。同时，ARIS 也已在 Claude Code、Codex CLI 和 Cursor 三个平台上完成测试，审查端目前可接入 GPT、Gemini、DeepSeek 等多种模型后端。

研究团队还给出了一次真实的隔夜运行记录。在大约 8 小时内，ARIS 完成了 4 轮“审查-修改”循环，内部审查分数从 5.0/10 提升到 7.5/10，其间触发了 20 多次 GPU 实验，并主动删除了一些缺乏足够证据支撑的结论。这说明，ARIS 至少已经能把“审查驱动修改”变成可执行的流程，而不只是停留在措辞润色层面。

不过，研究团队对这组结果的表述非常克制。他们在论文强调，这些都只是观察性证据，不能据此做出因果判断。也就是说，这次运行只能说明“结论裁剪”和“审查驱动修改”可以在真实流程中被操作化，不能进一步证明跨家族审查一定优于同家族审查，也不能说明当前的双审查者结构已经是最优方案。

不足与未来方向

缺乏受控评估是目前研究最主要的局限。论文中所有报告结果均为观察性记录，研究团队也承认，模型选择、任务难度和运行强度都会影响结果，无法将效果在因果层面归因于 ARIS 本身。

另一方面，ARIS 并不能保证任何输出一定正确、新颖，或保证科学上合理。三阶段审计链可以拦住不少常见失真，但不能保证发现所有错误或伪造。如果审查者持续偏好某种方法论，系统最终优化的可能是对审查口味的迎合，而不一定是真正的科学质量。论文也指出，最终的研究方向选择、证据核验和提交决定，仍然需要由人负责；在安全层面，仓库级审查还可能涉及将源代码发送给外部模型接口，而本地审查路由目前仍处于规划阶段。

值得肯定的是，ARIS 里这套机制未必只服务于论文写作。审查者独立、“证据到结论”审计和可追溯台账，理论上都可以被置于在模型输出与后续训练信号之间，成为自我改进系统的一层显式监督。

归根结底，ARIS 真正推进的，不是自动化科研的速度，而是它的可信性。它未必已经给标准答案，但至少把一个长期被忽视的问题摆到了台面上，对自动化科研来说，这或许比再快一点、更自动一点更重要。

本文来自微信公众号 “学术头条”（ID：SciTouTiao），作者：学术头条，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。