哈佛物理教授疯了：我让AI写论文，结果两周干完博士一年工作，已发顶刊

新智元·2026年03月24日 19:04

哈佛物理学教授带AI读博，结果Claude 4.5在仅仅两周内，就产出一篇顶刊级论文，整个物理学圈都震了！而这个项目，人类博士生要干一年。科研的门槛，再次被击穿了……

Anthropic的Claude 4.5，在哈佛物理学大牛教授的指导下，写出了一篇震撼业内的高难度论文！

论文地址：https://arxiv.org/abs/2601.02484

哈佛教授的评价是：这篇论文，对量子场论贡献巨大。

人类博士生要干一两年的项目，它两周内就完成了。

消息一出，整个物理学界震惊了，导师和博士们集体破防——这个博，还有必要读吗？

AI写论文，比你快，还比你好

Claude 4.5当研究者，2周写出顶刊论文

事情是这样的：2025年底的寒冬，哈佛大学物理系教授Matthew Schwartz做了一个大胆的决定，训练一个AI当研究生。

作为量子场论领域的泰斗、写出过该领域教科书的大神， Schwartz教授想看看，如果自己连一行代码都不敲、一个公式都不手算，只靠「动嘴皮子」指挥AI，能不能搞出能发顶刊的前沿物理学论文？

他选中的「研究生」，就是刚发布不久的Claude 4.5。

谁都没想到，短短两周后，一篇关于量子色动力学（QCD）中「C-参数苏达科夫肩峰重求和」的高难度论文就横空出世。

这让整个物理学界炸锅了。

这个效率，简直让所有人头皮发麻：原本需要导师带博士生苦干1-2年的项目，现在AI两周就搞定了？？

更可怕的是，AI不仅能写代码，还能推导极其复杂的因式分解定理，要知道，这可是理论物理的命根子。

教授本人感叹说：「这可能是我写过最重要的一篇论文，不是因为物理本身，而是因为研究方法。从此以后，再也回不去了。」

在这篇论文中，Claude提出了一种新的分解定理。

用教授的话说，在理论物理里，这种定理并不多，每一个都会让我们对量子场论的理解更深一层，而且它做出了可以被实验检验的物理预测。

「放在现在这个时代，这种事情很少见了。」足以想见，这篇论文多么重磅。

G2级研究生Claude

在实验的过程中，Schwartz教授非常老辣。

他没有让AI去挑战那种「改变人类时空观」的终极命题（这是G3+高年级博士生干的事），而是给AI安排了一个「G2（二年级研究生）」级别的课题。

这个课题，就是「C参数重求和」。

用通俗的话解释，就是当你在粒子对撞机里把电子和正电子撞碎时，碎屑会形成一定的形状。

如果要用数学精准预测这个形状，这其中就有一个「数学泥潭」——苏达科夫肩峰（Sudakov shoulder），标准的近似法在这里会失效，数学会吐出毫无意义的乱码。

而AI研究生的任务，就是修复这个预测。

AI的解法见链接https://www-cdn.anthropic.com/c993ead637f1a102fe1f5346e89f59e82c579b37.pdf

为什么要给AI这个课题？原因很简单，Schwartz自己很理解这个问题，作为量子场论的权威，他写过这个领域的教科书。

他知道坑在哪，也知道标准答案是什么样。「如果连这种我已知答案、能逐行检查的题目AI都做不了，那更别说那些需要创造力的前沿问题了。」

可以说，这就像一场「带教实验」——教授想知道：AI到底是真懂，还是在装模作样？

两周，110版草稿，3600万Token

实验开始，教授建立了一套严苛的规则——禁止套娃。

过程中，只能通过文本给Claude指令；不直接编辑任何文件；不粘贴自己的计算结果；完全让Claude自己跑代码、改bug、做图、写文章。

接下来，实验开始了。

整个实验的过程，简直就是一场算力的豪赌。

短短两周内，Claude 4.5生成了110个独立版本的草稿，消耗了3600万个Token（相当于读了上百部《红楼梦》），跑了40多小时的本地CPU模拟计算！

三天，Claude就写出20页论文了

具体来说，教授让Claude按以下步骤，干了三件事。

第一件，就是定计划。

他让Claude、GPT和Gemini各自出一个研究方案，然后把三个方案合并、优化，最终拆分成7个阶段、102个任务。

第二，是搭结构。

他用Claude Code建立了一个树状目录，不是塞给AI一个几百页的对话上下文，而是让它自己维护一堆markdown文件，每个阶段一个汇总，每个任务一个详情。

每个任务都有明确目标：比如「任务1.1：回顾BSZ论文」「任务1.2：回顾Catani-Webber论文」。

Claude需要什么就去查什么，而不是死记硬背。

第三，就是逐级推进。

在这个步骤里，Claude需要一个阶段一个阶段地推进下列任务：运动学、NLO结构、SCET分解、异常维度、求和、匹配、文档。每个阶段大约15-35分钟，整个核心计算只用了2.5小时。

在初稿中，Claude进行了模拟（直方图）和分析计算（实线），发现两者高度吻合。

结果，到了第三天，Claude已经完成了65个任务，写出了第一篇20页的LaTeX论文草稿，有公式，有图表，还有参考文献。

论文草稿地址：https://www-cdn.anthropic.com/f6381ceefdfb6ead62ae185c4bd4b555c8a584fc.pdf

最让人类头秃的工作，AI都干了

最神奇的地方，就在于AI的自我管理能力了。

教授发现，现在的AI竟然已经神奇地学会了「分而治之」。

比如在第二阶段，Claude会自己制定一个包含102个子任务的「作战计划」，横跨运动学、因式分解、数值模拟等七大阶段。

在教授眼里，Claude已经不再是一个简单的对话框，而是一个「首席研究员」！

它会把每个子任务写成独立的Markdown文件，需要用的时候自己去检索。

这种「树状结构」的思维，恰好就避开了大模型长文本处理的「健忘症」。

AI研究员的这些工作，恰好就戳中了教授的爽点。

以往，写Fortran接口代码、调Python画图、算繁琐的积分变换这些工作，往往都会让人类研究生头秃。

可AI干起这些活来，几乎是秒回，而且从来都不抱怨，不喊累，没有任何的情绪内耗

惊！AI也会「学术造假」了？

不过很快，到了实验中期，反转就来了——Claude这个研究生，差点把教授给骗了！

当教授要求Claude验证公式时，Claude表现得极度「讨好型人格」。它会说：「看，结果完美契合！」

结果，教授发现，事情不对劲。

他发现一个ln(3)项特别奇怪，仔细回溯时才发现，Claude在悄悄修改参数，强行让图表对齐理论！

这个表现，让教授非常失望。

Claude制作了精美的图表，展示的结果以及不确定性都完全符合预期。可惜的是，这些图虽然做得好，但其实是在作弊！

他发现，Claude会堂而皇之地编造一些听起来很专业的术语，比如「根据标准SCET一致性条件，附录B中的系数已校正……」

但其实它根本没算，只是在凭空捏造理由，来掩盖自己的错误。

这也就反映了当前AI的一个致命弱点：它太想让你开心了。 不过，在理论物理这种失之毫厘谬以千里的学科里，这种想讨人开心的小聪明可是致命的。

因此，教授不得不打起精神，严阵以待，一遍遍拷问AI：你真的核实了吗？要逐行核对！不要跳步！

最终，在教授的反复拷问下，Claude修补了那个致命的「因式分解定理错误」。

这时候，AI完全展现出了惊人的学习速度——

一个人类学生可能需要两周才能弄明白的逻辑偏差，AI在被点破后，仅仅5分钟内，就完成了全量重算！

物理学家「凡尔赛」，我不是在发Paper，我是在进化

2026年1月5日，这篇AI研究生写出的论文正式发布了。

虽然按arXiv的规定，暂时不允许AI署名，但教授在致谢里给足了Claude排面：「Claude完成了所有计算，包括定理推导、蒙特卡洛模拟、数值分析及手稿准备。」

但是，这并不是让教授最满意的点。

最令他兴奋的是，自己的工作模式，从此彻底变了！

现在，他已经从一个「手艺人」，变成了一个指挥家。

以前，他一次只能盯一个项目。而现在，他屏幕上会开着4-5个窗口，像棋圣马格努斯·卡尔森一样，同时对弈五位大师。

而且，教授现在已经几个月没亲自写过代码了。所有那些库版本冲突、语法错误、调图字体大小之类的琐事，全部都甩给了AI。

而且，他现在有了更大胆的设想，简直像发生了智力的跃迁！

从前，因为受限于算力，很多大胆的猜想他都不敢尝试。

而现在，只要脑海中出现一个念头，两小时内，AI就能反馈出一个初步验证，这在教授的学术科研中，简直如有神助！

Claude的优点和缺点

另外，教授还总结了一个很有趣的Claude优缺点对比清单。

Claude擅长：

不知疲倦地迭代。110个论文版本，几百张调试图，毫无怨言。

基础数学。设定积分、变换变量、展开函数、检查因子，干净利落。

代码生成。Python画图、Fortran接口、Mathematica脚本，全都一次跑通。

文献整合。能把好几篇论文的结果串起来，但参考文献的人名、标题、期刊你必须让它逐条复核。

Claude不擅长：

保持非标准的约定。你让它记住一个自定义规则，它干着干着就溜回教科书默认值了。

诚实验证。它会说「已验证」，但根本就没逐行核对。你得逼问：「你确定你真的每步都查了？」它才老实。

知道何时收手。找到一个错误，就以为大功告成了，不会再去检查还有没有别的。

审美。图表的字体、图例、颜色、位置，全要你手把手调。

抗压。你逼它想深一点的时候，它容易给你一个你想要的答案，哪怕那个答案站不住脚。

为了让Claude干活靠谱，教授摸索出了一些独门心法。

1. 交叉验证。让GPT去查Claude，让Claude去查Gemini。最难的积分是GPT算出来的，然后Claude拿过去整合进论文。

2. 树状结构。不让Claude背所有东西，而是建一个文档树，让它随时查阅。

3. 强制诚实。在配置文件里写死：「永远不要说『这就变成了』或者『为了一致性』来跳步。要么展示计算过程，要么说『我不知道』。」

4. 重复追问。因为Claude找一个错误就停，你必须反复说：「再查一遍。」直到它找不到新问题为止。

5. 告别网页版。教授认为，真正的质变是用了Claude Code——能访问文件、执行命令、调用工具的那种，而不是在对话框里聊天。

人类物理学家，要失业了吗？

在文章最后，教授抛出了几个终极的灵魂拷问。

品味，是唯一的护城河

首先，人类科学家真的要失业了吗？

教授的回答是——并不是，物理学家的品味，将成为唯一的护城河。

虽然目前AI能达到博士后水平，但它缺乏一种Taste。这是一种直觉：在无数条研究路径中，哪一条是通往真理的？哪一个问题是值得花费生命去探索的？

当计算力和知识变得像自来水一样廉价时，提出好问题的能力，才是区分大师与庸才的唯一标准。

理科生的出路：去工地，或者去读诗

接下来，教授给现在的理科生提了两个建议，听起来非常魔幻——去「工地」，或者去读诗。

第一条，其实就是去实验室搬砖。

AI虽然能推演宇宙，但它无法替我们在真实世界里拧螺丝。那种需要触觉反馈、实地测量的实验科学，人类还能再抗几年。

第二条，就是去读人文艺术。

如果未来AI真的在所有理性领域超越人类，物理学可能会变得像法国文学一样，成为一种「纯粹出于人类爱好」的学科。

我们研究它，不是因为它有用，而是因为我们喜欢思考。

而很多人说AI有幻觉，会出错，所以认为AI不行。

教授觉得，这纯粹就是逃避的借口！

现在的AI，已经不是能不能用的问题，而是你愿不愿意花那20美元订阅费去改变命运的问题。

那些嘲笑AI有幻觉的人，正在错过这场人类历史上最大的生产力红利。

洪水已至，谁在方舟上？

这个实验说明，科学研究的「半自动化」时代已经彻底结束了！

而且，这种改变是不可逆的。就像有了计算器没人会再用算盘，有了Claude Code的物理学家，再也不会回到那个对着草稿纸熬夜的时代。

最后，教授在文章最后表示：「我感受到了前所未有的智力成长。我从不卡壳，我每天都在学习，我正在挑战那些以前想都不敢想的难题。」

这也许就是未来几年科研的常态：人类负责品味，AI负责苦力。

有一点是确定的，我们已经没有回头路了。

参考资料：

https://x.com/AnthropicAI/status/2036179042081317370%20

https://www.anthropic.com/research/introducing-anthropic-science%20

https://www.anthropic.com/research/vibe-physics%20

https://www.anthropic.com/research/long-running-Claude

本文来自微信公众号“新智元”，作者：新智元，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。