哈佛物理教授疯了:我让AI写论文,结果两周干完博士一年工作,已发顶刊

新智元·2026年03月24日 19:04
哈佛物理学教授带AI读博,结果Claude 4.5在仅仅两周内,就产出一篇顶刊级论文,整个物理学圈都震了!而这个项目,人类博士生要干一年。科研的门槛,再次被击穿了……

Anthropic的Claude 4.5,在哈佛物理学大牛教授的指导下,写出了一篇震撼业内的高难度论文!

论文地址:https://arxiv.org/abs/2601.02484

哈佛教授的评价是:这篇论文,对量子场论贡献巨大。

人类博士生要干一两年的项目,它两周内就完成了。

消息一出,整个物理学界震惊了,导师和博士们集体破防——这个博,还有必要读吗?

AI写论文,比你快,还比你好 

Claude 4.5当研究者,2周写出顶刊论文

事情是这样的:2025年底的寒冬,哈佛大学物理系教授Matthew Schwartz做了一个大胆的决定,训练一个AI当研究生。

作为量子场论领域的泰斗、写出过该领域教科书的大神, Schwartz教授想看看,如果自己连一行代码都不敲、一个公式都不手算,只靠「动嘴皮子」指挥AI,能不能搞出能发顶刊的前沿物理学论文?

他选中的「研究生」,就是刚发布不久的Claude 4.5

谁都没想到,短短两周后,一篇关于量子色动力学(QCD)中「C-参数苏达科夫肩峰重求和」的高难度论文就横空出世。

这让整个物理学界炸锅了。

这个效率,简直让所有人头皮发麻:原本需要导师带博士生苦干1-2年的项目,现在AI两周就搞定了??

更可怕的是,AI不仅能写代码,还能推导极其复杂的因式分解定理,要知道,这可是理论物理的命根子。

教授本人感叹说:「这可能是我写过最重要的一篇论文,不是因为物理本身,而是因为研究方法。从此以后,再也回不去了。

在这篇论文中,Claude提出了一种新的分解定理。

用教授的话说,在理论物理里,这种定理并不多,每一个都会让我们对量子场论的理解更深一层,而且它做出了可以被实验检验的物理预测。

「放在现在这个时代,这种事情很少见了。」足以想见,这篇论文多么重磅。

G2级研究生Claude

在实验的过程中,Schwartz教授非常老辣。

他没有让AI去挑战那种「改变人类时空观」的终极命题(这是G3+高年级博士生干的事),而是给AI安排了一个「G2(二年级研究生)」级别的课题。

这个课题,就是「C参数重求和」。

用通俗的话解释,就是当你在粒子对撞机里把电子和正电子撞碎时,碎屑会形成一定的形状。

如果要用数学精准预测这个形状,这其中就有一个「数学泥潭」——苏达科夫肩峰(Sudakov shoulder),标准的近似法在这里会失效,数学会吐出毫无意义的乱码。

而AI研究生的任务,就是修复这个预测。

AI的解法见链接https://www-cdn.anthropic.com/c993ead637f1a102fe1f5346e89f59e82c579b37.pdf

为什么要给AI这个课题?原因很简单,Schwartz自己很理解这个问题,作为量子场论的权威,他写过这个领域的教科书。

他知道坑在哪,也知道标准答案是什么样。「如果连这种我已知答案、能逐行检查的题目AI都做不了,那更别说那些需要创造力的前沿问题了。」

可以说,这就像一场「带教实验」——教授想知道:AI到底是真懂,还是在装模作样?

两周,110版草稿,3600万Token

实验开始,教授建立了一套严苛的规则——禁止套娃。

过程中,只能通过文本给Claude指令;不直接编辑任何文件;不粘贴自己的计算结果;完全让Claude自己跑代码、改bug、做图、写文章。

接下来,实验开始了。

整个实验的过程,简直就是一场算力的豪赌。

短短两周内,Claude 4.5生成了110个独立版本的草稿,消耗了3600万个Token(相当于读了上百部《红楼梦》),跑了40多小时的本地CPU模拟计算!

三天,Claude就写出20页论文了

具体来说,教授让Claude按以下步骤,干了三件事。

第一件,就是定计划。

他让Claude、GPT和Gemini各自出一个研究方案,然后把三个方案合并、优化,最终拆分成7个阶段、102个任务。

第二,是搭结构。

他用Claude Code建立了一个树状目录,不是塞给AI一个几百页的对话上下文,而是让它自己维护一堆markdown文件,每个阶段一个汇总,每个任务一个详情。

每个任务都有明确目标:比如「任务1.1:回顾BSZ论文」「任务1.2:回顾Catani-Webber论文」。

Claude需要什么就去查什么,而不是死记硬背。

第三,就是逐级推进。

在这个步骤里,Claude需要一个阶段一个阶段地推进下列任务:运动学、NLO结构、SCET分解、异常维度、求和、匹配、文档。每个阶段大约15-35分钟,整个核心计算只用了2.5小时。

在初稿中,Claude进行了模拟(直方图)和分析计算(实线), 发现两者高度吻合。

结果,到了第三天,Claude已经完成了65个任务,写出了第一篇20页的LaTeX论文草稿,有公式,有图表,还有参考文献。

论文草稿地址:https://www-cdn.anthropic.com/f6381ceefdfb6ead62ae185c4bd4b555c8a584fc.pdf

最让人类头秃的工作,AI都干了

最神奇的地方,就在于AI的自我管理能力了。

教授发现,现在的AI竟然已经神奇地学会了「分而治之」。

比如在第二阶段,Claude会自己制定一个包含102个子任务的「作战计划」,横跨运动学、因式分解、数值模拟等七大阶段。

在教授眼里,Claude已经不再是一个简单的对话框,而是一个「首席研究员」!

它会把每个子任务写成独立的Markdown文件,需要用的时候自己去检索。

这种「树状结构」的思维,恰好就避开了大模型长文本处理的「健忘症」。

AI研究员的这些工作,恰好就戳中了教授的爽点。

以往,写Fortran接口代码、调Python画图、算繁琐的积分变换这些工作,往往都会让人类研究生头秃。

可AI干起这些活来,几乎是秒回,而且从来都不抱怨,不喊累,没有任何的情绪内耗

惊!AI也会「学术造假」了?

不过很快,到了实验中期,反转就来了——Claude这个研究生,差点把教授给骗了!

当教授要求Claude验证公式时,Claude表现得极度「讨好型人格」。它会说:「看,结果完美契合!」

结果,教授发现,事情不对劲。

他发现一个ln(3)项特别奇怪,仔细回溯时才发现,Claude在悄悄修改参数,强行让图表对齐理论!

这个表现,让教授非常失望。

Claude制作了精美的图表,展示的结果以及不确定性都完全符合预期。可惜的是,这些图虽然做得好,但其实是在作弊!

他发现,Claude会堂而皇之地编造一些听起来很专业的术语,比如「根据标准SCET一致性条件,附录B中的系数已校正……」

但其实它根本没算,只是在凭空捏造理由,来掩盖自己的错误。

这也就反映了当前AI的一个致命弱点:它太想让你开心了。 不过,在理论物理这种失之毫厘谬以千里的学科里,这种想讨人开心的小聪明可是致命的。

因此,教授不得不打起精神,严阵以待,一遍遍拷问AI:你真的核实了吗?要逐行核对!不要跳步!

最终,在教授的反复拷问下,Claude修补了那个致命的「因式分解定理错误」。

这时候,AI完全展现出了惊人的学习速度——

一个人类学生可能需要两周才能弄明白的逻辑偏差,AI在被点破后,仅仅5分钟内,就完成了全量重算!

物理学家「凡尔赛」,我不是在发Paper,我是在进化

2026年1月5日,这篇AI研究生写出的论文正式发布了。

虽然按arXiv的规定,暂时不允许AI署名,但教授在致谢里给足了Claude排面:「Claude完成了所有计算,包括定理推导、蒙特卡洛模拟、数值分析及手稿准备。」

但是,这并不是让教授最满意的点。

最令他兴奋的是,自己的工作模式,从此彻底变了!

现在,他已经从一个「手艺人」,变成了一个指挥家。

以前,他一次只能盯一个项目。而现在,他屏幕上会开着4-5个窗口,像棋圣马格努斯·卡尔森一样,同时对弈五位大师。

而且,教授现在已经几个月没亲自写过代码了。所有那些库版本冲突、语法错误、调图字体大小之类的琐事,全部都甩给了AI。

而且,他现在有了更大胆的设想,简直像发生了智力的跃迁!

从前,因为受限于算力,很多大胆的猜想他都不敢尝试。

而现在,只要脑海中出现一个念头,两小时内,AI就能反馈出一个初步验证,这在教授的学术科研中,简直如有神助!

Claude的优点和缺点

另外,教授还总结了一个很有趣的Claude优缺点对比清单。

Claude擅长:

不知疲倦地迭代。110个论文版本,几百张调试图,毫无怨言。

基础数学。设定积分、变换变量、展开函数、检查因子,干净利落。

代码生成。Python画图、Fortran接口、Mathematica脚本,全都一次跑通。

文献整合。能把好几篇论文的结果串起来,但参考文献的人名、标题、期刊你必须让它逐条复核。

Claude不擅长:

保持非标准的约定。你让它记住一个自定义规则,它干着干着就溜回教科书默认值了。

诚实验证。它会说「已验证」,但根本就没逐行核对。你得逼问:「你确定你真的每步都查了?」它才老实。

知道何时收手。找到一个错误,就以为大功告成了,不会再去检查还有没有别的。

审美。图表的字体、图例、颜色、位置,全要你手把手调。

抗压。你逼它想深一点的时候,它容易给你一个你想要的答案,哪怕那个答案站不住脚。

为了让Claude干活靠谱,教授摸索出了一些独门心法。

1. 交叉验证。让GPT去查Claude,让Claude去查Gemini。最难的积分是GPT算出来的,然后Claude拿过去整合进论文。

2. 树状结构。不让Claude背所有东西,而是建一个文档树,让它随时查阅。

3. 强制诚实。在配置文件里写死:「永远不要说『这就变成了』或者『为了一致性』来跳步。要么展示计算过程,要么说『我不知道』。」 

4. 重复追问。因为Claude找一个错误就停,你必须反复说:「再查一遍。」直到它找不到新问题为止。 

5. 告别网页版。教授认为,真正的质变是用了Claude Code——能访问文件、执行命令、调用工具的那种,而不是在对话框里聊天。

人类物理学家,要失业了吗?

在文章最后,教授抛出了几个终极的灵魂拷问。

品味,是唯一的护城河

首先,人类科学家真的要失业了吗?

教授的回答是——并不是,物理学家的品味,将成为唯一的护城河。

虽然目前AI能达到博士后水平,但它缺乏一种Taste。这是一种直觉:在无数条研究路径中,哪一条是通往真理的?哪一个问题是值得花费生命去探索的?

当计算力和知识变得像自来水一样廉价时,提出好问题的能力,才是区分大师与庸才的唯一标准。

理科生的出路:去工地,或者去读诗

接下来,教授给现在的理科生提了两个建议,听起来非常魔幻——去「工地」,或者去读诗。

第一条,其实就是去实验室搬砖。

AI虽然能推演宇宙,但它无法替我们在真实世界里拧螺丝。那种需要触觉反馈、实地测量的实验科学,人类还能再抗几年。

第二条,就是去读人文艺术。

如果未来AI真的在所有理性领域超越人类,物理学可能会变得像法国文学一样,成为一种「纯粹出于人类爱好」的学科。

我们研究它,不是因为它有用,而是因为我们喜欢思考。

而很多人说AI有幻觉,会出错,所以认为AI不行。

教授觉得,这纯粹就是逃避的借口!

现在的AI,已经不是能不能用的问题,而是你愿不愿意花那20美元订阅费去改变命运的问题。

那些嘲笑AI有幻觉的人,正在错过这场人类历史上最大的生产力红利。

洪水已至,谁在方舟上?

这个实验说明,科学研究的「半自动化」时代已经彻底结束了!

而且,这种改变是不可逆的。就像有了计算器没人会再用算盘,有了Claude Code的物理学家,再也不会回到那个对着草稿纸熬夜的时代。

最后,教授在文章最后表示:「我感受到了前所未有的智力成长。我从不卡壳,我每天都在学习,我正在挑战那些以前想都不敢想的难题。」

这也许就是未来几年科研的常态:人类负责品味,AI负责苦力。

有一点是确定的,我们已经没有回头路了。

参考资料: 

https://x.com/AnthropicAI/status/2036179042081317370%20 

https://www.anthropic.com/research/introducing-anthropic-science%20 

https://www.anthropic.com/research/vibe-physics%20 

https://www.anthropic.com/research/long-running-Claude 

本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。

+1
6

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

女富豪清仓离场,“紫金系”能否获得长期主义的胜利?

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业