清华传奇姚顺宇立功,全新Gemini一夜血洗编程,全球仅7人能赢它
刚刚,谷歌Gemini 3 Deep Think原地进化!在Codeforces比赛中拿下全球第七,击败了人类选手。短短三个月,全方位刷爆SOTA。
猝不及防,谷歌DeepMind深夜又放大招了!
今天,Gemini 3 Deep Think重磅升级,几乎刷爆全领域的SOTA,标志着AI推理能力进入了全新维度。
离职Anthropic入职谷歌的华人学者姚顺宇参与了Gemini 3 Deep Think
这一次,在科学研究和硬核工程领域,Deep Think堪称一个「最强大脑」。
它可以将草图渲染成一个高保真、实用的3D笔记本电脑支架图,并直接将其打印出来。
谷歌VP晒出这个副项目,最终的成品是这样子的。
新版Deep Think的实力究竟有多恐怖?
在编程界,它刷出了3455 Elo的惊人分数,达到世界冠军级的水准,冲入了Codeforces比赛人类TOP 10!
也就是说,全球只有7人击败了Gemini 3 Deep Think,一年前,最强o3也仅拿下2727 Elo。
在人类最后考试(HLE)上,Gemini 3 Deep Think刷新SOTA,拿下了48.4%的成绩。
甚至,它在一夜之间让最难的ARC-AGI-2基准直接饱和,以84.6%新SOTA一骑绝尘。
与Gemini 3 Pro相比,Deep Think实现了全方位反超,并将Claude Opus 4.6、GTP-5.2直接踩在了脚下。
更令人震撼的是,Gemini 3 Deep Think的实战表现。
罗格斯大学数学家Lisa Carbone在研究时,让它审查一篇高深的物理数学论文。
结果,Deep Think竟发现了一个连人类同行评审,都遗漏的细微逻辑漏洞。
Gemini 3 Deep Think这波史诗级进化,又让某些人睡不着了。
目前,Google AI Ultra订阅用户即可在Gemini中体验新版Deep Think。同时,首次通过API向部分研究人员、工程师和企业开放。
实力刷爆SOTA,奥赛金牌大满贯
去年,Deep Think专门版成功解决了推理领域最艰巨的任务,在数学和编程世界锦标赛中夺下金牌。
就在昨天,谷歌DeeoMind还做了一个预热。
背靠初代Deep Think的「AI数学家」Aletheia可以独立撰写论文,证明了「Erdős猜想」中多个难题。
不仅如此,Deep Think直接推翻了十年猜想,一举攻克18大研究瓶颈。
而现在,迭代后的Deep Think已在多项高难度的基准测试中刷新SOTA:
- 人类最后的考试(HLE):设定了新标杆,在不使用工具的情况下准确率达48.4%;
- ARC-AGI-2:达到了前所未有的84.6%,并获得ARC奖项基金会的验证;
- 算法竞赛平台Codeforces:Elo评分达到了惊人的3455分;
- 2025 IMO:达到金牌水平。
除了数学和算法竞赛,Gemini 3 Deep Think现在在化学和物理等广泛的科学领域也表现优异。
在2025年国际物理奥林匹克和化学奥林匹克的笔试部分,新版Deep Think同样具备了金牌实力。
此外,它在高级理论物理方面也游刃有余,在CMT-Benchmark测试中取得了50.5%的成绩。
另外,Gemini 3 Deep Think在ARC-AGI-1上,直接顶到头了。
官方演示中,Gemini 3 Deep Think可以根据论文,为「时空循环视频Transformer」架构创建一个的视化方案。
Deep Think杀入科研,十倍加速
除了顶尖的性能表现,Deep Think还突破了智能边界,能够解决科学、研究和工程领域的现代难题。
它不仅能帮助科研人员解读复杂数据,还能辅助工程师通过代码对物理系统建模。
在早期测试中,许多科学家在科研工作流中,显著提升了研究产出质量。
在杜克大学,Wang Lab用Deep Think优化了复杂晶体生长的制造方法,以用于潜在的半导体材料发现。
令人意想不到,Deep Think成功设计出了一种生长大于100 μm薄膜的配方,达到了以前方法难以实现的精确目标。
谷歌平台与设备部门的研发主管Anupam Pathak表示——
我不是CAD设计师,但有了Deep Think,可以直接将草图变成可3D打印的实物。
它会分析绘图,对复杂形状进行建模,并生成3D打印所需的模型文件,让物理零部件建模加速十倍。
只需发送一张图片、一个提示词,它就能够深入思考,便可以提供几个之前从自己未想过的全新设计方案。
Deep Think将深厚的科学知识与实用的工程能力相结合,超越了抽象理论,真正开始推动实际应用。
网友惊艳实测,物理模拟太强
在实测中,Gemini 3 Deep Think展现出超强的物理模拟能力。
它可以模拟光线追踪,在浏览器中就可以实现。
并且还可以在单个HTML文件中,构建出一个完整的Three.js场景,渲染出博物馆中古典油画难以区分的全3D室内房间。
Simon Willison用Gemini 3 Deep Think画了一张鹈鹕骑自行车的SVG矢量图,效果非常惊艳。
他表示,这是自己目前见过最棒的一版了。
既然在处理那条基础的「生成一张鹈鹕骑自行车的SVG」指令时表现得这么出色,Simon决定加大难度,试个更有挑战性的版本:
生成一张加州褐鹈鹕骑自行车的SVG图像。自行车必须要有辐条,车架形状要准确。鹈鹕必须具备其标志性的大喉囊,且要有清晰的羽毛细节。必须能清楚地看出鹈鹕正在蹬车。图像需要展示加州褐鹈鹕完整的繁殖羽特征。
结果如下:
这一次,谷歌让AI真正渗透进了科研工作的「最后一公里」:审阅论文、工业设计、实验优化,无所不包。
当AI能够揪出连人类审稿人都忽略的逻辑漏洞时,「辅助工具」这四个字显然已经配不上它了。
如今,压力球抛回给了OpenAI。
面对谷歌这记直击痛点的「深思」回击,奥特曼的下一张王牌,必须足够震撼。
参考资料:
https://x.com/GoogleDeepMind/status/2021981512925585703
https://x.com/GoogleDeepMind/status/2021981510400709092
https://x.com/kimmonismus/status/2021983169478533148
本文来自微信公众号“新智元”,作者:新智元,编辑:桃子 好困,36氪经授权发布。















