最强大模型的视觉能力不如6岁小孩

量子位·2026年01月22日 21:05
靠语言的视觉推理走不通

谁敢想?

视觉推理这一块,大模型现在还嫩得像个3岁小孩。

来自UniPat AI、xbench、阿里、月之暗面、阶跃星辰等多家研究机构的最新研究显示:

BabyVision视觉推理benchmark上,当前表现最强的Gemini 3 Pro Preview也只是小胜三岁儿童,跟六岁儿童仍有20%的差距。

与成年人94.1的水平相比,更是天壤之别。

更关键的是,Gemini 3 Pro Preview已经是当前一众模型中的“天花板”。

其他前沿模型,包括GPT-5.2Claude 4.5 OpusGrok-4等,整体表现甚至不如三岁小孩。

这一扎心结论,无疑又给当前基于VLA(M)的具身智能泼了盆冷水。

毕竟,一个视觉能力尚未达到三岁儿童水平的AI,很难被指望在真实物理世界中稳定、安全地协助人类。

也正是在这个意义上,BabyVision还给出了另一种视角:

要真正推进多模态智能,未来的模型必须从底层重建视觉能力,而不是继续依赖将视觉问题翻译成语言来“绕行”。

视觉推理的语言化瓶颈

在完整的评估中,研究对比了开源和闭源模型的表现:

在闭源模型中: Gemini 3-Pro-Preview以49.7%的得分领跑,随后是GPT-5.2 (34.4%) 和豆包-Seed-1.8 (30.2%)。

其余模型表现则不尽人意:Qwen3-VL-Plus 19.2%,Grok-4 16.2%,Claude-4.5-Opus 14.2%。

在开源模型中,表现最好的是Qwen3VL-235B-Thinking,总分达到22.2%

其中,Qwen3VL的Thinking版本优于Instruct版本,这表明显示显式推理能减轻视觉不确定性。

此外,即使是最大的开源模型,仍无法与顶尖闭源系统匹敌。

那么,问题来了。

为什么在HLE、IMO等高难度任务中展现出博士级“智商”、甚至能解数学难题的大模型,却会在一些看似简单的“找不同”任务中频频翻车?

先说结论:当前的多模态大模型,通常是在推理前,先将视觉输入转化为语言表征来处理

这种做法充分利用了大型语言模型强大的推理能力,但也引入了一个根本性的限制:

凡是无法被语言准确表达的视觉信息,都会在这一过程中被丢失。

例如,图像中“一辆红色的汽车”可以被轻松转写为文字;但更细粒度的几何信息,如边界的精确曲率、交叉点的具体位置、相对空间关系的微小变化,却很难被语言忠实描述。

而正是这些“不可描述”的视觉特征,构成了BABYVISION任务的核心难点,也因此成为当前顶尖多模态模型普遍折戟的地方。

具体来说,BabyVision将视觉推理拆解为4个核心能力维度:

细粒度辨别(Fine-grained Discrimination):检测细微的视觉差异

视觉追踪(Visual Tracking):追踪路径、线条和运动轨迹

空间感知(Spatial Perception):理解三维结构与空间关系

视觉模式识别(Visual Pattern Recognition):识别视觉中的逻辑与几何规律

基于上述能力维度,研究总结出当前MLLM面临的四个经典视觉核心挑战,具体如下:

非言语性精细细节的缺失

首先是非言语性精细细节的缺失,这些精细细节往往难以被语言精准地描述。

比如在面对一个小的偏移、特定的边界曲线,或者仅仅是一个像素的差异时,多模态大模型(MLLMs)往往会把这些截然不同的选项当作差不多的来处理。

以表现最好的Gemini 3 Pro Preview为例,在下面的找拼图任务中,它就错误地选择了D选项

(正确答案:B)

在Gemini的推理过程中,它首先将形状转化为文字描述,再简化为粗略特征(如数量、拓扑结构),然后在语言空间中对比候选选项。

相比之下,人类直接通过形状匹配瞬间完成任务。人类的大脑会对每个候选选项进行平移和旋转,检查边界是否对齐,整个过程无需借道文字,直接由几何驱动。

所以,这里的关键不在于逻辑的难度,而在于高保真感知的缺失

流形一致性(Manifold Identity)的丢失

此外,研究还发现,多模态大模型难以在长距离空间中,可靠地维持感知的一致性。

比如,在下面的连线任务中,Gemini 3 Pro Preview再度失败,错误地将塑料瓶连在了绿色垃圾桶中,以及将苹果核连在了蓝色垃圾桶中,

(正确答案:塑料瓶-蓝、试卷-黄,苹果核-绿)

研究发现,Gemini在解题时,通常会把一条连续的曲线拆解成一连串简单指令,比如向左、向右、向上、向下。

但问题在于,一旦出现交叉点,这种拆解方式就会让路径变得模糊,很容易走岔。

由于模型并没有在脑子里“真正记住”那条曲线的样子,它在经过交叉点后就可能无意中换到另一条线上。

这种错误对人类来说几乎一眼就能看出来,但当信息被压缩成文字后,反而很难察觉。

相比之下,人类一般会直接盯住一条线,一路跟到终点。而这种能力在人类幼儿时期就已经很自然地具备了。

空间想象力

研究发现的第三个普遍挑战是“空间想象力”,也就是从二维图像中构建稳定的三维内部表征,并在保持结构不变的前提下,对其进行心理变换——

比如切换视角、投影轮廓,或推断被遮挡的体积。

举例来说:给你一个视图,让你想象如果从侧面看,它应该是什么样子。

在这一任务中,Gemini 3 Pro Preview仍然选择了错误的C选项。

(正确答案:A)

在 Gemini 的推理过程中,模型会先将视觉场景转化为语言摘要,用文字描述物体,再基于这些文字去“猜测”二维特征。

但问题也正出在这里——文字叙述并不能忠实地表示空间状态

一旦精确的图像被压缩成模糊的文本摘要,模型就很容易犯下可预期的错误:漏掉被遮挡的积木、数错层数,或使用了错误的三维投影关系。

相比之下,人类可以直接在脑海中从指定方向“转动”物体并进行对比,整个过程几乎不需要语言的参与。

视觉模式归纳

第四个挑战是视觉模式归纳:也就是从少量视觉示例中,总结出通用的变化规则,并把它应用到新的输入上。

在下面这个找规律的问题中,QWEN3-VL-PLUS选择了错误的B选项。

(正确答案:C)

模型在这类任务中常见的做法,并不是理解“发生了什么变化”,而是去数属性。

比如,颜色有多少、形状有几个、元素是否相似。它会描述源图像、描述目标图像,然后试图在文本层面把两者“对上”。

相较之下,人类在处理这类问题时,通常会直接对比前后的视觉示例,在脑中形成一个简单的“因果图”:

哪个形状包含哪个形状?谁是框架,谁是内容?这些角色在从输入到输出的过程中是如何被重新分配的?

正是这种对视觉关系进行抽象推理的能力——而非简单的识别——构成了当前模型架构仍难以跨越的一道门槛。

基于RLVR与生成式建模的视觉推理

那么, 既然基于文本的视觉推理(如 VLM)存在天然局限,那么有没有办法对这一点加以改善?

对此,研究给出了两个方向:基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards ,RLVR)以及基于生成模型的视觉推理。

首先来看RLVR。

具体而言,研究以Qwen3-VL-8B-Thinking作为基座模型,并在其上进行RLVR微调。

实验表明,在完成RLVR微调后,模型整体准确率提升了约4.8个百分点。从任务子类分布来看,大多数类别均出现不同程度的提升。

这和在Qwen推理模型中得到的洞见一致:一旦提取出视觉信号,显式的中间推理可以部分抵消视觉上的不确定性。

接下来是生成模型方法

既然以语言承载视觉推理存在天然的“信息失真”,模型能否效仿人类,通过“视觉重构”——

即在像素空间内直接演算(如绘制连线或补全图案)来完成推理。

基于这一认识,研究推出了BabyVision-Gen,评估了3种前沿视觉生成模型:NanoBanana-Pro、GPT-Image-1.5和Qwen-Image-Edit在其之上的表现。

(注:BabyVision-Gen从全量基准中筛选出280道适合生成式交互的题目,要求模型直接输出图像或视频流来表达解题过程)

实验结果显示:NanoBanana-Pro表现最优,准确率达18.3%;而GPT-Image-1.5与Qwen-Image-Edit分别为9.8%和4.8%。

虽然成功率仍然不高,但研究认为,NanoBanana-Pro与Sora-2等模型展现出了显式视觉思维,能够沿逻辑路径生成物理轨迹。

此外,在相似的字母中找不同的任务里,基于生成式的方法也表现出了一定的视觉思维能力。

这里的失误也表明:单纯的生成能力并不等同于严密的推理,生成过程还必须由稳健的视觉语义理解(Visual Understanding)进行引导。

由此,研究绕过“语言瓶颈”的统一架构,揭示了一个关键的研究趋势:将生成模型转化为原生多模态推理器。

相比于传统的MLLM强行将视觉信号压缩成文本,像Bagel这样的统一架构,能够在推理过程中保留高保真的视觉表征。

这种架构允许模型在视觉空间内进行“显式思考”——通过勾勒中间步骤、突出关键区域或实时绘制轨迹来解析问题。

同时,像Sora 2和Veo 3等模型在建模物理动力学与空间关系的能力上,进一步支持了“生成本身即是推理的一种高级形式”这一观点。

参考链接

[1]https://unipat.ai/blog/BabyVision

[2]https://arxiv.org/abs/2601.06521v1

本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。

+1
3

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

“传统”CPU涨价,背后却是新的增长逻辑——智能体经济的繁荣。

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业