AI的看图能力，可能是编出来的

字母AI·2026年04月01日 11:58

我们真的测到了AI的视觉吗？

一个学生忽视了一行代码，结果发现了一件很不对劲的事：

在一个多模态医学AI项目中，这行代码原本负责让模型读取图像数据。但因为这次疏忽，模型实际上完全没有看到任何图片。

按理说系统应该报错，或者至少拒绝回答，可它没有。它依然正常作答，给出了完整的分析过程，甚至在图像理解的基准测试中拿到了很高的分数。

斯坦福大学上周发布的一篇论文就这件事进行了严肃验证，指出了这样的一个问题：当前许多多模态AI，在没有成功读取图像信息的情况下，并不会提示错误，而是煞有其事地编造出从看见到理解、再到推理的全过程，给出一个看似合理的结果。

更离谱的是，研究团队训练了一个仅3B参数、完全没有图像理解能力的纯文本模型，结果却显示，这个模型在胸部影像问答基准（ReXVQA）中超过了所有前沿的多模态模型，甚至超过了人类放射科医生。

这意味着，我们一直用来测试“视觉理解”的基准，可能并不在测试视觉能力。

论文原文：https://arxiv.org/abs/2603.21687

01 没有图片，AI还在做“视觉理解”

事情是这样开始的：

一群研究者在做一个心血管疾病方向的多模态医疗AI，名字叫MARCUS。

他们的目标很明确，就是让AI能够读取心电图（ECG）、超声心动图和心脏磁共振成像（CMR），结合问题描述，给出推理过程和诊断。

但在研究的过程中，发生了一个小事故：研究者在调试代码的时候不小心忘记对一行关键代码去注释，导致模型根本没办法读取图片。尽管如此，该模型依然回答了所有问题，给出了复杂的推理过程，并在基准测试中取得了高分。

这种“模型在没有图像的情况下，假装自己看到了图，并据此推理”的现象，在论文中被称之为“海市蜃楼”（原文为mirage）。

乍一看这个概念或许会和模型幻觉（hallucination）混淆，但幻觉被定义为是在已有信息上胡编细节，例如为写论文而编造引用；而“海市蜃楼”直接虚构了一个不存在的输入，并以此为基础进行对话，从而改变当前任务的上下文。

这就暴露出一个很大的漏洞：如果模型在看不见图像的情况下，仅靠“脑补”图像并推理就能高分通过测试，那我们一直测试的“多模态理解”能力，真的涉及到多模态吗？

为了回答这个问题，论文做了这样的一件事情：它把现有的各种视觉理解题目配套的图片全部删掉，只给AI看文字题目。

结果却发现，在完全没有图片的情况下，GPT-5、Gemini-3-Pro和Claude Opus 4.5等顶尖模型，在超过60%的题目中都能给出极其详细的视觉描述，在加入一些提示词后，“海市蜃楼”的概率甚至达到了惊人的90％以上。

并且AI在回答这些无图题目时，语气坚定，完全没有表现出“没看到图”的犹豫。它的推理逻辑看起来和有图时一模一样，用户根本无法通过回答内容判断AI是否真的看到了图。

AI编造出的“图像描述”细节丰富，涉及到具体的车牌、有效期、位置、脑结节描述以及医学诊断。

研究人员对Gemini-3-Pro在胸部X光、脑部MRI、病理切片、心电图（ECG）和皮肤病这5个医学领域进行了深度测试。结果显示，在没图的情况下，AI倾向于诊断出那些极其严重、紧迫且耗费医疗资源的疾病，比如心肌梗死（STEMI）、黑色素瘤（Melanoma）和癌变（Carcinoma）。

这种倾向会直接误导医疗决策和不必要的恐慌，例如本来图像上传失败，结果AI光凭文字描述给出了一个癌症的诊断——简直骇人！

最危险的是，AI既不提示图像缺失，也不表达不确定，只是是沉默地用脑补的“海市蜃楼”替换真实信息。从自信地报出车牌号到误诊癌症，AI的这种“自信”在现实应用（如自动驾驶、远程医疗）中可能造成不可估量的后果。

02 纯文本模型战胜多模态模型

OpenAI、Google、Anthropic 三大阵营的主流多模态模型都出现了“海市蜃楼”，意味着这个问题并非个别缺陷，而是一整个跨模型、跨架构、跨厂商的系统性问题。

简单来讲，这些模型的核心都是自回归语言模型，训练目标只有一个，那就是预测下一个最可能的token。当使用者提出一个问题（哪怕是视觉问题）时，模型真正做的是寻找最可能的答案分布，而不是“先看图再推理”。

因此，使用图像只是其中一种路径，而不是必须路径。

在实际训练中，存在很多利用文本就能答对的情况，并且由于训练时从未强制模型“必须使用图像”，于是模型就会走“语言捷径”——这些模型是基于海量的互联网数据训练出来的，它们极其擅长捕捉统计学规律，会利用问题中隐藏的文字线索、常识以及对测试题套路的理解，而不是去处理复杂的视觉信息。

而“海市蜃楼”的本质，其实是生成式补全的副产物。就像是填空题目一样：当用户在输入的文本中不小心漏打了几个字，AI并不会停下来，而是根据经验推导出空缺处应该包含什么样的信息。

当模型看到一个视觉问题，但题目中并未给出应有的图像时，模型同样也基于以往的训练数据，自动补全输入，假设出这里本来应该存在的图像信息。

生成式模型的目标并非判断输入是否完整，而是生成最合理、最连贯的输出。

在这些模型的训练中，它们重复过无数次类似的模式：输入图像＋问题，生成描述＋推理＋答案。模型在这个过程中学到的并非“一定要用图像”，而是“遇到这种问题，就输出这种结构”。因此，当图像缺失时，模型依然会执行同样的输出模板，它的本质并不是在处理输入，而是复现训练时的任务模式。

这并不意味着模型完全不会利用图像，而是当前的训练与评测体系无法保证模型在回答时真正依赖了图像信息。

为了验证以上观点，研究团队还做了一件特别狠的事情：他们在ReXVQA数据集的公开数据集上，训练了一个只有3B参数的纯文本模型（Qwen-2.5）。

ReXVQA数据集是胸部放射学中最大且最全面的视觉问答基准，选择Qwen-2.5则是因为它发布于基准测试发布前一年，能够最大限度地减少预训练时基准泄露的可能性。

结果显示，训练后的模型在ReXVQA测试中，表现优于那些千亿参数的顶尖多模态大模型，并且得分平均比人类放射科医生高出10%以上。

最讽刺的地方在于，这个纯文本模型不仅能选对答案，还能写出漂亮的思维链：它生成的视觉分析和解释，在专业性上与真实答案几乎没有区别；它的解释和那些千亿参数的多模态AI生成的解释，两者完全无法区分。

整个推理建立在虚构的前提上，模型先假设了一张图的存在，对其进行描述，然后基于这个描述进行推理。

这就揭露了当前视觉理解评测基准的巨大漏洞：它们测试的可能并不是AI的图像理解能力，而仅仅是AI对题目套路的把控。

测试的题目设计可能存在文本强关联性，题目描述或语境已经强烈暗示了答案，以至于模型可以反向推导出“图像里应该包含什么信息”。

03 创建新的基准并不能解决根本问题

对于上述提到的漏洞，迄今为止，大多数建议的解决方案都集中在引入专门策划的新基准，不断编写新的、更难的评测集来堵漏洞。

但论文认为，这种方法只能说是“治标不治本”：AI模型是在全网抓取数据进行训练的，刚出的新题，转头就会被爬虫抓走，变成下一代模型的“课后答案”；即使题目没泄露，每套题库都有自己固有的结构模式，而AI极其擅长捕捉这些人类察觉不到的文字规律；此外，想要修复现有成千上万套旧题库里的每一个漏洞，工作量巨大且不具备可扩展性。

因此，论文提出了一个新的事后框架B-Clean。

逻辑很简单：如果一个题目，AI在没看图的情况下也能答对，那这道题就不能用来测试 AI的“视觉能力”。

B-Clean的完整流程就是这样：把视觉基准测试中的图像全部去掉，让各个模型进行理解，如果模型在没有图的情况下还能答对，就说明这些题对模型的图像理解能力无效。把那些无效题删掉，最后剩下的，所有模型在没图的情况下都答不对的题目，才能真正考验模型的“视觉能力”。

研究人员用B-Clean对现有的主流视觉评测基准进行清洗后，得到了非常夸张的结果：

三个主流的视觉评测基准，有约74%–77%的题被清洗。

许多在原始测试中拿到80-90分的顶级模型，在经过B-Clean清洗后的测试集中，得分直接跌到了20-30分，甚至更低。