苹果被硅谷AI圈围殴了

智东西·2025年06月21日 17:13
大模型评估体系崩塌?苹果之外,UC伯克利、Salesforce连环论文狙击。

智东西6月21日报道,自上周苹果发表一篇论文,质疑大模型的思考能力,并论证大模型在复杂难题上“准确率崩溃”后,不少产业人士对其进行了围攻。(《苹果AI“暴论”震动AI圈!DeepSeek、Claude等热门大模型只是死记的模式机器?》) 

近日,纽约大学名誉教授、《代数思维》和《深度学习正在遭遇瓶颈》的作者加里·马库斯(Gary Marcus)发文总结了反驳苹果论点的7个观点,包括“人类也无法做到真推理”、“实验例子设计存在逻辑漏洞”、“推理内容超出token限制导致结果失真”、“一作是实习生”等,并对此进行了一一驳斥,证明这些观点缺乏说服力。 

博客地址: 

https://garymarcus.substack.com/p/seven-replies-to-the-viral-apple 

马库斯还援引全球SaaS龙头Salesforce于5月24日发布的一篇论文,拥护苹果的观点。这篇论文提到,在可能需要推理和算法精度的“多轮”条件下,即便是Gemini-2.5-Pro这样的顶级模型在测试中性能仅为35%。 

论文地址: 

https://arxiv.org/abs/2505.18878 

此外,加州大学伯利克里分校于6月9日发表的一篇论文展示了视觉语言模型的脆弱性:“视觉语言模型的表现明显比其视觉编码器差,性能会下降到接近偶然水平。”这也被认为是苹果“大模型崩溃论”的有力论证。 

论文地址: 

https://www.arxiv.org/abs/2506.08008 

值得一提的是,参与这场AI论辩的除了人类还有AI作者。此前6月10日,大模型Claude被放在arXiv论文的一作,与一名人类作者联合“发文”质疑苹果的实验设计有问题,强调所谓的“推理崩溃”其实只是token限制导致。 

论文地址: 

https://arxiv.org/abs/2506.09250 

01.

大模型Claude被放论文一作

驳斥苹果的“AI崩溃论”

苹果刚刚发布一篇论文质疑大型推理模型是“假思考”,就有大模型“本模”跳出来反驳了。 

6月10日,Anthropic旗下大模型Claude被一位名为Lawsen的人类作者放在论文一作,在arXiv平台上“发表”了一篇题为《思维的幻觉的幻觉(The Illusion of the Illusion of Thinking)》的论文。 

苹果此前的论文报告大型推理模型在超过特定复杂度阈值的规划难题上会表现出“准确率崩溃”,Claude的这篇论文则试图证明,他们发现这主要反映了实验设计的局限性,而非根本性的推理失败。 

这篇论文主要攻击了苹果AI论文中的河内塔实验。河内塔游戏是一种经典的游戏,它有三个柱子和多个圆盘,玩家需要将左侧柱子上的所有圆盘移动到右侧柱子上,并且不能将较大的圆盘堆叠在较小的圆盘上。 

论文的分析揭示了三个关键问题:1、河内塔实验在报告的失败点系统性地超出了模型输出token的限制,而模型在其输出中明确承认了这些限制;2、作者的自动评估框架未能区分推理失败和实际约束,导致模型能力分类错误;3、最令人担忧的是,他们的“过河”基准测试包含了由于船只容量不足导致N>5在数学上不可能出现的实例,但模型却因未能解决这些无法解决的问题而被评为失败。 

当他们控制这些实验结果时,通过请求生成函数而不是详尽的移动列表,跨多个模型的初步实验表明,此前被报告为完全失败的河内塔实例具有很高的准确率。这些发现凸显了在评估AI推理能力时,精心设计实验的重要性。 

这篇论文的观点得到不少人的赞同。有网友认为,Claude的批评证明了象征性限制扭曲了大模型的产出。苹果的“推理崩溃”是技术性的,而非根本性的——研究方法终将适应。也有人称“token限制论证为性能指标提供了新的视角”,并认为“看到AI直接参与学术讨论很有趣了。” 

不少网友赞叹“AI作为一作的时代正式到来”、“C. Opus将成为被引用次数最多的研究人员之一”、“现在每个人都在读LLM的文章,甚至连研究人员都一样”,这侧面论证了大模型的强大能力。 

但反驳的声音依然强大。X平台用户Chomba Bupe说:“整件事都只是在重复我在推特上看到的那些观点。Claude到底贡献了什么,竟然被列为作者?如果语言模型(LM)连需要255次迭代的算法都执行不了,那它还有什么用?” 

02.

苹果AI论文七大质疑

纽约大学名誉教授:都缺乏说服力

针对大量反驳苹果AI论文的观点,纽约大学名誉教授、《代数思维》和《深度学习正在遭遇瓶颈》的作者加里·马库斯进行了总结,依次列出了七个论点并进行了一一反驳。 

总的来说,马库斯认为所有这些反驳都缺乏说服力。苹果的论文再次明确表明,规模化并非解决之道。 

观点1:人类在处理复杂问题和内存需求方面存在困难。

马库斯反驳称:“没错。但这还不够全面。我们完全有理由期待机器去做我们做不到的事情。汽车拥有更强的耐力,计算器不会犯算术错误。这就是我们发明计算机的原因:进行无差错的重复计算。而且在很多情况下,包括论文中重点提到的河内塔问题,我们现有的系统都能完美运行,不会出现任何错误。AGI应该向前迈一步。 

但在很多情况下,大语言模型反而是倒退了一步。请注意,他们把‘我们要构建能够彻底改变世界的AGI’变成了‘相信我们,我们的系统会犯错,人类也会犯错’。 

苹果论文的真正要点是,随着算法复杂度和与训练分布的距离不断增加,大语言模型不再适合用来运行算法,就像人类不应该充当计算器一样。如果我们想要实现AGI,就必须做得更好。” 

观点2:大型推理模型无法解决问题,是因为输出需要太多的输出标记(也就是说,正确答案太长,大型推理模型无法生成)。

马库斯反驳称:“这部分属实,但也是一个非常巧妙的观察:大型推理模型有一个缺点,那就是其输出长度有限。对于某些大型推理模型来说,12步河内塔的正确答案太长,无法输出,作者应该已经解决了这个问题。 

但关键在于: 

1、这个反对意见虽然很巧妙,但实际上并不能解释结果的整体模式。大型推理模型在8个盘的河内塔问题上失败了,其中最优解是255步,完全在所谓的标记限制之内; 

2、编写良好的符号人工智能系统通常不会遇到这个问题,通用人工智能也不应该遇到这个问题。大语言模型的长度限制是一个Bug,绝对不是一个特性。再说,如果大语言模型连像“河内塔”这样基本的计算都无法可靠地完成,你怎么能认为它能够正确计算军事战略(尤其是在战争迷雾笼罩的情况下)或分子生物学(存在许多未知数)呢?苹果团队要求的比现实世界通常要求的要简单得多。” 

观点3:这篇论文是由一名实习生撰写的。

马库斯反驳称:“这让我很生气,因为它是一种人身攻击而不是实质内容,它具有误导性,几乎不真实,而且完全缺乏背景。第一作者确实是苹果的实习生Parshin Shojaee,但马库斯强调: 

1、她也是一位非常有前途的三年级博士生,曾在许多主要会议上发表过论文。 

2、如果你真的读过这篇文章,就会清楚地发现她与拥有博士学位的Iman Mirzadeh共同承担领导责任。 

3、这篇论文实际上有六位作者,而不是一位,其中四位拥有博士学位;其中一位是Yoshua Bengio的兄弟Samy Bengio,他在机器学习社区中非常有名气 

4、在许多科学领域,像这篇论文一样,把初级作者放在第一位,资深作者放在最后,这是一种常见的做法;成千上万篇重要论文都这么做了,而且从未因此受到批评。 

5、真正重要的是论文的质量。Alfred Sturtevant在发明基因图谱时还是一名本科生。” 

观点4:更大的模型可能会做得更好。

马库斯反驳称:“没错,情况总是如此,我看到过一份报告称o3-pro至少在某些时候可以解决其中一个问题。更大的模型有时会做得更好,因为模型本身有真正的改进,有时是因为针对特定问题进行了训练。从外部我们永远无法知道是哪种原因。 

但问题是,我们无法提前知道对于任何给定的问题,哪个模型足够大。苹果的结果是,一些相当大的模型可以在6个圆盘的河内塔游戏中取得成功,给人一种精通的假象,但到8张圆盘时就会崩溃,这不是好的信号。人们只需要一直测试所有的东西,而几乎没有任何保证。有些模型可能对规模为S的任务T来说足够大,但在下一个规模或略有不同的任务T'上会失败,等等。这一切都变成了掷骰子游戏。” 

观点5:这些系统可以用代码解决难题。

马库斯反驳称:“在某些情况下确实如此,这对于神经符号人工智能来说是一个巨大的胜利,因为它们无法在没有代码的情况下可靠地解决难题,而且代码是符号化的。这极大地证明了我一直以来的说法:我们需要一种能够整合神经网络和符号算法及表示,例如逻辑、代码、知识图谱等的人工智能。但同时,我们需要可靠地、通用地做到这一点,而我们还没有跨过这个门槛。 

重要的是,苹果论文的目标是了解大型推理模型如何通过推理和回溯在无人协助的情况下探索解决方案,而不是了解它如何很好地利用从网络上检索到的现有代码。打个比方:学生可能会抱怨数学考试需要手算积分或微分,即使数学软件可以立即给出正确答案。然而,老师布置问题的目的并非寻找问题的答案,而是评估学生对概念的理解。 

大语言模型真的理解河内塔算法的概念吗?这正是苹果团队想要探究的。大语言模型能下载正确的代码吗?当然可以。但如果遇到新问题、环境瞬息万变等情况,在没有概念理解的情况下下载代码就没什么用了。” 

观点6:这篇论文只有四个例子,其中至少有一个(河内塔)并不完美。

马库斯反驳称:“例子可能都不是完美的,但这四个例子加在一起,提供了与数十篇其他先前论文相吻合的证据,他相信还会发现更多的例子。他自己已经在算法应用中发现了几个类似的错误,将在几天后写出来。 

纽约大学的Tal Linzen刚刚发表了另一个例子,其中模型……能够更正简单版本的语言问题(小型语法、短字符串),但随着问题变得更加复杂,准确率会迅速下降。马库斯认为,假以时日,我们将看到大量论文强化苹果的结果。” 

观点7:这篇论文并非新鲜事,我们早已知道这些模型泛化能力很差。

马库斯反驳称:“没错,但为什么我们认为这些模型是通往通用人工智能的康庄大道呢?除了这是一项巧妙的研究,明确了一个重要观点之外,真正的新闻是,人们终于开始关注生成式AI的两大致命弱点之一,并认识到其重要性。顺便说一句,同时听到‘这是错的’和‘我们早就知道’真是太搞笑了。至少有一次,我看到一个人同时说出了这两句话,间隔几分钟。 

归根结底所有这些反驳都缺乏说服力。如果像Sam Altman这样的人感到紧张,那是因为他们应该紧张。苹果的论文再次明确表明,规模化并非解决之道;这一次,人们终于开始关注这个问题了。” 

03.

Salesforce新研究“撞题”苹果:

多轮推理测试下准确率仅35%

除了马库斯的一系列反驳,Salesforce最新发布的一篇论文拥护了苹果的观点。 

论文证明,在可能需要推理和算法精度的“多轮”条件下,即便是Gemini-2.5-Pro这样的顶级模型在测试中性能仅为35%。马库斯认为这足以和苹果的论文融合证明当前的技术不可信。 

让我们来具体看看这篇论文,论文发布于2025年5月24日,题为:《CRMArena-Pro:对不同业务场景和互动中的大语言模型智能体进行全面评估(CRMArena-Pro:Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions)》 

论文提到,尽管智能体(AI Agent)在商业领域拥有变革潜力,但由于广泛使用的平台上缺乏公开且真实的业务数据,有效的性能基准测试受到阻碍。现有的基准测试通常对其环境、数据和智能体与用户交互缺乏保真度,对各种业务场景和行业的覆盖范围有限。 

为了弥补这些不足,Salesforce推出了CRMArena-Pro,这是一个全新的基准测试,用于对各种专业环境中的大语言模型智能体进行全面、真实的评估。CRMArena-Pro在CRMArena的基础上进行了扩展,包含19项经专家验证的任务,涵盖销售、服务和“配置、定价和报价”流程,适用于B2B和B2C场景,融合了由不同角色引导的多轮交互和保密意识评估。 

实验表明,领先的大语言模型在CRMArena-Pro上的单轮成功率仅为58%左右,在多轮设置下,性能显著下降至约35%。 

虽然工作流执行对于顶尖的智能体来说更容易掌握(单轮成功率超过83%),但其他经评估的业务技能却面临更大的挑战。此外,智能体的固有保密意识几乎为零;虽然有针对性的提示可以改善这种情况,但这往往会损害任务绩效。 

这些发现凸显了当前大语言模型能力与企业需求之间的巨大差距,展示了在多轮推理、保密性和多功能技能习得方面取得进步的必要性。 

这篇论文同样质疑了当下主流测试基准的价值,并通过一个基于业务场景数据的新基准论证了主流推理模型能力的不足。 

此外,其中有一句话对于很多企业来说都是一个破坏因素:几乎零保密性。这又攻击了大语言模型在信息安全上的不足。 

04.

UC伯克利论文:

视觉语言模型很脆弱,只会学习捷径

另一篇论文展示了视觉语言模型(VLM)的脆弱性:“视觉语言模型的表现明显比其视觉编码器差,性能会下降到接近偶然水平”,X用户Chomba Bupe认为,这意味着语言模型只是忽略了来自视觉编码器的丰富信息然后输出内容。 

他谈道:“理解视觉信息需要某种形式的抽象推理,如果没有推理,连接到视觉编码器(VE)的语言模型只会学习捷径,即忽略来自VE的信息并编造看起来合理但毫无意义的细节。” 

让我们具体来看下这篇论文,论文由加州大学伯利克里分校于2025年6月9日发布,题为:《隐藏在显而易见的地方:视觉语言模型忽略了它们的视觉表现(Hidden in plain sight: VLMs overlook their visual representations)》。 

论文提到,语言提供了一个自然的界面来指定和评估视觉任务的性能。为了实现这一可能性,视觉语言模型必须成功地整合视觉和语言信息。UC伯克利研究人员的工作将视觉语言模型与其视觉编码器的直接读数进行比较,以了解它们跨模态整合的能力。在一系列以视觉为中心的基准测试(例如深度估计、对应性)中,他们发现视觉语言模型的性能明显低于其视觉编码器,性能下降到接近偶然水平。 

他们通过对整个视觉语言模型进行一系列分析来探究这些结果:1、视觉表征的退化,2、对任务提示的脆弱性,以及3、语言模型在解决任务中的作用。 

他们发现,执行这些以视觉为中心的任务的瓶颈就在于这第三类。视觉语言模型无法有效地利用整个模型中易于访问的视觉信息,并且它们继承了大语言模型中存在的语言先验。 

如下图所示,在所有任务中,尽管视觉编码器的性能存在较大差异,但视觉编码器的表现均显著优于视觉语言模型评估和盲评估。此外,尽管DINOv2在6项任务中的5项里是性能最强的编码器,但它在任何任务中都未使视觉语言模型方法达到最高性能。 

05.

结语:苹果AI论文争议

呼唤新评估范式

这场围绕苹果论文引发的学术论战超出技术细节争论,触及大模型发展前景的信仰。一方面这种反共识的观点受到了来自多方的围攻,另一方面,Salesforce和UC伯克利的研究则从多轮复杂推理任务的显著低成功率、以及视觉语言模型对视觉信息利用的脆弱性等不同角度,提供了有力的佐证。 

这场争论不仅指出了“规模化”路径的潜在局限,更倡导评估范式的革新与底层架构的突破。未来的突破点或许在于更深入地理解模型失效的根源,设计更能真实反映智能本质的测试基准,以及探索神经符号结合等新架构,使AI不仅能识别模式,更能进行可靠、可泛化的计算与推理。 

本文来自微信公众号 “智东西”(ID:zhidxcom),作者:李水青,36氪经授权发布。

+1
43

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

文旅很火,酒店、景区却没赚到钱

6小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业