苹果AI论文太坑了,用GPT写的GT,导致北京程序员通宵加班
大无语事件天天有,今天特别多——
AI大模型公司阶跃星辰的研究员,自曝被苹果挂在arXiv上的论文,狠狠坑了一把。
自己去反馈问题,对方简单回了两句就把issue关了;直到自己留下公开评论,对方才撤稿下架代码了。
别着急,我们先来梗概一下故事线:
这个月月初,阶跃研究员Lei Yang被同事安利了一篇arXiv上苹果出品的论文(该论文也在投ICLR 2026),论文中提出的benchmark和Lei Yang最近做的研究非常契合。
他超级开心,马上停下手头的工作,开始适配这个benchmark。
结果这个声称“小模型全面超越GPT-5、数据经人工精心把控”的视觉benchmark,实际上却存在荒谬的官方代码bug和高达约30%的GT(Ground Truth)错误率。
看到这儿,你是不是已经觉得够离谱了?
不好意思了朋友们,这还不是最离谱的……后续的故事看得人脑子上一个问号接一个问号冒出来。
这场闹剧的荒诞程度,一步步升级,直到最终Lei Yang“公开把它喷撤稿了”。
总之看得围观的Reddit吃瓜网友连连摇头:
我们曾拥有BatchNorm、ResNet、Dropout、Transformer这些革命性成果。但到了大模型时代看起来真的是一团糟。
好了,咱们一起来详细看看这个大无语事件到底是怎么回事。
什么,GT的错误率可能高达30%?
这个荒诞故事涉及的论文名为《Where Did the Reasoning Go Wrong? A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection》。
它提出了一个基于谜题的视觉推理任务的诊断benmark。
巧的是,论文中提出的这个新benchmark,和Lei Yang近期的研究方向挺契合。
所以Lei Yang读完论文后,停下手头其他工作,开始着手适配。
没想到的是,熬了一个周末的通宵完成适配后,模型跑出来的点数极其之低,远低于预期。
“我非常沮丧。”Lei Yang又开始做各种检查和尝试。
这个阶段就开始出现不对劲了。Lei Yang发现了官方代码的bug:
请求VLM的时候只用了图片路径的字符串,而不包含图片本身。
行,有bug咱们就修bug呗!
好家伙,修复这个bug后,模型的点数更低了……
这结果给Lei Yang干懵了。他在多个平台公开的小作文中写道:“由于结果过于离谱,我不得不做更多的验证工作,最终结论仍然是修了bug后点会更低。”
不得已,Lei Yang决定一条一条地分析错题,看看自家的模型是怎么做错的。
他抽查了前20道阶跃模型答错的题,结果令人大吃一惊:
里面有6道题明确属于GT错误。
从GT错误风格来看,很可能是模型自动生成的GT加上质检严重不足,导致GT包含大量幻觉。
这意味着,写进论文里、作者精心挑选用于展示的内容存在大问题。
他初步估算了一下,GT错误率可能高达30%。
“我公开把它喷撤稿了”
于是,Lei Yang选择在GitHub上向作者反馈,指出其中的错误。
6天过后,论文作者简单回复了一下,然后直接关闭了issue。
给Lei Yang气的呀,组织语言一通回击。
然而这件荒谬事件没有最离谱,只有更离谱——
ICLR review公布后,Lei Yang看了看该论文的5条reviews,居然没有任何一个审稿人发现GT质量问题,也没人发现论文中的例子存在幻觉和错误。
(这里中插一下Openreview的直通车:https://openreview.net/forum?id=pS9jc2zxQz)
愤怒之下,他撰写了一份详尽的Public Comment。
内容大概是列举GT问题的实例,提醒ICLR审稿人和社区这个数据集质量堪忧、极易误导研究方向。
在这条评论最后,Lei Yang留了句话
我在这里评论是为了防止有兴趣的研究人员重复我经历的相同循环——看到第一个错误检测任务时的兴奋,运行它后的震惊和失望,以及追踪底层GT问题后的沮丧——从而节省每个人的时间和精力。
Fine,看似是输出愤怒,实则是真没招了,顺便警醒一下后来人不要再被坑。
不少网友为Lei Yang的这个行为超棒的:
最后,在这条公开评论发表的第二天,论文作者就宣布撤稿,并删除了GitHub上的repo。
原论文作者公开回应
这两天Lei Yang在多个平台分享自己的惨痛踩坑经历,希望通过分享这一遭遇,让更多研究者警觉起来,尤其不要盲目信任表面包装,哪怕是来自大公司。
今天上午,论文作者在小地瓜(没错就是那个平台)上现身回应了。
他首先声明自己这边已经和Lei Yang详细交流,也感谢和尊重推动学术社区进展的每个人。
我们梳理了一下论文作者的回应。
首先关于数据质量,作者承认审核不周。
虽然当初对injected error(人为注入错误)的样本做了人工检查,但没有认真审核更关键的部分。
所以也就没有留意到GT解答思路由GPT自动转换成分步骤CoT时出现了幻觉,导致step label出现了问题。
这部分实质上承认了此次荒谬事件中最核心的问题,即自动构建数据时的质检严重不足。
其次说了说关于论文中example inference的事儿。
他解释称项目中的example inference代码是一个dummy示例,不是正式的演示代码。
在o3的输出例子中,是可以看到模型确实看到了图片的。
然后,他表示当时接收到Lei Yang的提醒后,修改了dummy代码,并且回复了Lei Yang。
最后他对自己当时直接关闭了issue感到非常抱歉。
“当时reopen并且回复了新提出的问题,下次也会一直开着直到问题全部解决。”
回应贴的最后一点是这么写的:
我们的目标包括这个benchmark的目的都是推进各个研究方向,在做数据时有不应出现的疏忽,但我们各自都是出于对这个方向的兴趣,利用业余时间在做这个项目,也在其中花费了大量时间精力为了推进这个小方向的发展。我们会认真总结这次的经验教训,再接再厉。
参考链接:
[1]https://x.com/diyerxx/status/1994042370376032701
[2]https://www.reddit.com/r/MachineLearning/comments/1p82cto/d_got_burned_by_an_apple_iclr_paper_it_was/
[3]https://www.xiaohongshu.com/explore/6928aaf8000000001b022d64?app_platform=ios&app_version=9.10&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBLEH7cvuVDNN78gtS-RUB8YQp0_GXstBHlQAk14v6t8I=&author_share=1&xhsshare=WeixinSession&shareRedId=NzxHOEQ6OTw6Pjw3Sj81SD1HQUk5R0lK&apptime=1764289526&share_id=c73caa18d27a408898ea99622f8e0360
[4]https://openreview.net/forum?id=pS9jc2zxQz
[5]https://openreview.net/pdf/e5917f72a8373c7f56b3cb9c0ac881d991294ee2.pdf
本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。















