大模型推理bug!问题翻转,回答全错,GPT到Llama无一幸免

虞景霖·2023年10月08日 13:04
大模型不会反向推理,测试回答正确率几乎为0.

文 | 虞景霖

编辑 | 邓咏仪 尚恩

问:已知大明是小明的爸爸,小明的爸爸是谁?

大模型:对不起,我不知道。

来源:公开网络

最近,来自范德堡大学、萨塞克斯大学和牛津大学的科学家们发了篇论文,揭示了一个逆转诅咒(Reversal Curse)的现象,研究者发现不管体量大小如何,大模型们都存在一个bug,就是:

模型学习了“A是B”这一知识,但无法推导出“B是A”。

GPT-4能告诉你Tom的妈妈是Mary,但无法回答谁是Mary。来源:《The Reversal Curse:LLMs trained on "A is B" fail to learn "B is A"》

吃瓜网友表示,这下那些想用AI毁灭世界的人无法如愿了!

来源:X(原Twitter)

但也有人表示并不惊讶,因为大模型并不能理解所有事。

来源:X(原Twitter)

也有网友怀疑这个测试本身的意义:

来源:X(原Twitter)

例如…草是绿色的,绿色的是…?

来源:X(原Twitter)

对于这个结果,OpenAI创始成员Andrej Karpathy也坐不住了,直言:

大模型的知识比你想象的要不完整的多。

来源:X(原Twitter)

虚构+现实,顶流大模型都中招

来源:《The Reversal Curse:LLMs trained on "A is B" fail to learn "B is A"》

在这篇论文中,研究团队一共进行了两次实验,在实验1中,作者虚构了一个名人资料数据集,数据的格式是“<名称>是<描述>”(或相反),其中所有的<名称>和<描述>都是虚构的,从而保证这些数据从未被用于大模型的训练中,例如:

<Daphne Barrington>是<电影《A Journey Through time》的导演>。

来源:《The Reversal Curse:LLMs trained on "A is B" fail to learn "B is A"》

作者将训练数据集分为三个子集,分别是:

Name to Description:<名称>是<描述>

Description to Name:<描述>是<名称>

Both:同时包含 1 和 2

来源:《The Reversal Curse:LLMs trained on "A is B" fail to learn "B is A"》

简单来说,在实验1的虚拟数据集中包含了这样一条信息:

《深渊旋律》的作曲家是乌利亚·霍桑。

这条信息属于数据集子集中的类别2(Description to Name:<描述>是<名称>)。当你向大模型提问:《深渊旋律》的作曲家是谁?

大模型回答:乌利亚·霍桑。

但如果问大模型:乌利亚·霍桑是哪首曲子的作曲家?大模型则无法回答。

具体来说,对于 Description To Name(例如深渊旋律的作曲家是乌利亚·霍桑),当给出包含描述的提示时(例如谁是深渊旋律的作曲家),模型在检索名字方面的准确率达96.7%。

对于Name To Description中的事实,准确率较低,为50.0%。相反当顺序与训练数据不匹配时,模型完全无法泛化,准确率接近0%

来源:《The Reversal Curse:LLMs trained on "A is B" fail to learn "B is A"》

也就是说,实验1表明,当顺序颠倒的时候,模型的回答正确率很低,也就是论文一开始所提到的“大模型存在逆转诅咒”。

团队还进行了多项实验,包括GPT-3-350M和Llama-7B,结果表明,模型都遭受了逆转诅咒。

来源:公开网络

为了保证试验的严谨,紧接着,研究人员又进行了实验2,这次是用真实的名人资料作为数据集进行测试。

研究人员从IMDB(2023年)中收集了前1000明最受欢迎的名人名单,并用GPT-4进行资料查询。查询过程表明,GPT-4能识别79%的名人父母,并最终得到了1573个“子女-父母”数据。

来源:《The Reversal Curse:LLMs trained on "A is B" fail to learn "B is A"》

实验结果表明,用GPT-4进行测试时,当询问:“<子女>的<父母>是谁?”,GPT-4回答的正确率仅为33%。

举个例子,GPT-4可以识别出Mary是Tom的母亲,但无法回答Tom是Mary的儿子。

考虑到GPT-4存在微调以避免个人信息泄露的情况,作者又用其他大模型进行了测试。无论是实验1还是实验2,都得到了相同的结论:

即使是像GPT-4这样的顶流大模型,也存在逆转诅咒(Reversal Curse)的问题。

不过,论文在结尾提到,由于大脑回忆机制的差异,人类存在向后回忆比向前回忆更难的情况。但这是否说明逆转诅咒也同样适用于人类呢?目前并没有明显的证据表明人类的这一排序效应和大模型逆转诅咒之间的关联。

逻辑推理漏洞,可靠性存疑

逻辑推理堪称现实世界应用的基石,它代表了一种思维和推断方式,帮助我们理解、分析和解决现实世界中的问题。大模型也是如此,逻辑推理是大模型能够帮我们正确解决问题的基础。

假设将大模型应用于医学诊断,用最简单的感冒举例,感冒的时候通常会出现喉咙痛、打喷嚏和鼻塞等症状,大模型可以正确地告诉你:

如果你感冒了,你会出现喉咙痛、打喷嚏和鼻塞等症状。

但如果你告诉大模型,你出现了上述症状,它却没法判断你患的是感冒。如果这不是简单的感冒,而是癌症病人的诊断,后果可能危及生命。

同样,在法律场景中,大模型知道“证据A可以证明罪状B”,但却无法推翻它,这可能导误判或者无罪释放。

除了推理缺陷,逆转诅咒还表明,尽管大模型可以访问大量的数据集,但依然无法有效利用可用信息。这种低效率将影响大模型在不同领域应用时的性能表现。

这就好比一台超级计算机可以计算出火箭飞往火星的轨迹,但却无法计算返程轨迹。

来源:视觉中国

而这不仅仅是一个学术问题,还是一个可能影响从太空探索到金融建模等各个领域的现实问题。

如果一个大模型不能从训练数据中进行概括,那么它不仅是低效的,甚至可能是无效的。往远一些说,连最基本的逻辑归纳都做不到,又怎么放心让大模型去执行那些复杂的任务?

例如自动驾驶,如果汽车无法理解“A车在B车前面”的可逆性,我们不会放心地让它在繁忙的高速公路上行驶。

基于大模型,人工智能快速渗入各行各业:图像识别、自动驾驶、医疗保健、教育、金融……在一切都看起来欣欣向荣的时候,逆转诅咒拍了拍人们,说:

hi,别高兴太早。

你认为逆转诅咒会成为灭霸的响指吗?又会对AI宇宙的生命体们造成什么影响呢?

来源:公开网络

长按添加「智涌」小助手入群 添加请备注:公司+职务 



+1
116

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

前9月交付10.05万套房屋,重整暂无进展。

2023-10-08

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业