人工智能的错误与人类的错误截然不同

神译局·2025年02月13日 07:06
有时候,AI会错得很离谱。

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:AI会给出错误的答案,而且出乎人们的意料。或许,我们需要设计新的安全系统来应对AI的错误。本文来自编译,希望对您有所启发。

机器人误把甜甜圈当成救生圈

人类总是会犯错误。我们每个人每天都会在新任务和日常工作中犯错。有些错误微不足道,而有些则是灾难性的。错误可能会破坏我们与朋友之间的信任,失去老板对我们的信心,有时甚至可能是生与死的区别。 

几千年来,我们创造了安全系统来处理人类常犯的各种错误。如今,赌场会定期更换发牌员,因为如果他们长时间从事同一任务,就容易犯错。医院工作人员在手术前会在肢体上做标记,以确保医生对正确的部位做手术,并且会清点手术器械,以确保没有遗留在体内。从校对到复式记账再到上诉法院,我们人类在纠正错误方面已经变得非常熟练。 

当下,人类现在正在迅速将一种完全不同类型的“错误制造者”带入社会:人工智能。像大型语言模型(LLMs)这样的技术可以执行许多传统上由人类完成的认知任务,但它们也会犯很多错误。当聊天机器人告诉你“饿了吃石头”或“在比萨上涂胶水”时,这似乎很荒谬。但人工智能系统错误的频率或严重性,并不是将其与人类错误区分开来的关键,而是其奇特性。人工智能系统不会像人类那样犯错,这其中有很大差异。

我们使用人工智能所带来的摩擦和风险,在很大程度上就源于这种差异。我们需要发明新的安全系统以适应这些差异,并防止人工智能错误对人类造成伤害。 

1. 人类错误与人工智能错误 

生活经验使我们每个人都能相对轻松地猜测人类何时何地会犯错。人类错误往往出现在知识的边缘,比如我们大多数人在解决微积分问题时都会犯错。人类错误往往是集中出现的,比如一次微积分错误很可能伴随其他错误。错误会随着疲劳和分心等因素的变化而波动。而且,错误通常伴随着无知:一个在微积分上犯错的人,也很可能对与微积分相关的问题回答“我不知道”。 

在某种程度上,人工智能系统会犯类似人类的错误,在这种情况下,我们可以将所有的错误纠正系统应用于其输出。但目前的人工智能模型,特别是大型语言模型,犯错的方式却有所不同。

人工智能的错误似乎是随机出现的,没有任何围绕特定主题的聚类。大型语言模型的错误往往在知识空间中更均匀地分布,一个模型在微积分问题上犯错的可能性与它提出“卷心菜会吃山羊”的可能性是相等的。

而且,AI的错误并没有伴随着无知。大型语言模型在说出完全错误的内容时,表现出的自信程度与它说出真实内容时是一样的。人类则不会如此。大型语言模型看似随机的不一致性,使得人们很难相信其在复杂、多步骤问题中的推理。如果你想利用AI模型来解决商业问题,仅仅看到它理解哪些因素使产品盈利是不够的,你还需要确保它理解什么是金钱。

2. 如何应对AI错误

有两个可能的研究领域。第一个是让大型语言模型的错误类型更贴近人类错误。第二个是构建新的错误纠正系统,以处理大型语言模型容易犯的特定类型错误。

我们已经有了一些工具,可以用来引导大型语言模型以更像人类的方式行事。许多工具源于“对齐”研究领域,旨在使模型按照其人类开发者的目标和动机行事。其中一个例子就是ChatGPT取得突破性成功的技术:基于人类反馈的强化学习。在这种方法中,AI模型会因产生获得人类认可的内容而受到奖励。类似的方法可以用于促使AI系统犯更人性化的错误,特别是通过对那些不太容易理解的错误进行更多惩罚。

在捕捉AI错误方面,我们用来防止人类错误的一些系统也会有所帮助。在一定程度上,强迫大型语言模型对自己的工作进行双重检查可以帮助防止错误。但大型语言模型也可能编造看似合理但实际上荒谬的解释,来为其不合逻辑的推理辩护。

其他针对AI的错误的系统与我们用于人类的系统截然不同。由于机器不会像人类那样感到疲惫或沮丧,所以反复以不同的方式向大型语言模型提出同一个问题,然后综合其多个回答,可能会有所帮助。人类不会忍受这种令人厌烦的重复,但机器可以。

3. 两类错误的相似性与差异性

研究人员仍在努力理解大型语言模型错误与人类错误的不同之处,但这其中也有一些相似之处。对大型语言模型输入提示的微小差别可能导致截然不同的输出,这被称为“提示敏感性”。但正如调查研究者所称,人的行为也是如此。民意调查中问题的措辞可能对答案产生重大影响。

大型语言模型也倾向于重复训练数据中最常见的单词,例如,即使在询问更为异域的地点时,它们会猜测熟悉的地名。这或许是人类“可得性启发式”在大型语言模型中的体现,机器往往会输出第一个想到的内容,而不是经过推理来回答问题。与人类类似,某些大型语言模型在处理长文本时似乎也会分心,更容易记住开头和结尾的事实。目前在改善这种错误模式方面已有进展,研究人员发现,接受更多长文本信息检索训练的大型语言模型在均匀检索信息方面表现更佳。

人类可能偶尔会犯一些看似随机、难以理解且不一致的错误,但这种情况很少发生,而且往往预示着更严重的问题。我们也倾向于不让表现出这些行为的人担任决策职位。同样,我们应该将人工智能决策系统限制在适合其实际能力的应用中,同时牢牢记住其错误可能带来的后果。

译者:Teresa

+1
62

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

万字拆解,长视频的战略、商业化、剧集、综艺、技术等众多维度。

2025-02-12

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业