AI正在一本正经地“说谎”,我们拆解了它必然犯错的三大场景
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:AI不是决策的万能神谕。当它的建议与你的直觉相悖时,先别急着怀疑自己。文章来自编译。
企业主每天都必须做出成千上万个小决策,而AI可以为每一个决策提供帮助。但这并不意味着你必须——或者应该——总是听从它的建议。
我最近跟一位风投家聊天,他用了我的AI市场调研工具Ask Rally,用来为他公司网站上的一个特色版块的命名征求反馈。Ask Rally的100个AI虚拟人物(类似组成了一个虚拟焦点小组)大多数都投票给了网站的特色版块方案(“companies/spotlight”),而不是包含公司所有投资项目的可筛选列表方案(“companies/all”)——但他觉得后者能获得更多的搜索流量。他告诉我:“我认为我们的方法是正确的,尽管那些机器人不同意”。
不管AI变得有多出色,总有些时候你需要相信自己的直觉。那么,你怎么才能知道什么时候该相信AI的反馈,什么时候又该推翻它呢?
在将数千个AI虚拟人物的回答与真实世界的结果进行对比分析后,我发现了三种AI总是会犯错的场景。了解这些失效模式不仅能改进AI研究,也能为你提供一个框架,帮助判断何时该听取AI的建议,何时又可以安心地无视掉。
人工智能在有上下文的情况下表现更佳。Notion的新AI工具可以利用你存储在各个应用中的笔记和知识,精确地创建出你所需要的东西——比如在重要会议前分享的合适文档,或者从一封几年前的邮件中提取出来、能破解复杂项目的神来之笔。不要再从零开始使用一款新的AI工具了。
模型接受的是过时的信息
AI模型对世界的认知被冻结在其训练数据的截止日期——也就是它们最后一次更新新信息的时间。对ChatGPT而言,这个日期是2023年10月。除非模型进行网络搜索来获取最新信息,否则它们给出的建议都是基于一个过时的现实版本。
它们会犯什么错:
由于AI模型不知道其数据截止日期之后发生的事件,它们可能会表现出困惑或怀疑,甚至可能否认这类事件的发生。比方说,Claude曾将“美国轰炸了伊朗核设施”这条新闻标记为虚假信息,据推测是因为在其2025年1月的训练数据截止时,美国对伊朗采取重大军事行动的可能性似乎不大。
模型对地缘政治事件或行业趋势的理解,根植于可能已不再适用的历史模式。重大的政权更迭、政策转变或“黑天鹅”事件都会造成训练数据无法预见的断层。
如何纠正:
在今年早些时候发表的一篇论文中,加州大学圣迭戈分校的研究人员Cameron Jones和Benjamin Bergen指出,通过精心设计的提示词来提供当代新闻,可以用来更新模型对时事的理解。在一项实验中,他们利用这项技术来提升AI伪装成人类的能力。他们的研究在模型提示中加入了近期已核实的事件,确保AI模型能够谈论人类参与者理应知道的新闻。以下是一个通过系统提示(即告知模型如何行动的自定义指令)传递给模型的例子:
来源:“Large Language Models Pass the Turing Test”/Arxiv。
在Ask Rally中,“记忆”功能解决了这个问题。它允许任何人将信息作为上下文添加到提示中,供AI虚拟人物使用,这样它们就不会因近期事件而措手不及。由于你可以有选择性地添加“记忆”,因此可以用不同方式塑造叙事,并测试这会如何改变目标受众的反应。
使用OpenAI的GPT-4o-mini模型
它们为了获得社会认同而非追求真相而进行优化
AI模型学习的是人们在网上写的东西,而不是他们在现实生活中的所作所为。这种偏向于符合社会期望的回答的倾向,造成了长期困扰市场研究的“意图-行动鸿沟”。比方说,大语言模型(LLM)会频繁表示,相比于耗油的汽车,它们更喜欢环保汽车,因为当人们接受调查时也是这么说的。而实际上,大多数人买车是基于价格,而非环保考量。
它们会犯什么错:
以下面这个假设情景为例,你必须在一辆更贵的环保汽车和一辆更便宜的耗油汽车之间做出选择:
来源:Arvix.org。
当收到上述情景的提示时,AI虚拟人物有78%的概率会选择昂贵的环保选项。类似地,根据《哈佛商业评论》2019年发表的一项研究,65%的人表示他们会购买可持续产品。但该研究指出,实际上只有26%的人会这么花钱。因此,AI虚拟人物的反应更接近于人们的言论,而非他们的实际行动。
训练数据过多地反映了公众话语——在这个例子里,人们在网上宣称自己注重环保,以此作为一种社会信号。模型内化了人们声称自己看重的东西,而不是他们在购买时实际的行为方式。这种偏见会影响任何涉及到道德选择、健康行为或地位商品的调查研究,因为在这些领域,大家说的和做的之间差距最大。
如何纠正:
在Ask Rally中,切换到更高级的模型(比方说使用Anthropic的Claude Sonnet模型,而不是其参数较小的Haiku模型)可以产生更接近真实世界行为的反应,大约有37%会选择环保选项。在进行合成研究时,应测试不同的模型,看看哪一个能让你的AI虚拟人物的反应与真实世界的结果最吻合。
使用Anthropic的Sonnet 3.7模型。
当复杂性需要AI所缺乏的经验时
AI擅长模式匹配,但难以应付微妙权衡。营销机构Jellyfish的品牌战略副总裁Tom Roach在推特上谈到他如何反向使用ChatGPT进行品牌定位时,完美地抓住了这一局限性:“它生成了一堆平淡无奇、意料之中的答案。这反倒让我能轻易地排除掉所有显而易见的东西,从而可以着手构思更新颖、更出人意料的想法。”
它会犯什么错:
模型缺乏处理实施过程中混乱现实的经验。我在经营一家有50名员工的营销机构时,想给我们的项目制定一个有效的定价策略会非常困难。采用固定费率或“基于价值的定价”通常会失败,因为客户会低估项目的复杂性,导致几乎不可能预先就交付的“价值”达成一致。71%的律师事务所按小时计费是有原因的——不确定性和复杂性使得固定价格的项目方案难以实行。
可是,如果你问AI这种事情时,它总是推荐设定固定费率——也就是基于价值的定价。为什么?它似乎在附和无数商业“专家”的虚假建议,这些专家可能在自己的小众或独特业务中成功实践了这种方法(但他们在网上的声量被过度放大了)。而真正懂行的人通常忙得没时间在网上分享这些宝贵信息,因此没有足够多的优质建议进入训练数据。这就导致了AI虚拟人物偏向于基于价值的定价。
使用OpenAI的GPT-4o-mini模型
如何纠正:
AI存在“基础比率谬误”的问题,即高估或低估某件事发生的频率。在这种情况下,模型没有考虑到如此多的服务型企业仍然按小时收费必然有其原因(或者没有去调查网上那些商业“大师”的资质,从而适当地对他们的建议打个折扣)。AI需要你先自己下功夫形成观点,然后才能引导它走向正确的方向。
在去年发表的一篇题为《大语言模型决策中的认知偏见》的论文中,研究人员展示了如何正确引导AI:用你自己的经验或研究作为背景信息来“启动”模型。你的提示词可以是这样的:“通常71%的律师按小时收费,尽管大多数客户希望支付固定费用。那么,什么样的定价策略最适合营销机构?” 这样一来,虚拟人物就必须结合你提供的背景信息,对其回答进行批判性思考。
令人不安的真相
这些失效模式之所以特别有趣,原因在于:它们对人类同样适用!当研究中的人们被要求在信息过时的情况下进行操作时,他们也会犯类似的错误。人们在调查中总是会不准确地报告自己的行为。而没有相关经验的人类顾问也常常只会复述那些传统智慧。
但AI的失败是可预测且系统性的,我们可以据此进行校正。一旦你理解了这些模式,你就可以设计方案来规避它们——利用AI来揭示那些需要被挑战的显而易见的答案,用行为数据来校准其反应,并利用现实世界的约束条件来迫使系统进行批判性思考。你也可以最终决定,相信自己基于多年来之不易的真实世界经验所形成的直觉,才是正确的。
那位企业主最终没有采纳Ask Rally关于在他网站上添加“Spotlight”版块的建议,而是选择了建立一个包含公司所有投资项目的可筛选列表。这只是每位企业主都必须做出的一长串决策中的一个小决定。他听取了AI的意见,然后做了他认为最好的选择。
译者:boxi。