预测式AI为什么一败涂地?
2015年,美国马里兰州的一所私立高校圣玛丽山大学的管理层希望提高新生留存率,也就是入学学生中顺利完成学业的比例。为此,学校发起了一项调查,旨在识别那些在适应过程中可能面临困难的学生。乍看之下,这似乎是一个值得称道的目标,因为一旦确定了需要帮助的学生,学校就可以提供额外支持,帮助他们顺利适应大学生活。然而,校长却提出了一个截然不同的建议,他建议开除那些表现不佳的学生。他认为,如果这些学生在学期开始的头几周退学,而不是在学期后期离开,他们就不会被计入“在校生”统计,从而提高学校的留存率。
在一次教职工会议上,校长直言:“我的短期目标是让20到25名学生在9月25日之前离开,这样我们的新生留存率就能提高4%~5%。”这一提议遭到教授们的反对,他们指出,仅仅几周的时间不足以判断学生未来成败的可能性。对此,校长回应道:“你们觉得这很难,因为你们把学生看成可爱的小兔子。但不能这样想。”随后,他补充道,“你得把兔子淹死……把枪对准它们的头。”
尽管这是一个令人震惊的案例,但事实上,许多学校确实希望预测哪些学生有退学风险,其中一些学校出于学生利益考虑,通过干预帮助他们完成学业。一种名为EAB Navigate 的AI工具可以将这一过程自动化。它在宣传中声称:“本模型为你的学校和顾问提供了宝贵且无法通过其他方式获得的洞察,帮助判断学生是否有学业成功的潜力。”虽然有些学校可能利用这些洞察向学生施压以促使他们退学,但也有学校可能将这些数据用于设计干预措施,帮助学生继续完成学业。然而,即使是看似有益的干预措施也可能带来意想不到的问题。例如,该工具可能建议学生选择更容易成功的替代专业,但这种做法可能无意间将贫困学生和黑人学生(更容易被工具标记)排除在高收入且更具挑战性的科学、技术、工程和数学 (STEM) 相关专业之外。此外,在整个过程中,学生可能完全不知晓他们的表现正在被AI评估。
EAB Navigate 是一种使用预测式AI的自动决策系统。在这一领域,有大量关于AI的虚假宣传,也就是我们说的AI万金油。
这些工具的营销公司对其效用进行了强有力的宣传,声称它们能显著改善决策效果。它们已经在政府和私人部门得到了广泛应用。然而,与生成式AI应用 (如 ChatGP T) 受到的公众关注相比,预测式 AI几乎未引起太多质疑,仿佛“隐身”了一般。更令人担忧的是,在许多情况下,包括EAB Navigate 模型在内,被评估的个人甚至并不知道自己正在被自动化系统审查。
在本章中,我们将探讨预测式 AI出错的原因。全面记录所有失败案例可能会超出整本书的篇幅,所以我们将重点介绍一些常见且难以纠正的失败案例。这些案例能够凸显预测式AI有效运作时面临的复杂性和挑战。
在深入分析之前,让我们先更详细地了解这些自动化决策是如何生成的。
以预测式 AI 定人生之变局
类似于EAB Navigate 的算法无处不在,它们被用于自动化流程中,做出与你相关的重要决策,而你可能完全不知情。例如,当你去医院看病时,决定你是否需要留院观察一晚,还是可以当天出院的可能是算法;当你申请儿童福利或其他公共福利时,评估你的申请是否有效,甚至是否涉嫌欺诈的是算法;当你投简历找工作时,决定HR是否会考虑你的申请,还是将简历直接筛除的还是算法;甚至当你去海滩时,判断海水是否安全,是否适合游泳的依旧是算法。
算法是一组用于做出决策的步骤或规则,这些规则有时由个人或机构制定。例如,在新冠疫情期间,美国政府向公民发放了现金补助,以帮助其应对经济困难。补助方案规定,成年人可以领取1200美元,儿童可以领取500美元。这些规定是由政策制定者提出的,一旦确定下来,算法就会根据公民过去的税务记录通过自动化流程判定其是否有资格领取:
如果申请人是美国公民,且年满18岁,发送1200美元支票。
如果申请人是美国公民,且未满18岁,发送500美元支票。
如果申请人不是美国公民或年收入超过75000美元,不发送支票。
这种类型的算法通常是由人制定规则,然后交由系统自动执行,常用于公共领域,例如公共住房或福利资金的分配。
近年来,越来越多的算法通过自动分析过去的数据来生成规则。例如,当你在网飞(Ne tflix) 上观看电影时,如果你给《阿甘正传》的评分很高,而给《闪灵》的评分较低,算法可能会预测你更偏爱剧情片而非恐怖片,从而进行推荐。在这种情况下,网飞的员工并没有通过人工制定规则,例如“喜欢《阿甘正传》的用户应该推荐其他剧情片”。相反,推荐系统是根据用户的评分和观看不同类型影片的行为数据,自动生成并应用规则,决定下一步向用户推荐哪些影片类型。这种算法不同于传统的人工规则制定,它通过自动化的方式生成和执行规则。
这些算法通常被称为模型,这是一个你未来可能经常遇到的术语。模型通常是一组用数学方式定义的数字,用以指定系统应如何运行。除非模型专门设计为可解释,否则这些数字对人类,包括系统的开发者而言,通常都难以理解。模型是通过数据生成的,这一过程被称为训练,即使用一组称为机器学习的统计技术来生成模型的规则和结构。
这些模型远比决定周五晚上看哪部电影的过程要复杂得多。它们被用来分配稀缺资源,例如工作或贷款,为某些人提供机会的同时,也可能阻碍其他人的选择。这正是我们所说的预测式 AI,即利用对未来的预测来做出决策的模型,例如预测谁适合某份工作,或者谁更可能按时偿还贷款。
以美国刑事司法为例,预测式AI被用于多种决策。例如,某名囚犯是否应该获得假释?对于被捕的嫌疑人应该采取什么措施?在审判之前,法官需要决定是将被告关押在监狱中,还是允许他们获得保释。如果允许保释,保释金额应该是多少?或者是否可以在不收取保释金的情况下释放他们,但可能附加其他限制条件,例如佩戴电子脚环?
这些模型的结果可能对个人生活产生深远影响。短期的监禁足以毁掉一个人的生活。他们可能因此暂时失去收入,即使被释放,尤其是在佩戴电子脚环等限制条件下,重新找到工作也会变得更加困难。此外,监禁还会使他们面临更高的身心健康风险,这既缘于社会的污名化,也因为监狱条件的恶劣。更令人担忧的是,许多在押人员的监禁仅仅是因为他们无法支付高昂的保释金。
因此,刑事司法系统对贫困人群造成了不成比例的负担,进一步加剧了贫困和种族不平等的恶性循环。在美国,随时都有近50万人被关押在监狱中,而他们尚未被定罪。尽管美国的暴力犯罪率在过去几十年里下降了近50%,被监禁的人数却在过去40年间几乎翻了一倍。
美国许多州要求使用风险评估工具来决定一个人在审判前是否应被释放或继续关押,而这些工具通常依赖预测式 AI。这些工具通常生成两个主要的风险评分,一是被告在释放后可能犯罪 (尤其是暴力犯罪) 的风险,二是他们未按指定日期出庭的风险。在每一种情况下,被告都会被分类为低风险、中风险或高风险。
这些工具通过分析被告的某些特征,试图计算出这些风险评分,从而为决策者提供指导依据。
接下来,我们深入探讨一种预测式AI产品——罪犯矫正替代性制裁分析管理(Correctional Offender Management Profiling for Alternative Sanctions,简写为COMPAS)系统。COMPAS系统通过被告对137个问题的回答来评估其风险,这些问题包括与被告过去的犯罪历史或未按时出庭记录相关的内容,还涉及一些被告几乎无法控制的因素,例如他们的家庭成员犯罪的频率,或者他们的朋友或熟人是否曾犯罪。此外,还有一些问题似乎企图通过判断被告的性格或贫困情况而决定是否惩罚他们,如“你会经常感到无聊吗?”“你每隔多久就会出现仅能勉强维持生计的情况?”等。
COMPAS系统的开发旨在预测被告在两年内是否会不按时出庭或再次犯罪。该系统通过分析被告过去的行为数据进行训练,从中找出未按时出庭被告的特征模式,如年龄、过往犯罪记录以及同伴的犯罪历史,并试图将这些特征与按时出庭的被告区分开来。这反映了预测式AI的一个核心假设,具有相似特征的人将来可能会有相似的行为。
预测式 AI正在迅速普及。医院、雇主、保险公司和许多其他类型的组织都在使用它,该类模型的一个主要卖点是它允许这些机构重新使用已收集的数据,这些数据最初可能是为行政管理或记录保存等目的而收集的,现在用于实现自动化决策。
然而,预测未来始终充满挑战。人们可能会经历意外挫折,如被驱逐,或遇到难以预料的事件,如中彩票,这些情况是任何模型都无法准确预测的。生活中的小变化,如一次急诊室就医,也可能对未来产生深远影响——可能会带来沉重的医疗账单。
关于预测式 AI的优势,各种宣传随处可见。例如,Upstart 的 AI 模型用于贷款申请的审批决策。该公司声称其模型比传统贷款评估系统更为精准,且在公平贷款实践中处于领先地位,并承诺未来模型将继续保持公平。它还强调效率优势,称3/4的贷款决策无须人工干预。其他公司也有类似的宣传。HireVue销售自动化招聘决策工具,声称其可以预测候选人一旦被雇用后的工作表现。HireVue 在其官网将自己的产品描述为,“快速、公平、灵活。你终于拥有了符合你需求的招聘技术”。
尽管有这些令人印象深刻的声明,预测式AI的开发在许多阶段仍然依赖人类的决策,这些决策通常隐藏在模型的背后。此外,用于训练预测式AI的数据本身来源于人类的决策,而这些决策并不能保证始终是公正或公平的。换句话说,即使是由预测式 AI做出的决策,也可能深深打上人类偏见的烙印。
我们对预测式 AI开发者的承诺持保留意见,因此决定对该领域进行进一步研究。通过与研究人员安吉丽娜·王和索隆·巴罗卡斯合作,我们花了一年多的时间,仔细阅读了数百篇关于自动化决策系统的研究论文、新闻报道和相关报告。令人惊讶的是,我们发现许多预测式AI应用存在一系列共同缺陷。在接下来的几节中,我们将通过具体案例深入探讨这些问题。
提前剧透一下:我们认为预测式AI远未达到其开发者所宣称的效用。
预测再准未必决策得当
当患者因肺炎症状前往医院时,医护人员需做出一项重要决定,是治疗后让患者回家,还是让他们留院观察。他们通常会考虑患者的年龄以及是否患有哮喘等潜在健康问题,这些因素可能使患者在感染肺炎时有更高风险。对于高风险的肺炎患者,通常会直接安排进入重症监护室 (ICU) ,以最大程度降低出现并发症的可能性。
1997年的一项研究,探索了AI是否能够在预测肺炎患者病情结果方面做出比医护人员更优的决策。和许多AI研究者一样,研究团队相信,经过大量数据训练的模型可以优化决策过程,帮助优先处理高风险患者。
研究人员训练了一个AI模型,结果发现它在预测哪些肺炎患者可能面临并发症或死亡风险方面表现出色。然而,令人意外的是,该模型竟然得出患有哮喘的患者因肺炎出现并发症的风险较低的结论。如果在医院中使用该模型,哮喘患者反而可能比非哮喘患者更容易被要求回家观察,而不是进入ICU接受进一步治疗。这简直荒唐!
研究人员对数据进行了仔细分析,发现哮喘患者确实在数据上集中显示出较低的严重肺炎或死亡风险。但原因并非他们面临的实际风险较低,而是因为这些数据来自医院现有决策系统。哮喘患者一到医院就会被直接送往 ICU,并接受比非哮喘患者更集中的治疗,因此并发症的发生率较低。
换句话说,模型的预测在现有系统下是“正确的”,但这正是它的问题所在。具有讽刺意味的是,该模型的目的是要替代这个系统。
如果直接部署该模型,结果将是灾难性的,模型会将哮喘患者错误地归类为低风险,并建议他们回家观察,而非进行必要的集中治疗。幸运的是,研究人员及时意识到了这一问题,并决定不在医院中使用该模型。
这个错误揭示了许多预测式AI的一个基本局限,在不改变现有系统的情况下,AI可能能够做出准确的预测,但这并不代表预测具有因果性。相关性并不等同于因果关系 (患有哮喘并不会降低出现肺炎并发症的风险) 。换句话说,预测式AI无法考虑其自身决策对系统的潜在影响。也就是说,它无法预测如果系统发生变化 (如模型开始将哮喘患者送回家) 会引发什么后果。
再来看一个医疗领域的例子。2018年的一项研究声称,利用机器学习可以准确预测高血压,结果看起来非常令人印象深刻。然而,深入分析后发现,该模型是基于已经接受治疗的患者数据进行评估的。这意味着模型的一个关键输入是,患者是否正在服用控制高血压的药物。然而,如果患者正在使用降血压的药物,那就表明他们已经被确诊为高血压患者。在评估模型时,这些病例仍然被计为成功预测,从而大大夸大了模型的实际准确性。
部分问题的根源在于研究人员往往依赖现有数据,而不是专门为特定任务收集新数据。通常,收集数据既耗时又昂贵,因此一些AI开发人员声称现有数据已经足够用来做出有效决策。
然而,在医学领域,专业人员普遍认识到收集新数据的重要性。他们依赖**随机对照试验 (Randomized Controlled Trial,简写为 RCT) **来测试新药物或疫苗的效果。在RCT中,参与者被随机分为两组,实验组服用药物,对照组服用安慰剂。研究人员会仔细平衡两组样本在年龄、性别等人口统计学特征上的差异。通过对比实验组与对照组的疾病发生率,评估药物的实际效果。尽管RCT 过程缓慢且费用高昂,医学研究人员仍坚持这一方法,原因很简单,那就是更快捷的方法通常不起作用。许多使用AI进行自动化决策的领域也面临类似的挑战,只有通过收集高质量的新数据,才能确保决策的可靠性和有效性。
遗憾的是,预测式 AI公司似乎尚未充分认识到数据收集对其决策工具的重要性。而且,收集高质量数据既耗时又昂贵,这直接削弱了它们所宣称的降低成本和提升效率的优势。
因此,即使AI能够基于过去的数据做出准确预测,我们也无法在它被部署到新数据集或新环境之前评估其决策的质量。当你听到关于预测式AI有效性的主张时,关键是你要弄清楚开发者是评估了其决策的实际影响,还是仅仅依赖于对历史数据的准确性评估来得出结论。
晦暗 AI 纵生巧诈之机
我们已经看到,在部署模型之前,无法完全确定 AI的实际影响,这部分是因为AI在预测时,假设系统状态会与测试期间保持一致。然而,系统是动态的,而人类行为本身就是一个显著的不确定因素。当人们采取策略性行为时,情况则会变得更加复杂。
英国殖民者统治印度期间,为减少眼镜蛇数量,实施了一项奖励政策,交出死眼镜蛇的人可以获得报酬。然而,结果适得其反,人们并没有去捕杀野外的眼镜蛇,而是开始饲养眼镜蛇以换取奖励,因此眼镜蛇数量反而增加。这是一个典型的例子,展示了目标设定与实际结果不一致的问题。类似的情况也可能出现在AI中。当开发人员构建AI时,他们会明确设定希望预测的目标。然而,由于依赖历史数据,开发人员只能基于现有数据来定义这个目标。因此,AI实际预测的结果可能与我们真正希望预测的结果存在显著偏差。
一个典型的例子是用于招聘的 AI 系统。在美国,约 3/4 的雇主使用自动化工具来筛选求职者。这些自动化招聘工具形式多样,有些是根据简历筛选候选人,有些是通过自动化视频面试评估候选人,还有一些则要求候选人完成谜题测试。这些工具通常作为筛选流程的第一步。如果某位候选人未能通过筛选,他的简历可能会被直接剔除,甚至无人再查看。然而,这一过程完全不透明。公司不会公开其软件是如何设计的,候选人也完全不了解自己被评估的标准。
为了应对不透明的招聘 AI 系统,求职者开发了一些策略。例如,他们会在简历中刻意填充职位描述中的关键词,甚至以白色字体添加顶尖大学的名称——这样人类阅读者看不到,但计算机可以识别。在需要通过 AI 评估的视频面试中,求职者可能会刻意使用诸如“集团”之类的华丽词汇,以提高他们的评分。
这些策略是否真正有效仍不确定。为了弄清楚这一点,一组记者展开了调查,研究了一家总部位于慕尼黑的初创公司 Retorio,该公司提供基于视频面试的 AI 招聘工具。他们的发现令人惊讶,外表的简单变化,如围上一条围巾或戴上眼镜,就足以显著改变 AI 工具给出的评分。将书架或画作添加到背景中可以提高分数,而仅仅使环境光线变暗 ( 内容未变 ) 则会导致评分降低。在另一项研究中,研究人员分析了招聘过程中使用的性格测试工具发现,将简历格式从 PDF 改为纯文本,就能改变 AI 对候选人的性格评分。
改变背景或简历格式,显然不会影响一个人实际的工作能力。那么,为什么这些因素会导致候选人的分数发生变化?一个可能的原因是,在训练模型的数据中,拥有书架背景的人可能确实比背景简单的人表现得更好,以致模型将这种无关因素与工作表现错误地关联起来。
这与候选人在简历中添加关键词的策略类似。他们假设过去包含这些关键词的简历可能与更好的工作表现相关。因此,他们希望通过这些关键词提高被 AI 筛选到的机会,而不至于仅仅因为缺少某些词汇或用词不够高级就被淘汰。
为了避免负面结果而采取策略性行为 (俗称投机 ) 是一种常见现象。这就像教师为了提高学生的考试成绩而专门教授应试内容,或者消费者通过申请零售信用卡或填写资格预审表,试图在不改变消费习惯的情况下提升信用评分。然而,在基于 AI 的招聘中,情况更加复杂,因为候选人通常不知道哪些行为会真正影响他们的机会。AI 招聘并未帮助候选人做出能够提升实际技能的决策,而是倾向于鼓励他们对简历和申请材料进行表面性的修改和试验。
我们并不对候选人是否应尝试这些技巧发表立场。虽然投机行为的伦理问题很有趣,但这不是我们讨论的重点。我们的关注点在于,AI 公司在声称其模型具有高准确性时,往往忽略了人们采取策略性行为对模型输出的影响。当模型的结果可以通过表面上的简单修改轻易操控时,其准确性声明自然值得怀疑。此外,不透明的模型还会对被评估者造成时间成本上的浪费。例如,当候选人试图在简历中添加无法验证的虚假资历以迎合 AI 时,他们所花费的时间完全无助于其实际能力的提升。
过度自动化
2013 年,荷兰推出了一种算法,用于识别福利欺诈,取代了此前由人工逐项审核的系统。该算法仅基于数据中的统计相关性,就能够做出严重的犯罪指控,而无需任何其他确凿证据。
这一项自动化系统的转变举措带来了许多负面影响。首先,人们失去了对决策提出疑问的能力。不准确或过时的政府数据常常导致错误的欺诈指控,而在新系统中,这些错误指控几乎无法被推翻。其次,用于支持这些指控的数据并未公开,受指控者根本无法了解自己为何被认定为欺诈。
在接下来的几年里,该算法错误地指控了约 3 万名家长在儿童养育补贴中存在福利欺诈。政府声称他们欠下的金额在某些情况下高达十几万欧元,以致许多父母陷入严重的精神压力和经济困境。更令人震惊的是,该算法竟然使用国籍作为预测某人是否涉嫌欺诈的一个因素。在其他条件相同的情况下,土耳其、摩洛哥或东欧国家国籍的人更有可能被标记为欺诈者。
尽管该算法存在缺陷,荷兰仍使用了 6 年之久。当 2019 年该算法的细节被披露后,公众愤怒不已。荷兰数据保护监管机构对因算法使用而导致的隐私保护的失败进行了调查,并对设计该算法的税务部门处以 370 万欧元的罚款,这是荷兰史上最高的一次罚款。2021 年,荷兰首相及其整个内阁因福利欺诈算法的使用而集体辞职。
这正是过度自动化的一个典型例子。当 AI 被用于决策,却不给受影响的人提供任何申诉途径时,过度自动化往往会导致严重的失败。即便没有 AI 的参与,过度自动化在欺诈检测方面也已经造成了其他显著问题。例如,2013—2015 年,美国密歇根州使用一种算法来检测失业欺诈,却错误地向居民收取了 2100 万美元。类似地,2016—2020 年,澳大利亚政府在所谓的“机器人债务丑闻”中错误地向公民追讨了高达 7.21 亿澳元的款项。
为了避免被指责过度依赖自动化,这些系统的开发者通常会在使用条款中声明,系统应始终在人工监督下运行。然而,这种做法更多是为了规避责任,未必能真正起到预期的效果。
2022 年夏季,多伦多市引入 AI 技术,用于预测何时应避免在公共海滩游泳,以降低因细菌超标而引发泳者健康风险的可能性。开发者声称,这款软件在预测水质安全方面的准确率超过 90%。然而,实际效果却不尽如人意,在水质不达标的情况下,64%的时间里海滩依然照常开放,而这正是系统的错误评估所致。
当记者质疑市政府官员关于该工具的效果时,官员回应称,该工具并非独立运行,也就是总有一名监督者负责最终决策。然而,记者后来发现,这名所谓的监督者从未对软件的判断进行过任何修正。
这种情况并不罕见。AI 开发者在引入人工监督问题时经常采用“诱饵与调包”策略。他们通过全面自动化的承诺来推销预测式 AI,宣传的重点是通过减少岗位和降低成本实现高效决策。然而,当 AI 系统出现失误时,开发者则会借助细节规避责任,声称 AI 并非应在没有人工监督的情况下独立使用。
即便理论上存在人工监督,实际上通常并不充分。这可能是因为时间限制、专业知识不足或权限受限。负责监督的官员可能已经超负荷工作,缺乏针对自动决策的专业培训,或者缺乏挑战决策的动力与支持。
在一个极端案例中,美国健康保险公司联合健康 (United Health) 集团要求员工即使面对 AI 决策的错误,也必须服从这些决定。如果多次反对 AI 的判断,员工甚至可能面临被解雇的风险。事后调查发现,该系统做出的 AI 决策中超过 90%都是错误的。
即使没有组织层面的管理问题,过度依赖自动化决策 (“自动化偏见”) 仍然广泛存在,影响了从飞行员到医生等多个行业的人群。在一项模拟实验中,当航空公司飞行员从自动化系统收到一条错误的引擎故障警报时,75%的飞行员遵循系统建议,错误地关闭了正常工作的引擎。相比之下,使用纸质检查单的飞行员中只有 25%犯了类似错误。如果连飞行员在自己生命受到威胁时都可能因自动化偏见而犯错,那么其他官员也很难避免类似的情况。
无论原因如何,结果都一样,AI 负责决定与人们生活息息相关的重大事项,但针对错误决策,人们几乎没有申诉途径,甚至完全无法申诉。
错识人群,枉生预言
AI 的结果直接反映了其训练数据的特性。通过学习数据中群体的行为模式,AI 的决策也会体现这些模式。然而,当决策对象与训练数据中群体特征不同时,模型的判断往往会出现偏差。例如,一个在某国表现出色的预测式 AI 系统,可能在另一个国家完全失效。
让我们来看一下这种情况在美国的两个犯罪风险预测系统中的表现,两个系统分别是俄亥俄州风险评估系统 (ORAS) 和公共安全评估 ( PS A ) 系统。与 COMPAS 系统类似,这两个系统都用于预测审前释放被告时可能带来的风险。
ORAS 于 2010 年基于美国俄亥俄州 452 名被告的数据进行训练,并被推广至全美范围内使用。然而,这种做法存在几个明显缺陷。首先,俄亥俄州的犯罪模式可能与其他州存在差异,因此训练数据无法全面代表其他地区的人群。其次,用于创建模型的小样本群体可能与其实际应用的更大规模人群特征不符。最后,随着时间推移和犯罪模式的变化,模型的准确性可能会显著降低。
相比之下,PSA 系统的训练数据来自美国 300 个司法管辖区的 150 万人,并已在 20 多个州投入使用。表面上看,这种大规模、多样化的数据似乎解决了部分问题。理论上,如果模型基于多个司法管辖区的大量数据进行训练,其在全美范围内的应用应该更为准确。然而,实际情况却并非如此。全美范围的犯罪趋势可能与地方趋势存在显著差异。
伊利诺伊州的库克县 (Cook County) 是一个典型的例子,该县在 2015 年引入 PSA 系统,但其暴力犯罪率远低于全美平均水平。与训练数据相比,该县被标记为“高风险”的被告中,只有约 1/10 最终犯下了暴力罪行。PSA 系统尽管使用了全美范围内的数据,却未充分考虑到一些地区的犯罪率可能明显偏低。这一问题导致数千名被告在审前因模型预测被不必要地监禁数月,而这些预测并未基于任何实际犯罪证据。
PSA 系统的核心问题在于,它未能区分不同县的数据,因此往往对错误的对象做出预测。在某些情况下,由于无法获取目标群体的完整数据,这一问题变得难以纠正。
宾夕法尼亚州的阿勒格尼县 (Allegheny County) 提供了另外一个例子。2016 年,该县引入“阿勒格尼家庭筛查工具”,用于预测哪些儿童有遭受虐待的风险,并据此决定哪些家庭应接受社工调查。这些调查结果赋予社工权力,可以将儿童从家庭中带走并安置到寄养家庭。
该工具依赖于公共福利数据,主要涵盖使用公共服务 (如医疗补助资助的诊所) 的低收入家庭。值得注意的是,这些数据并不包括使用私人保险的富裕家庭的信息。因此,基于这些数据训练的模型,无法有效评估从未依赖公共服务的富裕家庭的情况。结果,该工具不成比例地将目标集中在较贫困家庭上。
这正是 AI 工具“灯下黑”现象的一个典型例子,AI 的聚光灯往往照向的是弱势群体。
每当预测式 AI 工具被部署时,关键问题是,它曾在谁的身上测试过?
如果一个 AI 工具基于某一群体的数据建立,却被用于另一群体,其性能主张往往缺乏充分的证据支持。
预测式 AI 加剧既有不公
有缺陷的 AI 系统并未让所有人平等承担其代价,预测式 AI 的使用对那些长期处于被系统性排斥和不利地位的群体造成了不成比例的伤害。
一个典型的例子是预测谁应获得更好的医疗护理。自 2010 年《平价医疗法案》 (Affordable Care Act) 在美国通过以来,保险公司开始要求医院以更低的成本提供服务,并威胁不执行的医院将被移除。为削减开支,医院的主要策略之一是识别高风险患者,为他们提供预防性护理,以避免未来昂贵的治疗费用,如住院。为此,医院开始依赖 AI 技术。于是,数十种模型被开发出来,用于评估患者的健康风险。开发者声称,AI 可以根据患者的医疗需求对他们进行排序,将更多资源分配给被判定为高风险的患者。
尽管本章开头提到的肺炎风险预测模型从未被投入使用,但为了降低医院开支的健康风险预测工具已在全美范围广泛部署。
加入高风险医疗项目的影响非常重大,直接决定了患者能否获得预防性护理和个性化援助。然而,大多数开发者并未公开其模型的构建过程,直到最近,这些产品的实际表现仍鲜为人知。
其中一个引发关注的产品是 Optum 公司的 Impact Pro。2019 年,研究人员对该模型进行的一项研究发现,该模型预测黑人被纳入高风险医疗项目的可能性低于白人。换句话说,具有相同健康风险的黑人相比白人,获得较差护理的可能性更高。
进一步的调查揭示了问题的根源所在。衡量患者的实际医疗需求非常困难,但医院可以清楚地追踪患者在医疗上的花费。因此,Optum 选择预测保险公司在患者身上的医疗支出,而不是直接预测患者的医疗需求。
然而,更高的医疗费用并不总是反映出更高的健康需求。更高的账单可能是因为患者拥有更好的保险,在医院获得了更多的时间和关照,或是因为更多次地就诊。也可能是因为这些患者能够负担更高的自付费用和拥有更高的免赔额。在美国医疗系统中长期存在的不平等,使得这一问题进一步被放大。Optum 的预测式 AI 实际上将那些已经获得更好医疗服务的群体归类为高风险,从而使他们在未来继续享有更多的医疗资源和更好的护理。
毫不意外,在用于创建模型的训练数据中,黑人患者所获得的医疗护理普遍低于白人患者,即使两者的健康状况相似。这导致该工具显现出种族偏见,因为其预测指标 (医疗费用) 与开发者声称的目标 (医疗需求或患者的风险水平) 并不一致。
Optum 选择以医疗费用来衡量风险是基于其业务需求的合理决定,因为其客户是希望控制成本的医院。即便这项引发广泛关注的研究结果已经公布,该公司仍坚持用医疗费用来构建其模型。
商业激励是预测式 AI 加剧不平等的众多原因之一。另一个关键原因是开发者依赖于过去的数据。正如我们所见,为开发预测式 AI 收集新数据既昂贵又耗时。然而,现有数据往往缺乏开发者真正想要预测的信息 (如患者的医疗需求或健康风险水平) 。因此,开发者选择使用更易获取且已存在于数据中的替代指标 ( 如医疗费用 ) 来代替。
让我们回到 COMPAS 系统,这款工具为审前阶段提供风险评分。开发者声称,法官可以利用这些评分预测被告是否可能再次犯罪或不能按时出庭。然而,COMPAS 系统所使用的数据并不包含具体的犯罪记录,而是基于逮捕记录。这一细微但关键的差别具有重要影响。在许多情况下,并非所有犯罪者都会被逮捕,某些罪行可能被忽视或未被发现。此外,警方可能逮捕了某名嫌疑人,但后来在法庭上证明他无罪。众所周知,美国执法体系存在种族歧视,黑人因同样的犯罪行为相比白人更容易被逮捕。这种执法差异加剧了 COMPAS 系统实际预测内容 ( 逮捕) 与其声称要预测内容 ( 犯罪 ) 之间的显著偏差。
正因如此,当预测式 AI 系统被部署时,首当其冲的往往是少数族裔以及贫困群体。例如,在阿勒格尼县,儿童虐待风险预测工具只基于依赖儿童福利等公共服务的家庭数据,忽视了那些未使用公共福利的家庭。在接下来的章节中,我们还将看到更多类似的案例,进一步揭示这些系统如何不成比例地影响弱势群体。
没有预测的世界
为什么预测逻辑在我们的世界中如此普遍?其中一个主要原因可能是我们对随机性本能的抗拒。大量心理学实验表明,人类倾向于在不存在模式的地方去发现模式,甚至会相信自己能够掌控实际上是随机的事物。当人们被迫直面随机性,而控制的幻觉被打破时,他们会不遗余力地寻找重新获得控制的方法。
选举预测是一个典型的例子。在美国,总统选举每 4 年举行一次,而预测获胜者的热潮往往在选举一年多前就已开始。然而,这项实践远非精确的科学。1948 年总统选举的早晨,《芝加哥论坛报》 (Chicago Tribune) 的头版大胆刊登了“杜威击败杜鲁门”的标题,但这一预测是错误的。事实上,杜鲁门赢得了选举,成为美国总统。为了在报纸印刷前抢先发布选举结果,报社依赖民意调查的预测,却得出了错误的结论。今天,选举预测的准确性仅有少许改善。2016 年大选的预测同样备受争议且结果出人意料。当时,大多数预测都显示希拉里·克林顿会击败唐纳德·特朗普,但最终特朗普成功当选。
尽管存在诸多局限,预测已演变成一种近乎观赏活动,人们对它的热情几乎达到了痴迷的地步。《连线》的一篇文章生动地描述了这样一个人:
他每天早晨醒来,第一件事不是洗澡和吃早餐,而是查看内特·西尔弗 (Nate Silver) 创建的网站上有关总统选举的最新预测。他始终打开概率预测网站 FiveThirtyEight 的最新民意调查名单,只要有新的民调发布,就会刷新预测概率。他的手机也设置了推送提醒,每当预测发生变化时都会通知他。此外,他还关注了“538 预测机器人”,这是一个在每次预测更新时自动发推文的账户。埃文 (Evan) 坦言,他几乎每小时都会查看一次,至少在清醒的时间里是如此。
尽管民调数据对大多数人的日常生活几乎没有实际影响,为什么还是有人如此执着地关注?
归根结底,这是因为我们难以应对生活中的不确定性。避免不确定性比规避风险在更深层次地影响着我们的心理。即使选举预测者表示,我们支持的候选人获胜的概率是 50%,这种确定的数字也比完全未知的感觉要好得多。
那么,这种现象与 AI 虚假宣传有无关联呢?
我们的观点是肯定的。在美国,企业和政府在部署有缺陷的预测式 AI 时,确实有许多出于商业利益或官僚目的的误导性理由,但其中一个关键原因是,决策者本身也是人,他们与其他人一样,害怕面对随机性。这种恐惧让他们难以接受另一种决策方式,即承认未来是无法准确预测的。这意味着他们不得不直面一种令人不安的事实,他们无法完全掌控局面,无法准确选出优秀的工作表现者,也无法比一个大多依赖随机的过程表现得更好。
如果一位决策者接受了不可预测性,会发生什么呢?
设想一家公司宣布,其将排除明显不合格的候选人,通过随机抽选的方式录用员工,并在符合绩效标准的员工中随机决定晋升。然而,由于社会对“绩优主义”的深刻依赖,这种做法很可能被视为荒唐且不负责任。这样的公司可能会被视为不受欢迎的雇主,导致优秀的求职者敬而远之,这种政策在现实世界中几乎无法持续。
事实上,类似的例子已经出现过。当住房通过抽签分配时,参与者往往对这种随机方式持负面评价。
因此,对随机性的焦虑驱使我们在没有模式的地方强行寻找模式,而这种倾向为偏见的产生铺平了道路。正因如此,“没有人因购买 IBM 而被解雇”这句商业格言应运而生。选择熟悉且经过考验的选项,似乎比直面不确定性更为安全。甚至企业主要从名校招聘的惯例,也反映出一种试图在本质上不可预测的任务( 识别 人 才和 员 工潜力) 中寻求规律的心理需求。
然而,接受决策过程中固有的随机性和不确定性,可能会带来更明智的选择,并最终造就更具韧性的机构。我们不应将人类的行为视为固定不变,也不应将他们的结果视为既定事实。相反,我们需要建立一种框架,真正承认过去无法准确预测未来的事实。如果我们能够学会接纳支撑我们生活的随机性,一个更加开放和包容的世界是可以实现的。
本文节选自:《AI万金油商业幻想与科技狂潮》
作者:
[美] 阿尔文德·纳拉亚南(Arvind Narayanan)
[美]萨亚什·卡普尔(Sayash Kapoor)
译者: 王勇、王心安
本文来自微信公众号 “腾讯研究院”(ID:cyberlawrc),作者:萨亚什·卡普尔;阿尔文德·纳拉亚南,36氪经授权发布。















