为什么传统数据治理模式不再适用于人工智能/机器学习

王建峰·2026年01月26日 15:30
为什么传统数据治理模式不再适用于人工智能/机器学习

一 概述

在 开发 监管系统 AI/ML 数据准备框架的过程中,一个问题不断浮现:鉴于 AI/ML 的扩展能力,传统的数据治理在应用于 AI/ML 时是否仍然适用? 

在对包括NIST人工智能风险管理框架和新兴数据治理标准在内的现有行业框架进行详细审查后,答案显而易见。传统的数据治理仍然至关重要,但仅靠它已不足以应对大型语言模型和现代人工智能系统。 

传统治理模式是为结构化数据的确定性世界而设计的,在这种世界中,系统行为可预测,验证过程也基本是静态的。人工智能/机器学习系统的运行方式则截然不同。它们是概率性的、自适应的,并且会持续受到新数据的影响。模型会学习、漂移,在某些情况下甚至会产生“幻觉”。将静态的治理控制应用于这些动态系统,会导致模型漂移、算法偏差和可解释性不足等关键风险在很大程度上无法得到有效管理。 

传统数据治理提供了必要的基础,但仅靠它本身不足以有效治理人工智能/机器学习系统。这就引出了一个组织现在必须解决的实际问题:在人工智能驱动的环境中,传统数据治理在哪些方面仍然适用,又在哪些方面存在不足? 

为了有效管理人工智能,我们必须从数据治理转向人工智能治理(通常以机器学习运维治理的形式体现)。几十年来,数据治理一直是企业合规的基石,尤其是在受监管行业。它最初是为确定性世界设计的:结构化的行和列、二进制访问控制以及静态的真理定义。然而,生成式人工智能(GenAI)和大型语言模型(LLM)的快速普及引入了一种概率范式,使得这些传统的控制措施虽然必要,但却不足以应对人工智能的挑战。 

本文分析了传统治理模型为何无法有效控制人工智能风险,指出了具体的失效点(例如“向量盲点”和“马赛克效应”),并提出了一种“增强型治理”框架。该方法将现有数据投资与符合新兴标准(例如 NIST 人工智能风险管理框架 (AI RMF) 和 ISO 42001)的新型“人工智能控制平面”相结合。 

二 核心摩擦:确定性与概率性

传统治理方式的根本失 效 在于被治理资产的性质。 

传统治理方式规范着“ 存储” 。 

它假设数据基本是静态的,并且可以通过控制数据的创建、存储、访问和更改方式来管理风险。例如,如果数据库字段包含 “年龄:45”, 治理机制确保该值准确、可追溯、受到适当的访问控制保护,并且只能通过已批准的变更流程进行修改。如果这些控制措施到位,则数据被认为是合规且可信的。 

然而,人工智能治理必须治理“ 行为” 。 

大型语言模型和其他人工智能系统并非被动地接受数据。它们是动态的智能体,能够以非程序化的方式解释、整合和推断信息。即使底层数据完整、经过验证且完全合规,模型的行为仍然可能带来风险。 

考虑一个药物警戒应用案例。某机构可能拥有一个管理完善的安全数据库,其中包含准确、经批准的不良事件报告、病例叙述和MedDRA编码术语。从传统的管理角度来看,这些数据符合所有完整性和访问权限要求。然而,用于辅助信号检测或病例总结的逻辑逻辑模型(LLM)仍然可能合并不相关的不良事件,推断尚未确定的因果关系,或者生成看似可靠但却错误的安全性信号总结。在这种情况下,风险并非来自错误的数据,而是来自模型如何解释和呈现这些数据。 

传统治理方式不会提出以下问题: 

  • 该模型如何汇总和解释不同病例中的不良事件信息?
  • 在什么情况下它可能会高估或低估潜在的安全信号?
  • 在监管决策做出之前,何时必须由人体安全审查员进行干预?
  • 如何检测和预防基于幻觉或偏见的安全性结论?

传统治理机制确保输入系统的数据准确无误。人工智能治理则必须确保 模型的输出——尤其是那些影响患者安全决策的输出——可靠、可解释且受到适当控制 。如果没有针对模型行为的治理机制,例如持续监控、可解释性和明确的人工监督,即使在数据完整性基础稳固的环境中,关键的药物警戒风险仍然无法得到有效管理。 

传统治理中哪些做法行之有效

传统方法仍然至关重要,并且可以直接应用于人工智能/机器学习流程。 

  • 数据沿袭追踪 :将数据从源头映射到消费端,这在受监管的系统中已经是标准做法,并且自然而然地扩展到通过特征工程追踪训练数据集。
  • 访问控制 :基于角色的权限和审计跟踪保护敏感的患者数据,仅需对模型端点进行细化。
  • 质量指标 :完整性、准确性和及时性检查同样适用于原始数据馈送模型。
  • 保留策略 :归档要求涵盖模型验证中使用的关键数据集。

以下列表对比了传统系统的功能与LLM的新要求。这里列举了一些应用场景,并非完整列表。 

三 深度剖析:关键实施失效点

理解理论中的不足是一回事,在实践中看到这些不足又是另一回事。企业级 RAG(检索增强生成)系统中通常会出现三个特定的“断点”。 

A.“矢量”盲点

传统治理工具会扫描数据库以查找个人身份信息(例如,在 SQL 表中查找社会保障号码)。 

LLM 的实际情况:  LLM 通常使用矢量数据库来存储 RAG 数据。当文本转换为矢量(数字)时,传统的 DLP(数据防泄漏)工具将无法再“读取”它。 

风险 :如果您将包含 PII 的文档嵌入到矢量存储库中,您的传统治理工具会报告“安全”,但 LLM 可以为用户检索和解码该 PII。 

B. 访问控制悖论(“马赛克效应”)

在传统系统中,安全是二元的。要么你有文件访问权限,要么你没有。 

LLM 的现状: 在 RAG 框架下,LLM 会检索数据块来回答问题。用户通过自然语言与模型交互。LLM 可能拥有一个庞大的文档索引来回答一般性问题。用户可能会提出一个策略性问题,而模型则通过合成训练期间“读取”的受限文档片段来回答这个问题。即使用户无法直接访问文件,模型也会“泄露”信息。这种推理风险被称为“马赛克效应”。 

风险: 用户请求 “列出近期高风险患者的临床试验结果”。 即使用户没有直接查看原始临床试验报告的权限,LLM 也可能访问已获准用于其他查询的索引摘要或提取的数据块。因此,该模型可能无意中 合并并公开敏感的患者级信息 ,从而有效绕过传统的访问限制。 

现在治理必须从文件级别转移到块级别或向量级别。 

C. “时间冻结”问题

传统数据是实时更新的;当您在主数据库中更新客户地址时,它会立即反映到所有地方(在理想情况下)。 

LLM 的现实情况:LLM 是基于部分数据快照进行训练的。它们存在“知识截止点”。

风险: 如果今天政策发生变化,LLM(逻辑模型)将继续执行旧政策,直到其重新训练或RAG知识库更新为止。传统的治理方式假定“真理来源”始终是最新的;然而,LLM在训练完成后立即偏离真理。人工智能治理必须管理模型漂移和概念漂移。 

四 解决方案:“增强型治理”框架

为了弥补这些差距,而无需“推倒重来”替换现有投资,各组织可以采取以下防御策略。 

1.输入治理(“黄金”层)

目标: 在非结构化数据接触模型 之前对其进行保护。 

措施:嵌入前数据脱敏,在文档向量化 之前, 将其中的个人身份信息/个人健康信息或其他敏感数据删除。一旦数据进入模型,就很难将其移除(机器学习遗忘)。 

精选语料库: 不要使用原始数据进行训练。从“数据湖”(数据倾倒场)转向“精选语料库”,其中仅索引标记为“AI就绪”的数据。在将非结构化数据(PDF/文档)进入向量数据库之前,使用工具添加“AI就绪”或“禁止训练”的元数据。 

2.特性与公平性治理(“转换”层)

目标: 确保公平性,防止在特征转换过程中引入隐性歧视。 

重点: 将模型视为需要外部验证的“黑箱”。 

行动:特征级治理, 将治理范围从原始数据扩展到工程特征(模型使用的数学转换)。 

偏见与代理检测: 识别可能间接重新引入受保护属性的代理变量(例如,购物习惯作为性别的代理)。 

预处理审计: 在特征工程阶段进行偏差评估,而不仅仅是在数据摄取阶段,因为偏差通常是在转换过程中引入的,而不是在存储过程中引入的。 

3.模型透明度治理(“可解释性”层)

目标: 确保模型决策具有可解释性、可辩护性和可审查性。 

行动:可解释性要求, 要求将可解释人工智能 (XAI) 工件(例如 SHAP 或 LIME 值)作为模型发布和验证门的一部分。 

逻辑验证: 不仅要验证做出了 什么决定,还要验证为什么 做出这个决定(例如,确保图像分类器通过动物的特征而不是背景中的雪来识别狼)。 

审计准备: 将可解释性报告视为受监管的文档,类似于传统系统中的验证文档。 

4.模型治理(“引擎”层)

目标: 将模型视为需要外部验证的“黑箱”。 

操作:模型卡片, 除了数据字典之外,您还需要模型卡片来定义模型的 预期用途 、 训练数据快照日期 和 已知限制。 

自动化红队演练: 实施“LLM作为评判者”评估套件。在部署之前,使用独立的LLM或其他工具(例如TruLens或Arize)尝试“破解”应用程序,以测试其是否存在毒性或致幻性。 

5.模型生命周期治理(“时间”层)

(1)概率漂移(模型衰减)

目标: 确保模型能够随着现实世界行为的演变而保持有效性。 

行动:持续性能监控, 实施自动化运行时监控,以跟踪实时数据的准确率、精确率和召回率。 

漂移检测: 当输入和输出之间的统计关系发生变化时,检测概念漂移(例如,2023 年的金融行为不再代表 2025 年的消费者)。 

治理触发器: 定义策略阈值,以便在性能下降时自动触发警报、重新训练或回滚。传统的治理方式假设系统是静态的,无法控制基于时间的衰减。 

(2)输出治理(“防火墙”层)

目标: 控制模型与用户交互的方式。 

操作:块级访问控制, 在 RAG 系统中,检索层必须根据用户的权限过滤搜索结果, 然后 再将其提供给 LLM。 

防护措施: 部署拦截层(例如 NeMo Guardrails),扫描 生成的输出内容 ,查找有害语言或离题建议,并实时拦截。传统的治理方式从未需要治理“输出”内容,而只需治理存储。我们必须治理输出内容。 

(3)生成行为治理(“真相”层)

目标: 防止用户接收到看似可靠但实际上错误的结果。(随机结果与幻觉) 

行动:RAG 护栏, 实施 RAG,使模型仅限于已批准的权威来源,而不是开放式生成。 

论证和置信度评分: 应用论证分数来衡量回应与检索到的证据之间的支持程度。 

语义验证: 传统的数据质量检查验证语法;GenAI 治理必须验证 语义真相 ,这需要超越传统规则引擎的新控制措施。 

五 GenAI治理准备情况:一份全面的检查清单

随着企业将生成式人工智能 (GenAI) 集成到业务运营中,传统的层级治理已不再足够。机器学习 (ML) 系统和其他人工智能/机器学习系统处理非结构化数据,并表现出概率性行为,从而产生新的风险面。为了弥补这一差距,我们制定了这份 GenAI 治理准备清单——一个符合 NIST AI RMF 和 ISO 42001 等新兴标准的结构化框架——旨在确保人工智能项目既合规又值得信赖。 

如上所述,该框架从“管理存储”转向管理行为,同时通过工件级控制扩展了传统的治理方式,将数据集和模型视为软件工件。 

第一阶段:数据基础(输入层)

重点: 在非结构化数据接触模型之前对其进行保护。 

第二阶段:模型与逻辑(引擎层)

重点: 将模型视为需要外部验证的“黑箱”。 

第三阶段:应用层和 RAG 安全(交互层)

重点: 控制模型如何检索数据以及如何与用户通信。 

第四阶段:运营和监督

重点: 生命周期管理、问责制和持续改进。 

人工智能/机器学习治理的关键补充

重点: 利用类似软件的控制手段扩展传统治理,以控制数据集和模型。 

这份清单为组织提供了一份实用的路线图,帮助他们从传统的、基于行级数据的治理模式过渡到适用于 GenAI 和 AI/ML 的内容感知、行为驱动型治理模式。通过保护数据、验证模型、控制输出、实施人工监督以及采用工件级控制,组织可以: 

  • 确保合规性和可信度
  • 降低偏见、幻觉和数据泄露的风险
  • 实现人工智能生命周期中的可复现性和问责制

最终,这种方法将人工智能治理从一项合规义务转变为一项战略推动因素,在保持对数据和处理数据的系统的信任的同时,增强了创新能力。 

六 与行业框架(NIST 和 ISO)保持一致

当前的行业标准证实了从“以数据为中心”的治理方式向“以模型为中心”的治理方式转变的必要性。 

1.NIST AI RMF(风险管理框架):

绘制地图并进行评估:  NIST强调人工智能风险是“社会技术性的”,这意味着风险源于系统与用户的交互方式,而不仅仅是数据本身。传统的治理方式缺乏NIST所要求的“可信度”特征(例如可解释性和公平性)的衡量指标。 

治理:  “治理”功能需要记录系统的 预期用途 和 限制 ——这些概念在标准数据字典中并不存在,但却是模型卡的核心。 

2.ISO/IEC 42001(人工智能管理体系):

这是首个全球人工智能管理系统(AIMS)标准。它超越了简单的“质量检查”,构建了一个人工智能的计划-执行-检查-改进(PDCA)循环。 

它强制要求“持续改进”和“透明”,迫使组织不仅要记录使用了 哪些数据(数据沿袭),还要记录为什么 选择特定的参数(例如,温度、系统提示)。 

3.欧盟人工智能法案:

对于通用人工智能,该法案引入了严格的可追溯性要求。各组织必须维护训练数据的详细技术文档,并遵守版权标准——这就需要新的元数据跟踪机制,而传统的溯源工具往往忽略了这一点。 

七 小结

优秀的AI离不开优秀的数据——但优秀的数据本身并不能保证AI的优秀。未来的发展方向是增强而非替代。各组织应转向“设计治理”模式。 

实施应首先对现有治理体系进行坦诚的审计,并将其与人工智能/机器学习生命周期进行匹配,随后引入模型版本控制、实验跟踪和环境编排工具。最关键的是,成功取决于跨职能协作——IT、质量、合规和数据科学部门需要共同努力,记录假设、监控发展并防止悄然偏离。 

归根结底,向人工智能治理的转型并非降低标准,而是将标准扩展到行为层面,而不仅仅是数据层面。传统的数据治理仍然是必要的基石——它确保“原料”的纯净。企业质量的未来在于“设计治理”:通过确定性的防护措施、经过验证的输入和持续的验证周期来约束人工智能的概率性。 

本文来自微信公众号 “数据驱动智能”(ID:Data_0101),作者:晓晓 晓晓,36氪经授权发布。

+1
3

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

AI招聘翻车,“赛博相面”出现了

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业