人工智能如何重新定义主数据管理

王建峰·2026年02月11日 14:18
人工智能如何重新定义主数据管理
重新定义
B轮浙江省2018-05
智慧安全解决方案提供商
我要联系

主数据管理 (MDM) 是组织运营的核心。它为客户、产品、供应商、服务提供商和其他核心实体提供共享定义,从而支持运营、报告和分析。

在实践中,主数据管理 (MDM) 很少能达到预期效果。许多实施方案运行缓慢、高度依赖人工操作,并且严重依赖于少数专家团队。长期保持主数据的准确性需要持续的努力、深入的背景信息以及大量的管理工作。随着数据量的增长和业务变化的加速,这些模型开始失效。

生成式人工智能将改变这种情况。它将上下文、模式识别和自动化引入到以往依赖规则和人工操作的领域。这使得匹配更加智能、数据更加丰富、管理决策更加一致,问题解决速度也更快。主数据管理(MDM)开始从僵化的控制功能转向更具适应性和可扩展性的模式。

本文从实践角度阐述了如何将人工智能应用于当今的主数据管理(MDM)。我们将探讨传统MDM为何需要变革,生成式人工智能的真正价值所在,它如何融入现有的MDM架构,并通过具体案例展示其在实践中的应用。

为什么主数据管理需要演进

多年来,主数据管理 (MDM) 一直是数据驱动型组织的核心能力。但它最初设计的环境已不复存在。数据量更大,数据源更多样化,变化速度也更快。传统的 MDM 难以跟上时代的步伐。

有些挑战反复出现(见图 1):

数据质量与一致性:确保数据的准确性、一致性和可靠性一直是主数据管理 (MDM) 的基石。但在一个必须与更多样化的数据源和更大数据量交互的生态系统中,大规模地维护数据质量变得愈发困难。

手动工作量:数据管理、去重、规则调优和异常处理仍然主要依赖人工。这拖慢了所有工作的速度,并将可扩展性直接与人力挂钩。

可扩展性:随着数据量的增长,许多 MDM 平台难以在保持性能的同时,有效执行治理和完整性。

主数据管理广泛化:主数据的访问权限通常仅限于专家。这限制了协作,并使业务团队与他们赖以生存的数据保持距离。

数据丰富:利用第三方或外部来源丰富主数据可以创造真正的价值,但通常成本高昂、速度缓慢,而且难以大规模实施。

复杂的数据关系:现实世界中的实体之间存在着深层次的联系。客户可能涉及多个账户,产品存在于多个层级结构中,组织也可能跨地域运营。传统的主数据管理 (MDM) 模型难以清晰地表示和维护这些关系。

如果主数据管理(MDM)想要保持其相关性,就必须从根本上解决这些局限性。这正是生成式人工智能(Gen AI)的价值发挥之处。

增强核心 MDM 功能

人工智能时代并不会取代核心主数据管理(MDM)功能,而是通过引入上下文关联、学习和自动化,改变这些功能的执行方式,而目前这些功能主要依赖于人工操作和僵化的逻辑。

Gen AI 可以增强 MDM 的核心功能(如图 2 所示),具体如下:

智能管理。在传统的主数据管理 (MDM) 中,管理队列需要人工审核,管理员逐条检查记录并应用预定义的规则。而 Gen AI 则通过自动对队列进行优先级排序、提出解决方案并解释建议特定操作的原因来辅助这一过程。这减少了人工工作量,缩短了解决周期,同时确保最终决策权仍然掌握在人手中。

基于上下文的标准化。传统的标准化通常依赖于固定的规则、参考表和模式匹配。Gen AI 通过使用大型语言模型和检索增强生成 (RAG) 技术来添加上下文信息。在 RAG 中,模型从可信的内部或外部来源检索信息,并利用这些信息来指导标准化。这使得名称、地址或分类等值能够基于其含义和真实世界的上下文进行规范化,而不仅仅是基于预定义的逻辑。

无需固定阈值的智能匹配。传统匹配依赖于评分模型和阈值,难以应对数据变化和极端情况。Gen AI 利用语言模型进行语义比较,允许基于语义相似性而非精确匹配或数值阈值来评估记录。这提高了匹配准确率,尤其适用于缩写、不完整或不一致的数据。

更智能的生存决策。传统主数据管理 (MDM) 中的生存决策依赖于静态的源排名或属性级规则。Gen AI 引入了上下文评估,根据数据质量信号、使用上下文和佐证信息来判断哪个值最可靠或最合适。这最终会生成更一致、更可靠的黄金记录。

上下文感知数据质量管理。基于规则的数据质量检查侧重于格式和完整性,但往往会忽略语义错误。Gen AI 能够结合上下文评估数据,识别出只有在考虑语义时才会显现的问题,例如不合理的属性组合或错误的分类。这使得我们能够更早地检测到质量问题,而无需编写大量的硬编码规则。

AI在 MDM 的三个核心功能

Gen AI 通过变革数据质量、数据管理和数据管控这三大基础组件,强化了主数据管理(MDM)。让我们更深入地了解它如何在各个领域产生影响。以下示例说明了 Gen AI 如何在不改变 MDM 基本职责的前提下,改进日常 MDM 执行流程。

1.数据质量和验证

数据质量一直是主数据管理 (MDM) 的一项基础性职责。传统的 MDM 擅长强制执行格式和标记明显的错误,但在需要上下文信息或推断才能解决问题时却力不从心。这往往导致管理员需要进行大量的手动调查工作。

由于缩写、本地命名规则和数据不完整等人为因素,医疗保健数据本身就十分混乱。虽然传统的主数据管理 (MDM) 系统可以标准化数据格式并标记明显的错误,但它难以推断出正确的解决方案,这使得数据管理员不得不进行繁琐的手动调查工作。

以以下医院系统数据为例:

传统主数据管理:

标记记录 A 缺少邮政编码,但无法自动填充,需要手动输入。

它可以根据匹配的名称和地址成功地将记录 A(部门)和记录 B(总医院)关联起来。

然而,系统常常忽略记录 C 与记录 C 是同一实体。电话号码和缩写名称(“圣约翰医院”)的一位数差异足以阻止自动匹配,迫使数据管理员手动调查差异。

传统主数据管理 (MDM) 经常难以理解语义,将缩写名称视为全新的实体,或者错误地合并相关记录。

人工智能辅助主数据管理:

Gen AI 的语义逻辑通过分析位置相同的匹配地址(记录 B 和 C),推断并建议为记录 A 填写缺失的邮政编码 62704。

它智能地将记录 A、B 和 C 归为同一实体。

它突出显示了记录 C 的电话号码,将一位数的差异识别为可能的拼写错误,并建议进行更正。

至关重要的是,所有更正和推断都附带可审计的解释说明(例如,“与聚类锚点相差一位”),从而将数据管理员的角色从调查者转变为审核者。事实上,Gen AI 将数据质量从错误检测提升到推断、更正和可解释性层面。

2.核心实体识别和黄金记录创建

实体管理是主数据管理 (MDM) 的核心。其目标是正确识别重复项、理解关联关系并创建可靠的黄金记录。Gen AI 利用自然语言处理 (NLP) 和模式识别技术,改进了身份和关联关系的解析方式,尤其是在名称、结构或分类存在差异的情况下。

假设有三份医疗机构的记录:

传统主数据管理:

由于缩写(“Gen. Hosp.”),记录 D 和 E 最终可能被视为两家不同的医院,而不是同一机构的重复记录,从而导致数据碎片化。

此外,记录 F 显然是一个部门,可能会被错误地合并到医院主记录中,或者完全单独保留,从而扰乱准确的汇总报告。

人工智能辅助主数据管理:

Gen AI 执行语义实体解析。它正确识别出记录 D 和 E 尽管缩写不同,但指的是同一家医院,并将它们合并成一条标准化的记录。

然后,它将记录 F 识别为相关的子实体(部门),而不是重复记录。它将记录 F 链接到主医院记录下,从而确保运营汇总和部门特定报告的准确性。

3.管理和治理执行

主数据通常包含敏感信息、受限信息或受规则约束的信息。某些记录仅限内部使用,而其他记录只有在满足特定条件(例如获得同意、符合合同条款或监管要求)的情况下才能共享。由于主数据管理 (MDM) 处于主数据标准化和分发的关键节点,因此它在控制数据流向方面发挥着至关重要的作用。

主数据管理 (MDM) 本身并不决定是否存在用户同意或是否存在适用法规。这些决定通常由隐私系统、同意平台或源应用程序做出。MDM 的作用是在主数据发布或向下游共享时强制执行这些决定。传统的 MDM 只能在信号明确且基于规则的情况下才能 做到这一点。Gen AI 通过帮助 MDM 理解上下文来改进这一点,即使信号不完整、隐含或嵌入在文本中,也能强制执行策略。

请考虑以下两个治理挑战:

传统主数据管理:

它可能会错过客户记录中的“内部合作伙伴”等语义线索,或者患者指标数据流中缺少“同意标签”。

因此,不合规的数据可能会向下游流动,造成治理和合规风险。

人工智能辅助主数据管理:

Gen AI会根据上下文应用策略。它能够识别客户记录的内部状态,并将其从面向外部的列表中屏蔽。

在满足同意要求之前,它会阻止设备流的导出。

它以通俗易懂的英语向数据管理员解释了问题,并明确了后续步骤,从而使补救措施更快、更一致。

在这个例子中,Gen AI 帮助主数据管理 (MDM) 系统理解何时不应共享数据,即使这些信息隐藏在文本中或结构化字段中缺失。MDM 系统随后会在发布点阻止数据流向下游,而不是让数据继续向下流动。

基于人工智能的MDM用例

在前一节中,我们探讨了Gen AI在主数据管理(MDM)中实现的三大核心功能:提升数据质量、强化匹配和黄金记录创建,以及提高数据管理和治理效率。您可以将这三点视为Gen AI为MDM带来的三种“力量”。它们本身就很有用,但只有将它们应用于团队试图解决的具体问题时,才能真正体现其价值。

这就需要更具体的用例了。下图 3 展示了 11 个基于人工智能的 Gen AI 赋能的 MDM 实际用例。其中一些用例可能与之前的示例类似,而另一些则是全新的。

让我们更详细地了解一下它们:

智能增强。GenAI 可从网络等可信外部来源查找信息,自动为主数据添加缺失或有用的信息。这减少了人工查找工作,并使记录更加完整。例如,如果客户记录缺少地址,Gen AI 可以自动查找并添加。

业务规则/数据验证。GenAI 会检查重要数据值在上下文中是否合理,而不仅仅是检查字段是否已填写。例如,它可以标记出主要地址明显不是医疗机构的医疗保健专业人员。

上下文感知标准化和增强。GenAI 理解不同的词语可以指代相同的事物,并据此进行标准化。例如,它知道“Mike”和“Michael”通常指同一个人。

自动化参考数据管理。GenAI 将源系统中混乱或不一致的值映射到公司使用的清晰、标准值。这取代了手动查找表,并减少了后续维护工作。例如,它可以将“心脏科”、“心脏病学”和“心脏专科医生”映射到单一的标准专科。

监管合规性监控。GenAI 通过将主数据与已知列表或条件进行比对,帮助检测其是否违反监管规则。例如,它可以标记因监管限制而不应使用的实体(例如,因为某公司出现在 FDA 的禁入名单上)。

关联关系验证与管理。GenAI 可以理解实体之间的关联方式。例如,即使之前没有明确存储这种关联关系,它也能识别出诊所属于某个医院网络。

数据异常检测与解决。GenAI 能够识别与类似记录相比异常或错误的数据值。它不仅可以标记问题,还能提出修复建议。例如,它可以标记一位被列为 92 岁的儿科专家,并建议进行更正。

基于上下文的匹配。GenAI 通过比较含义而非精确值来判断两条记录是否代表同一个现实世界的实体。即使数据不完整或不一致,这也有助于匹配记录。

基于上下文的生存策略。当记录合并时,Gen AI 会根据可靠性和使用情况来决 定应该保留哪些值。这超越了简单的来源优先级规则。例如,它可以保留最近使用和验证过的电话号码,而不仅仅是排名最高的系统中的号码。

自动化元数据整理和编目。GenAI 可自动描述和标记数据,以便人们了解数据的内容及其用途。例如,它可以将数据集标记为“客户主数据——仅供内部使用”。

自动化管理队列解析。GenAI 可自行解决简单的数据问题,仅将复杂案例发送给人工处理,从而减少管理员需要手动审核的项目数量。

Gen AI 如何集成到 MDM 中

在前几节中,我们探讨了Gen AI赋能的具体功能及其在主数据管理(MDM)中的应用方式。这些方法本身就能带来价值。在本节中,我们将了解如何将这些功能连接起来,并在整个MDM流程中端到端地应用,从而实现相互促进,发挥最大的整体效益。

如图 4 所示,Gen AI 可以贯穿整个 MDM 生命周期:

数据采集与导入。当数据从源系统到达时,Gen AI 能够及早发现明显问题、补充缺失的上下文信息,并将数值与已知标准进行比对,从而帮助清理数据。这减少了后续的返工,并提高了进入母带制作阶段的数据质量。

主数据管理。在主数据管理的核心步骤中,Gen AI 支持匹配、存续管理和数据管理。它有助于更 准确地识别重复项,在决定保留哪些值时提供上下文信息,并通过提出带有解释的清晰操作建议来减少人工队列工作。

数据发布与使用。在共享主数据时,Gen AI 可确保将正确的数据传递给正确的用户。由于质量和治理在数据流的早期阶段就得到了处理,下游系统能够接收到更清晰、更可靠的数据。在某些情况下,这也会改变人们访问主数据的方式。例如,销售代表等用户无需浏览报告或编写查询,只需提出诸如“Acme MedTech 的最新联系方式是什么?”或“芝加哥哪些医院上个季度购买了这款设 备?”之类的问题,即可直接从经过验证的黄金记录中提取答案。

图 5 缩小了视图,展示了其技术实现方式。Gen AI 依赖于现有的数据存储、元数据和主数据管理 (MDM) 引擎,并在此基础上添加了智能功能。它利用元数据、参考数据和历史决策来提供更优的建议和检查,而传统的 MDM 组件则继续执行核心流程。

关键在于,Gen AI并非与MDM并行运行的独立系统,而是一个附加层,旨在改进MDM的日常运作,使流程更快、更具可扩展性且更易于操作,同时又不改变MDM本身的基本原理。

从追赶到引领 MDM 的发展

如果我们观察当今市场的发展趋势,就会发现一些规律。大多数组织都在向前发展,但速度和方式各不相同。有些组织采取的是渐进式改进,而只有少数组织采取了更为审慎的措施,从根本上改变了主数据管理(MDM)的运作方式。

许多公司正在以专注且务实的方式应用 Gen AI,而且大多是在现有的 MDM 基础架构之上:

Gen AI 实用工具和试点项目。团队会开展小型试点项目,用于数据丰富、验证或管理自动化,以证明其价值并建立信任,然后再进一步扩大规模。

团队中更广泛地采用主数据管理 (MDM)。MDM的功能范围不断扩展,通常与客户关系管理 (CRM)、电子邮件或分析工具等数字渠道相结合。

现代技术基础。各组织正从点对点集成转向 API、模块化服务和微服务,以使 MDM 更易于扩展和重用。

更智能的管理和目录。通过自动化减少人工管理,用更动态、可搜索的数据目录取代静态元数据存储库。

探索数据架构和数据网格。一些组织开始跨域联合主数据,同时保持共享标准和集中治理。

这些步骤很重要。它们提高了效率和灵活性,但通常是对现有移动设备管理 (MDM) 系统进行改进,而不是从根本上改变它们。

那些取得更大飞跃的公司,会将这些理念融入到更有针对性的主数据管理(MDM)设计中:

以人工智能为核心重新设计主数据管理 (MDM)。这些组织并非仅仅在现有工具上添加人工智能功能,而是重新设计 MDM,使人工智能系统能够协调匹配、数据丰富、管理和验证等核心活动,并越来越多地将这些平台作为传统 MDM 解决方案的长期替代方案。

利用人工智能助手和自然语言界面赋能团队。人工智能助手可支持数据验证、血缘关系检查和策略执行等任务。自然语言和对话式界面使业务用户无需深厚的技术知识即可与主数据进行交互。

实现合规性和政策监控自动化。系统会自动监控内部政策和外部法规(例如 个人信息保护法、GDPR 和 HIPAA)的合规情况。这既减少了人工干预,又提高了合规一致性,同时降低了风险。

构建互联互通的数据生态系统。主数据旨在跨更广泛的生态系统运行,连接医疗服务提供者、支付方、制造商和患者。这些连接能够带来生态系统层面的洞察和新的商机。

采用图谱和知识技术。知识图谱用于表示主数据实体之间复杂的关联关系。为了支持互操作性和更丰富的数据交换,我们采用了行业标准,例如医疗保健领域的 IDMP 和 HL7、消费品和零售领域的 GS1、银行和支付领域的 ISO 20022、保险领域的 ACORD 以及供应链和物流领域的 EDIFACT 或 ISO 标准。

小结

主数据管理一直至关重要……但它却鲜少令人感到轻松愉快。其基本要素始终未变:干净的数据、一致的定义和强有力的治理。而人工智能时代改变的是主数据管理的体验。

对于大部分主数据管理 (MDM) 工作而言,Gen AI 可以帮助更高效地完成相同的任务。数据质量、匹配和管理依然存在,但速度更快、自动化程度更高,并且减少了对无休止的人工审核的依赖。团队可以将更多时间用于解决显而易见的问题,从而专注于更有价值的决策。

但生成式人工智能(Gen AI)也提升了主数据管理(MDM)的优势。它为决策提供背景信息,使复杂数据更易于理解,并通过自然语言和更简单的交互方式改变人们使用主数据的方式。当MDM变得更快捷、更易用、更直观时,它不再像是一个控制功能,而更像是一种人们真正想要使用的能力。这种体验的转变正是真正令人兴奋的地方所 在。

本文来自微信公众号“数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。

+1
5

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

报道的项目

重新定义
我要联系
智慧安全解决方案提供商

下一篇

连续失血背后,可能不只是薪酬问题那么简单。

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业