人工智能在数据管理中的投资回报率:炒作与可衡量的结果

王建峰·2026年02月05日 11:50
人工智能在数据管理中的投资回报率:炒作与可衡量的结果

如今,数据管理领域的每家供应商都声称,他们的人工智能将彻底改变你对数据进行编目、管理和质量检查的方式。他们的宣传材料极具吸引力,演示也制作精良。他们的愿景令人神往:智能系统比你的团队更了解你的数据,能够在问题蔓延之前将其扼杀在萌芽状态,最终让那些被所有人忽视的数据目录真正发挥作用。

但当概念验证结束,企业许可证开始发放时,财务团队就会提出一个熟悉的问题:这项投资的实际回报是什么?

这是一个合理的问题,但业界对此的回答却一直差强人意。随着人工智能预算面临越来越严格的审查,企业也越来越注重实际成果而非技术创新,现在是时候进行一次诚实的评估了:人工智能在数据管理领域究竟在哪些方面能够真正带来投资回报率?哪些方面的炒作远超实际?数据领导者又该如何衡量人工智能的价值?

一 炒作周期:我们被承诺了什么

人工智能在数据管理领域的营销可谓雄心勃勃。我们被告知,未来将出现“自动驾驶数据平台”,只需极少的人工干预。供应商承诺实现“零接触数据质量”,机器学习将处理从检测到修复的一切事务。人工智能“比你更了解你的数据”的愿景,已成为各大会议主题演讲和产品发布会的常客。

这并非完全是出于商业目的的营销。这些说法背后确实蕴含着强大的技术实力,而开发这些工具的人员也确实充满乐观。机器学习在模式识别、自然语言处理和异常检测方面取得了显著进展。将这些能力应用于数据管理挑战是一个合乎逻辑且极具潜力的方向。

但是,在受控演示中技术上可行的方案与在复杂的企业环境中实际可实现的方案之间存在着显著差距,后者往往涉及遗留系统、混乱的数据、组织内部的政治斗争以及预算限制。理解这种差距对于做出合理的投资决策至关重要。

二 人工智能在数据管理中的真正价值所在

先说好消息。人工智能确实存在一些切实的应用场景,能够显著改善数据管理效果,其可衡量的回报也证明了投资的合理性。

1.自动元数据标记和丰富

传统的数据编目方法严重依赖人工文档。数据管理员需要采访系统所有者、审查模式,并费力地记录每个表和列的内容。其结果是,目录总是不完整、经常过时,而且很少能得到真正需要它们的人的信任。

人工智能改变了这种格局。机器学习模型可以分析列名、样本数据值、使用模式和关系,从而自动推断并建议元数据。例如,它们可以识别出名为“cust_dob”的列可能包含客户出生日期,具有特定模式的表很可能是一个维度表,以及不同系统中的两列可能指向同一个业务概念。

可衡量的成果:实施人工智能驱动的元数据增强的组织通常可实现 60% 至 80% 的自动化覆盖率,而纯人工方法几乎为零。人力投入从初始文档编制转移到验证和处理特殊情况。目录完整性显著提高,并且至关重要的是,能够随着数据资产的演变保持最新状态。

投资回报率的计算相对简单:节省了手动文档编制时间,提高了目录采用率,减少了分析师查找和理解相关数据的时间。

2.数据质量异常检测

基于规则的数据质量控制方法几十年来一直是行业标准。它通过定义预期模式、编写验证规则并标记违规行为来实现。这种方法对于已知问题非常有效。但问题在于,数据质量问题具有很强的创造性。它们会找到新的表现形式,而这些形式是你的规则无法预料的。

机器学习方法通 过学习正常模式并标记偏差来补充基于规则的系统。它们可以检测到数据分布中不会触发任何特定规则的渐进式漂移,可以识别正在失效的微妙相关性,还可以标记规则制定者从未想到的新问题。

可衡量的成果包括:更早地发现管道中的问题(在问题影响下游系统之前)、缩短检测和解决时间、减少进入生产环境的事件数量,以及增强对数据驱动决策的信心。据各组织报告,实施机器学习增强型监控后,数据质量事件减少了 30% 至 50%。

3.个人身份信息检测与分类

隐私法规使得识别和保护个人信息成为一项至关重要的能力。传统方法依赖于模式匹配:例如使用正则表达式来匹配电子邮件地址、电话号码和国民身份证号码。但个人身份信息可能隐藏在非结构化文本、意想不到的列中,或者采用正则表达式无法识别的格式。

机器学习分类器不仅能根据模式识别潜在的个人身份信息 (PII),还能根据上下文识别 潜在的 PII。即使列标签为“field_479”,它们也能标记出包含姓名的列。它们可以检测自由文本字段中的敏感信息,并能适应特定组织的数据模式。

投资回报率体现在合规性审计结果、数据泄露风险降低、对数据主体请求的响应速度加快以及对整个数据资产的隐私保护更加全面等方面。对于受监管行业的组织而言,不合规的代价使得合规成为理所当然的选择。

4.实体解析与匹配

识别不同记录指向同一现实世界实体(例如同一客户、同一产品或同一供应商)是数据管理中最古老、最棘手的挑战之一。传统方法采用确定性规则和相似度阈值,需要不断调整,并且难以处理混乱、不一致的数据。

基于机器学习的实体解析通过示例学习匹配模式。与基于规则的系统相比,它能更优雅地处理昵称、拼写错误、格式变体和缺失值。它还能通过反馈不断改进。最终结果是:更高的匹配准确率、更少的误报和漏报,以及更可靠的主数据。

可衡量的成果包括:更全面的客户视图、更高效的供应商整合、更精准的分析以及更少的人工匹配工作。与基于规则的方法相比,各组织报告称匹配准确率提高了 20% 至 40%。

三 炒作远超现实之处

坦白地说,人工智能在数据管理领域未能兑现其承诺。以下是一些例子。

1.自然语言到 SQL:依然脆弱

用简洁的英语提问就能获得准确的 SQL 查询结果,这的确令人向往。对于针对文档完善的模式的简单查询,它的效果也出奇地好。“显示上季度各地区的总销售额”这样的问题,就能可靠地转化为可运行的 SQL 语句。

但现实世界的分析查询很少是简单的。它们涉及跨多个表的复杂连接、嵌入在 CASE 语句中的业务逻辑、日期处理的细微差别以及特定于组织的术语。自然语言界面难以应对歧义、隐含上下文以及用户提出的问题与他们实际需求之间的差距。

现状:适用于简单的探索和普及基础数据访问,但无法取代经验丰富的分析师。如果处理复杂任务仍然需要经验丰富的 SQL 开发人员,并且还需要花费额外精力验证 AI 生成的查询结果,那么其投资回报率就会大大降低。

2.完全自动化的数据治理是一个神话

一些供应商声称人工智能可以完全自动化数据治理,例如自动分配数据所有者、执行策略和管理数据生命周期。这从根本上误解了数据治理的本质。

治理本质上涉及人为决策:谁应该拥有这些数据?在这种情况下适用哪些政策?我们如何在数据效用和隐私风险之间取得平衡?考虑到业务需求和监管要求,合适的保留 期限是多久?

人工智能可以为这些决策提供信息。它可以根据使用模式推荐可能的拥有者,标记潜在的政策违规行为,并推荐分类。但决策本身需要人类的判断、组织背景和问责机制,而这些都是算法无法提供的。这又回到了“人机协作”的老问题!

那些期望人工智能无需投资于人力治理能力就能解决其治理问题的组织将会失望。这项技术是良好治理实践的倍增器,而非替代品。

3.人工智能驱动的数据战略仍处于发展初期。

或许最被过度吹捧的功能就是“人工智能帮助你构建数据战略”。认为机器学习可以分析你的数据现状,并告诉你应该投资什么、应该优先考虑什么以及如何组织你的数据职能,这既是对制定数据战略的过度简化,也是对当前人工智能能力的夸大。

战略决策需要了解业务背景、竞争动态、组织文化、人才供应以及其他数十种未编码在元数据存储库中的因素。人工智能可以为战略提供有用的输入,包括对数据使用模式、质量热点和集成复杂性的洞察。但战略制定本质上仍然是一项人类活动。

四 无人提及的隐性成本

即使人工智能确实能带来价值,其总体拥有成本也往往超出最初的预期。一些隐性成本值得我们密切关注。

训练数据准备和上下文关联的重要性常常被低估。人工智能系统需要具有代表性的样本才能有效运行,无论是分类、模式识别还是推理。创建符合特定环境的高质量数据集,包括元数据规范、数据质量标准、业务定义和实体关系,需要投入大量精力。这项工作很少能直接复用,通常需要持续的定制化投入。

持续的AI调优和性能管理并非一劳永逸。数据不断演变,业务规则不断变化,组织行为也几乎不会一成不变。六个月前行之有效的方法,随着时间的推移可能会悄然失效。如果不持续投入资源来监控输出、验证行为以及调整配置或底层模型,最初的收益就会逐渐消退。

与现有工具和工作流程的集成复杂性会增加实施成本和长期维护负担。很少有组织是从零开始。大多数组织已经拥有目录、数据质量工具、治理流程和访问控制。人工智能功能必须与这些现实共存,并且通常需要适应这些现实,这增加了架构和运营的复杂性。

变革管理和用户采纳最终决定了人工智能能力能否转化为真正的价值。如果数据管理员不信任人工智能生成的建议,他们就会忽略这些建议。如果分析师不采用人工智能辅助发现或高质量的洞察,那么技术上的精湛程度就毫无意义。建立信任、透明度和高效的人机协作工作流程需要付出深思熟虑的努力。

误报疲劳或许是最隐蔽的代价。当人工智能系统发出过多无关紧要的警报时,用户很 快就会学会完全忽略它们。要在灵敏度和信号强度之间找到合适的平衡点,需要的不仅仅是更智能的算法,还需要持续的校准、反馈循环和有效的管理。

五 衡量投资回报率的框架

鉴于以上几点,组织应该如何衡量人工智能在数据管理方面的投资回报?

首先,在部署之前要建立清晰的基准指标。如果你不知道起点在哪里,就无法证明改进。相关的基准指标可能包括:手动编目所花费的时间、数据质量事件的发生频率和解决时间、目录使用情况和用户满意度评分、合规性审计结果,或分析师获得洞察所需的时间。

预先定义与业务价值直接相关的成功指标,而不是技术性能指标。“模型准确率提高了 15%”并非成功指标;“找到相关数据的时间减少了 40%”才是。“我们检测到了 10,000 个异常”远不如“影响生产环境的关键问题减少了 30%”重要。

留出充足的时间让价值得以实现。人工智能在数据管理领域的应用通常需要 6 到 12 个月才能展现出显著的投资回报率。初始部署侧重于集成和配置。用户采纳需要时间,模型的使用也会随着反馈而改进。期望快速见效的组织往往会在价值真正实现之前就放弃项目。

预留迭代预算。首次部署配置很少能达到最佳状态。要根据初步经验调整阈值、迭代并改进工作流程。

成熟悖论

这是一个难以接受且经常被忽视的事实:人工智能在数据管理中发挥最佳作用,前提是你的数据管理实践已经相当成熟。

如果您的数据目录为空,人工智能就无法丰富不存在的元数据。如果您没有定义组织的数据质量标准,人工智能异常检测就缺乏判断实际问题的上下文。如果没有人负责数据治理,人工智能的建议也就无从下手。

这就造成了一个悖论。数据管理成熟的组织最能从人工智能中获益,但它们的需求却相对不那么迫切。而数据管理不成熟的组织最需要帮助,却也最难有效地利用人工智能。

这意味着:不要指望人工智能能够简化基础数据管理方面的投入。相反,应该将人工智能视为扩展和改进成熟实践的一种手段,而不是取代建立这些实践的工作。

六 一条务实的前进之路

那么,对于正在评估人工智能在数据管理领域投资的数据领导者来说,这又意味着什么呢?

先从具体问题入手,而不是从技术入手。“我们想在数据管理中加入人工智能”并非策 略。“我们想通过提高目录完整性来缩短洞察时间”才是。让问题引导解决方案。

要对时间表和预期保持务实态度。人工智能可以显著改善数据管理成果,但这并非一朝一夕就能实现,也需要付出努力。要着眼于过程,而非终点。

在投资人工智能的同时,也要投资于基础建设。不要因为人工智能可以处理治理问题就忽略治理的基本要素。不要因为人工智能会让数据自助服务化就忽视数据素养。人工智能增强了人类的能力,而不是取代了人类。

严格衡量。根据业务成果定义成功标准。跟踪进度与基准线的对比情况。勇于承认问题所在并做出相应调整。

将人工智能视为工具,而非变革。那些真正从人工智能数据管理中获得投资回报的组织,都将人工智能视为更广泛工具包中的强大工具,而不是能够从根本上改变数据管理方式的魔法。

就像以往的每一波技术浪潮一样,人工智能在数据管理领域的炒作终将回归正常。真正能为企业带来价值的实用应用,将会保留下来。而那些真正重视结果而非过程的组织,也会继续采用这些应用。

本文来自微信公众号“数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。

+1
1

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

2020年,启明创投领投了北芯生命的C轮融资,并在D轮融资中继续支持公司的发展

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业