现代数据堆栈:面临哪些挑战?

王建峰·2025年08月25日 10:17
现代数据堆栈面临碎片化、复杂性挑战,需数据优先策略优化。

介绍

现代数据堆栈在数据驱动的企业中广受欢迎。这不足为奇,因为该堆栈本身是由旨在支持人工智能 (AI)、机器学习和高级分析的云原生工具驱动的。该堆栈承诺具有可扩展性、模块化和速度。

由于全球范围内产生的数据量巨大,因此需要通过堆栈来管理数据。Statista 预测,到 2028 年,全球数据生成量将突破 394 ZB,这进一步凸显了对具有高操作门槛的高级堆栈的需求。

一切看似井然有序,但这只是理论上的。随着企业采用这种数据堆栈,情况发生了变化,团队经常需要使用多个管道和平台。虽然其初衷是简化流程,但结果却导致了新的“孤岛”的产生,例如复杂性和碎片化的加剧。

这是因为同一组织内的团队会使用多种工具来实现不同的数据功能。虽然每种工具都有重叠的功能,但互操作性却远低于预期。

结果如何?

  • 冗余的数据管道、孤立的工作流程以及增加的集成开销,对成本产生重大影响。
  • 维护和集成需要持续的资源和努力。
  • 基础设施和工具成本不断上升。
  • 陡峭的学习曲线和专业技能使得引进新人才或实现数据使用的民主化变得困难。

现代数据堆栈旨在促进更快的洞察生成,但由于一些明显的权衡取舍,它有可能成为瓶颈。对于希望扩大数据和人工智能规模的组织而言,清晰地了解数据堆栈的挑战至关重要,这样才能使它成为合作伙伴,而不是阻碍。

现代数据堆栈挑战

数据堆栈一直在不断发展,但如上所述,一些重大挑战阻碍了它充分发挥潜力。

1. 工具碎片化

工具碎片化是当今现代数据栈中最紧迫的挑战之一。典型的数据栈由用于数据采集、转换、存储、编排、BI、机器学习和反向ETL等的工具组成,每个工具都有各自的功能。然而,这种方法会创建一个由多种工具组成的臃肿生态系统,这些工具之间的集成度甚至没有达到应有的水平。

工具之间缺乏互操作性增加了整体的复杂性,团队花费大量时间来正确集成这些工具,而不是解决实际的业务痛点。

功能重叠的工具带来的冗余工作流程,会给团队间的决策带来诸多困扰。最终,配置一致性、沿袭性和访问权限的管理变得异常困难。

2. 运营复杂性

碎片化会导致运营复杂性增加。原因何在?每种工具都需要一套专属的监控、专业知识和配置。这会将数据团队的负担推到极限,因为他们必须维护基础设施、处理突发事件、调整性能,并保证整个数据堆栈的正常运行。

这种复杂性带来的最显著问题之一是它对开销的影响,开销会急剧增加。更多的工具会创建更多需要调试的流水线,增加需要监控的集成,并导致在不同团队之间委派更多任务。模块化架构会变成一团乱麻,充斥着过多的责任,拖慢进度,并使一切都处于危险之中。

3. 数据质量和信任差距

增强数据质量是任何数据堆栈的重要目标。然而,标准验证的不一致、数据所有权的模糊性以及管道故障会导致数据信任度的丧失。缺乏测试和可观察性,团队总是对质量问题反应迟钝,只有当这些问题以一种不太明智的方式影响了决策时才会关注它们。

传统数据质量生命周期。质量监控和数据契约等方面仍处于萌芽阶段,尚未与工作流程紧密集成。结果如何?用户对数据的及时性、完整性和准确性产生了质疑。如果没有绝对的信任作为支撑,后果将是重复劳动、项目搁置以及对手工电子表格的依赖。整个技术栈的价值将会降低。

4. 元数据债务

元数据管理是现代数据堆栈中最未被充分开发的领域之一。随着新工具进入数据生态系统,元数据往往首当其冲,变得过时或碎片化。

通俗地说,元数据是围绕数据的上下文,或者说是数据背后的含义和相关性。它讲述着数据的故事。 这些数据意味着什么?它来自哪里?它到达的频率是多少?它位于何处?谁在使用?它的用途是什么?使用频率如何? 等等……

简而言之,没有元数据,数据就没有价值,只会陷入混乱。毫不奇怪,大多数组织都坐拥大量无用的数据,因为它们与核心语义模型脱节。用通俗的术语来说,这被称为“暗数据”。暗数据并非指存储成本,而是指由于未能充分利用丰富、有价值的数据而浪费的资金成本。

元数据的三条规则:

部分元数据释放了数据的部分价值。

彼此之间不通信的元数据流不会生成新的、有价值的元数据。

当从整个旅程中提取元数据而不是从有限的边界或组件中提取元数据时,元数据最有意义。

因此,元数据收集过程本身会影响元数据的潜力。仅仅收集元数据是不够的,正确收集元数据才是重中之重。

以下是两种收集方法的比较概述。

现代数据堆栈上的组装系统或元数据

元数据部分由外部集成的不同组件注入。这些不同的组件之间缺乏足够的空间来持续交互,从而无法从密集的网络中生成丰富的元数据。

这种情况会导致元数据债务的产生,这是现代数据堆栈面临的最大挑战之一。其代价是数据定义不明确、缺乏上下文以及可发现性较差,因为数据分析师需要花费大量时间来定位和验证数据。此外,由于现有资产缺乏必要的可视性,工程师必须绕过管道。

统一系统

统一架构由松散耦合和紧密集成的组件组成,这些组件彼此紧密地互操作/联网,并在此过程中生成和捕获密集的元数据,这些元数据在统一平面上循环回到组件中。

5. 缺乏明确的所有权

现代数据堆栈的整个前提是通过工具来提高灵活性。然而,在明确界定数据团队的所有权方面,这导致了很多混乱。

用于数据采集、转换、编排和其他相关功能的不同工具导致不同团队和角色之间的责任分散。在端到端数据生命周期的背景下,每个功能缺乏责任制。碎片化的架构造成了很多混乱,削弱了责任制,并降低了问题解决的速度。

有效的数据治理也受到影响,因为政策和数据标准的执行往往会跨越团队界限。正确的数据所有权需要的不仅仅是为数据集或仪表板分配名称,才能真正成为赋能者。

6.合规性、安全性和访问控制方面的差距

随着数据量的增加,相关风险也随之增加。Cyber security Insiders的一份报告指出,91% 的网络安全专业人士认为他们的系统尚未准备好应对零日漏洞或新发现的漏洞。这表明,现有的合规实践在渐进式数据堆栈方面已经落后。

是的,正在使用的工具有自己的访问控制,但如果没有混合治理框架,漏洞很快就会显现。诸如角色访问不一致、审计环节薄弱、不符合 个人信息保护法 等标准以及加密不足等问题会 逐渐累积,并随着时间的推移削弱流程和管道。

7. 孤岛和影子流

颇具讽刺意味的是,用于统一数据的数据堆栈最终却重新创建了原本旨在消除的“孤岛”。这是因为不同的团队拥有各自的工具、管道和流程,这导致了冗余的工作流程和不一致的数据访问。

数据治理薄弱时,就会导致影子工作流,其中未经授权的数据集、未定义的管道和孤立的仪表板是超出定义的治理控制的日常挑战,从而引起合规风险、重复逻辑以及报告不一致等。

现代数据堆栈挑战对投资回报率的影响

现代数据堆栈看似是一个制胜良机,因为它将可扩展性、敏捷性和数据民主化放在了首位。然而,一旦组织开始采用各种各样的工具,而每种工具的功能又各自有限,整体的复杂性就会使投资回报率受到质疑。

虽然速度和敏捷性是关注的关键点,但包含太多不连贯的工具会导致集成脱节、新的孤岛以及运营开销的急剧增加。

这里最大的挑战在于,受影响的不仅仅是数据团队,而是整个组织。用户在获取正确洞察方面面临延迟,对数据的信任被稀释,数据治理变成了一种被动反应,而不是主动出击。诚然,每种工具的加入都会带来一些好处,但监控、编排和合规性方面的成本却在不断攀升。

堆栈变得“现代化”了,但效率和投资回报率却受到了影响。由于团队需要花费大量时间整合零散的管道,而不是努力确保积极的战略成果,获取可行洞察的时间也随之增加。为了获得正确的价值,组织需要将其数据战略与产品思维原则同步。这对于创造正确的业务影响力至关重要。

现代数据堆栈的未来:数据优先的方法

随着各组织纷纷应对现代数据堆栈的复杂性,一种数据优先于各种工具和架构影响的版本应运而生。这就是“数据优先”堆栈的方法,整个数据生态系统围绕数据生命周期、可访问性和数据价值构建,而不仅仅是通过不同的技术来统一数据。

数据开发者平台(DDP)是一个自助式基础设施标准,它是这一转变的关键要素,它作为一个框架,赋能团队高效地创建、管理和扩展数据产品。DDP 深深植根于自助式原则,每个领域团队无需具备特定的基础设施知识即可拥有所有权。自助式特性将现代数据堆栈从碎片化的工具集合转变为运转良好的机器。

用于构建统一基础架构的数据开发者平台标准。

数据优先堆栈的基本要素

数据优先堆栈中有很多重要因素在起作用:

  • DDP 可以将操作简单性作为内置功能,在整个数据生命周期内提供集中监控、策略实施和沿袭跟踪。
  • 借助 DDP 的模块化乐高积木,技术堆栈变成一组松散耦合、紧密集成的组件,而不是硬编码的工具集成,从而使整个组织的摄取、转换、访问控制和存储变得无缝。
  • 数据优先方法确保治理深入嵌入到每一层,从访问控制到元数据,以确保合规性、安全性和信任。
  • 结合数据驱动交付 (DDP) 功能,数据优先方法可在短短几周内(而非数月)带来显著成果。数据网格的原则包括去中心化所有权和中心化标准,以实现无缝交付。

解决方案,而不是结论

现代数据堆栈中的“现代”不仅仅是一个形容词,而是一个亮点,它倾向于一个自助服务平台,帮助企业快速提供数据解决方案,成为数据网格方法的必需品。

借助此数据堆栈,企业可以借助标准化集成、访问、资源优化以及其他低优先级的复杂性,充分发挥其所有服务和工具的潜力。所有这些都通过数据开发者平台 (DDP) 实现。

它允许开发团队通过一套工具和服务轻松构建和部署应用程序,从而更好地管理和分析数据。DDP 的统一功能是其最大的优势之一,它提供了一个单一的管理点,可以实现完整的管理。

信息很明确:现代数据堆栈面临的挑战是巨大的,但根植于数据优先理念的思维过程对于解决这些挑战至关重要。

结论

2025年充满了新的机遇:各行各业的人工智能将更加专业化,自主系统将更加深入地集成,对实时、注重隐私的解决方案的需求也将激增。今年,我们不仅要关注更智能的人工智能,更要关注 能够行动 、 适应 并在各个领域 创造切实价值的人工智能。

2025 年,数据工程领域必将迎来一些令人振奋的更新,几乎每天都会出现新的技术更新,该领域的合并、收购和资金都预示着更光明的未来。

本文来自微信公众号“数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。

+1
6

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

戈尔Viabahn支架断供,集采落选致国产替代难。

4小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业