从数据科学家的故事看数据管理最佳实践

王建峰·2024年05月07日 16:22
数据可以说是当今组织最有价值的资产。

数据科学家的故事

Mr.wang是一位经验丰富的数据科学家,他刚刚在一家生产环保清洁产品的大公司找到了他理想的工作。这个公司拥有大量有关客户、产品和其他业务领域的数据。他们聘请Mr.wang来释放这些数据中隐藏的潜力,揭示市场趋势、竞争优势等。

他的第一个任务:分析客户人口统计数据和购买习惯,以制定有针对性的营销活动。Mr.wang对自己的能力充满信心,并对应用数据科学方法感到兴奋,他深入研究了客户数据库。但他最初的兴奋很快就消失了。数据一团糟——格式不一致、名称拼写错误、到处都是重复的条目。数据质量很糟糕。有“Jhon Smith”和“Micheal Brown”等名字的变体,以及“Jhonn Smtih”和“Michealw Brown”等条目。电子邮件中有多余的空格,甚至有拼写错误,例如“gnail.com”而不是“gmail.com”。以及许多其他不准确之处。Mr.wang意识到他面前的艰巨工作是数据清理。

格式不一致、缺失值和重复会导致结果出现偏差,从而无法准确地了解公司的客户群。Mr.wang不知疲倦地清理数据、修复不一致、填补空白并消除重复项,时间从几天变成了几周。这是一个乏味的过程,但对于确保他的分析建立在坚实的基础上至关重要。

谁关心数据质量

据统计,每年糟糕的数据质量给组织造成平均 1290 万美元的损失。

值得庆幸的是,经过几周的清理和组织这些混乱的数据,Mr.wang能够完成工作......或者至少对于这一部分。

当他关注产品数据时,他遇到了下一个挑战,旨在识别最畅销的商品并推荐未来的机会。然而,他遇到了另一个问题——完全缺乏元数据。缺乏产品描述,并且类别不明确。基本上,没有足够的数据来帮助Mr.wang理解产品的数据。Mr.wang意识到元数据管理(有关数据本身的结构化信息)的重要性。没有它,理解和分析数据几乎是不可能的。

研究表明大多数数据都不准确

据Experian 的研究表明,企业认为大约 29% 的数据在某种程度上不准确。

Mr.wang感到沮丧但意志坚定,他联系了不同的部门来拼凑有关产品的信息。他发现每个部门都使用自己的内部术语和分类系统。营销和销售指的是同一种清洁产品,但名称不同。

随着Mr.wang深入研究,他发现数据集被不同部门保存在单独的应用程序中,过时的存储系统难以处理不断增长的数据量,Mr.wang必须等待很长时间才能执行查询。Mr.wang还注意到,对于谁可以访问哪些数据以及在什么条件下访问哪些数据没有明确的规则,如果没有集中控制和适当的访问控制,未经授权访问敏感信息的风险就会增加,可能导致数据泄露和合规违规。数据治理(一套管理数据的规则和程序)的缺乏是显而易见的。

数据泄露可能代价高昂:

根据 Ponemon Institute 的数据,2023 年全球数据泄露的平均成本为 445 万美元,创历史新高,具体成本因行业和地点而异。

Mr.wang 故事中的上述每个问题和障碍都强调了许多方面的相互关联性 -数据质量元数据管理数据治理在其任职公司获取和利用有价值的见解方面都发挥着至关重要的作用。

Mr.wang的经历对于数据科学家和分析师来说是很常见的。许多组织都拥有大量数据,每个人都知道这样一句话:“数据就是新电力”。每个组织都希望充分利用他们的数据,因为它是非常有价值的资产。但大多数人错误地认为,仅仅雇用一名数据分析师或数据科学家就足以释放这一价值。从数据中获取最大价值有很多支柱,组织需要考虑并关注这些支柱。这里的关键词是数据管理

86% 的组织表示他们相信投资数据管理会直接影响其业务增长。

数据管理到底是什么

一般来说,数据管理是处理组织数据的整体实践。从获取和存储数据到处理、保护和分析数据。目标是确保数据可访问、可用、准确、可靠高质量,以实现数据知情组织的状态,并最终实现我们的组织目标。

数据管理的要素

有几个关键维度共同作用才能成功利用数据,虽然这些要素在不同框架之间可能略有不同,但基本概念是相同的。

除了数据安全数据集成之外,我们还有:

数据质量:确保数据准确一致完整及时。它涉及识别和修复错误、管理缺失值以及建立数据清理和验证流程

元数据管理:重点是组织和编目有关数据本身的信息。

数据治理:建立了在整个生命周期中管理数据资产的框架和规则。它涉及制定政策和流程以及分配角色,以确保数据的准确性、安全性和合规性。

数据架构:定义数据资产的结构和组织。它包括定义数据模型、存储解决方案和数据流,确保高效的数据存储、检索和利用。

数据生命周期管理:重点是管理数据的整个生命周期,从创建到归档或删除。它涉及实施数据捕获、存储、转换、使用和处置的流程。

您会注意到这些维度是相互关联且密切相关的。解决一个领域的弱点往往会影响其他领域。已经开发了一些框架来解决数据管理不同维度之间的关系以及它们如何相互作用和相互影响。

数据管理框架:艾肯金字塔

许多已建立的框架(例如 DAMA-DMBOK2、IGF 和 EDM)为数据管理提供结构化指导、标准化术语和成熟度评估

这里值得一提的一个概念框架,也是我最喜欢的一个,是艾肯的数据管理金字塔。它概述了数据管理流程的不同阶段。该框架由数据管理先驱 Peter Aiken 开发,描述了许多组织所处的情况。在尝试充分利用数据潜力时,许多组织都会经历类似的步骤:

第1阶段:重点是建立基本构建块,例如数据建模、存储解决方案和安全措施。

第2阶段:随着数据使用量的增加,此级别解决了因数据质量差以及元数据管理和数据架构等活动而带来的挑战。

第3阶段:第 2 阶段之前的活动需要数据治理。数据治理还支持文档和内容管理参考和主数据管理、数据仓库和商业智能等活动,所有这些反过来又允许在第 4 阶段进行高级分析。

第4阶段:这是组织真正释放数据全部潜力的阶段。在这里,组织利用高质量数据进行高级分析和数据科学,并提取有价值的见解来为决策提供信息。

艾肯金字塔帮助组织了解数据管理活动如何相互关联、每个活动如何建立在其他活动的基础上,以及如何确定其工作的优先顺序以实现有效的数据利用。

我对数据管理最佳实践的思考

反思数据管理的学习和经验,我赞成以下有关数据管理及其最佳实践的观点,特别是如果我们关注数据质量的话。

数据管理没有一刀切的解决方案。虽然存在指导组织走向数据管理成熟度的框架,但每个实体的完整流程仍然是独一无二的。每个组织都会优先考虑数据管理的不同方面,并面临不同的挑战。

我的方法是从简单开始。将数据管理最佳实践或增强功能应用于组织数据的目标部分,重点关注最重要的内容。这使得成熟度逐渐增长,最终涵盖所有数据。这种分阶段方法对于数据质量和元数据管理等方面非常有益。

如果一个流程持续生成不良数据,即使在数据管理的其他领域尽最大努力也无法阻止它。这些过程可以是技术性的,也可以是非技术性的。积极主动的方法在这里至关重要。例如,生成不良数据的非技术流程可能涉及仅关注技术方面的开发人员创建数据库。例如,可能缺少文档或列描述。我认为一个好的做法是让数据分析师和其他相关利益相关者参与设计过程,以确保遵守数据管理最佳实践。数据管理团队可以决定我们是否继续进行某种应用程序设计。应用程序的设计也可能是生成不良数据的技术过程。设计良好的应用程序应在数据输入期间主动加强数据质量。例如,可以使用下拉菜单来代替用于输入性别的文本框。另一个示例可能是预定义电子邮件类型,用户只需添加用户名即可自动接收“@gmail.com”或其他域名扩展。

标准化是关键:数据不一致可能是一场噩梦。想象一下,不同部门的客户名称存储方式不同,日期格式冲突,或者团队使用自己的缩写。但不仅如此,在单个组织或公司内可能存在生成相同类型数据的不同流程以及不同的数据收集工具。标准化通过建立通用格式、定义和数据处理流程来应对这种混乱。这可以确保数据质量,简化跨应用程序的集成,通过共享数据语言促进协作,并通过简化数据工作流程提高效率。这个过程也是迭代和敏捷的,组织可以在其中逐渐达到更多级别的成熟度。这也可以是生成数据的应用程序验证的先前数据管理过程的一部分:遵守标准。即任何要获得批准的申请都应首先符合标准。

最后,数据管理是一个综合过程,需要组织内不同团队之间的协作,需要定义数据管理策略并将其与业务或机构的目标和策略保持一致。这通常从评估当前和所需的数据管理成熟度级别、分析差距、确定数据管理任务的优先级并保持敏捷性开始。这个过程是迭代的,并且很少预先存在明确的解决方案。

结论

数据可以说是当今组织最有价值的资产。然而,许多人仍然缺乏适当的数据管理,限制了他们发挥其真正潜力的能力。数据质量、治理、安全性和元数据管理等问题都是从组织数据中获取最大价值的核心要素。

本文来自微信公众号“数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。

+1
5

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

仍是一门社交生意

2024-05-07

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业