数据平台的技术变迁和探索

多点Dmall企业号2021-10-21
本文章内容来自企业自主发布
数字化转型已是当前各行业的共识,数字化应用也正在改变人们的生活方式,影响着所有人。打开手机公交二维码就可以乘

编者按:本文来自微信公众号“多点零售联合云”(ID:Dmall-lhy),作者:周亚军,36氪经授权发布。

数字化转型已是当前各行业的共识,数字化应用也正在改变人们的生活方式,影响着所有人。打开手机公交二维码就可以乘车坐地铁,打开购物APP根据你的喜好给你推送合适你的商品,足不出户就可以将你网上购买的生活食材小时内送到你家。这些新的数字化生活给企业带来新机会的同时也带来新的挑战。各行业的企业所在环境、创立时间不同导致全面数字化的进化阶段有所不同,大体可分为以下几个阶段:

业务信息化

通过信息化技术将传统的业务流程通过系统在线化来完成,记录从生产到销售到各个环节的数据信息,开始企业各类业务的信息化流程建设和管理。

业务数据化

信息化建设后业务数据得到了采集和存储,业务数字化通过BI工具和数据报表向高层反馈当前公司的运营状况,为公司的一些战略和决策提供数据依据。

运营数据化

运营数据化是基于业务流程中的数据,通过采集计算和分析通过数据应用和数据手段对公司运营进行优化,实现精细化运营。

业务智能化

业务智能化是通过机器学习和人工智能来替代人工决策,使更多低效的人工处理工作走向自动化、智能化,业务运作处于智能化状态,更精确、更有效、更前瞻。

数字化转型核心的驱动力就是技术,让我们通过数字化阶段的进化过程来了解一下支撑数字化转型的数字底层基座的技术是怎么变迁和发展。

信息化IT系统

信息化阶段的IT系统主要采用的技术是关系型数据库以及联机事务处理过程(OLTP),追求的是强事务性和高执行效率,以小查询为主。常涉及的IT系统有:交易系统、进销存、客户管理、供应链、履约系统。

一个企业的IT系统通常都是由多个IT服务商提供的,而每个系统都有相互独立的数据进行数据操作管理,天生导致了数据孤岛的存在。当对整体流程进行数据分析时,就需要从涉及到多个系统数据库进行取数,统计起来将会非常困难且效率低下。

数据仓库(数据平台1.0)

IT系统的OLTP数据库的独立部署及数据库设计范式约束,导致使用OLTP数据库无法支持高效的数据分析,于是数据仓库和数据集市应运而生。

数据仓库是由比尔·恩门(Bill Inmon)在90年提出的,在1991年《Building the Data Warehouse》书中给了明确定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

数据仓库中的数据是按照主题域进行组织,是对原有分散在IT系统的数据库数据进行抽取、清理的基础上经过系统加工、汇总和整理得到的。

数据仓库的架构设计中对数据表进行了分层:

数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留。数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

数据仓库采用了一些和标准面向事务的业务系统数据库不一样的设计和思路方法,支持把多个业务运营系统的数据ETL处理汇集到一个数据仓库中。这样数据可以被更好地关联和分析,从而产生更大的价值,但这只是与业务数据库设计方法论的改变和区别,从底层技术存储架构和数据库选型并没有给出明确的建议。

大数据平台(数据平台2.0)

在信息化、新业态的带动下,企业更多、更全的数据被采集和存储,数据量已达到TB、PB甚至EB级规 模。 数据量级带来的挑战已不是通过数据仓库模型和传统数据处理技术能解决的了,此时就需要使用新的一套技术解决方案了,即大数据处理。 通过建设大数据平台提供的基础组件打破数据仓库中数据存储和处理的局限,采用HDFS、Hive、Spark、Impala等技术解决海量数据的分析难题。 这类使用分布式架构进行离线批量、延时较高的静态处理过程被称为离线计算。

随着业务对实时性需求的迫切要求,后续又出现了以Flink为代表的实时流处理计算方案,可以对实时的数据进行实时计算和结果响应,同时涉及到与实时流处理相配合的MQ、Kafka等技术。

大数据平台和数据仓库在业务层面的需求大致相同,满足企业丰富的维度信息聚合和数据分析,但基于大数据实现的数据仓库和传统数仓在架构和技术处理上有着较大差异。由于大数据技术栈门槛较高,所以大数据平台除了解决常规数据集成和ETL处理之外还需要给用户提供一套自助式的、简单易用的大数据开发平台,可提供多租户的任务开发、编排和运行运维,并保证数据隔离和资源隔离。

同时随着技术发展也开始引入机器学习TensorFlow等相关的技术架构,使数据服务具备智能化的能力。

数据中台(数据平台3.0)

大数据平台的建设让企业各部门都可以在平台上快速高效构建开发数据应用和数据服务,但各个部门烟囱式数据重复开发浪费存储和计算资源,数据标准不统一,数据使用成本高,业务数据孤岛严重,数据利用率低,这些在大数据平台暴露出来的问题需要去解决。2015年“中台”的概念由阿里巴巴首次提出,构建“大中台,小前台”的组织和业务体制,中台就是一个同时能支撑多个业务,让业务之间信息形成交互和增强的机制。在阿里中台战略下,有了数据中台,OneData体系通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径,数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。

数据中台的核心就是对数据能力进行抽象,共享和复用,形成全局的管理和规范统一。

数据平台的发展是由数字化转型的业务场景和需求推动的,不同阶段对技术的要求不同。

预告一波:今年10月24日下午14:00-18:00,D+Talks 2021多点技术大会将拉开帷幕,我们将分享更多关于多点在数据平台建设的实践和探索,欢迎有兴趣的同学积极报名参与,与行业大咖共同探讨!

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

引言说起交易营销的核心系统如何构建,只要你是一个后端程序员,心中肯定会浮现出各种高并发、高性能的架构思路和技

2021-10-21

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业