数据领域的新概念真是层出不穷呀~数据中台的火刚熄灭,又看到人家说“数据治理的下一站是DataOps”,“数据编织是数据中台的一下站”。作为一个好学的的数据人,让我看看“数据编织”又是个什么鬼,到底是一场概念的炒作,还是真正的技术革新?死磕这些概念,看看到底有什么不同。
文章有点长,先上精简版结论!
1.数据编织是是一种数据架构理念,而非一组特定的工具;
2.数据湖只是数据编织的异构数据源之一;
3.数据编织和数据中台不是一个概念,数据编织也不是数据中台的高级版;
4.数据编织是自动化、智能化数据治理的一个理想解决方案,是传统数据治理的重要补充;
5.DataOps是将数据编织真正落地一个重要的推动者。
01
数据编织
其实数据编织不是一个特别新的词,Gartner在2022年的重要战略技术趋势报告里面,第三次把“数据编织”列为十大技术趋势之一。
当下,数据是企业数字化转型重要驱动因素,而企业的数据环境日趋复杂:内部数据/外部数据,实时数据/批处理数据,结构化数据/半结构化数据/非结构化数据,本地数据/云端数据,单机数据/分布式数据……,在更高程度数字化要求下,企业必须使用一种新型的数据结构来应对企业数据资产日益加剧的多样化、分布式、规模、复杂性等问题。在这样的背景下,一种新兴的数据管理和处理方法——数据编织(Data Fabric)诞生了。
首先看看业界是如何定义数据编织的,Gartner将Data Fabric定义为“包含数据和连接的集成层,通过对现有的、可发现和可推断的元数据资产进行持续分析,来支持数据系统跨平台的设计、部署和使用,从而实现灵活的的数据交付”。
△图片来源:gartner
Gartner认为数据编织是一种跨平台的数据整合方式,它不仅可以集合所有业务用户的信息,还具有灵活且弹性,的特点,使得人们可以随时随地使用任何数据。下图是Gartner给出的数据编织的典型结构,自下而上分为5个层次:
△图片来源:gartner
-
数据源层:数据编织可以连接各种数据源。这些资源可能存在于企业内部,例如企业的ERP系统、CRM系统或人力资源系统 。还可以连接到非结构化数据源,例如,支持 PDF 和屏幕截图等文件提交系统,支持物联网传感器的接入。数据编织还可以从公共可用数据(如社交媒体)等外部系统中提取数据。
-
数据目录层:与传统人工编目不同,数据编织强调采用新技术,例如:语义知识图、主动元数据管理和嵌入式机器学习 (ML),自动识别元数据,持续分析关键指标和统计数据的可用元数据,然后构建图谱模型,形成基于元数据的独特和业务相关关系,以易于理解的图谱方式描述元数据。
-
知识图谱层:数据编织必须构建和管理知识图谱。知识图谱的语义层使用 AI/ML 算法简化数据集成设计,使其更加直观和易于解释,使数字化领导者的分析变得容易。 基于知识图谱的数据应用,将合适的数据在合适的时机自动化推送给数据集成专家和数据工程师,让他们能够轻松访问数据并进行数据共享和使用。
-
数据集成层:数据编织提供自动编织、动态集成的能力,兼容各种数据集成方式,包括但不限于 ETL、流式传输、复制、消息传递和数据虚拟化或数据微服务等。同时,支持通过 API 支持与内部和外部利益相关者共享数据。
-
数据消费层:数据编织面向所有类型的数据用户,提供数据和服务,包括:数据科学家、数据分析师、数据集成专家、数据工程师等,既能够面向专业的IT 用户的复杂集成需求处理,也可以支持业务人员的自助式数据准备和分析。
作为一种新兴的数据管理和处理方法,数据编织改进了数据仓库和数据湖的概念,引入了一个新的架构(网络状),使整个企业能够统一利用数据。数据编织使用基于网络的架构而不是点对点的连接来处理数据,实现了从数据源层面到分析、洞察力生成、协调和应用的一体化数据结构。
结论:数据编织是一种数据架构理念(而非一组特定的工具),其通过提供一种统一的方法来管理异构数据工具链,其能够将可信数据从所有相关数据源、以灵活且业务可理解的方式交付给所有相关数据消费者,从而提供比传统数据管理更多的价值。
02
数据中台
乍一看数据编织有点很眼熟,有种“似曾相识”的赶脚,是不是与我们的“数据中台”的概念有点像?在主流的数据中台概念中,也强调支持各种数据源(结构化的、半结构化的、非结构化的),提供数据目录、数据标签、数据分析等服务,提供数据资产的动态化管理,支持为不同数据用户提供数据服务,解决企业的数据孤岛,让数据用起来。这些特点都与数据编织很相似,只不过数据编织更强调人工智能和知识图谱的应用。因此,也有专家提出“数据编织是数据中台的下一站!”。
数据中台并不是全新的技术和产品,更多是由一些技术组件组合而形成的一个综合性的数据应用解决方案,例如:基于数据湖的数据存储服务、基于各种数据管理组件的数据治理服务,基于大数据平台的数据计算和处理服务,以及提供面向应用的数据标签、数据目录、数据分析、模型算法服务等。
结论:数据中台是一个综合性的数据应用解决方案,指的是将组织内各个业务部门的数据整合到一个统一的平台中,以提供数据共享和协作。数据中台旨在构建一个数据驱动的组织,通过整合数据资源,实现数据的可视化、分析和应用。
03
数据治理
数据治理如今是一个很常见的概念,按照DAMA的定义,数据治理即对数据资产管理行使权力、控制和共享决策(规划、监测和执行)的系列活动。大家都知道,数据治理是对数据管理的管理,它是基于内部数据标准、策略和规则,管理企业数据的可用性、完整性和安全性,从而将数据转化为企业资产。
数据治理涵盖了数据管理的各种主题,例如:数据战略、数据架构、数据建模、数据存储和操作、数据安全、数据质量、元数据、数据集成和互操作性、文档和内容、参考数据和主数据、数据仓库和商业智能等。
△DAMA数据治理车轮图
从目前来看,数据治理的发展趋势,有很多方面已经很明确了,比如数据治理与AI的结合、数据安全与数据治理的深度融合、数据价值呈现成为数据治理的关注焦点。
结论:数据治理是一套策略、流程和技术,用于确保数据的合规性、质量和安全性。数据治理涉及数据的定义、分类、标准化、数据主人的定义和责任分配、数据访问控制等方面。数据治理的目标是确保数据可信度和可用性,促进数据驱动决策和业务价值的实现。
04
DataOps
近几年,DataOps数据开发治理一体化在业界非常受欢迎。部分数字化转型较早、数据资源条件优厚的企业,借鉴传统DevOps的理念,将原本分散的数据治理、管理、开发和应用等环节打通,形成一个无缝衔接的大闭环,去破解企业在数据应用中的难题。
我们一般理解,DataOps的目标是为了使数据资源和数据应用的开发变得更加有序和可控,实现组件和能力重用以及过程自动化,实现面向用户的自助式数据分析。DataOps在数据开发运营体系化方面,可以作为数据中台建设必须参考的一个方法论。DataOps 强调的是数据应用的开发和运维效率,就像DevOps 一样,DataOps 希望通过提供一整套工具和方法论,来让数据应用的开发和管理更加高效。
DataOps 的工作主要有五个方向:
第一个是任务调度。主要包括云原生调度、容器的调度,这跟 DevOps 是一样的。
第二个是数据安全。数据安全以前基本不在 DataOps 的考虑范围,也不在数据开发的范围内,但现在数据安全很重要。
第三个就是数据管理和数据门户。大家可能会说原数据管理不都好多年了,但以前的原数据管理主要是针对关系型数据库,关系型数据库对原数据的管理相对容易,只要到数据库里把原数据爬出来就可以。但现在有流数据、非结构化数据,还有 TaiDB 等,各种各样的原数据怎么样去管理?血缘管理更复杂了。之前是几个 SQL 之间的血缘管理,现在关系到各种各样的查询、各种各样的系统、数据门户跟 MapDatas 是一样的。
第四是数据检测的可视化。DevOps 里有很多可监测到的指标,数据层面也一样。用多少资源、花多少时间、创造了多少价值,之前都是一个黑盒子,但 DataOps 的整个数据都是端到端的,相关指标可观测、可管理。
第五就是集成开发。所有的工具必须是可集成的,不可能做一个工具负责血缘管理,再做一个工具负责调度。
结论:DataOps是一种工程方法论和一套实践方法,旨在快速、可靠、可重复、持续地交付生产就绪数据以及运营就绪分析和数据科学模型。DataOps 通过支持数据版本控制、数据转换、数据血缘和分析模型的工程学科来增强和推进数据治理。DataOps能服务于业务部门、大数据部门,提供敏态数据开发支撑,优化数据生产者和数据消费者协作效率。
05
各种概念对比
数据编织 VS 数据中台
明确的说,数据编织和数据中台不是一个概念,是不同的技术阵营营造的出来的概念,数据编织也不是数据中台的高级版。
数据中台是由相关技术组件组成的一个综合性的解决方案,重点是提供面向应用的数据标签、数据目录、数据分析、模型算法服务等各类数据服务。而数据编织更侧重实现异构融合多样的数据资产服务,强调自动化的集成和智能数据编排。
数据中台是一个“让数据用起来”的方法论,不仅包含数据管理和使用的相关技术组件,还包括与之相适应的企业组织机构、管理制度和流程、运营机制和考核办法等。而数据编织一开始就强调新技术的应用,例如:机器学习、人工智能、知识图谱等,且构建和管理知识图谱是其核心支持从数据源级别到分析、洞察力生成、编排和应用程序的集成数据层(结构),数据编织的技术色彩更浓一些。
数据编织 VS 数据集成
数据集成是融合异构存储集合的数据并构造统一数据视图的过程,包括了数据合并、数据转换、数据清洗等,其专注于复制、移动数据,如ETL加工、数据同步等。
数据编织是一种架构思想,跟数据集成本来是无法直接比较的,但由于数据虚拟化是实现数据编织架构中的关键技术之一,因此可以比较下数据虚拟化和数据集成的区别,数据虚拟化可以在不移动数据的情况下从源头访问数据,通过更快、更准确的查询帮助缩短实现业务价值的时间,具体包括跨平台敏捷集成、统一语义、低代码创建数据API(支持SQL、REST、OData和GraphQL等技术)、智能缓存加速等功能,数据虚拟化跟数据集成还是有本质区别的,假如没有虚拟化能力,数据是很难编织起来的,当然,数据编织远远超越了数据虚拟化的范畴。
数据编织 VS 数据湖
数据湖只是数据编织的异构数据源之一(数据源可以是数据仓库、数据湖,也可以是业务数据库等其他数据存储),数据编织将应用程序与数据湖(或者数据仓库等)进行连接,通过统一的数据管理框架支持在分布式的环境中进行数据消费。
数据编织 VS 数据治理
在传统的数据治理体系中是没有包含数据编织的,但数据编织是一种数据管理的全新架构,是自动化、智能化数据治理的一个理想解决方案,从数据架构层面增强了企业数据管理的能力,是传统数据治理的重要补充。
数据编织 VS DataOps
数据编织和DataOps肯定不是相同的概念,但DataOps是将数据编织真正落地一个重要的推动者。DataOps 的数据流程模型、工具和数据洞察与用户数据需求之间存在密切的联系,该模型与数据编织的架构具有共生关系,DataOps 数据流程模型和思维模式是数据编织落地的核心关键。
总的来说,这些概念之间存在一定的关联和重叠。数据编织可以看作是数据中台和DataOps的结合,它关注数据整合和数据流程的灵活性和效率。数据治理则是数据编织和数据中台的基础,通过确保数据质量和合规性,为数据编织和数据中台提供可信的基础。DataOps可以在数据编织和数据中台中发挥重要作用,通过自动化和持续交付的方式加速数据处理和数据产品的交付。因此,这些概念通常是相互关联和相互支持的,共同构建一个数据驱动的组织。