企业数据来源于多个不同的业务系统,数据流转、处理环节多,用“Garbage in Garbage out(垃圾进,垃圾出)”原则保证数据质量已成为数字化转型企业的共识。企业数据质量管理是一个系统性的工程,华为数据质量从数据质量领导力、数据质量持续改进、数据质量能力保障三方面展开,有机结合形成联动。
什么是数据质量
ISO9000标准对质量的定义为“产品固有特性满足要求的程度”,其中“要求”指“明示的、隐含的或必须履行的需求或期望”,强调“以顾客为关注焦点”。
在Won Kim的论文“A Taxonomy of Dirty Data”中,数据质量被定义为“适合使用”,即数据适合使用的程度、满足特定用户期望的程度。
数据质量不是追求100%,而是从数据使用者的角度定义,满足业务、用户需要的数据即为“好”数据。
华为数据质量指“数据满足应用的可信程度”,从以下六个维度对数据质量进行描述。
1)完整性:指数据在创建、传递过程中录完整和字段值完整四个方面。完整性是数据质量最基础的一项,例如员工工号不可为空。
2)及时性:指及时记录和传递相关数据,满足业务对信息获取的时间要求。数据交付要及时,抽取要及时,展现要及时。数据交付时间过长可能导致分析结论失去参考意义。
3)准确性:指真实、准确地记录原始数据,无虚假数据及信息。数据要准确反映其所建模的“真实世界”实体。例如员工的身份信息必须与身份证件上的信息保持一致。
4)一致性:指遵循统一的数据标准记录和传递数据和信息,主要体现在数据记录是否规范、数据是否符合逻辑。例如同一工号对应的不同系统中的员工姓名需一致。
5)唯一性:指同一数据只能有唯一的标识符。体现在一个数据集中,一个实体只出现一次,并且每个唯一实体有一个键值且该键值 只指向该实体。例如员工有且仅有一个有效工号。
6)有效性:指数据的值、格式和展现形式符合数据定义和业务定义的要求。例如员工的国籍必须是国家基础数据中定义的允许值。
数据质量管理范围
提到数据质量管理,经常有人会问:数据质量和流程质量有什么区别?
流程质量是基于流程结果评估业务执行的好坏,数据质量更关注业务对象、业务规则、业务过程、业务结果等数据是否得到了及时记录。
以采购验收为例,采购验收及时性属于流程质量,送达到验收所需时间满足3天的SLA即属于流程质量合格;
而验收数据录入及时性属于数据质量,验收到录入所需时间满足1天的SLA即属于数据质量合格。
数据质量的总体框架
华为以ISO8000质量标准体系为依据,设计了PDCA(Plan、Do、Check、Action、计划、执行、检查、处理)持续改进的数据质量管理框架,如图所示。
图-数据质量管理框架
数据质量管理以数据清洁为目标,以业务需求为驱动,通过PDCA的循环,提升数据质量,达到数据质量结果满意。领导力模块通过制定政策、规范来构建数据质量管理机制,构建完整的数据组织、流程和工具,起到支撑作用。
(1)自上而下打造数据质量领导力
数据质量政策应该有不同的层次,数据质量的管控要兼顾宏观方面的指导原则以及微观层面的具体操作要求,引导正确的业务行为,提升企业成员的数据质量意识。
(2)全面推进数据质量持续改进机制
提升数据质量是为了满足业务应用,业务战略变化会产生新数据,对数据应用提出更高的要求,使得数据质量管理范围、目标发生变化,因此数据质量管理是动态、持续的循环过程。
(3)不断加强数据质量能力保障
数据质量管理具有专业性,需要专业团队制定数据质量管理策略、流程、规范等,通过技术工具实现自动融入日常业务。通过不断提 升数据质量管理组织的管理水平、改善数据质量工具平台,使企业数据质量获得进一步提高。