读数据质量管理:数据可靠性与数据质量问题解决之道18数据发现

news/2024/11/29 6:37:58/文章来源:https://www.cnblogs.com/lying7/p/18572350

1. 让元数据为业务服务

1.1. 在过去十多年中,数据团队越来越擅长收集大量的数据

1.2. 公司如今正在收集越来越多关于其数据的数据,也就是元数据

  • 1.2.1. dbt等ETL解决方案让跟踪和使用元数据变得容易,而云服务提供商则使栈中数据解决方案之间的元数据的互操作性变得更加无缝

  • 1.2.2. 没有与之对应的背景信息的数据只不过是一堆数字一样,元数据本身并没有用,它只是关于其他信息的更多信息

1.3. 元数据的真正力量在于我们使用它的地点、时间和方式

  • 1.3.1. 如何将它应用于我们正在试图解决的特定且亟须解决的问题

2. 通过数据发现释放元数据的价值

2.1. 数据仓库和数据湖的考量

  • 2.1.1. 在过去几年中,云数据仓库和数据湖已成为现代数据栈的必备要素

  • 2.1.2. 数据发现工具(或联合目录)能够提供帮助来确保你的数据环境不会变成数据沼泽

  • 2.1.3. 数据湖具有无限的灵活性和可定制性,来支持广泛的用例,但随着这种更强的敏捷性而来的是与数据组织和治理相关的一系列其他问题

  • 2.1.4. 随着数据运营的成熟和数据管道变得越来越复杂,传统的数据目录往往达不到你所期望的数据发现工具回答这些问题的方式

2.2. 数据目录可能淹没在数据湖甚至数据网格中

  • 2.2.1. 数据目录经常被用作元数据的清单,并提供有关数据健康状况、可访问性和位置的信息

  • 2.2.2. 帮助数据团队回答有关在哪里查找数据、数据代表了什么以及要如何使用数据的问题

  • 2.2.3. 如果我们不知道这些数据是如何组织的,那么我们所有最好的计划(或管道)都是徒劳的

  • 2.2.4. 从历史上看,许多公司都使用数据目录来加强数据质量和数据治理标准,因为他们通常依赖于数据团队手动输入和更新目录信息以跟踪数据资产的演变情况

  • 2.2.5. 在数据湖中,数据是分布式的,因此很难记录数据在其生命周期过程中的演变情况

  • 2.2.6. 存储在传统数据目录中的数据也难以扩展和演变,以满足分布式数据架构(如数据网格)的需求

2.3. 从传统的数据目录过渡到现代的数据发现

  • 2.3.1. 随着时间的推移,了解不同数据资产之间的关系至关重要,但这中间往往缺乏传统数据目录的维度

  • 2.3.2. 公司仍需要知道他们的数据存放在哪里以及谁可以访问它,并能够评估其整体健康状况

  • 2.3.3. 虽然许多数据目录都有以用户界面为中心的工作流,但数据工程师需要拥有以编程方式与数据目录进行交互的灵活性

  • 2.3.4. 数据可以通过多个入口点进入数据湖,而工程师需要一个能够适应该情况并说明每个入口点的数据目录

  • 2.3.5. 与数据在输入前进行清洗和处理的数据仓库不同,数据湖在不对端到端健康状况做任何假设的情况下就接收了原始数据

    • 2.3.5.1. 如果没有数据发现工具和数据沿袭,那么数据湖中的故障可能会变得混乱且难以诊断

    • 2.3.5.2. 在数据湖中,可以通过多种方式与数据进行交互,而数据目录必须能够提供对正在使用的内容和未使用内容的理解

  • 2.3.6. 数据发现,换句话说,联合数据目录,是一种植根于Dehghani数据网格模型中提出的分布式面向领域架构的新方法

  • 2.3.7. 填补了传统数据目录不足的空白

    • 2.3.7.1. 跨数据湖的自动化扩展

      2.3.7.1.1. 使用机器学习,数据发现工具来自动跟踪表级和字段级沿袭,映射上游和下游的依赖关系

    • 2.3.7.2. 提供对数据健康状况的实时可见性

      2.3.7.2.1. 数据发现工具提供对数据当前状态的实时可见性,而不是其“编目”或理想状态

    • 2.3.7.3. 利用数据沿袭了解数据的业务影响

      2.3.7.3.1. 数据发现工具的灵活性和动态性让其成为将数据沿袭带入数据湖的理想载体,让你能够在正确的时间获得正确的信息,并在诸多可能的输入和输出之间建立联系

    • 2.3.7.4. 支持跨领域自助式服务的数据发现

      2.3.7.4.1. 数据发现工具还支持自助式服务,让人们无须专门的支持团队即可轻松利用和理解他们的数据

    • 2.3.7.5. 确保跨数据湖的治理和优化

      2.3.7.5.1. 现代数据发现工具让公司不仅可以了解在数据生命周期中正在使用、消费、存储和弃用哪些数据,还可以了解这些过程是如何进行的

  • 2.3.8. 数据发现工具还可以让利益相关方轻松识别出最重要的数据资产(也就是经常被查询的数据)​,以及那些未被使用的数据资产

    • 2.3.8.1. 一些最好的数据目录越来越多地采用分布式特定领域的数据发现,为团队提供了在数据生命周期的各个阶段完全信任并利用数据所需的可见性
  • 2.3.9. 如果你不信任数据,那么无论数据多具有“可发现性”也没什么用

    • 2.3.9.1. 尽早确定数据质量在公司数据之旅中的优先级会很有帮助,以避免不必要且带来麻烦的数据宕机

3. 决定何时开始处理公司的数据质量问题

3.1. 更关心要怎样才能推动采集数据,让这个事启动并运行起来

3.2. 构建数据平台是一个多阶段的过程,而数据团队必须兼顾数十个相互竞争的优先事项

3.3. 如果公司不使用或不信任你的数据,那么你为数据平台统治而制定的最佳计划就成为白日梦

3.4. 七个领先指标

  • 3.4.1. 在最近迁移到云端

    • 3.4.1.1. 无论出于何种原因进行迁移,你都必须在保持速度的同时建立对数据平台的信任

    • 3.4.1.2. 应该花更多的时间来构建数据管道,而不是把时间用在编写测试以防止出现问题上

  • 3.4.2. 数据栈随着更多的数据源、更多的表和更高的复杂性而扩展

    • 3.4.2.1. 数据产品的规模不是投资数据质量的唯一标准,但的确是一个重要因素

    • 3.4.2.2. 投资数据可观测性前应该拥有多少数据源、数据管道和数据表方面并没有硬性规定,但一个较好的指导原则是拥有50张以上的表

    • 3.4.2.3. 重要的考虑因素是数据栈增长的速度

  • 3.4.3. 数据团队正在扩充

    • 3.4.3.1. 雇用更多的数据专家,并将现代工具应用到你的数据栈中

    • 3.4.3.2. 技术债将随时间慢慢积累,而你的数据团队将投入大量时间来清洗数据问题

  • 3.4.4. 团队至少花费了30%的时间来解决数据质量问题

    • 3.4.4.1. 数据工程师花费了太多的宝贵时间来修复问题而不是进行创新
  • 3.4.5. 团队拥有比一年前更多的数据消费者

    • 3.4.5.1. 数据为你的招聘决策、产品功能和预测分析提供了支持

    • 3.4.5.2. 快速增长会导致业务相关方对数据的依赖程度增加,数据需求变得更加多样化,而最终导致需要更多的数据

    • 3.4.5.3. 更多的数据也会带来更大的责任,因为不良数据进入你的数据生态系统的可能性也增加了

    • 3.4.5.4. 越是数据驱动型的组织反而越会有更多的数据消费者来发现数据中出现的任何错误

  • 3.4.6. 公司正在转向自助式服务分析模型

    • 3.4.6.1. 公司正在转向自助式服务分析模型,以便为数据工程师腾出时间,并允许每个业务用户直接访问数据并与之进行交互

    • 3.4.6.2. 到最后如果你的最终用户不信任数据,那么转向自助式服务分析模型的目的就会落空

    • 3.4.6.3. 随着数据越来越成为数据驱动型组织日常运营不可或缺的一部分,对可靠数据的需求只会增加

    • 3.4.6.4. 两种类型的数据质量问题

      3.4.6.4.1. 你可以预测的(已知的未知)

      3.4.6.4.2. 你不能预测的(未知的未知)

  • 3.4.7. 数据是客户价值主张的关键部分

    • 3.4.7.1. 每个应用程序都将很快成为一个数据应用程序

    • 3.4.7.2. 当没有优先考虑数据质量时,数据团队和你的客户就会遭受损失

3.5. 数据质量源于信任

  • 3.5.1. 组织需要信任他们的数据来为利益相关方提供干净可靠的数据

  • 3.5.2. 宝贵的工程时间就会被浪费在救火数据宕机上,你为成为数据驱动型公司所做出的努力也会随着时间的推移而受阻,业务用户也将失去对数据的信任

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/843231.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

初见客户交流指南:精准高效,建立信任

在已知客户对产品有大致需求(询盘)的背景下,初次拜访交流至关重要。以下是一份实用的交流指南: 充分准备 自我介绍清晰明了 简洁明了地告知客户您的基本信息,包括姓名、籍贯、公司名称、职位以及您在决策过程中的角色。 树立专业形象,传达出“业务方面,找我就对了”的自…

《数字经济产业链》及其相关公司 —— 深度梳理

《数字经济产业链》及其相关公司 —— 深度梳理 来源:行业研究报告发布时间:2023 年 05 月 22 日 11:07:35(网经社讯)产业链分析 1、产业链概述 2、数字经济行业上游: (1)5G 根据中国信通院、中国移动、中国电信、中国联通、工信部,综合市场公开资料,2025 年中国 5G …

写一个方法检测页面中的所有标签是否正确闭合

function checkTagClosure(htmlString) {// 使用栈来跟踪打开的标签const tagStack = [];// 正则表达式匹配标签 (包括自闭合标签)const tagRegex = /<\/?([a-zA-Z][a-zA-Z0-9]*)\s*\/?>/g;let match;while ((match = tagRegex.exec(htmlString)) !== null) {const tag…

【api开发】API通信协议总结

API协议 1. REST(Representational State Transfer) 一种用于设计网络应用程序的架构风格。它强调无状态通信,使用标准的HTTP方法(GET、POST、PUT、DELETE),并通过URL识别资源。 2. GraphQL 一种API查询语言,允许客户端精确请求它们所需的数据,不多也不少。这种效率是G…

你有使用过picture标签吗?说说它有哪些运用场景

是的,我了解 <picture> 元素。它是一个 HTML5 元素,用于为不同的屏幕尺寸、设备像素比或文件格式提供不同的图像版本。浏览器会根据当前环境选择最合适的图像显示,从而优化页面加载速度和用户体验。 <picture> 元素本身并不显示图像,而是充当一个容器,其中包含…

小米10ultra ISO12233 主摄OV48C 不同亮度下比较

夜间室内几乎完全黑的环境 结论 1200w像素,没啥差别,吃满像素。4800w像素,也没啥区别 IMG_20241129_022234.HEIC 仅有闪光灯 质量 低 1.49MB 1/50s IMG_20241129_022238.HEIC 头灯补光 质量 低 1.65MB 1/100s 34 38 4800w像素 IMG_20241129_022250.HEIC 4800w像素 质量低…

Git 快速入门:全面了解与安装步骤

Git 是一个开源的分布式版本控制系统,由 Linus Torvalds 于 2005 年创建,最初是为了更好地管理 Linux 内核开发而设计。Git用于跟踪计算机文件的变化,特别是源代码文件。它允许多个开发者同时合作开发软件项目,同时保留完整的版本历史,确保代码的稳定性和可追溯性。一、关…

如何解决 GoPro 13 拍摄 4K HDR 视频过热关机问题 All In One

如何解决 GoPro 13 拍摄 4K HDR 视频过热关机问题 All In One GoPro 过热关机如何解决 GoPro 13 拍摄 4K HDR 视频过热关机问题 All In OneGoPro 过热关机测试条件 室温 20 度 开启 HLG HDR 画面 16:9 分辨率 4K 帧率 60Hz 开启 GPS HyperSmooth: AutoBoost 比特位深: 10-Bit 比…

【模板】堆

【模板】堆 题目描述 给定一个数列,初始为空,请支持下面三种操作:给定一个整数 \(x\),请将 \(x\) 加入到数列中。 输出数列中最小的数。 删除数列中最小的数(如果有多个数最小,只删除 \(1\) 个)。输入格式 第一行是一个整数,表示操作的次数 \(n\)。 接下来 \(n\) 行,每…

FIFO 缓存算法很简单,但也可以聊挺久

作者:秦怀 1 简介 计算机科学领域的任何问题都可以通过增加一个间接的中间层来解决,这句话就是整个计算机软件以及系统设计中的核心思想,而缓存对这一思想的一种实践。 缓存,总归会受到存储空间的限制,当缓存的空间不足的时候,如果在保持一定系统文档的情况下,还能兼顾到…

安装在C盘的软件移到其它盘

移动Office到D盘为例,Office默认安装位置为"C:Program FilesMicrosoft Office",只需要把“Microsoft Office”这个目录移动到C盘以外的盘符,我们这里以D盘为例。1)在D盘新建一个文件夹“Program Files”,然后按“Shift键不放,点重启电脑”进入安全模式;2)在安…

HCIP-01 RSTP原理与配置

生成树是一个用于局域网中消除环路的协议。运行该协议的设备通过彼此交互信息而发现网络中的环路,并对某些接口进行阻塞以消除环路。由于局域网规模的不断增长,生成树协议已经成为重要的局域网协议之一。 RSTP是生成树协议中的其中一个版本,它在STP的基础上,做了很多的改进…