读数据质量管理:数据可靠性与数据质量问题解决之道03数据目录

news/2024/11/14 6:26:33/文章来源:https://www.cnblogs.com/lying7/p/18544180

1. 同步数据

1.1. 不同的数据仓库和数据湖通过数据集成层来进行桥接

1.2. AWS Glue、Fivetran和Matillion等数据集成工具从不同来源收集数据,统一这些数据,并将其转换为上游来源

1.3. 数据集成的一个典型用例是收集数据湖的数据并以结构化格式将其加载到数据仓库中

1.4. ETL是数据集成中一个众所周知的过程

  • 1.4.1. ETL通常描述集成的步骤,其中首先从一个或多个数据存储库中提取数据,转换为新的结构或格式,最后加载到目标数据存储库中

2. 收集数据质量指标

2.1. 你无法修复你无法测量的东西

  • 2.1.1. 如果没有数据质量指标,你就无法获得数据质量

2.2. 数据宕机的时间(也就是你的数据不完整、有错误、出现缺失或者其他不准确的时间段)来度量数据质量

  • 2.2.1. 公司会仔细度量宕机时间,并投入大量资源来避免发生服务中断的情况

2.3. 问题列表

  • 2.3.1. 数据是最新的吗?

  • 2.3.2. 数据是完整的吗?

  • 2.3.3. 字段是否在预期的范围内?

  • 2.3.4. 空值率是否高于或低于应有的水平?

  • 2.3.5. 模式是否已经更改?

2.4. 可扩展性

  • 2.4.1. 跟踪大量的表和大数据集可能会非常棘手

2.5. 监控栈的其他部分

  • 2.5.1. 构建真正可靠的数据管道并实现数据可观测性需要的远不只是收集指标这么简单

2.6. Snowflake

  • 2.6.1. Snowflake是最流行的云数据仓库工具之一,其设计从一开始就优先考虑了数据质量和数据完整性

  • 2.6.2. 映射清单

  • 2.6.3. 监控数据的新鲜度和容量

    • 2.6.3.1. 度量视图的新鲜度和容量并不简单,因为这是底层查询指令中包含的表的函数
  • 2.6.4. 建立你的查询历史记录

    • 2.6.4.1. 拥有在Snowflake环境中运行的所有查询的可靠历史记录是解决问题时非常有用的工具,它可以让你准确了解最近一次写入表的方式和时间
  • 2.6.5. 健康检查

2.7. 数据仓库最重要的功能之一就是能够直接从其中提取数据质量指标并将其可视化以便进行简单的分析

2.8. 为跟踪数据质量指标而提取的信息需要随时能够提供给团队中的其他成员使用,特别是当事情发生变化或你正处于对数据管道进行根因分析的痛苦之中时

3. 查询日志

3.1. 问题

  • 3.1.1. 谁在访问这些数据?

  • 3.1.2. 来自上游的哪里?

  • 3.1.3. 来自上游的哪里?

  • 3.1.4. 平均多久执行一次特定的转换?

  • 3.1.5. 有多少行会受到影响?

3.2. 查询日志表通常仅存储某些天数的查询历史记录,且其中所包含的信息比数据质量计划所需要的多得多

3.3. 一个处理数据质量指标查询日志的健壮的解决方案需要具有前瞻性,并将所需的指标和聚合存储在一个更为永久的位置

4. 数据目录

4.1. 数据栈中的另一个关键元素是数据目录,它在理解数据质量方面起着重要的作用

  • 4.1.1. 数据目录作为元数据清单,为投资者提供了评估数据可访问性、健康状况和位置所需的信息

  • 4.1.2. 不仅可以监测数据,还可以与机器学习和自动化相集成,让数据更易于被发现、更具协作性,并且更符合当前组织、行业甚至政府的相关规则

4.2. 由于数据目录提供了有关公司数据源的单一真相来源,因此你可以很容易地利用数据目录来管理管道中的数据

  • 4.2.1. 数据目录可以用来存储元数据,让利益相关方更好地了解特定来源的沿袭,从而增强对数据本身的信任

  • 4.2.2. 数据目录可以方便地记录个人身份信息的存放位置和下游蔓延位置,以及组织中谁有权通过管道来访问这些信息

4.3. 问题

  • 4.3.1. 应该在哪里查找数据?

  • 4.3.2. 这些数据重要吗?

  • 4.3.3. 这些数据代表了什么?

  • 4.3.4. 这些数据的相关性和重要性如何?

  • 4.3.5. 该如何使用这些数据?

4.4. 传统上使用Excel来解决数据编目问题的方式

  • 4.4.1. 自动化能够让数据工程师和分析师腾出时间来专注于真正能取得进展的项目

4.5. 当前存储的大部分数据都是非结构化且高度流动的

  • 4.5.1. 人们越来越需要根据数据的意图和目的来理解数据,而不是简单地描述消费者访问和使用的数据

  • 4.5.2. 数据编目可以发现并组织恰当的元数据来解释你的数据管道

4.6. 构建数据目录

  • 4.6.1. 在构建或投资数据目录之前,你需要与运营和分析团队的下游利益相关方一起合作,了解哪些数据对业务最为重要,从而需要进行记录和编目

  • 4.6.2. 最基本的,数据目录是元数据集合,可提供对数据位置、所有权和潜在用例的背景信息和洞察

  • 4.6.3. Sqlparse、ANTLR、Apache Calcite和MySQL的SQL Parser都是流行的开源SQL解析解决方案

  • 4.6.4. GraphQL、REST和Cube.js等开源查询语言工具将允许你在数据库中查询SQL并将其呈现在编目可视化服务中

  • 4.6.5. Amundsen、Apache Atlas、DataHub或CKAN

  • 4.6.6. 当你拥有严格的模型时,数据目录的效果很好,但随着数据管道变得越来越复杂,非结构化数据开始成为黄金标准,我们对数据的理解(数据做什么、谁在使用它、如何使用它)并不能反映现实情况

  • 4.6.7. 下一代数据目录将具有学习、理解和推断数据的能力,让用户能够以自助式服务的方式利用其洞察力

    • 4.6.7.1. 数据目录将支持自动数据发现和主动元数据
  • 4.6.8. 数据管理策略还必须包含数据发现,这是一种实时了解分布式数据资产健康状况的新方法

    • 4.6.8.1. 数据发现借鉴了Zhamak Dehghani和Thoughtworks的数据网格模型提出的面向领域的分布式架构,认为不同的数据所有者都应对其数据产品负责,并推动不同位置的分布式数据之间的通信

    • 4.6.8.2. 一旦数据被提供给某一特定领域并在该领域转换后,该领域数据的所有者就可以利用这些数据来满足其自身的运营或分析需求

  • 4.6.9. 数据发现取代了对数据目录的需要,它根据一组特定消费者如何摄取、存储、聚合和使用数据,提供了对特定领域数据的动态解读

    • 4.6.9.1. 数据治理的标准和工具同样是跨领域联合的,以支持更高的可访问性和互操作性

    • 4.6.9.2. 数据发现可以实时了解数据的当前状态,而不是其理想状态或“编目”状态

4.7. 以数据质量为优先的数据目录

  • 4.7.1. 自助式服务的数据发现与自动化

    • 4.7.1.1. 即使没有专门的支持团队,数据团队也应该能轻松利用其数据目录

    • 4.7.1.2. 自助式服务、自动化和工作流编排等数据工具消除了数据管道各阶段之间及其过程中产生的孤岛,让数据变得更容易理解和访问

    • 4.7.1.3. 更高的可访问性自然会提高数据的采用率,从而减轻数据工程团队的负担

  • 4.7.2. 随数据演变的可扩展性

    • 4.7.2.1. 随着公司接收越来越多的数据且非结构化数据开始成为常态,通过扩展来满足这些需求的能力对于数据计划的成功将变得至关重要
  • 4.7.3. 用于分布式数据发现的数据沿袭

    • 4.7.3.1. 数据发现严重依赖自动化表格和字段级的沿袭来映射数据资产之间的上下游依赖关系

    • 4.7.3.2. 数据发现让数据团队能够相信团队对数据的假设与现实相符,从而在不考虑领域的前提下,在数据基础设施中实现动态发现和高度的可靠性

    • 4.7.3.3. 你的团队可能已经以某种方式在数据发现方面进行了投资,无论是通过团队为验证数据而正在进行的手动工作,还是通过工程师编写的自定义验证规则,或者仅仅是基于损坏的数据或未被察觉的隐性错误所做出的决策成本

4.8. 要获得真正可发现的数据,很重要的一点在于数据不仅要“编目”​,而且从摄取到利用这一过程要准确、干净且完全可观测

  • 4.8.1. 要可靠

  • 4.8.2. 只有了解你的数据及其状态,以及在其生命周期的所有阶段和跨领域的使用方式,我们才能开始信任它

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/833262.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

内视图和跨视图几何知识进行立体匹配

内视图和跨视图几何知识进行立体匹配几何知识已被证明对立体匹配任务有益。然而,之前将几何见解整合到立体匹配算法中的尝试,主要集中在单个图像的几何知识上,而忽略了遮挡和匹配唯一性等关键的交叉视图因素。为了解决这一差距,提出了一种新的内视图和跨视图几何知识学习网…

RHEL9.4上创建RockyLinux9.4虚拟机

日期:2024.11.13 计划:在LANbridge网段里安装RockyLinux9.4虚拟机,IP地址10.31.0.1,用于搭建dhcp服务器 参照:鸟哥Linux私房菜 马哥教育王晓春老师课程TOPO结构如图之前安装rhle8的时候写了自动化安装的脚本,现在只需要简单修改一下再执行,无需手动编辑xml文件,就可以创…

REHL8.1上配置路由的nftables防火墙策略

日期:2024.11.9 参照:鸟哥私房菜-第七章、Linux 防火牆設定 https://linux.vbird.org/linux_server/rocky9/0180firewall.php在RHEL8.1的安装过程中没有注册,目前yum源不能用,先注册 [root@RHEL8 ~]# dnf repoinfo Updating Subscription Management repositories. Unable …

数据采集第四次实验

作业1 仓库链接:https://gitee.com/jyppx000/crawl_project 作业① 要求:熟练掌握 Selenium 查找HTML元素、爬取Ajax网页数据、等待HTML元素等内容。 使用Selenium框架+ MySQL数据库存储技术路线爬取“沪深A股”、“上证A股”、“深证A股”3个板块的股票数据信息。1.1 代码和…

用python或使用Linux终端中的awk命令,处理文件并提取其中的IP地址(文末有代码,可直接使用)

题目:我有一个日志文件如图所示,我要取出文件中所有的IP地址,以方便我将其加入到防火墙的黑名单中 代码中所用到的正则表达式介绍: python使用的正则表达式是:对该正则表达式的解释:\b(?:\d{1,3}\.){3}\d{1,3}\b\b:单词边界。确保IP地址前后不与其他字符连接。 (?:\…

第七次高级语言程序设计作业

这个作业属于哪个课程:https://edu.cnblogs.com/campus/fzu/2024C/ 这个作业要求在哪里: https://edu.cnblogs.com/campus/fzu/2024C/homework/13304 学号:102400110 姓名:阿卜杜拉阿布力克木 1没有问题 2难度有点大,网上搜了之后看了好久才看懂 3也是看了好久才看懂 45没…

从配置源到数据库初始化一步步教你在CentOS 7.9上安装SQL Server 2019

从配置源到数据库初始化一步步教你在CentOS 7.9上安装SQL Server 2019安装内容 数据库版本:SQL Server 2019 企业版 操作系统:CentOS 7.9 配置如下图:安装环境准备 本文演示的Linux发行版是CentOS 7.9。接下来是SQL Server 2019的部署细节,包括安装源的配置、安装SQL Serve…

2024.11.13 Gusare 编程日志

2024.11.13 Gusare 编程日志前言 摆了好多天,没写日志,嘻嘻 最近一直在按顺序刷luogu的题单,刷完了【入门3循环】【入门4数组】【算法1-6 二分】【数据结构1-1 线性表】 看着很多,实际都是手速题,博主是大水比 有个叫许根瑞的家伙和我打赌2024前要是我没上蓝我就得请他吃甜…

如何在微信小程序中使用less开发

VScode的Esay-less插件第一步:直接先在 vscode 安装 easy-less 插件 第二步:点击微信开发者工具的扩展按钮,再点击扩展下的三个小点,选择从已解包的扩展文件夹安装第三步:选择这个less文件夹第四步:设置输出.wxss到这里还差最后一步,因为Easy-less,默认输出的css,但是…

WLAN学习-11.13

来源:1.无线网络发展历程2.WLAN频段类比人:迈的步子大,频率小;迈的步子小,频率大。 迈的步子大,穿墙能力强,适合应用在更加复杂的环境中,用2.4连信号会更好802.11协议介绍

iman——冲刺日志(第一天)

团队成员分工与进度组别 成员 完成的任务 完成任务所用时间 (小时) 剩余时间 (小时)前端 阿依娜孜 完成了“行程总览”页面的设计与制作,实现了页面的基本布局和功能框架。 5 4前端 郭剑敏 完成了“账单管理”页面的设计与开发,包括添加账单记录的功能和行李清单页面的基本框…