读数据质量管理:数据可靠性与数据质量问题解决之道15数据信任

news/2024/11/29 22:51:02/文章来源:https://www.cnblogs.com/lying7/p/18568731

1.       在数据平台中建立信任

1.1.         确保产品目标与业务目标保持一致

  • 1.1.1.           几十年来,数据平台被视为实现目标的手段,而不是“终极目标”​

  • 1.1.1.1.            数据不被当作核心产品来构建

1.2.         寻求适合的利益相关方的反馈与认可

  • 1.2.1.           在整个产品开发过程中获得前期认可并得到迭代反馈是构建数据平台的过程中必不可少的组成部分

  • 1.2.2.           步骤

  • 1.2.2.1.            向领导层推销你的愿景

  • 1.2.2.2.            向实际用户推销基本操作和日常用例

  • 1.2.2.3.            无论和谁交谈,都要以客户为中心

  • 1.2.3.           一个优秀的数据平台可以帮助技术型用户轻松高效地完成他们的工作,同时允许非技术型用户利用数据来获得丰富的洞察或制作可视化图表,而无须太多工程师和分析师的帮助

  • 1.2.4.           能够培养一个数据爱好者社区,他们一起构建、分享和学习

  • 1.2.5.           平台有潜力服务于整个公司,因此每个人都应当愿意为数据平台的成功做出贡献,即使这意味着人们在此过程中要做出一些妥协

1.3.         优先考虑长期增长和可持续性,而非短期收益

  • 1.3.1.           数据平台几乎完全是内部工具,我们发现最好的数据平台是以可持续性为前提构建的,而不是以特定功能来取胜

  • 1.3.2.           你的客户就是你的公司,而公司的成功就是你的成功

  • 1.3.3.           以短期可用性为前提的数据解决方案往往更容易启动,但随着时间的推移,这些平台的成本比以可持续性为前提构建的平台要高

  • 1.3.4.           作为更大的产品开发战略的一部分,获取一些快速成功可以帮助你获得内部认可,但是这不意味着你的计划可以是短视的

  • 1.3.5.           罗马城不是一天建成的,你的数据平台也不是

1.4.         为数据及其评估标准设定基准指标

  • 1.4.1.           如果你无法信任数据,那么你的数据平台再好也没有用

  • 1.4.2.           组织有能力在整个数据生命周期中保障数据的高可用性和数据健康

1.5.         了解何时构建、何时购买

  • 1.5.1.           从头开始构建平台

  • 1.5.1.1.            基于开源解决方案来进行平台建设的,但这样的做法未必符合你的需求

  • 1.5.1.2.            产品需要使用敏感或机密的信息(例如财务或医疗记录)​,这些信息由于监管不能与外部供应商共享

  • 1.5.1.3.            数据平台需要特殊的定制化才能与其他内部工具或系统配合使用,并且这些定制化设置足够特殊,以至于供应商不会优先提供这些设置功能

  • 1.5.1.4.            构建与购买相比具有其他的战略价值(如业务上的竞争优势或对招聘人才有益)​

  • 1.5.1.5.            当涉及解决那些对于业务来说非常特殊但很关键的问题时(例如,汇总高速公路上的GPS数据)​,你可能需要构建自己所需的工具

  • 1.5.2.           从供应商那里购买技术(或多个支持技术)​

  • 1.5.2.1.            购买通常是更有价值的选择

  • 1.5.2.2.            对于更大的、更普遍的技术挑战(如数据仓库、数据湖或数据可视化工具)​,购买技术通常更有意义

  • 1.5.3.           为解决更复杂、更高精度的问题,人们更加致力于研发并投资相关的工具

  • 1.5.4.           反向ETL、数据科学工作簿、行为分析,甚至是机器学习特征存储库都曾经是独特而小众的技术,现在却被广泛应用

1.6.         构建数据平台看起来可能是个艰巨的任务,但是只要采取正确的方法保障数据质量并将其规模化,你的解决方案就可能让整个组织事半功倍

2.       数据平台产品化的好处

2.1.         指导销售工作(根据潜在客户的反馈为你提供需要关注的方向)

2.2.         推动应用程序产品路线图

2.3.         改善客户体验(帮助团队了解服务痛点,哪些方案有效,哪些无效)

2.4.         在公司范围内对数据治理与合规措施进行标准化

3.       分配数据质量所有权

3.1.         在数据领域,数据事故造成的不断扩大的影响范围通常被称为爆炸半径

  • 3.1.1.           爆炸半径指的是,当数据故障发生时,下游的利益相关方所经历的宕机程度

  • 3.1.2.           当数据发生故障时,从首席数据官到值班数据工程师在内的很多利益相关方都会被波及

  • 3.1.3.           数据宕机会影响到公司内部依赖数据和数据分析的所有人,而随着数据在管道中向下游传递,低质量数据造成的影响只会不断升级

3.2.         首席数据官

  • 3.2.1.           确保她的团队提供的数据能够保证一致性、准确性、相关性、可解释性和可靠性

  • 3.2.2.           假如不良数据出现在CEO面前,甚至流向了公众或其他数据消费者,她就要担责了

3.3.         商业智能分析师

  • 3.3.1.           需要一个简洁明了的数据仪表板,来回答市场、销售和运营等部门的各种问题,以帮助这些部门了解其业绩表现

  • 3.3.2.           空值和重复行是商业智能分析师的死对头,而数据宕机会让她心烦意乱,所以她很愿意采用任何可以避免数据宕机的方法

  • 3.3.3.           追溯数据上游并验证数据值的准确性是一个极其漫长的过程

3.4.         分析工程师

  • 3.4.1.           主要负责确保利益相关方能够访问和使用数据来满足他们的需求

  • 3.4.2.           精通数据构建工具dbt,并为自己能够通过建模解决几乎所有问题而感到自豪

  • 3.4.3.           要负责解释数据为何以及如何被损坏,她通常要与数据工程和数据平台团队合作来找到根本原因

  • 3.4.4.           数据可观测性是她最好的朋友

3.5.         数据科学家

  • 3.5.1.           要花费大约80%的时间清洗、整理和理解数据的方方面面

  • 3.5.2.           需要相关的工具和解决方案来简化他们的工作

3.6.         数据治理主管

  • 3.6.1.           在数据可靠性方面,主要关心整个公司的数据和指标的统一定义,并了解谁可以访问并查看哪些数据

3.7.         数据工程师

  • 3.7.1.           超出了构建数据产品,还要负责整合数据源,帮助团队做出业务决策

  • 3.7.2.           公司数据生态系统的黏合剂

  • 3.7.3.           设计可规模化的数据平台解决方案

  • 3.7.4.           确保数据摄取是可靠的

  • 3.7.5.           保障其他团队对数据平台的访问权

  • 3.7.6.           在发生数据宕机时能够快速进行修复

  • 3.7.7.           保证数据分析在整个数据组织的层面上是可持续的

3.8.         数据产品经理

  • 3.8.1.           从分析师到社交媒体经理,所有其他的数据利益相关方都要仰仗他来构建数据平台,而该平台要从多个来源摄取数据,对数据进行统一化管理,并向各类业务用户提供可访问的数据

4.       谁来负责数据可靠性

4.1.         RACI(责任人、最终责任人、被咨询人和知情人)矩阵指南

4.2.         对你的数据组织中全部的数据责任进行映射,从可访问性到可靠性都能这样操作

4.3.         责任往往落在了数据工程师和产品经理的头上

  • 4.3.1.           必须在公司对数据的需求和数据可靠性之间找到平衡

4.4.         在早期的数据组织中,这类职责往往由某个数据多面手或产品经理承担

5.       为数据质量创建责任制

5.1.         数据工程师不是数据目录

5.2.         数据团队不得不更快地做出行动,参与到数据网格的方方面面,并为更加自助式的数据平台提供助力

5.3.         每个人都试图做正确的事情​,但每个人的行动也都非常快

  • 5.3.1.           在下游产生真正的运营问题

  • 5.3.1.1.            冗余的“交通管制”带来的低效循环

  • 5.3.1.2.            更糟糕的数据质量

  • 5.3.1.3.            浪费时间去解决由于分析师使用了不合适或有问题的数据而产生的问题

  • 5.3.1.4.            降低了组织内部对数据的信任度

  • 5.3.1.5.            增加了数据宕机时间

5.4.         当你不信任数据,或者数据可靠性较低时,数据组织往往会在预测中人为增加误差范围

6.       平衡数据可访问性与数据信任

6.1.         数据发现是一种实时了解分布式数据资产健康状况的重要新方法,它也是现代数据栈的基本组成部分

6.2.         数据发现根据一组特定消费者如何摄取、存储、聚合和使用数据,提供了对数据在特定领域的动态解读

6.3.         可以取代现代数据目录,转而提供分布式、实时的跨领域数据洞察,并同时满足集中式的数据治理标准

6.4.         数据治理的标准和工具同样是跨领域联合的,以支持更高的数据可访问性和互操作性

6.5.         数据发现可以实时了解数据的当前状态,而不是其理想或“编目”状态

6.6.         当数据团队采取分布式数据治理的方法,要求不同的数据所有者将数据当作产品并对其负责时,数据发现会非常有用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/841406.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[Vue Router] Redirect Alias

As our application evolves, we may need to change the URL paths of where our pages initially found. There are two convenience methods for this:⚠️ Problem: Changing Routes What if we needed to change our application from using /about for our about page to…

数据采集实践第四次作业

Gitee作业链接: https://gitee.com/FunkTank/crawl_project/tree/master/作业4 作业① 要求:熟练掌握 Selenium 查找HTML元素、爬取Ajax网页数据、等待HTML元素等内容。 使用Selenium框架+ MySQL数据库存储技术路线爬取“沪深A股”、“上证A股”、“深证A股”3个板块的股票数…

数据采集作业四

数据采集作业四 作业①: 要求: 熟练掌握 Selenium 查找HTML元素、爬取Ajax网页数据、等待HTML元素等内容。 使用Selenium框架+ MySQL数据库存储技术路线爬取“沪深A股”、“上证A股”、“深证A股”3个板块的股票数据信息。 候选网站:东方财富网:http://quote.eastmoney.com/…

Top 5 Kafka使用场景

▫️ 日志处理与分析📈:适用于处理和分析大量日志数据,生成趋势 ▫️ 数据流推荐系统🛒:实时数据流驱动个性化推荐。 ▫️ 系统监控与报警🚨:实时监控系统指标,及时响应报警 ▫️ 变更数据捕获(CDC)🔄:捕获和处理数据库变更,保持系统间数据同步 ▫️ 系…

IDEA2024.3激活提示激活码失效、IDEA2024版本

IDEA激活提示激活码失效解决 点击试用,或者使用网上教程激活后断网打开idea 进入idea随便创建或打开个项目 点击help -> Edit Custom VM Options [帮助 -> 编辑自定义VM选项]编辑自定义VM,鼠标右击找到这个目录看看是不是以前激活的目录,删除 重新执行激活操作 需要…

IDEA2024.3激活提示激活码失效

IDEA激活提示激活码失效解决 点击试用,或者使用网上教程激活后断网打开idea 进入idea随便创建或打开个项目点击help -> Edit Custom VM Options [帮助 -> 编辑自定义VM选项]编辑自定义VM找到这个目录看看是不是以前激活的目录,删除 重新执行激活操作 需要激活软件,可…

使用EVOLVEpro对蛋白质热稳定性进行定向进化

对EVOLVEpro还不熟的读者可以查看之前的博客:Rapid in silico directed evolution by a protein language model with EVOLVEpro 文献解读。 本文通过Kaggle竞赛中提供的酶热稳定性数据集对EVOLVEpro的性能进行验证。 数据集为test.csv和test_labels.csv,这是经过实验测量的某…

计算机概念——io 复用

前言 首先什么是io复用呢? 现在web框架没有不用到io复用的,这点是肯定的,不然并发真的很差。 那么io复用,复用的是什么呢?复用的真的不是io管道啥的,也不是io连接啥的,复用的是io线程。 这其实是操作系统的设计上的io并发不足的地方,然后自己给慢慢填了。 正文 听一段历…

java学习11.25

写了很久的这个差费报销系统,写的太慢了,一半不到,结构上也非常臃肿。

HTML中实现多选一且输入框的启用与禁用

其他类别内容:<script>// 控制"其他类别内容"输入框的启用与禁用function toggleTypeContent() {var typeContentInput = document.getElementById("typecontent");var otherRadio = document.getElementById("other");// 如果选中了&quo…