最新,2023年6月CDGP设计及论述题解析

02743d2d828a8f9a2e85b1d492032b37.jpeg


2023年6月CDGP设计及论述题解析

加gzh“大数据食铁兽”,回复“2023cdgp获取完整版)


  • 酒店会员建模

94b125b3d19df9d9cf9825e5ece86142.jpeg


  • 结合国内外数据安全法律法规,谈谈境外传输数据安全管理体系建设

国内:《数据安全法》、《网络安全法》、2022年9月施行《数据出境安全评估办法》国外:欧盟数据保护条令,美国国土安全法案和美国爱国者法、联邦信息安全管理法、加拿大198法案等涉及到个人信息:《个人信息保护法》● 从以下几个方面进行数据安全管理建设:(1)信息安全,包括:脆弱性、威胁、风险、加密、混淆/脱敏(2)网络安全,包括:后门、机器人/尸、防火墙、DMZ、键盘记录器、渗透测试、虚拟专用网(VPN)(3)数据安全,包括: 设施安全、设备安全、凭据安全、电子通信安全● 通过数据生命周期进行管理及建设:数据全生命周期包括规划-设计/启用-创建/获取-存储/维护-使用-增强及处置。规划:将数据与安全和隐私需求关联设计&启用:”在系统中建立数据保护和安全措施创建/获取:对新数据进行分类,以便合理保护数据存储/维护:确保数据存储符合政策法规的要求使用:管理访问权限,以保证对数据的合理使用,防止滥用增强:在监管要求和识别新的安全威胁上保持领先处置:遵循有关政策和法规要求处理数据


  • (1)主数据管理挑战?(2)主数据管理目标?(3)如何识别主数据?(4)主数据管理实施步骤?

(1)挑战:实体解析(身份管理),它是识别和管理来自不同系统和流程数据之间的关联的过程。必须对这个过程进行持续的管理,让这些主数据实体、实例和标识保持一致。(2)目标:确保组织在各个流程中拥有完整一致最新且权威的主数据、促使企业在各业务单元和各应用系统之前共享主数据。(3)主数据是关于业务实体的数据,主要包括参考数据、企业结构数据、交易结构数据。主数据实体的识别/解析步骤如下:1)匹配、2)标解析、3)配工作流和对帐类型、4)数据ID管理5) 从属管理(4)步骤:识别驱动因素和需求、评价评估数据源、定义架构方法、建模主数据、定义管理职责和维护六、建立治理制度推动主数据使用。

  • (1)如何构建数仓?(2)现代数据架构的特点?(3)数据仓库及数据湖的异同点?(4)如何解决SCD问题?

(1)数据仓库建设主要流程:1)理解需求2)定义和维护数据仓库/商务智能架构3)开发数据仓库和数据集市4)加载数据仓库5)实施商务智能产品组合6)维护数据产品(2)现代数据架构的特点:大数据的特点:3V(数量大、类型多、变化快)+价值密度低、价值高数据架构的特点:湖仓一体化,流批一体化。典型的代表是Lambda架构和Kappa架构。这里可以根据分值展开讲一讲。(3)数据仓库和数据湖的异同点:● 相同点:都可以用于大数据存储和分析,面向企业级应用。都有着非常大的存储容量和高效的数据存取速度。都支持批量和实时数据的处理,可以应对不同的数据处理需求。都面向企业决策和数据分析。● 异同点:数据结构:数据仓库采用规范化的数据结构,而数据湖则支持任意的数据格式以及非规范化的数据存储模式。数据来源:数据仓库主要是通过ETL的方式从不同的数据源抽取数据之后,再进行清洗、整合加工。而数据湖则是将未被处理、未经过清洗的原始数据存储在一个统一的存储空间中,支持所有的数据格式直接读取以及查询。数据使用:数据仓库主要用于企业决策和报表分析,是一种比较传统的数据分析方式。而数据湖具有更加广泛的应用范围,可以支持包括大数据、机器学习、人工智能等多种领域。数据时效性:数据仓库数据主要是历史性数据记录, 它被归档和批量处理,所以实际数据在数小时或数天以后才能获得。而数据湖支持更加实时的数据处理和查询,可以实时地获取数据并进行处理。(4)SCD问题:一些维度表的数据不是静态的,而是会随着时间而缓慢地变化,这种随着时间发生变化的维度称之为缓慢变化维,把处理维度表数据历史变化的问题,称为缓慢变化维问题,简称SCD问题。解决方法:保留原始值、改写属性值、增加维度新行、增加维度新列、增加历史表、使用拉链表保存历史快照(推荐)。


  • (1)如何确定数据质量管理的优先级顺序?(2)结合本公司实际情况按照(1)顺序构建数据质量管理体系

(1)数据质量管理应该从组织中最重要的数据入手。即质量更高,为组织及客户提供更多价值。可以根据监管要求、财务价值和对客户的直接影响等因素对数据进行优先级排序。(2)结合实际情况本公司数据内容及优先级排序(略)。构建数据质量管理体系的方法:根据数据的生命周期进行数据质量管理。规划: 定义高质量数据的特征设计&启用:定义系统和流程控制来规避数据问题产生,保持数据质量创建/获取:测量或检查数据,确保数据满足质量要求存储/维护:借助系统和流程检测数据,确保数据能够持续的满足期望使用:使用反馈循环机制来持续提升数据的质量增强:就数据质量提升机会采取行动处置:基于数据质量要求正确地识别和提升数据

  • 结合本公司实践如何构建元数据管理体系,确保元数据质量

元数据是数据。与其他数据一样,它也有一个生命周期我们必须对它的生命周期进行管理。规划:定义元数据的需求设计&启用:将创建和管理元数据作为正在进行的数据管理活动的一部分创建/获取: 确保创建元数据并满足质量要求存储/维护:确保元数据保持当前状态并继续满足需求使用:使用元数据,从数据中获取价值。启用反馈循环可以提高元数据质量增强:使用新知识增强现有的元数据,实现新的元数据需求处置:清除或归档过时的元数据● 步骤:按照质量管理步骤对元数据质量进行管理(1)定义高质量元数据、(2)定义元数据质量战略、(3)定义初始评估范围、(4)执行初始元数据质量评估.(5)识别改进并排列优先级、(6)定义元数据质量改进目标、(7)开发和部署元数据质量操作等方面。● 元数据活动:定义元数据战略、理解元数据需求、定义元数据架构、黄建和维护元数据、查询报告和分析元数据


  • 超纲内容有哪些?

1、Data Mesh及Data Fabric

二者都是为了解决跨技术栈和平台的数据接入和分析问题,让数据还保留在原来的地方,而不是集中到一个平台或者领域。Data fabric是以技术为中心,data mesh聚焦于方法论、组织协同上的变化。

更详细内容参考:

10分钟搞懂 Data Fabric 和 Data Mesh 的区别!- 知乎 (zhihu.com)

2、开源大数据组件(本次多选题中出现了Atlas)

常见的技术组件如下:

● 系统平台 (Hadoop、CDH、HDP)

● 云平台 (AWS、GCP、Microsoft Azure)

● 监控管理 (CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle、Prometheus)

● 文件系统 (HDFS、GPFS、Ceph、GlusterFS、Swift 、BeeGFS、Alluxio、JindoFS)

● 资源调度 (K8S、YARN、Mesos、Standlone)

● 协调框架 (ZooKeeper 、Etcd、Consul)

● 数据存储 (HBase、Cassandra、ScyllaDB 、MongoDB、Accumulo、Redis 、Ignite、Geode、CouchDB、Kudu)

● 行列存储 (Parquet、ORC、Arrow、CarbonData、Avro)

● 数据湖 (IceBerg、Hudi、DeltaLake)

● 数据处理 (MaxCompute、Hive、MapReduce、Spark、Flink、Storm、Tez、Samza、Apex、Beam、Heron)

● OLAP (Hologres、StarRocks、GreenPlum、Trino/Presto、Kylin、Impala、Druid、ElasticSearch、HAWQ、Lucene、Solr、 Phoenix)

● 数据采集 (Flume、Filebeat、Logstash、Chukwa)

● 数据交换 (Sqoop 、Kettle、DataX 、NiFi)

● 消息系统 (Pulsar、Kafka、RocketMQ、ActiveMQ、RabbitMQ)

● 任务调度 (Azkaban、Oozie、Airflow、Contab、DolphinScheduler)

● 数据安全 (Ranger、Sentry、Atlas)

● 数据血缘 (OpenLineage、Egeria、Marquez、DataHub)

● 机器学习 (Pai、Mahout、MADlib、Spark ML、TensorFlow、Keras、MxNet)


  • 其他出现在选择题目中容易忽略的知识点

1、数据管理的第一阶段及第二阶段包括哪些:第一阶段:数据集成和互操作、数据存储和操作、数据安全、数据建模和设计第二阶段:数据架构、数据治理、元数据第三阶段:数据治理、数据仓库和商务智能、参考数据和主数据、文件和内容管理第四阶段:大数据分析、数据挖掘2、数据架构的步骤:定义范围、理解需求、设计、实施3、哪些是非结构化数据:文字处理文件、电子邮件、社交媒体、聊天室、平面文件、电子表格、xml文件、事务性信息、报告、图形、数字图像、微缩胶片、视频和音频。纸质文件中也存在大量非结构化数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/1819.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于深度学习的高精度打电话检测识别系统(PyTorch+Pyside6+YOLOv5模型)

摘要:基于深度学习的高精度打电话检测识别系统可用于日常生活中或野外来检测与定位打电话目标,利用深度学习算法可实现图片、视频、摄像头等方式的打电话目标检测识别,另外支持结果可视化与图片或视频检测结果的导出。本系统采用YOLOv5目标检…

Docker 中的 .NET 异常了怎么抓 Dump

一:背景 1. 讲故事 有很多朋友跟我说,在 Windows 上看过你文章知道了怎么抓 Crash, CPU爆高,内存暴涨 等各种Dump,为什么你没有写在 Docker 中如何抓的相关文章呢?瞧不上吗? 哈哈,在DUMP的分…

SpringBoot 实现 PDF 添加水印

SpringBoot 实现 PDF 添加水印 使用场景方式一:使用 Apache PDFBox 库方式二:使用 iText 库方式三:Free Spire.PDF for JavaDemo 使用场景 PDF(Portable Document Format,便携式文档格式)是一种流行的文件…

Jmeter简单实现登录测试

目录 前言: 1、添加线程组--在测试计划上右击-添加-Threads-线程组 2、添加http请求默认值--在线程组上右击-添加-配置元器件-http请求默认值 3、添加sampler-http请求-登录界面 4、添加sampler-http请求-登录-携带用户名和密码 5、创建存放用户名和密码的文件…

Git:git merge和git rebase的区别

分支合并 git merge是用来合并两个分支的。比如:将 b 分支合并到当前分支。同样git rebase b,也是把 b 分支合并到当前分支。他们的 「原理」如下: 假设你现在基于远程分支"origin",创建一个叫"mywork"的分支…

Golang的trace性能分析

文章目录 一、trace概述二、trace的使用方式代码中trace采集通过pprof采集 三、trace分析细节trace的web界面trace中需要关注的关注GC的频率关注goroutine调度情况关注goroutine的数量理想情况 四、GC分析当前服务GC情况设置GOGC设置GOMEMLIMITGC阈值的讨论GC的特点 五、gorout…

软件测试不行了?2023软件测试行情分析

1 绪论 本文先对互联网对时代和社会变革进行了论述,然后再由互联网时代对软件工业模式变革进行了介绍,最后引出附属于软件工业的测试行业在新形势下的需求变化,并对趋势进行了分析,并最终给出了相关的从业人员的职业发展建议。…

为摸鱼助力:一份Vue3的生成式ElementPlus表单组件

目录 一、实现背景 二、简介 三、组织架构设计 四、实现方式 五、代码示例 六、示例代码效果预览 七、项目预览地址 & 项目源码地址 目前项目还有诸多待完善的地方,大家有好的想法、建议、意见等欢迎再次评论,或于github提交Issues 一、实现…

VueCli的Nuxt重构

我的博客用vuecli写的,SEO不忍直视。于是用Nuxt重构了代码,过程中踩了无数坑 一:body样式不生效 正常的body样式设置不能生效,需要在nuxt.config.js中配置 1、设置bodyAttrs的class属性,该属性值对应一个类名 2、该…

邻接表按深度优先遍历和按广度优先遍历的序列

求此邻接表的深度优先遍历序列和广度优先遍历序列。 深度优先:按深度优先遍历时会有类似"跳转"的操作,比如例1中顶点v1→边v2后,会直接跳转到顶点v2去,再重新从顶点v2→边v1,由于v1访问过,所以变…

ChatGPT在物流与运输行业的智能场景:智能调度和自动驾驶的前瞻应用

第一章:引言 随着人工智能技术的飞速发展,物流与运输行业正迎来一场革命。传统的调度和运输模式已经无法满足快速增长的物流需求和客户期望。在这一领域,ChatGPT作为一种先进的自然语言处理模型,具有巨大的潜力。本文将探讨ChatG…

零样本视频生成无压力,基于飞桨框架实现Text2Video-Zero核心代码及依赖库

项目背景 继 AI 绘画之后,短视频行业正迎来 AI 智能创作的新浪潮。AI 智能创作正在各个方面为创作者和用户带来新的体验和价值。AI 动漫视频、AI 瞬息宇宙、AI 视频风格化等诸多创作功能不仅为视频内容创作提供了全新灵感,而且大大降低了用户创作的门槛…