2023年6月CDGP设计及论述题解析
(加gzh“大数据食铁兽”,回复“2023cdgp”获取完整版)
- 酒店会员建模
- 结合国内外数据安全法律法规,谈谈境外传输数据安全管理体系建设
国内:《数据安全法》、《网络安全法》、2022年9月施行《数据出境安全评估办法》国外:欧盟数据保护条令,美国国土安全法案和美国爱国者法、联邦信息安全管理法、加拿大198法案等涉及到个人信息:《个人信息保护法》● 从以下几个方面进行数据安全管理建设:(1)信息安全,包括:脆弱性、威胁、风险、加密、混淆/脱敏(2)网络安全,包括:后门、机器人/尸、防火墙、DMZ、键盘记录器、渗透测试、虚拟专用网(VPN)(3)数据安全,包括: 设施安全、设备安全、凭据安全、电子通信安全● 通过数据生命周期进行管理及建设:数据全生命周期包括规划-设计/启用-创建/获取-存储/维护-使用-增强及处置。规划:将数据与安全和隐私需求关联设计&启用:”在系统中建立数据保护和安全措施创建/获取:对新数据进行分类,以便合理保护数据存储/维护:确保数据存储符合政策法规的要求使用:管理访问权限,以保证对数据的合理使用,防止滥用增强:在监管要求和识别新的安全威胁上保持领先处置:遵循有关政策和法规要求处理数据
- (1)主数据管理挑战?(2)主数据管理目标?(3)如何识别主数据?(4)主数据管理实施步骤?
(1)挑战:实体解析(身份管理),它是识别和管理来自不同系统和流程数据之间的关联的过程。必须对这个过程进行持续的管理,让这些主数据实体、实例和标识保持一致。(2)目标:确保组织在各个流程中拥有完整一致最新且权威的主数据、促使企业在各业务单元和各应用系统之前共享主数据。(3)主数据是关于业务实体的数据,主要包括参考数据、企业结构数据、交易结构数据。主数据实体的识别/解析步骤如下:1)匹配、2)标解析、3)配工作流和对帐类型、4)数据ID管理5) 从属管理(4)步骤:识别驱动因素和需求、评价评估数据源、定义架构方法、建模主数据、定义管理职责和维护六、建立治理制度推动主数据使用。
- (1)如何构建数仓?(2)现代数据架构的特点?(3)数据仓库及数据湖的异同点?(4)如何解决SCD问题?
(1)数据仓库建设主要流程:1)理解需求2)定义和维护数据仓库/商务智能架构3)开发数据仓库和数据集市4)加载数据仓库5)实施商务智能产品组合6)维护数据产品(2)现代数据架构的特点:大数据的特点:3V(数量大、类型多、变化快)+价值密度低、价值高数据架构的特点:湖仓一体化,流批一体化。典型的代表是Lambda架构和Kappa架构。这里可以根据分值展开讲一讲。(3)数据仓库和数据湖的异同点:● 相同点:都可以用于大数据存储和分析,面向企业级应用。都有着非常大的存储容量和高效的数据存取速度。都支持批量和实时数据的处理,可以应对不同的数据处理需求。都面向企业决策和数据分析。● 异同点:数据结构:数据仓库采用规范化的数据结构,而数据湖则支持任意的数据格式以及非规范化的数据存储模式。数据来源:数据仓库主要是通过ETL的方式从不同的数据源抽取数据之后,再进行清洗、整合加工。而数据湖则是将未被处理、未经过清洗的原始数据存储在一个统一的存储空间中,支持所有的数据格式直接读取以及查询。数据使用:数据仓库主要用于企业决策和报表分析,是一种比较传统的数据分析方式。而数据湖具有更加广泛的应用范围,可以支持包括大数据、机器学习、人工智能等多种领域。数据时效性:数据仓库数据主要是历史性数据记录, 它被归档和批量处理,所以实际数据在数小时或数天以后才能获得。而数据湖支持更加实时的数据处理和查询,可以实时地获取数据并进行处理。(4)SCD问题:一些维度表的数据不是静态的,而是会随着时间而缓慢地变化,这种随着时间发生变化的维度称之为缓慢变化维,把处理维度表数据历史变化的问题,称为缓慢变化维问题,简称SCD问题。解决方法:保留原始值、改写属性值、增加维度新行、增加维度新列、增加历史表、使用拉链表保存历史快照(推荐)。
- (1)如何确定数据质量管理的优先级顺序?(2)结合本公司实际情况按照(1)顺序构建数据质量管理体系
(1)数据质量管理应该从组织中最重要的数据入手。即质量更高,为组织及客户提供更多价值。可以根据监管要求、财务价值和对客户的直接影响等因素对数据进行优先级排序。(2)结合实际情况本公司数据内容及优先级排序(略)。构建数据质量管理体系的方法:根据数据的生命周期进行数据质量管理。规划: 定义高质量数据的特征设计&启用:定义系统和流程控制来规避数据问题产生,保持数据质量创建/获取:测量或检查数据,确保数据满足质量要求存储/维护:借助系统和流程检测数据,确保数据能够持续的满足期望使用:使用反馈循环机制来持续提升数据的质量增强:就数据质量提升机会采取行动处置:基于数据质量要求正确地识别和提升数据
- 结合本公司实践如何构建元数据管理体系,确保元数据质量
元数据是数据。与其他数据一样,它也有一个生命周期我们必须对它的生命周期进行管理。规划:定义元数据的需求设计&启用:将创建和管理元数据作为正在进行的数据管理活动的一部分创建/获取: 确保创建元数据并满足质量要求存储/维护:确保元数据保持当前状态并继续满足需求使用:使用元数据,从数据中获取价值。启用反馈循环可以提高元数据质量增强:使用新知识增强现有的元数据,实现新的元数据需求处置:清除或归档过时的元数据● 步骤:按照质量管理步骤对元数据质量进行管理(1)定义高质量元数据、(2)定义元数据质量战略、(3)定义初始评估范围、(4)执行初始元数据质量评估.(5)识别改进并排列优先级、(6)定义元数据质量改进目标、(7)开发和部署元数据质量操作等方面。● 元数据活动:定义元数据战略、理解元数据需求、定义元数据架构、黄建和维护元数据、查询报告和分析元数据
- 超纲内容有哪些?
1、Data Mesh及Data Fabric
二者都是为了解决跨技术栈和平台的数据接入和分析问题,让数据还保留在原来的地方,而不是集中到一个平台或者领域。Data fabric是以技术为中心,data mesh聚焦于方法论、组织协同上的变化。
更详细内容参考:
10分钟搞懂 Data Fabric 和 Data Mesh 的区别!- 知乎 (zhihu.com)
2、开源大数据组件(本次多选题中出现了Atlas)
常见的技术组件如下:
● 系统平台 (Hadoop、CDH、HDP)
● 云平台 (AWS、GCP、Microsoft Azure)
● 监控管理 (CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle、Prometheus)
● 文件系统 (HDFS、GPFS、Ceph、GlusterFS、Swift 、BeeGFS、Alluxio、JindoFS)
● 资源调度 (K8S、YARN、Mesos、Standlone)
● 协调框架 (ZooKeeper 、Etcd、Consul)
● 数据存储 (HBase、Cassandra、ScyllaDB 、MongoDB、Accumulo、Redis 、Ignite、Geode、CouchDB、Kudu)
● 行列存储 (Parquet、ORC、Arrow、CarbonData、Avro)
● 数据湖 (IceBerg、Hudi、DeltaLake)
● 数据处理 (MaxCompute、Hive、MapReduce、Spark、Flink、Storm、Tez、Samza、Apex、Beam、Heron)
● OLAP (Hologres、StarRocks、GreenPlum、Trino/Presto、Kylin、Impala、Druid、ElasticSearch、HAWQ、Lucene、Solr、 Phoenix)
● 数据采集 (Flume、Filebeat、Logstash、Chukwa)
● 数据交换 (Sqoop 、Kettle、DataX 、NiFi)
● 消息系统 (Pulsar、Kafka、RocketMQ、ActiveMQ、RabbitMQ)
● 任务调度 (Azkaban、Oozie、Airflow、Contab、DolphinScheduler)
● 数据安全 (Ranger、Sentry、Atlas)
● 数据血缘 (OpenLineage、Egeria、Marquez、DataHub)
● 机器学习 (Pai、Mahout、MADlib、Spark ML、TensorFlow、Keras、MxNet)
- 其他出现在选择题目中容易忽略的知识点
1、数据管理的第一阶段及第二阶段包括哪些:第一阶段:数据集成和互操作、数据存储和操作、数据安全、数据建模和设计第二阶段:数据架构、数据治理、元数据第三阶段:数据治理、数据仓库和商务智能、参考数据和主数据、文件和内容管理第四阶段:大数据分析、数据挖掘2、数据架构的步骤:定义范围、理解需求、设计、实施3、哪些是非结构化数据:文字处理文件、电子邮件、社交媒体、聊天室、平面文件、电子表格、xml文件、事务性信息、报告、图形、数字图像、微缩胶片、视频和音频。纸质文件中也存在大量非结构化数据。