1. 大数据开发要求
1.1 具备项目规划与过程管理的能力
能够参与大数据项目的全生命周期,包括设计、开发、测试、部署和交付等。
1.2 具备数据采集与清洗的能力
-
能够梳理业务数据,并根据数据特征制定采集策略,参与采集系统的开发和维护;
-
能够根据数据清洗规范,设计数据接口及数据模型,并实现数据清洗流程;
-
能够掌握分布式文件系统知识,根据业务数据规模进行分布式存储结构选型及实现。
1.3 具备数据计算与应用开发的能力
-
能够掌握主流分布式算法知识,如MapReduce;
-
能够掌握主流流式计算框架,如Spark、Storm等;
-
能够对海量数据的计算架构进行技术选型;
-
能够对数据的搜索、查询、分析应用进行设计与编码实现。
2. 大数据挖掘要求
2.1 具备数据提取及预处理的能力
-
能够利用编程语言如SQL (结构化查询语言)、R语言等从数据平台中提取所需数据;
-
能够利用专用工具软件从数据平台中提取所需数据;
-
能够根据业务需求将数据分发到预置的计算平台中并进行预处理。
2.2 具备数据挖掘实现的能力
-
能够掌握主流的机器学习算法及其原理;
-
能够掌握主流的分布式计算框架并熟悉其使用;
-
能够掌握主流流式计算框架并熟悉其使用;
-
能够熟练使用至少一种开发语言进行代码编写;
-
能够根据业务需求进行建模,评估模型效果并进行针对性的优化。
2.3 具备数据可视化的能力
能够利用可视化工具对挖掘结果进行展现及说明。
3. 大数据运维要求
3.1 具备大数据平台运维规划与设计的能力
能够根据业务场景预测工作负载,设计集群环境的软硬件方案。
3.2 具备大数据平台监控管理的能力
-
能够维护或运维大型线上系统,设计及搭建监控系统;
-
能够对大数据平台软硬件资源的工作状态进行监控;
-
能够对大数据监控平台的预警、故障及问题进行定位、分析和解决;
-
能够将维护日志、故障、问题记录等形成运维报告。
3.3 具备大数据平台性能优化的能力
能够对运维报告进行分析,根据分析结果对软硬件环境及运维工作机制进行调优。
4. 数据分析要求
4.1 具备需求分析及数据提取的能力
能够根据业务需求,指导并实现数据的提取及处理。
4.2 具备数据建模及结果展示的能力
-
能够根据业务需求进行建模;
-
能够选择适当的方法、工具或编程语言输出可视化结果,并形成报告;
-
能够清晰的体现分析结果,并对产生结果的原因进行分析。