导读:原文《17万字集团大数据平台整体方案word》(获取来源见文尾),本文精选其中精华及架构部分,逻辑清晰、内容完整,为快速形成售前方案提供参考。以下是部分内容,
1.1.1 总体目标
根据集团信息化规划,遵循“互联网+”的理念,建设集团大数据平台,实现集团数据资源的集中及整合,构建集团统一的数据模型,提高企业数据的处理效率与共享程度。实现对集团企业内部数据和外部数据的分析挖掘,对内对外提供数据服务。为全网提供决策支持、产品创新、交叉营销、服务支撑、风险管控以及流程优化等支撑服务。
云计算等技术的基础上,对现有量收系统、数据分析综合服务平台的历史数据、数据模型、报表应用等进行移植,全面整合集团业务数据。数据来源涵盖集团所有的生产和管理系统,并可接入同业及相关市场甚至互联网信息,建立从业务层到管理层到决策层的智能分析体系,模拟量化风险和收益,实现对集团各种业务数据进行分类、管理、统计和分析等功能,给各级管理人员提供各类准确的统计分析预测数据,使其能够及时掌握全面的经营状况,为宏观决策提供支持;为基层业务人员提供详尽的数据,供其对各自的工作目标、当前和历史状况进行准确的把握,对业务活动进行有效支撑;满足集团经营管理及决策支持,建设国内一流,世界领先的大数据平台。
1.1.2 分阶段建设目标
l 第一阶段目标
利用大数据技术,搭建大数据平台,实现统一数据交换、数据管控、企业级数据分析、数据可视化展现服务等功能。完成邮务和速递数据资源的归集、加工和整理,取代现有的量收系统,集成现有的数据分析综合服务平台,搭建高性能、扩展性强的数据计算和数据分析环境。建立集团统一的数据模型,实现数据的标准化和规范化。对集团各板块及外部的结构化数据、半/非结构化数据进行采集和存储,围绕“服务支撑、风险管控、流程优化、交叉营销、产品创新、决策支持”六个重点应用方向进行大数据成果应用。
l 第二阶段目标
全方位整合集团数据资源,利用专业的数据分析工具,提升数据分析质量与效率,完善数据分析应用模型及相关指标,深入推广六个重点应用方向,逐步提供面向移动互联网的快速服务,不断优化生产工作流程,实现降本增效,为科学运营和决策提供支撑。
1.1 与相关系统的关系
1.1.1 数据分析综合服务平台
数据分析综合服务平台
是依托集团综合网,实现邮务数据集中及整合,为集团公司和各省分公司提供企业数据分析挖掘服务,对内对外提供数据服务的信息系统。
该系统使用Oracle数据库,目前数据量已达到9TB,平均日增长量约22GB。目前该系统已经对接了13个业务系统(集邮系统、报刊系统、电商平台-机票、网运系统、邮资封片卡系统、短信平台、农资分销系统、贺卡兑奖平台、营业系统、投递系统、客管系统、订单系统、国际业务平台),实现了31个省的邮务类数据的上传及下载。系统实现将数据由全国中心推送至省中心;实现已有专题分析的固化,包括报刊、约投挂号、国内国际小包专题分析结果的固化展现;实现将接入系统的数据按照业务规则进行后台加载、评估、清洗、重构,并按照客户维度进行数据整合;提供对内对外数据服务,支持客户数据的上传和结果下载、邮编匹配、地址清洗匹配等功能。
数据分析综合服务平台是大数据平台的子集,数据分析综合服务平台的数据是大数据平台的数据集市之一。
1 业务需求分析
1.1 总体需求
大数据平台应支持集团总部、省和地市三级使用方式。使用单位还包括下属单位和控股公司等。大数据平台要求使用Hadoop系统应实现主流数据仓库的功能,同时支持与现有系统Oracle数据库及Teradata数据仓库的无缝连接。
大数据平台需支持多应用管理,即支持对应用的服务级别管理(SLA)。能够实现应用的访问资源控制,支持资源隔离。同时支持多租户功能,例如多租户管理、租户的操作员管理、租户的分等分级分组管理、租户的度量管理、租户的角色管理、租户应用授权、租户数据隔离、租户的资源隔离等功能。
大数据平台应具有统一运维监控方面,可以图形化的实现安全管理、用户管理、监控运维、服务调度、应用部署、资源管理、作业编排、服务接口等。
大数据平台应同时支持作业调度管理,即实现统一的作业调度与编排管理功能,支持使用工作流的可视化的方式对工作任务进行统一编排和调度。同时支持作业的资源管理、流程管理、任务管理、数据管理、应用管理、租户管理、多ETL调度任务的部署和并行处理等功能。
集团大数据平台的建设内容包含:
图3-1大数据平台建设内容
重点建设内容包括:
1) 基础平台建设
2) 量收迁移
3) 六大重点应用
4) 与CRM、综分、MDM等系统的融合
5) 基于大数据平台的数据应用。
1.2 数据管理
集团大数据平台的数据管理,包含数据采集、数据交换、数据存储与管理(包含结构化数据管理、半/非结构化数据管理、数据存储等)、数据清洗加工、数据计算和查询等方面的内容。
1.2.1 数据采集
大数据平台需要采集各类内外部数据,形式多样,需支持不同频度、不同形态的数据采集。采集方式包含网上数据填报、流方式、批量导入方式、外部数据文件导入、异构数据库导入、主动数据抽取、增量追加方式、网上爬虫方式等,数据形态包括结构化数据、半结构化数据、非结构化数据。
1.2.2 数据交换
与大数据平台对接的系统很多,这些系统数据库结构各异。因此,数据交换方面,需要考虑各类数据格式、各类传输频次的数据导入导出。数据源包括各业务系统数据接入、互联网数据采集、合作伙伴系统数据接入、外部临时数据导入支持等。数据格式主要包含文本文件,XML等多种方式,传输频次包含非实时、准实时、实时形式。
同时支持数据源管理功能,实现大数据平台内各存储区之间的数据交换功能,提供可自定义的对外数据服务接口能力,同时支持数据接口热扩展能力。
1.2.3 数据存储与管理
结构化数据管理包括对结构化数据的采集管理、数据加工管理、数据存储管理、对外接口、实时监控、安全管理、数据重构等功能。
半/非结构化数据管理包括半/非结构化数据的采集管理、数据内容搜索、数据生命周期管理、数据加工管理、数据存储管理、对外接口、混合查询、实时监控、自然语言查询、智能化知识检索功能。
数据存储管理功能包括数据分区划分方式、适用场景、对应计算处理框架、硬件配置推荐等。同时需要支持多存储层级,实现数据的多温度管理,能够将数据存储在不同IO读写速度的不同介质上。支持对数据生命周期进行管理。支持多种索引模式,具有索引分析与选择功能和工具。支持多数据副本管理功能,能够进行数据平衡、索引平衡的检测。支持自动平衡功能和数据自动重分布功能,提供数据平衡和索引平衡的工具。支持在线变动节点管理功能,支持在线增加、删除节点时,数据和索引的倾斜探测和自动平衡功能,保证平滑扩展和性能的线性增长。支持多种数据分区管理、多数据类型管理、多文件格式管理、数据自定义标签管理、数据块读写锁处理、数据文件元数据备份和恢复,支持数据压缩、表压缩功能,节省数据空间。
1.2.4 数据加工清洗
支持数据从来源端经过抽取、转换、加载至目标端的过程。支持多数据源,包括Teradata、Vertica、DB2、Oracle、Sybase、文本、Excel、Hadoop等数据源。实现传统数据库、数据仓库与Hadoop以及Hadoop集群之间的数据抽取、转换、加载等功能。
支持数据加工功能,提供数据加工规则管理,支持不同形态数据加工管理;
支持数据清洗功能,包括数据清洗环节管理、数据清洗规则管理、数据清洗监控、数据清洗预览、应用主数据进行清洗管理等功能。
1.2.5 数据查询计算
支持对多计算框架管理,计算框架包括批处理计算框架、内存计算框架、流计算框架等。
支持并行计算及并发处理功能,支持多服务器、多CPU、多进程并行及并发处理数据的机制。
支持PL/SQL存储过程、分布式事务及ACID属性及自定义函数功能。
能够实现OLAP查询功能,需要内置OLAP函数,支持超大数据立方,支持雪花、星型等复杂模型。支持CUBE,支持国际SQL92、SQL2003标准,能够实现数据字典、动态SQL执行、视图、子查询、JOIN 查询功能。
支持全文检索。支持中文字符集,实现中文分词功能,支持结构化数据和半/非结构化数据联合查询,支持预定义维度数据查询,支持简单查询、组合查询、模糊查询等。
1.3 数据管控
数据管控主要是对主数据、元数据、数据标准和数据质量的管控。
集团大数据平台的数据管控组件对集团集团现有的产品能够完善集成,使集团元数据能够整体管理。
图3-2大数据平台数据管控
1.4 数据分析与挖掘
本方案对R语言提供支持。支持ANSI SQL、Python、R、Java、C/C++等语言的使用。应提供图形化界面操作支持,操作界面要求简体中文。
支持对TB以上级别的数据进行分析挖掘的功能,应对分析挖掘中的中间数据和结果数据的灵活存储提供支持,应对多数据来源输入输出提供支持。
支持处理过程的数据预览功能。
支持数据分析挖掘算法管理,每个算法能够灵活选择数据源。
支持对分析挖掘的脚本和模型的共享,可实现用户分析挖掘脚本和模型的发布与管理。
支持数据的探索和发现,实现通过作图、制表、方程拟合、计算特征量等手段探索数据结构和规律。
对统计分析方法、数据挖掘、模型预测提供支持,并实现其分布式并行计算。
对常用场景实现提供支持。场景包括客户画像、产品推荐、自然语言处理、语义分析、舆情分析、文本挖掘、客户行为预测等。
对分析挖掘的脚本和模型的快速应用、服务提供支持,能够快速生成分析报告和图表、发布实时/非实时的分析应用、使用Web方式访问分析应用成果。
实现对分析指标管理、分析过程的管理以及对挖掘模型固化的支持。
1.1 系统总体架构设计
1.1.1 总体技术框架
大数据平台是一个可扩展的数据平台,全面整合集团业务数据,建立从业务层到管理层再到决策层的集团数据智能分析体系,使经营者能够及时掌握全面的经营状况,迅速做出科学决策。
4-12总体总体结构图
参见上图,集团大数据平台主要分成六大部分:
1、 用新技术建设集团大数据平台,在平台上构建集团企业级的数据仓库;
2、 建立统一的数据采集加工平台,供大数据平台从各业务系统及外部环境采集、加工、清洗、爬取数据;
数据管控平台,为大数据平台提供主数据管理、元数据管理、数据质量管理、数据标准管理、数据安全管理等服务;
3、 企业级数据分析平台,主要用于经营分析和决策支持;
4、 数据可视化展现平台,包括:可视化交互查询、图表展示、移动展示、地图展示、管理驾驶舱等;
5、 数据分析与挖掘平台,包括:并行化算法模型库、数据分析挖掘工具等。
4-13总体技术框架图
参见上图,集团大数据平台系统总体技术框架,自下而上主要包含六层:
1、硬件设备层
部署于集团数据中心机房的服务器设备、网络设备、存储设备、负载均衡器、VPN/防火墙等硬件设备;
3、数据集成和管控平台
² 数据ETL平台
提供数据抽取、转换和加载功能。平台可通过SQL/JDBC/ODBC接口、批量导出脚本、Sqoop并行化抽取等方式,从现有业务系统数据库(Oracle)、Teradata数仓中批量导出数据并经转换处理后,加载到Hyperbase或HDFS中。网络爬虫(iRIS)所抓取的网页数据也可通过ETL平台加载到HDFS或Hyperbase中。
² 数据管控平台
提供元数据管理、主数据管理、数据质量管理、数据标准管理、数据安全管理等功能。可通过ETL平台的元数据采集引擎,统一采集处理分布式文件系统HDFS、分布式数据库Hyperbase、ETL处理流程及规则、现有业务系统数据库以及Teradata、Oracle数据库的元数据,并统一存于数据管控平台的数据库中,建立源库表-->接口表-->ETL处理过程-->目标库表的元数据关联关系,从而为后续的数据标准管理、主数据管理、数据质量管理、数据安全管理奠坚基础。本项目涉及与集团现有的元数据管理、主数据管理系统对接交换数据,可采用ESB平台及消息传输中间件,基于JMS接口与现有系统实时交换元数据、主数据变更记录。
² ESB服务总线平台
集团现有的ESB平台提供消息队列(消息存储转发、消息路由)、消息订阅和发布、Web Service服务编排及组合调用、服务监控等功能。
基于ESB平台及JMS
消息接口,可实现大数据平台系统与集团现有业务系统之间的实时数据交换(包括:运维管理数据、元数据/主数据等),并可将大数据平台分析挖掘的结果数据集实时推送到CRM、ERP、企业门户及APP等应用服务系统。
ESB平台支持JDBC/ODBC、HTTP/JSON接口,可与大数据平台的SQL引擎、联合查询引擎对接,从而可将Hyperbase数据库查询、非结构化和结构化数据的联合查询功能封装为Web Service服务,供相关应用系统调用。
基于应用支撑平台开发的图表展现、多维分析等应用,可封装为轻量级的RESTful/HTTP服务,并注册于ESB平台上,可供相关应用系统调用。
4、经营分析等应用及可视化展现组件
基于J2EE平台和可视化展现组件(即时查询、报表和仪表盘、OLAP多维分析、地图展现等组件)定制开发的经营分析和决策支持应用服务系统,可通过SQL引擎及JDBC/ODBC接口访问分布式数据库Hyperbase、分布式内存/OLAP Cube。应用系统可通过联合查询引擎及HTTP/JSON接口实现非结构化数据(如存于HDFS中的文本数据、XML数据)和结构化数据(包括:Oracle、MySQL、Teradata、Hyperbase等数据库数据)的联合查询。应用系统还可通过HTTP/JSON接口对接全文检索引擎,实现全文检索查询。
基于面向服务架构(SOA)设计思想,将定制开发的经营分析和决策支持应用及分析挖掘结果数据集查询功能封装为轻量级的Web Service服务,注册发布于ESB平台,可供相关应用系统调用。
5、身份认证和访问控制组件(IM/AM)
IM/AM组件是为访问企业门户、经营分析等应用的用户统一提供身份认证和鉴权访问控制服务。用户证书、授权信息可存于关系数据库(Oracle或MySQL)或轻量级的LDAP目录库中。可通过专有接口或ESB平台的JMS接口,与集团CA中心交换用户证书信息。IM/AM组件还提供SSO Agent插件,可实现对多种应用系统、管理系统的SSO单点登录集成。
6、分布式容器集群管理系统(TOS)
基于分布式容器集群管理系统(TOS)构建的服务器虚拟化资源池,可为大数据平台系统的各类应用、分布式计算和存储服务组件提供多租户隔离的容器资源调配管理、应用打包部署及SLA管理、作业调度管理以及统一运维监控管理。系统配置管理信息以及系统运行监控记录是存于本地的关系数据库中,可对外提供SNMP协议接口、ESB平台的JMS消息接口,以实现与集团运维管理平台交换运维监控信息。
1.1.1 系统接口设计
平台对外提供各种开发接口,包括完全兼容Hadoop生态圈开源各个组件API接口,REST访问接口包括Web HDFS以及StarGate/Hyperbase REST接口;同时通过支持SQL2003标准以及PL/SQL,提供JDBC/ODBC接口,能够使传统业务场景向大数据平台上进行平滑迁移;此外,大数据平台为数据挖掘提供Java API以及R语言接口。通过接口,用户可以直接使用R语言与SQL进行交互式数据挖掘探索,同时可以通过平台开放的API进行二次开发,通过JDBC/ODBC接口给上层应用进行SQL查询。此外,Inceptor中还包含了基础的并行统计挖掘算法库的Java API,用户可以通过并行算法库进行数据挖掘的二次开发。
喜欢文章,您可以关注+评论+转发本文,了解更多内容请私信:方案