总述阿里巴巴在大数据时代,面临的挑战与机遇,系统的整体大数据系统架构,在数据爆炸增长的时代,能不能有组织、有序、有结构地存储,是阿里数据技术部门和产品部门需要解决的问题,另一个很重要的问题是在如双十一这种促销活动购物活动时候,阿里的服务能不能稳定的提供,满足越来越高的下单峰值,阿里大数据井喷式爆发,在数据服务和数据产品方面有着极大的挑战。
各层总述1.数据采集层方案主要包含俩个部分,第一部分Aplus.JS,它是Web端日志采集技术方案,app端日志采集技术方案为UserTrack,在此之上,阿里用规范埋点,这样在满足用户要求的同时,像在不同是场景中都有做,这样以此为依托在通过建立一套数据传输体系,来实现从生产业务端到大数据系统的数据传输,传输采用TimeTunnel(TT),包括数据库增量数据传输以及日志数据传输,TT作为基础架构,支持流式计算和及以不同时间窗口的批量计算,通过DataX和同步中心(ps基于前者封装)来连节备用数据库获取数据。典型的日志采集工作过程如下,1用户点击操作,2浏览器随即像服务器发起http请求,3服务器端业务处理模块按逻辑解析,将处理结果反馈给浏览器,4浏览器展现给客户。日志采集工作,一般在第四步执行,在HTML文档中增加一个日志采集点,当进行到这一步时候,会触发这个操作,发出请求至日志采集的服务器,如此日志采集服务器便可以确认浏览器的操作,采集-发送-收集-解析,另外考虑到互动行为特征,如鼠标焦点的变化,交互日志采集阿里通过一套名为“黄金令箭”采集方案来解决。另外包括页面日志服务器端的清洗和预处理,此处不再 细说,以上仅仅为浏览器的页面采集工作,还有无线客户端的日志采集工作,阿里使用采集sdk来实现,阿里使用名为UserTrack(UT)的sdk,有些页面事件,有着无痕埋点,无需开发者任何编码实现,UT提供了页面展现、页面退出、添加页面扩展信息这三个接口,UT提供透传参数的功能,及当前页面某些信息传入到下一个或者好几个页面中,通过Super Position Moder来进行来源去向的追踪,像用户路径还原这种问题就很简单了。
还有一些控点事件和其他事件,除了之前提到的,UT还提供默认的采集方法,如自动捕获应用崩溃,sdk提供日志的聚合功能,利用页面的生命周期来适当的聚合,以及本地聚合功能,识别页面复用,配合栈的深度等进行更为复杂的操作。很多情况下H5和Native互跳,数据丢失验证,用户路径无法还原,多端之间数据隔离等问题,阿里通过对H5和Native统一处理来解决。那么就涉及到日志的归档,通常Native部署采集SDK方式,具体流程略过。涉及到另外一个问题访客数,用户登陆时候用用户ID来唯一标示,为登陆的界面,pc端用Cookie信息作为设备唯一信息,aap端,阿里采用UTDID来标识。
无线端日志上传,是先存储在本地,后伺机上传,上传动作不单以时间间隔来决定,还要考虑日志的大小以及合理性,对与重要的数据,此时可以适当地释放其他日志资源来优先处理。日志早已不是初期的饥饿阶段,反而面临海量日志淹没的危险,故问题不再是采集技术本身,而是如何数据的规范化、机构化、组织化。阿里采用日志分流和定制处理、采集与计算一体化设计这俩个方案。具体有关分布式,分治策略等,后一个要求对日志的归类和汇总,,一体化要求采集和计算作为一个系统考虑,阿里采用用户直观感知的SPM规范。
另外一个重要的问题是大促保障,如“双十一“活动,需要保证每个阶段都没有问题,端埋点采集,服务器处理,传输,解析,分析,应用,需要考虑服务器能力,实时处理等各方面,对非重要数据进行适当限流,延迟上报,部分采样,后错峰恢复。
另外从业务上改造,各链路做优化。
数据同步主要将不同源系统的数据文件通过文件服务器,上传到目标系统,由于上传下载可能会造成数据丢失,除上传文件本身外还会上传一个校验文件,以确保准确性。通过解析日志文件获取发生变更的数据,主要步骤为源系统日志文件到通过日志解析模块,在由TCP/IP协议,数据加载模块再到目标系统。
数据存储时候面对大量非结构化数据,将其直接以文本文件形式存放在文件系统中,这些数据也有着很大的作用,目前阿里的大数据处理系统MaxCompute数据存储已经达到了PB级别!对于离线类型数据仓库应用,需将不同数据源数据批量同步至数据仓库。数据只有被整合和计算才能使用,挖掘潜在信息,数据的最大化价值化,阿里数据计算层主要包括俩大体系:数据存储及计算云平台(离线计算平台MaxCompute和StreamCompute:阿里自主研发的流式大数据平台)和数据整合及管理体系(内部称之为OneData),构建统一规范可共享的全域数据体系,数据仓库的数据加工链路包括:操作数据层(ODS)、明细层(DWD)、汇总层(ADS)。
数据计算和整合好后,需要供给产品和应用进行消费,阿里构建了自己的数据服务层,通过接口服务话方式对外提供数据服务。数据源架构在各种数据库之上,如Hbase,后面移至阿里云数据库(ApsaraDB for RDS 简称RDS)和表格存储(Table Store),统一数据平台(OneService ),提供数据查询、复杂数据查询、实时数据推送等服务。
在数据应用层,需要将数据供给给用户,阿里表现在各个方面:搜索、广告、金融、文娱、物流、保险等,阿里平台产品主要有实时数据监控、自助式数据网站或产品构建的数据小站、宏观决策分析支撑平台、对象分析工具、行业数据分析门、流量分析平台等。
总结:在数据为王的时代,有数据是资本,能分析数据是优势,最大消费数据是才是目的所在,有了这些数据才能成为新能源。