智算中心是对外提供AI算力服务的公共基础设施,如何构建一个高性能、可扩展的技术架构,是智算中心非常重要的技术支撑,所以要在智算中心完成算力的生产、聚合、调度和释放,从而实现构建平台,提供服务。
智算中心的总体架构如下图所示:
【图1】 智能计算中心总体架构图
1. 整个架构可以分为四大部分,分别对应的是基础、支撑、功能和目标。
基础部分是最新的人工智能理论和领先的人工智能计算架构,这是智算中心区别于其它数据中心的核心点。
智算中心作业环节是智算中心的支撑部分,智算中心通过作业环节实现了算力的生产、聚合、调度和释放,是区别于其它数据中心的具体体现。
2.功能部分是四大平台和三大服务:
四大平台分别是算力生产供应平台、数据开放共享平台、智能生态建设平台和产业创新聚集平台;
三大服务分别是数据服务、算力服务和算法服务。目标部分是促进AI产业化、产业AI化及政府治理智能化。
下面分别来讲述架构的各个部分。
最新人工智能理论
人工智能经历了三次浪潮,本次人工智能浪潮以深度学习为核心,通过创新深度学习算法和模型训练方法,在大数据和计算力的驱动下,近年来在图像、语音、自然语言处理等领域取得了长足的发展和进步。
深度学习
深度学习算法的核心是深度神经网络模型。深度神经网络通过构建类似于人脑神经元的多层的、相互连接的网络结构,可以很好的学习图像、语音等复杂数据中的多层次特征。当前卷积神经网络(CNN)、循环神经网络(RNN)等各种神经网络结构的发展极大得扩展和丰富了人工智能的学习能力。
自监督学习
近年来在模型训练方法上也有很多的创新和进步,其中自监督学习不需要对数据进行标注,可以直接使用互联网上的海量数据进行模型训练。比如以BERT为代表的自然语言处理模型就可以广泛的使用互联网上的文本信息,包括中英文书籍、维基百科数据、新闻数据等进行学习。
强化学习
强化学习也是一类被广泛使用的模型训练方法。强化学习是一类通过不断地尝试,从错误中学习,最后找到规律,学会达到目的的方法。此方法在复杂决策场景,比如自动驾驶、工业机器人等场景取得了很好的效果。
自动机器学习
自动机器学习是一种自动构建深度神经网络的方法。通过引入自动机器学习,可以节省人工智能算法设计人员的工作,延展了模型架构设计的广度。跨媒体、多模态跨媒体、多模态的建模方法可以从图像、视频、语音和文本等多个领域获取信息,实现信息转换和融合,从而提升模型性能。
人们生活在一个多领域相互交融的环境中,听到的声音、看到的实物和闻到的味道等都是各领域的模态形式。通过给机器赋予学习和融合这些多领域信号的能力,可以使深度学习算法更加全面和高效地了解周围的世界。
领先人工智能计算架构
人工智能的模型训练和推理过程需要强大的计算力支撑,当前的人工智能计算以AI加速芯片为核心,构建了以CPU+AI芯片为主体的AI服务器架构,并在此基础上引入高速互联网络组建A|计算集群。
AI芯片
深度学习计算包含大量的矩阵乘加运算,AI加速芯片针对这一计算特点,通过引入针对矩阵运算的加速设计,可以实现和传统通用处理器相比10~100倍的加速。常见的加速芯片包括GPU、FPGA和ASIC等。
AI服务器
AI服务器是以CPU+AI加速芯片为主体的服务器架构。深度学习模型训练的计算需求经常会超出单个AI加速芯片的计算能力,因此需要多个AI加速芯片的协同处理,通过建立AI加速芯片之间的高速互联通信,可以有效提升AI服务器作为一个整体的计算能力。这方面的设计包括NVIDIA针对GPU设计的NVLink协议以及支持多种A|加速芯片的OAM(OCP Accelerator Modue)协议互联通信等。
高速互联
AI服务器之间可以采用高带宽、低延迟的网络实现高速通信,来应对更大规模模型训练任务。这些网络包括RDMA和ROCE等。对于深度学习常用的全局梯度归约通信操作,可以采用针对性的网络优化设计,比如采用当前效率最优的全局环状通信链路设计,可以最大化的发挥集群中任意两个计算芯片之间的通信带宽。
深度学习框架
深度学习框架的发展大大简化了深度学习模型的训练和部署流程。深度学习框架提供一系列的标准组件,比如张量、卷积、池化、自动微分等。通过调用这些组件可以较为容易的设计模型,实现模型的训练过程,以及部署模型的推理服务。目前较为常用的深度学习框架包括TensorFlow、PyTorch、Caffe、飞桨(PaddlePaddle)等。
资源调度
深度学习模型的训练和部署需要灵活的资源调度方式。基于容器的资源调度策略可以对计算资源的池化,以单个容器作为最小作业单元,并通过对计算资源的细粒度切分来提高资源的利用率。
另外,基于容器的资源调度策略也可以给一个任务分配多个容器来满足大规模计算任务的需求,并能在计算任务完成后实时释放计算资源。
智算中心作业环节
1、生产算力
生产算力是基于领先的AI服务器为算力机组,支持先进多样的AI芯片,支持成熟丰富的软件生态,形成高性能、高吞吐的计算系统,为A|训练和A!推理生产输出强大、高效、易用的计算力。
生产算力主要包括四个要素:算力机组、算力芯片、算力生态和算力输出。
算力机组
AI服务器,是智算中心的算力机组,是生产算力的核心与基础,是以CPU+AI加速芯片为主体的异构架构,是面向AI应用的计算平台,是承载智算中心AI计算的核心基础设施。A服务器最显著的特征是超强的计算性能,以应对AI应用对算力的巨大需求。与传统服务器仅支持CPU一种芯片不同,AI服务器还需要支持多颗AI加速芯片。
这样对系统结构、拓扑架构、散热、噪音、能源效率、延迟等设计带来巨大挑战,需要深度优化拓扑结构,通过精准DOE S仿真,确保在满足信号完整性的同时优化性能。
需要极致优化的散热设计,才能确保高功耗下保持高稳定性,高效利用冷热风流,实现低功耗、高散热性能完美组合。AI服务器按功能分类,AI算力机组主要由两种类型AI服务器组成,分别是A1训练服务器和AI推理服务器。
AI模型训练是消耗算力最大的部分,虽然近年来,新增的算法模型数量在逐年减少,但是单个模型的参数量和复杂程度都呈现指数级的增长趋势,具有海量参数的模型训练如果没有强大的算力支撑,很难发挥其价值,常规的服务器难以满足算力需求,需要专门的AI训练服务器。
模型训练完成后,接下来要是部署与推理。未来几年,随着推理工作负载在各个行业应用中不断增加,推理需求将呈现指数级增长。为支撑大规模、高并发的推理计算需求,需要专门的AI推理服务器。
算力芯片
智算中心需要支持各类AI加速芯片,从而覆盖从训练到推理,从边缘到数据中心的各类相关的AI应用场景。
CPU是通用处理器,适用于更好地响应人机交互的应用和处理复杂的条件和分支,以及任务之间的同步协调。深度学习计算量巨大,CPU架构被证明不满足需要处理大量并行计算的深度学习算法,需要更适合并行计算的芯片,GPU、FPGA、ASIC等各种芯片应用而生。因此CPU+AI加速芯片的架构使得CPU与AI加速芯片各司其职,分别应对大量交互响应和高并行计算。
GPU应用开发周期短,成本相对低,技术体系成熟,目前全球各大主流公司均采用GPU进行AI计算。GPU目前在深度学习训练阶段是使用范围最广的。与CPU相比,GPU在深度学习领域的性能具备绝对优势。深度学习在神经网络训练中,需要很高的内在并行度、大量的浮点计算能力以及矩阵运算,而GPU可以提升这些能力,并且在相同的精度下,相对传统CPU的方式,拥有更快的处理速度、更少的服务器投入和更低的功耗。
FPGA(Fleld-Programmable Gate Array),即现场可编程门阵列,它是在PAL、CPLD等可编程器件的基础上进一步发展的产物。FPGA核心优势是在推演阶段中算法性能高、功耗和延迟低。适用于压缩/解压缩、图片加速、网络加速、金融加速等应用场景。
ASIC是一种专用芯片,与传统的通用芯片有一定的差异。是为了某种特定的需求而专门定制的芯片。ASIC芯片的计算能力和计算效率都可以根据算法需要进行定制,所以ASIC与通用芯片相比,具有以下几个方面的优越性:体积小、功耗低、计算性能高、计算效率高、芯片出货量越大成本越低,近年涌现的类似TPU、NPU、WPU、BPU等各种芯片,都属于ASIC。
尽管AI服务器可以采用多种异构形式,GPU服务器仍然占据主流地位,算力生态随着AI发展的不断深入,对于AI产业化和产业AI化而言,技术架构的相对稳定和编程技能的通用性是非常必要的。目前基于GPU的AI计算的软件生态已经成熟完善。
在面向深度学习训练、推理计算加速等方向都有完善的软件支撑。
当前AI应用日益复杂化、多样化,需要统一的基准来衡量AI芯片/AI服务器的计算性能、单位能耗力等水平,目前国际权威的AI测试基准有MLPer和SPEC ML两个组织。MLPerf每年组织全球AI训练和AI推理性能测试并发榜。SPEC ML成立了MachineLearning技术委员会,建立和推行一套基于ML统一可信的行业测试基准。
算力输出
基于强大的AI算力机组,支持先进多样的AI加速芯片,依托于成熟丰富的软件生态,智算中心就可以为大规模AI应用输出强大、高效、易用的AI算力,主要有数据处理算力、训练算力和推理算力。
2、 聚合算力
聚合算力,是基于智能网络和智能存储技术,针对多任务、大规模、高并发、高吞吐的AI应用特点,为算力机组集群构建高带宽、低延迟的通信系统和数据平台,提供弹性、可伸缩扩展的算力聚合能力。
算力集群
聚合算力的对象是智算中心的算力集群,包含AI服务器、数据存储、高速网络及配套基础设施。
算力集群面临的问题主要体现在:
(1)现有数据中心网络的主要问题包括弹性和可扩展性差、功能灵活性不高,无法支撑大规模计算集群。在新基建的驱动下,智能网络将成为提升数据中心生产力水平的重要组成部分,是支撑智算中心可持续发展的核心技术;
(2)智算中心数据处理面临的挑战包括数据海量化、数据多元化、数据快速响应、数据快速导入。
为解决上述问题,需要为智算中心配置高性能智能存储。
智能存储将采用软件定义存储方式,实现文件、对象、块、大数据四种存储服务一体化设计。同时,智能存储只备高IOPS处理能力、高速缓存技术和数据加速处理芯片。
智能网络
为了解决数据中心的网络问题,采用智能网络技术,聚合AI算力集群和智能存储集群,构建弹性的可伸缩扩展的数据中心。智能网络技术融合业务需求和专用加速方案,结合人工智能技术,提供高带宽、低延迟、高并发的计算通信系统。
目前,数据中心的网络互联速率已经从10G逐步过渡到25G,并且积极探家100G和400G网络。不断提高的网络互联带宽要求智能网络提供软件定义的加速能力,优化多任务带来的性能损耗,提高网络的利用率,提供高速的数据传输通道。
软件定义的网络加速能力广泛应用在人工智能计算集群中,通过虚拟化技术,提供多任务并行处理能力,通过智能网络专用加速产品,支持可编程的处理器芯片,实现智算中心所需的多种网络卸载功能,同时可以支持数据预处理的的计算能力,降低主机侧的性能损耗。通过先进的网络技术和设计思想,实现网络的控制和数据转发分离,提高网络的并发能力和低延迟,也支持弹性裸金属服务器、自定义业务功能等新特性。
智能存储
为解决智算中心数据处理面临的挑战,将海量、多元化的数据快速聚合,需要为智算中心配置高性能智能存储。智能存储应具备软件定义存储功能,即存储设备使用一套软件钱,便可支持不同存储协议,文件。对象、块、大数据四种存储服务一体化设计,实现同一基础架构上不同应用之间的数据业务应用融合。
智能存储具备随需扩展功能,可以根据业务需求,灵活添加或者移除存储节点,从而将数据和应用程序从硬件抽象出来。智能存储还可实现节点动态扩展,随着节点数的增加,存储容量和计算能力线性增加,提供呈线性递增的吞吐及并发能力。
智能存储扩展后,系统将通过容量均衡功能自动在后端完成数据均衡操作,实现数据全局均衡存放。
智能存储为实现高IOPS处理能力,将采用基于聚合的小文件优化技术,用户在指定的聚合目录下,对小于一定大小的文件以聚密聚合对齐的方式写入聚合文件中,从而减少数据写入硬盘次数,提高小文件读写性能,只备千亿级别小文件的并发处理能力。
在管理功能方面,智能存储还将提供文件分级功能,可以将数据按照“指定的规则”存储在“适当的存储类型”上,以实现对数据的分类智能管理。分级功能将根据系统中文件的大小、类型、存放时间等属性,将满足不同分级策略的文件分别迁移到不同性能存储介质上的存储池中,实现从沸点数据到冰数据,整个数据全生命周期的一个完整的管理。
为提高管理性能,未来的智能存储还将配置专用数据加速处理芯片,用户可以把项目重制、压缩、加解密等工作交给这些专用处理芯片去做。存储主控芯片专门响应客户业务需求使智能存储发挥极高效率。
算力聚合
采用最新的网络和存储技术,提升网络传输带宽和存储性能,降低损耗,提供高效的数据传输能力,融合网络虚拟化、软件定义网络、软件定义存储等技术,提高集群聚合的灵活性,助力大规模、多元化数据处理能力。通过智能网络和智能存储的有机结合,提供弹性、可伸缩扩展的聚合能力,实现算力高效聚合。
3、调度算力
调度算力,是基于人工智能应用对算力的需求特点,通过虚拟化、容器化等技术,将算力资源池化为标准算力单元,通过适应性策略及敏捷框架对算力进行精准调度配给,保障AI开发和AI业务的高效运行。
调度能力是智算中心连接上层应用与底层计算设备的核心能力,将聚合的CPU、GPU、FPGA、ASIC等算力资源进行标准化和细粒度切分,满足上层不同类型智能应用对算力的多样化需求,让上层应用更高效、更便捷地对算力资源进行利用。
算力调度分为算力池化、算力调度、算力服务三个过程。
算力池化
随着计算机硬件技术的发展,各类异构加速芯片、设备不断涌现,满足各类上层应用对计算资源、计算能力的多样化需求。智算中心通过计算资源池化,简化算力调用过程,方便用户对大规模集群内的计算资源进行有效利用,用户无需关注计算设备的种类,将计算资源以标准算力模式提供给用户。算力池化主要包括算力虚拟化和应用容器化。
算力虚拟化的核心,是向用户直接提供计算能力,避免用户在申请、使用计算能力的过程中对集群内设备的分布、类则、性能等产生关注。通过算力虚拟化,用户避开在大规模计算设备集群中进行设备选择、设备适配的繁杂工作。
应用容器化,基于容器化的应用部署策略能够显著降低管理应用、支持业务的计算开销,具有较高的灵活性,便于快速在边缘端、计算中心端等计算场景中灵活部署和迁移。
同时,计算资源的细粒度切分能力也是算力调度过程中的关键环节。计算资源的细粒度切分会透至异构算力组合策略之中,协调CPU、GPU、FPGA、ASIC等各类型计算芯片,将上层应用的计算需求细粒度切分后进行定向定量分发,最大化利用算力。
算力调度
智算中心通过有效算力调度,提高算力设备的利用率,降低设备闲置率,更好地管理智算中心算力的使用情况;对用户行为进行分析和监管,优化算力设备布局规划,提升业务部署效能,使应用具有更好的稳定性和扩展性。
算力调度涉及配额策略、共享超分、负载均衡等略。
算力配额策略,智算中心会将池化的计算资源提供给用户,为用户的算力配给进行了有效的分。
算力共享超分策略,在保证业务正常申请需求与扩容需求的同时,减少算力资源闲置,提升计算设备利用率,保证训练和推理业务顺利进行。
负载均衡,以人工智能的推理类业务为代表,对算力的使用、申请、接入等需求进行均衡分配,对应用的稳定性、服务能力、响应速度达到最优的配置。
算力服务
训练服务,依托容器化技术,将运行环境、框架适配过程标准化、模块化,让开发者能够便捷高效地构建运行环境,提交训练任务,保证智算中心内能够部署多样化的开发环境和训练环境,且彼此隔离、不会互相影响;
推理服务,简化应用部署流程和交互模式,方便用户在智算中心中进行应用部署,保障推理业务的算力分配随推理业务量变化实现弹性伸缩,保障业务稳定可靠。
4、释放算力
释放算力,是基于主流人工智能理论算法,采用全流程软件工具,针对不同场景应用需求,通过机器学习自动化的先进方法,产出高质量的AI模型或AI服务,提升AI应用生产效率,促进算力高效释放转化为生产力。释放算力环节通过聚合算力、数据、算法三种生产要素,建立人工智能应用服务,主要可以划分为四个层次:Al场景、AI算法、AI工具、AI服务。
AI 场景
人工智能算法主要应用于图像、视频、语音、自然语言处理等场景。图像应用场景主要包括医学影像识别、〇CR识别、图像检索等。视频应用场景主要包括工业视觉检测、视频监控等。语音应用场景主要包括智能家居、机器人等。
自然语言处理应用场景主要包括情感分析、机器翻译、自动问答等。人工智能技术在上述多个场景的实际应用体现了其行业应用价值,通过人工智能技术与实际场景的深入结合,能够催生大量人工智能服务,从而构建面向不同场景的人工智能应用。
AI算法
深度学习引领了第三次人工智能浪潮的飞速发展。通过构建以卷积神经网络、循环神经网络、图神经网络、生成式对抗网络为代表的深度学习模型结构,以及反向传播优化算法、面向不同学习任务的算法及模型优化算法,实现人工智能算法的不断突破创新。
人工智能算法是人工智能产业中最重要的环节,通过人工智能算法的不断升级,结合海量数据,实现算力的有效释放。
AI工具
AI工具是人工智能技术的重要基础设施之一,是数据及算法加速融合的重要驱动力。根据人工智能建模过程特点,AI工具可具体划分为数据处理、模型训练、模型推理三个组成部分。数据处理库包括NumPy(数值计算)、〇penCV(图像处理)、Hadoop(大数据处理)等数据处理及计算库,提供高效快捷数据处理方法。
模型训练工具主要包括PyTorch、TensorFlow等深度学习框架,利用上述工具能够实现高性能、分布式的模型训练方案。模型推理工员包括两部分:高效模型优化方法及高吞吐推理引擎:模型量化、剪枝、蒸馏等方法可减少模型复杂度及存储需求,高吞吐推理引擎如TensorRT为深度学习应用提供低延迟、高吞吐率的部署推理,实现快速与高效的模型推理方案。
全流程的软件工具有效提升了算力释放的效率,但其中仍需要专业人员如算法人员、业务人员的人力工作。软件工具自动化、智能化能够有效摆脱人力束缚,加快应用生产效率。
如自动化深度学习通过利用智能优化算法,能够面向不同任务进行自动模型搜索、模型超参数自动调节、模型自动压缩,实现AI算法及工具的自动化,提升AI应用生产效率,促进算力高效释放转化为生产力。
AI服务
面向不同A|场景应用需求,利用高精度AI算法及全流程AI工具,最终产出高质量AI服务。AI服务存在形式主要包括模型文件、开发接口、在线服务三种形式。通过构建多种形式的AI服务,可满足生产中不同阶段、不同需求、不同场景需要。AI服务是人工智能应用的最终表现形式,通过高质量及多形式AI服务,实现M技术在各行业的渗透落地。
小 结
智算中心作为承载人工智能应用需求的算力中心,以海量异构数据为资源,基于深度学习、自监督学习、强化学习、自动机器学习、跨媒体多模态等最新的人工智能理论,采用技术领先、生态成熟的AI芯片、AI服务器、高速互联、深度学习框架、资源调度等人工智能计算架构,重点围绕生产算力、聚合算力、调度算力、释放算力四大关键环节提升AI算力。通过打造算力生产供应、数据开放共享、智能生态建设和产业创新聚集平台,面向政府、企业及科研机构等多用户群体提供源源不断的算力服务、数据服务和算法服务,汇聚并赋能行业AI应用,助力行业智慧应用高效化开发,支撑和引领数字经济、智能产业、智慧城市和智慧社会应用与生态健康发展。
原创 sora AI云原生智能算力架构