“真正认真对待软件的人应该制造自己的硬件。”
这是被称为个人电脑之父的艾伦·凯博士的一句广为流传的言论。 这种趋势正在云计算行业发生。 目前,全球主流云计算厂商均已加入自研芯片的行列。 如果追溯这一趋势的发展,亚马逊云技术无疑是领先者。
在re:2022大会上,亚马逊云科技三大芯片体系全新发布,包括第五代虚拟化芯片Nitro v5、ARM架构处理器、机器学习加速推理芯片以及最新芯片支持的新实例。
亚马逊云技术在自研芯片方面有哪些最新进展? 亚马逊云科技如何看待云计算行业硬件的创新趋势?
专用芯片,未来五大技术趋势之一
“到2023年,专用芯片的使用将迅速增加。” 亚马逊CTO将“专用芯片成为主流”列为2023年及未来五大技术趋势预测之一。
认为,过去定制专用芯片和专用硬件在消费领域发展迅速,而商用领域软硬件的更新周期通常较长。 然而,随着定制的专用芯片变得更加流行和采用,这种情况将在未来几年迅速改变。
“亚马逊云技术近年来在芯片设计上投入了大量资金。因为我们知道,在云端运行的工作负载在定制芯片上运行时具有更好的性能,并且更具成本效益。” 说。
在专用芯片的理念下,亚马逊云科技的自研芯片分为三大体系,包括:
亚马逊云技术大中华区解决方案架构部总监戴文表示,“Nitro v5和3E系列芯片的发布反映了当前的一个趋势——想要提供一流的云服务,必须具备底层硬件能力一个优秀的云厂商,在满足客户需求的时候,需要对软件该做什么、硬件该做什么有很好的规划和路线。”
“硬件不是为了创新而创新,一般的硬件加软件优化的方式已经不够高效,或者内部底层功能不够灵活,跟不上创新的速度,所以硬件是逆向打造的”。
Nitro芯片,10年硬件虚拟化积累
如果回顾一下亚马逊云技术自2006年以来发布的所有EC2实例数量,就会发现2017年是一个关键节点。
2017年之后,EC2实例数量快速增长。 截至2022年底,EC2实例数量已达600+,覆盖各类计算平台。 这很大程度上要归功于虚拟化芯片Nitro。
“Nitro 最大的创新在于它解耦了亚马逊云技术的整个技术演进和架构。” 亚马逊云技术大中华区产品部总经理陈晓健表示。
总体而言,Nitro 芯片为亚马逊云技术带来三大价值:
第一,更快的创新
经过10年的迭代,Nitro芯片成功验证了硬件支持虚拟化的技术路线。 在传统服务器中,计算虚拟化通常会占用30%的系统资源。 Nitro芯片将网络、存储、管理、安全和监控功能与服务器解耦,交给专门的硬件进行处理,让虚拟化管理程序占用服务器系统资源不到1%。
Nitro 通过专用硬件卸载网络和存储等工作负载,极大地减少了开发 EC2 实例的工作量,从而实现 EC2 实例类型的灵活设计和快速交付。
二、安全性更高
Nitro 创建了硬件级别的安全机制。 以新发布的Nitro V5为例。 硬件环境除了拥有自己的安全芯片和专用安全芯片TPM外,还可以实现网络和存储的隔离。
三、云服务性价比更高
底层芯片性能升级给云计算客户带来的最大好处是云服务性价比的提升。 与上一代相比,Nitro V5 数据包转发能力提升 60%,延迟降低 30%,每瓦性能提升 40%。
与当前一代网络优化实例相比,使用 Nitro v5 的 EC2 C7gn 实例可提供高达 2 倍的每个 CPU 网络带宽,同时每秒数据包转发性能提高 50%,非常适合网络密集型工作负载。 提供超高性能和成本效益。
芯片,高性能计算领域不断突破
自2018年发布以来,该系列芯片已经经历了三代迭代。 最新版本是高性能计算领域的进一步突破。 与现有产品相比,提供高达2倍的矢量计算性能,可广泛应用于矢量计算、浮点计算、AI/ML、HPC等应用场景。
使用该芯片的EC2 Hpc7g实例可以为高性能计算工作负载提供超高性价比。 与当前一代C6gn实例相比,Hpc7g实例的浮点性能提升了2倍; 与当前一代Hpc6a实例相比,性能提升20%。
不仅仅是底层芯片,亚马逊云技术也在不断完善生态系统,并基于其打造出很多托管云服务,包括EMR、、等。
自该系列芯片推出以来,大量客户已将工作负载从传统 x86 架构迁移出来。 亚马逊云技术支持客户在一两周甚至几天内完成从x86到x86的切换,在不改变上层程序的情况下轻松将云服务的成本效益提升40%。
并且,用于机器学习训练和推理的专用芯片
在过去的几年里,机器学习芯片每隔几年就会翻一番或有所改进。 这个速度相对于通用计算硬件来说已经非常快了,但是仍然不足以应对AI训练模型复杂性的挑战。
为此,亚马逊云技术提出了分布式训练技术,通过网络将模型通过多个节点进行协同计算和协同训练来解决问题。 这也是亚马逊云技术在机器学习方面的技术路线。 不仅仅是单个AI芯片性能的提升,还需要算力、存储、网络性能的全面突破。
配备推理芯片的 EC2 Inf2 实例专为运行具有多达 1750 亿个参数的大型深度学习模型而构建,与当前一代 EC2 Inf1 实例延迟相比,可提供高达 4 倍的吞吐量和高达 10 倍的吞吐量,并且具有更好的成本和更低的延迟。
Trn1实例可以为机器学习训练提供高性价比。 以万亿参数大模型GPT3两周训练量为例,如果使用基于GPU服务器的P3dn实例,需要600个实例,最新一代GPU实例P4d需要128个实例,但Trn1只需要使用96。
写在最后
从亚马逊云科技自研芯片的最新进展可以看出,经过十多年的发展,云计算已经到了硬件创新成为行业主要驱动力之一的阶段。 那些率先体验到专用芯片优势的企业,将带动更多企业加速尝试,扩大规模效应。
“成本节省和性能优势将带来更多的实验、创新和采用,并最终为其他特定工作负载提供更多定制芯片。这是一个良性循环。” 亚马逊首席技术官表示。
结尾
本文为《智能进化论》原创作品。