转载:【AI系统】谷歌 TPUv3 POD 形态

news/2024/12/11 17:55:03/文章来源:https://www.cnblogs.com/ewr67/p/18600315

TPU v3 vs. TPU v2

  • TPU v3 实际上就是 TPU v2 的增强版。TPU v3 相比 TPU v2 有约 1.35 倍的时钟频率、ICI 贷款和内存带宽,两杯 MXU 数量,峰值性能提高 2.7 倍。在同样使用

  • 除了显眼的蓝色外,相比于 TPU v2,TPU v3 在只增大 10%体积的情况下增加了 MXU 的数量,从 2 个翻倍到了 4 个。同时 TPU v3 时钟频率加快了 30%,进一步加快了计算速度;同时内存带宽扩大了 30%,容量翻倍;此外芯片之间的带宽也扩大了 30%,可连接的节点数是之前的 4 倍。

TPUv1 TPUv2 TPUv3
Date introduced 2016 2017 2018
Process node 28 nm 16 nm 16 nm
Die size (mm²) 330mm 625mm 700mm
On-chip memory (MB) 28MB 64MB 64MB
Clock speed (MHz) 700MHz 700MHz 940MHz
Memory 8 GB DDR3 16 GB HBM 32 GiB HBM
Memory bandwidth 300 GB/s 700 GB/s 900 GB/s
TDP (W) 75 280 450
TOPS (Tera/Second) 92 180 360
TOPS/W 0.31 0.16 0.56

以上表格展示了 TPU v1,TPU v2 和 TPU v3 三代的具体参数。我们可以看到,虽然 TPU v3 和 v2 都采用了 16nm 的制程,但是在内存、频率、带宽等参数上相比 TPU v2 都有长足的进步。更重要的是,在能效方面,TPU v3 更是大幅领先于 TPU v2。背后的原因除了谷歌改进了芯片设计,对于深度学习场景有了更深和更广的优化面意外,最重要的一点就是 TPU v3 更好地管理了芯片的温度表现,用水冷代替风冷使得芯片更容易运行在合理温度之下。

下面这张图展示了 TPU v2 和 v3 的俯视图以及极度简化的结构。我们可以看到,左下角的 TPU v2 板卡上面有着四个芯片,散热全部依赖风冷,而 TPU v3 则使用水冷系统去管理四张芯片的温度,也就是这歌水冷系统为 TPU v3 提供了 1.6x 的功率。在这个基础上,TPUv3 又翻倍了 MXU 的数量,每个核心拥有了两个 MXU,并且扩大了 HBM 的大小,进一步强化了其计算能力。

基本概念澄清

在正式进入到我们对于 POD 的介绍之前,我们要先做一些概念澄清。现在我们做大模型的训练和推理都会有一个“集群”的概念。回到 2017-2018 年左右,Bert 出现之前,很多人是不相信一个模型需要用到一个集群进行训练的,因为当时很多的模型只需要单卡就能进行训练。而实际上的情况是,仅有(从当前的视角看)3 亿参数 Bert 在 4 个 TPUv3 Pod 上训练了整整四天,而当前各家的万亿参数的模型大部分都是用万卡的集群训练数个月的结果。

分布式架构 - 参数服务器

涉及到集群,我们在训练过程中就需要一个分布式的架构,在当时叫做参数服务器(Parameter Server)。在训练过程中,我们需要在正向传播和反向传播中得到损失值和相应的梯度,而这个计算的压力是分布在每一张计算卡上的,因此在计算结束后需要把从每一张卡的计算结果进行梯度聚合,最后一步再进行参数的更新和参数的重新广播。

那么这个过程可以用同步或者异步的方式进行同步:

【同步并行】:在全部节点的完成本次的通信之后再进行下一轮本地计算

  • 优点:本地计算和通信同步严格顺序话,能够容易地保证并行的执行逻辑于串行相同;
  • 缺点:本地计算更早的工作节点需要等待其他工作节点处理,很容易造成计算硬件的浪费。

【异步并行】:当前 batch 迭代完后与其他服务器进行通信传输网络模型参数

  • 优点:执行效率高,中间除了单机通信时间以外没有任何通信和执行之间的阻塞等待;
  • 缺点:网络模型训练不收敛,训练时间长,模型参数反复使用导致无法工业化。

POD 中的通信

超级计算机中,执行的大部分是神经网络模型的 DP(Data Parallel)计算,大量的数据被分成小块,然后分配给不同的计算节点进行处理。这种并行计算的一部分是权重更新时的通信过程,通常使用的是 all-reduce 操作,即所有节点将它们的部分计算结果汇总起来,以更新全局的权重。

在这样的环境下,出现了 Host Bound 和 Device Bound 的概念。Host Bound 指的是计算受到主机资源的限制,可能是由于通信或者其他的主机计算负载导致的。而 Device Bound 则是指计算受到设备资源的限制,比如节点的计算能力。

在集群环境中,由于大规模的神经网络模型需要处理大量的数据,并且需要进行复杂的计算,因此往往是设备资源受限制,这就使得 AI 应用在集群环境中更倾向于 Device Bound。

迎来 Supercomputer(Pod)

首先我们要定义一下什么叫做 Pod,谷歌官方给出的定义很简单:“TPU Pod 是一组通过专用网络连接在一起的连续 TPU 单元”,实际上也确实如此。相比于 TPU v1,初始设定为一个专用于推理的协处理器,由于训练场景的复杂性,TPU v2 和 v3 大幅度强化了芯片的互联能力,最主要的核心就是为了搭建这样的超大计算集群。

TPU v2 基板和 Pod 形态

结合着下面这张图,我们来看一下上一章我们讲过 TPU v2 的基板组成

  • A:四个 TPU v2 芯片和散热片

  • B:2 个 BlueLink 25GB/s 电缆接口。其中 BlueLink 是 IBM BlueLink 端口协议,每 Socket 25Gb/s 的带宽,主要是提供 NPU 或是 TPU 之间的网络互联。

  • C:Intel 全路径体系结构(OPA)电缆。其中 OPA 为英特尔 Intel Omni-Path Architecture(OPA)互联架构,与 InfiniBand 相似。

  • D:电路板电源连接器

  • 支持两种网络配置,分别问 10Gbps 以太网和 100Gbps Intel OPA 连接

下面两张图,左边是 tpu v2 的基板,右边是 TPU v2 Pod 形态,每个机柜中有 64 个 CPU 板和 64 个 TPU 板,共有 128 个 CPU 芯片和 256 个 TPU v2 芯片。中间两台蓝色的机器最大可以搭载 256 块 TPU v2 的芯片,而左右两边分别是 CPU 集群,根据下图的标注,来简单看一下 TPU v2 Pod 的基本架构。

  • A 和 D:CPU 机架

  • B 和 C:TPU v2 机架

  • 蓝色框:电源管理系统(UPS)

  • 红色框:电源接口

  • 绿色框:机架式网络交换机和机架式交换机顶部,这部分更多的是网络模块

存储

在 TPU v2 机柜中,看不到任何存储模块。由数据中心网络连接至 CPU,同时没有任何光纤连接至机柜 B 和 C 的 TPU 集群,而 TPU v2 板上也没有任何网络连接。或许这正是下图中机柜上方大量蓝色光纤存在的原因。

机柜

我们不难发现,TPU v2 Pod 的机架排列紧凑,主要是为了避免信号衰减带来问题,BlueLink 或 OPA 的铜缆和光纤长度不能太长,因此 TPU 集群在中间,CPU 在两侧的方式排布。

TPU v3 基板和 Pod 形态

看完 v2,我们再来看一下 TPU v3 的基板组成

  • A:四个 TPU v2 芯片和液冷散热管;
  • B:2 个 BlueLink 25GB/s 电缆接口
  • C:Intel 全路径体系结构(OPA)电缆
  • D:电路板电源连接器
  • 支持两种网络配置,分别问 10Gbps 以太网和 100Gbps Intel OPA 连接

从下面的 TPU v3 Pod 的形态中我们就可以看到,相比于 TPU v2 Pod,它的规模大了非常多,有了更多的铜管和电缆,并且在芯片规模上整整大了 4 倍。TPU v3 Pod(1024 chips):

虚拟架构图

下面是虚拟架构图,整体的架构图也是比较明显的。AI 框架通过 RPC 远程连接到 TPU Host,基于 CPU 去控制 TPU 去实现真正的互联运作执行。

POD 总结

  • TPU v2 的技术革新:谷歌的 TPU v2 通过增加核间互连结构(ICI),使得最多 256 个 TPU v2 能够组成一个高效的超级计算机。这种结构支持高效的大规模数据处理,尤其适合神经网络的训练。

  • TPU v3 的性能提升:谷歌进一步扩展其技术,通过组合 1024 个 TPU v3 创建了 TPU POD 超级计算机。该服务器采用水冷系统,功率提升高达 1.6 倍,而模具尺寸仅比 TPU v2 增加 6%。

  • 高效的集群构建:TPU v2 集群利用交换机提供的虚拟电路和无死锁路由功能,加上 ICI 结构,形成了高效的 2D tours。这种配置提供了 15.9T/s 的平分带宽,相比传统的集群组网,省去了集群网卡、交换机的成本,以及与集群 CPU 的通信延迟。

现在我们对比一下 TPU v2 和 v3 Pod,最大的区别就在算力上:TPU v2 有 256 块 TPU v2 组成,算力为 11.5 PFLOPS;Tpu v3 则由 1024 块 TPU v3 芯片组成,算力为 100 PFLOPS。这也就是为什么我们一直在说,TPU v3 是一个 TPU v2 的强化版,最本质的原因就是两者在核心架构上本质的区别没有那么明显,而主要的提升实际上是提升了规模化的能力。

POD 通信方式

我们之前讨论到,在分布式机器学习中,异步训练和同步训练是两种主要的训练方式。异步训练理论上可以提供更快的速度,因为它允许每个节点独立更新模型权重,从而最大化计算效率。然而,在实际应用中,异步训练的特性以及分散的权重更新可能导致参数服务器与工作节点之间的带宽成为计算瓶颈。

相比之下,同步训练的关键在于平衡计算和通信两个步骤。在不同的学习节点之间,这两个步骤会调整权重。系统的性能受到最慢计算节点和网络中最慢消息传递速度的限制。因此,一个快速的网络连接对于实现快速训练至关重要。

谷歌在 TPU v2/v3 Pod 中采用了 2D Torus 网络结构,这种结构允许每个 TPU 芯片与相邻的 TPU 芯片直接连接,形成一个二维平面网络。这种设计减少了数据在芯片间传输时的通信延迟和带宽瓶颈,从而提高了整体的计算效率。基于此,谷歌优化了同步训练,在同等资源条件下,通过避免对参数服务器的依赖,通过 all reduce 的方法,最终在性能上达到对于异步 SGD 计算效率的领先。

转载自:| https://www.cnblogs.com/ZOMI/articles/18558411 | header |
| ---------------------------------------------- | ------ |
| | |

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/850960.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

转载:【AI系统】谷歌 TPUv2 训练芯片

在 2017 年,谷歌更新了他们的 TPU 序列。谷歌将这一代 TPU 称之为 “用于训练神经网络的特定领域超级计算机”,那么显而易见,相比于专注于推理场景的 TPU v1,TPU v2 将自己的设计倾向放到了训练相关的场景。如果回顾历史,在 2017 年前后,深度学习跨时代的工作如雨后春笋般…

四大主流消息队列 场景化选型指导:kafka、rocketmq、rabbitmq、pulsar

消息队列是用于在分布式系统中存储和转发消息的异步通信协议,对于实现系统间解耦合至关重要。通过消息队列选型,开发者能够针对不同业务场景挑选最适合的消息队列,以满足特定需求。例如,在选择消息队列时,需考量其性能要求如吞吐量、延迟等指标,以及是否支持顺序消息或事…

转载:【AI系统】GPU 基础

GPU 是 Graphics Processing Unit(图形处理器)的简称,它是计算机系统中负责处理图形和图像相关任务的核心组件。GPU 的发展历史可以追溯到对计算机图形处理需求的不断增长,以及对图像渲染速度和质量的不断追求。从最初的简单图形处理功能到如今的高性能计算和深度学习加速器…

转载:【AI系统】超异构计算

在本文中我们要从更远的视角来看看计算机架构发展的黄金 10 年,主要将围绕异构计算和超异构来展开。在开始具体内容前,我们非常推荐您观看以下两个视频:计算机架构的新黄金时代:A New Golden Age for Computer Architecture编译器的黄金时代:The Golden Age of Compiler D…

高效实现金蝶分布式调入单与旺店通采购订单数据集成

金蝶分布式调入单与旺店通采购订单的高效数据集成方案 在企业信息化系统中,数据的无缝对接和高效流转是提升业务效率的关键。本文将分享一个实际案例:如何通过轻易云数据集成平台,将金蝶云星空中的分布式调入单数据集成到旺店通企业奇门的采购订单中。背景概述 在本次集成方…

导航栏-0xShe网络安全导航

0xShe网络安全导航 安全平台,这个模块有一些安全社区 挖src的这里放了很多的src平台 这里也有一些好用的工具 本文来自博客园,作者:CLLWA,转载请注明原文链接:https://www.cnblogs.com/cll-wlaq/p/18600260本文仅做交流学习,不可用于一切非法行为,否则后果自负!

转载:【AI系统】核心计算之矩阵乘

AI 模型中往往包含大量的矩阵乘运算,该算子的计算过程表现为较高的内存搬移和计算密度需求,所以矩阵乘的效率是 AI 芯片设计时性能评估的主要参考依据。本文我们一起来看一下矩阵乘运算在 AI 芯片的具体过程,了解它的执行性能是如何被优化实现的。 从卷积到矩阵乘 AI 模型中…

数据的分布和映射

数据的分布和映射是数据分析中的两个重要概念。它们帮助我们理解数据的特征,并为后续的数据处理和分析提供基础。 数据的分布 定义:数据的分布描述了数据集中每个值出现的频率或概率。它提供了数据集的形状、中心趋势和离散程度的信息。 目的:通过分析数据的分布,我们可以了…

ubuntu18.04手动编译官网内核kernel

前言全局说明ubuntu18.04手动编译官网内核kernel系统默认是 5.4.0-84 内核,尝试升级到 5.4.286一、说明 1.1 环境: Ubuntu 18.04.6 LTS (Linux test-vm 5.4.0-84-generic #94~18.04.1-Ubuntu SMP Thu Aug 26 23:17:46 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux)二、 下载官…

DC3靶机渗透测试

*概述* *测试目的* *测试范围*序号 系统 IP1 本地 192.168.152.1282 靶机 192.168.152.133*详细测试流程* *1、发现测试目标**2、信息收集*开放了80端口,是Joomla服务 扫描目录利用joomscan工具探测服务版本 Joomscan工具利用方法: https://cn.linux-console.net/?p=10704 J…

CFS靶机三层(1)

*搭建环境* *下载解压* 【网盘链接】https://pan.baidu.com/s/1slqp3878JawT_QDrzyC7Ig?pwd=9da6 靶场就在刚才的网盘链接中,下载之后有很多个7z文件,按照下面的步骤合并解压 下载完是很多个7z格式的压缩文件,直接合并解压就行,就是用 copy /b CFS三层靶机环境.7z* 靶机.7…

集合基础案例

1.案例一答:2.案例二对于该案例,我们首先是要创建学生类,否则集合的泛型会不知道该怎么填创建完学生对象,在创建集合,走后面的流程,注意,这个案例有个易错点 如图我们在集合中存入的是什么类型的数据,取出来的就是什么类型的数据,所以,打印的每个stu都是学生对象,而…