OSI协议及在高性能计算中向RDMA的过渡
协议是为计算机网络内的数据交换而建立的一组规则、标准或协议。在法律层面,OSI七层协议被视为国际标准。该协议于20世纪80年代引入,旨在通过其七层网络模型标准化计算机间通信,以满足开放网络的要求。
物理层规定硬件之间的通信方式,并为物理设备(包括接口类型和传输速率)建立了标准,便于传输比特流(由0和1表示的数据)。
数据链路层主要负责帧编码和错误控制。它将来自物理层的数据封装成帧并传输到上层。此外它可以将来自网络层的数据拆分为比特流,以便传输到物理层,并通过校验和机制实现错误检测和纠正。
网络层在节点之间创建逻辑电路,利用IP地址解析(每个节点都有一个IP地址)并以数据包传输数据。
传输层监控两个节点之间数据传输的质量,确保正确顺序,并处理丢失、重复和拥塞控制等问题。
会话层管理网络设备中的会话连接,提供会话控制和同步,协调不同设备之间的通信。
表示层负责数据格式转换和加密/解密操作,确保不同设备上的应用程序正确解释和处理数据。
应用层向用户提供直接的网络服务和应用接口,涵盖电子邮件、文件传输和远程登录等各种应用程序。
这些层共同构成了OSI七层模型,每个层具有特定的功能和意义,促进计算机之间的通信和数据交换。
需要注意的是,现实中的网络协议可能会偏离OSI模型,这些协议是根据实际需求和网络架构进行设计和实现的。比如TCP/IP协议,它是一个由各种协议组成的协议套件,大致分为四层:应用层、传输层、网络层和数据链路层。TCP/IP相当于是七层协议的优化版。
在高性能计算(HPC)领域,由于对高吞吐量和低延迟的需求,传统的TCP/IP协议已逐渐被远程直接内存访问(RDMA)技术所取代。TCP/IP同时也存在一些缺陷,如引入延迟和因多个上下文切换、CPU封装导致的显著CPU开销。
RDMA作为一种技术允许通过网络接口直接访问内存数据,无需操作系统的参与。它可实现高吞吐量、低延迟的网络通信,非常适用于大规模并行计算集群。虽然RDMA并没有规定整个协议栈,但它对特定传输方式提出严格的要求,如最小的数据包丢失、高吞吐量和低延迟。基于以太网的RDMA技术有多种变种,如InfiniBand、ROCE和iWARP,每个变种都有其技术细节和成本考虑。
叶脊架构与传统的三层网络架构比较
交换机和网关在不同网络层上运行。交换机在数据链路层工作,利用MAC地址进行设备标识并执行数据包转发。它促进了不同设备之间的通信。而网关在网络层操作,通过使用IP地址连接各种子网络来实现连接。
传统的数据中心通常采用三层架构,包括接入层、汇集层和核心层。接入层通常直接连接服务器,常用的接入交换机是TOR交换机。汇聚层层作为接入层和核心层之间的中间层。核心交换机处理进出数据中心的流量,并与汇聚层建立连接。
然而,在云计算的发展背景下,传统的三层网络架构的缺陷变得越来越明显:
- 带宽浪费:每个L2交换机组管理一个POD,每个POD具有独立的VLAN网络。使用生成树协议(STP)通常会导致VLAN网络只有一个可活动的L2交换机,其他交换机被阻塞。这阻碍了汇聚层的横向扩展。
- 故障域过大:由于STP算法,网络拓扑变化在其收敛过程中可能导致潜在网络中断。
- 高延迟:随着数据中心的扩展,东西向流量的增加导致延迟显著增加。在三层网络架构中,服务器之间的通信经过多个交换机,提升L1和L2交换机的性能也会增加使用成本。
相比之下,叶脊架构提供了显著的优势,包括扁平化设计、低延迟和高带宽。在叶脊网络中,叶交换机代替传统L3交换机,而脊交换机则充当L1交换机。
脊和叶交换机使用等价成本多路径(ECMP)动态选择多条路径。在叶层的接入端口和上行链路没有瓶颈的情况下,这种架构可以实现无阻塞性能。由于每个叶交换机都可以连接到每个脊交换机,如果某个脊交换机出现问题,只会导致数据中心吞吐性能轻微下降。
英伟达(NVIDIA)SuperPOD架构的深入探讨
SuperPOD是指通过连接多个计算节点实现高吞吐性能的服务器集群。以英伟达(NVIDIA)DGX A100 SuperPOD为例,推荐配置QM8790交换机,可提供40个端口,每个端口的速率为200G。
其采用的架构遵循一个无阻塞结构。在初始层中,DGX A100服务器配备了8个接口,每个接口连接到8个叶交换机其中的一个。一个SuperPOD架构由20台服务器组成,形成一个SU。因此总共需要8台SU服务器。在第二层架构中,由于网络是无阻塞的且端口速率是统一的,脊交换机上行端口的数量应大于或等于叶交换机下行端口的数量。因此1个SU对应8个叶交换机和5个脊交换机,2个SU对应16个叶交换机和10个脊交换机,以此类推,当SU的数量超过6个时,建议添加一个L1交换机。
对于DGX A100 SuperPOD,计算网络的服务器与交换机的比例约为1:1.17(基于7个SU)。然而考虑到存储和网络管理的需求,DGX A100 SuperPOD和DGX H100 SuperPOD的服务器与交换机的比例分别约为1:1.34和1:0.50。
从端口来看,DGX H100交换机的推荐配置每个SU配备31台服务器。DGX H100交换机设计4个接口,使用QM9700交换机,可提供64个端口,每个端口速率为400G。
从交换机性能来看,DGX H100 SuperPOD的推荐配置中的QM9700交换机引入了Sharp技术。该技术利用聚合管理器在物理拓扑中构建了流聚合树(SAT)。树中的多个交换机进行并行计算,从而降低延迟并提高网络性能。QM8700/8790+CX6交换机支持最多2个SAT,而QM9700/9790+CX7支持最多64个SAT。随着端口数量的增加,交换机数量减少。
交换机选择:以太网、InfiniBand和RoCE的比较
以太网交换机和InfiniBand交换机之间的根本区别在于TCP/IP协议和RDMA之间的差异。目前以太网交换机更常用于传统数据中心,而InfiniBand交换机在存储网络和高性能计算(HPC)应用环境中更为常见。无论是以太网交换机还是InfiniBand交换机,都可实现400G的最大带宽。
RoCE vs InfiniBand vs TCP/IP
关键考虑因素:
- 高可扩展性:交换机中的三种网络协议都具有高可扩展性,其中InfiniBand展现了最高的可扩展性。一个单独的InfiniBand子网可以支持数以万计的节点,提供相对可扩展的架构,与InfiniBand路由器相比,可以实现几乎无限的集群规模。
- 高性能:TCP/IP引入了额外的CPU处理开销和延迟,导致相对较低的性能。通过利用现有的以太网基础设施,RoCE提高了数据中心的速率和效率。然而InfiniBand交换机以串行方式逐位传输数据,并利用交换结构,在更快、更高效的通信方面表现出色。
- 管理便利性:虽然RoCE和InfiniBand的延迟较低、性能较高,但TCP/IP通常更易于部署和管理。在网络管理中使用TCP/IP进行设备和网络连接即可实现集中管理,节省人力成本。
- 成本效益:对于注重预算的企业来说,InfiniBand可能带来挑战,因为它依赖于昂贵的IB交换机端口来处理大量的应用程序负载,从而增加了计算和维护成本。相比之下利用以太网交换机的RoCE和TCP/IP提供了更具成本效益的解决方案。
- 网络设备:RoCE和TCP/IP利用以太网交换机进行数据传输,而InfiniBand利用专用的IB交换机来传输应用程序。IB交换机通常需要与支持IB协议的设备进行互连,使它们相对封闭且难以替换。
现代数据中心对底层互连的带宽和延迟要求非常高。在这种情况下,传统的TCP/IP网络协议表现不佳,引入了CPU可以实现开销处理和较高的延迟。
对于在RoCE和InfiniBand之间进行选择的企业来说,需仔细考虑其个性化需求和成本因素。优先考虑高性能网络连接的企业可能会更倾向于选择InfiniBand,而追求出色性能、易于管理和成本效益的企业则可能选择RoCE来构建数据中心。
如何学习AI大模型?
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型商业化落地方案
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。