打破 AI 算力天花板,Meta超大规模AI基础设施架构解读

 Meta超大规模AI智算基础设施架构设计

80c7f0afcc2810a824c69b641f70dea0.jpeg

摘要

  1. 双重 GPU 集群,每群配备 2.4 万个 H100 芯片,分别采用 RoCE 和 InfiniBand 网络连接。
  2. LLaMA3 就是在这两个集群上训练出来的
  3. Meta AI 将部署庞大算力集群,拥有 35 万张 H100 GPU,相当于 60 万张 H100 的总算力,助力突破性人工智能研究。

Meta打造两个庞大AI集群,每个集群拥有2.4万张GPU。该设计专注于计算、网络和存储的无缝集成,旨在推动人工智能的未来发展。

1 第一代 GPU 集群:1.6w A100 (RSC)

Meta 自 2022 年起公开其强大的 AI 基础设施,率先推出 Research SuperCluster (RSC),该集群由 16,000 个 A100 GPU 组成。RSC 为 Meta 的 AI 研究和开发提供了无与伦比的计算能力。

RSC为Meta AI开发提供技术支持,助力其构建将生成式AI融入各类应用,如计算机视觉、NLP、语音识别、图像生成和编码。RSC的先进能力显著提升了Llama/llama2等AI模型的训练效率。

2 第二代 GPU 集群:2.4w H100

精确数字是每个集群 24,576 张 H100 GPU。

Meta新一代 AI 集群充分吸收了 RSC 的成功和经验教训,这包括,

  • 新集群能支持更大、更复杂的模型,为GenAI产品开发和AI研究的进步铺平了道路。

Meta 自研关键技术,搭建先进基础设施,每天高效执行万亿级 AI 任务。端到端优化确保数据中心高效运行,支撑着 Meta 的 AI 创新。

4899a4b170da592ede24dd9b4b1cd69b.jpeg

左侧:计算机柜,包括GPU服务器机框、fabric交换机等等;右侧:存储机柜。

2.1 计算:Grand Teton GPU 主机

双新集群采用 Grand Teton,这是 Meta 开发的一种开放的 GPU 硬件平台,已贡献给开放计算项目 (OCP)。

从2015年的Big Sur平台开始,Meta一直在开放设计GPU硬件平台。

Grand Teton 实物图如下,

5a82852ea756f0112e3b8c161e8bb002.jpeg


  • 提供了快速可扩展性和灵活性,设计简化,可以快速部署到数据中心,并易于维护和扩展。

创新的Open Rack电源和机架架构相结合,可迅速构建和定制Meta当前和未来的集群,满足不断增长的应用程序需求。

2.2 网络

两个集群使用了不同的网络方案,但都是 400Gbps 接入。

2.2.1 集群一:400Gbps RoCE + 自研交换机

基于 RoCE 网络,使用的交换机包括

  • 自研置顶交换机(TOR)Wedge400 / Arista 7800 ,
  • 自研模块化交换机 Minipack2。
    • Minipack/Minipack2 多用途交换机,可灵活部署为 Spine 交换机,满足不同组网需求。
    • Minipack 创新(2019 年),重塑 Facebook 数据中心网络,为下一代数据基础设施树立了新标杆。
    • 早期的数据中心网络:
      Facebook 的下一代数据中心网络:“数据中心 Fabric”(2014 年)

2.2.2 集群二:400Gbps InfiniBand

使用NVIDIA Quantum2 InfiniBand fabric。

2.2.3 小结

在评估大规模训练中的 RoCE/IB 适用性和可扩展性时,对比研究表明:
RoCE 和 IB 组网的集群均可处理大型生成式 AI 任务,例如 Llama 3 的训练,且未遇网络限制。
这些发现为构建更大规模集群提供指导,有助于解决大型生成式 AI 训练模型的网络挑战。

2.3 存储

存储在 AI 训练中扮演着重要角色,然而相关的讨论确非常少。

人工智能任务的多模态性推动了对高性能存储的需求。理想的解决方案应提供卓越性能,并在处理图像、视频和文本时保持低能耗。

2.3.1 数据和 checkpoints 存储:FUSE + Tectonic

AI 集群的数据和 checkpoint 的存储方案:

  • 上层是一个自研的 Linux 用户空间文件系统(FUSE)
  • Tectonic,Meta 的分布式存储解决方案,专为闪存优化,为数据密集型应用程序提供无与伦比的性能和效率。

这个解决方案使得

  • 同时还提供了 EB 级存储系统所需的灵活性和高吞吐。

2.3.2 交互式调试:Parallel NFS

与 Hammerspace 合作开发的并行 NFS 系统,可支持数千个 GPU 的交互式调试。代码改动能瞬间同步到环境中的所有节点,显著提升调试效率。

Tectonic 分布式存储与 Hammerspace 相结合,释放了企业数据快速迭代的潜能,同时打破了规模限制。

2.3.3 大容量 SSD + 定制每个机柜的服务器数量

Tectonic 和 Hammerspace 解决方案均采用 YV3 Sierra Point 服务器平台,集成了市场上最先进的高容量 E1.S SSD,提供卓越的性能和存储容量。

113d9f675c3b53b535f741ba281fa83e.jpeg

OCP 服务器如同乐高积木,赋予存储层灵活扩展性,满足未来 AI 集群的增长需求,且不影响日常维护和操作,为数据中心提供敏捷高效的基础架构。

3 性能

3.1 原则:性能和易用性缺一不可

构建 AI 集群的关键是兼顾性能与易用性,避免顾此失彼。这种均衡至关重要,因为它确保了训练出卓越的 AI 模型。

优化大型系统设计的最佳方法是通过迭代构建和测试。小集群和大型集群的性能比较可以帮助识别瓶颈。下图以消息大小为横轴,归一化带宽(0-100)为纵轴,展示了当大量 GPU 交互时 AllGather 性能随集群规模的变化。

4d19341488424dbfb11f6a3c3796f7d2.jpeg

优化前:小型集群性能优异(90%+),大型集群性能低下(10%-90%)。
优化后:通过系统化优化,大型集群性能飙升至理想的90%+,与小型集群齐头并进。

3.2 大集群优化

优化大型集群性能:
* 通过减少wait time提升性能85%。
* 优化hash slot分配方式提升性能15%。

  1. 改进 job scheduler,使其具备网络拓扑感知能力,这带来的好处:
    1. 延迟降低
    2. 转发到更上层网络(交换机)的流量减少。
  2. 结合 NVIDIA NCCL,优化了网络路由策略,以实现最优的网络利用率。

以上两项优化使大集群的性能已经接近小集群。


  1. 训练框架和模型团队密切合作,不断改进基础设施。例如,
    1. 并行技术优化,
    2. 存储优化,
  2. 可调试性是大型训练的主要障碍,在大规模情况下难以追踪拖慢训练进程的卡顿原因。
    为此,正在开发 desync 调试和分布式飞行记录等工具,用于跟踪分布式训练流程,快速识别问题。
  3. PyTorch 优化显着提升训练速度:
    通过优化进程组初始化,PyTorch 可支持数万至数十万 GPU 并行训练。优化前,启动时间可长达数小时,优化后缩减为几分钟。

4 对Open AI innovation的承诺

Meta 坚信开源技术的力量,旨在通过开放创新来解决行业难题:
- Meta 坚定地致力于开源硬件和软件。
- 相信开源社区可加速 AI 领域的进步。

  • 持续支持开放硬件创新,成为 OCP 创始成员,已将 Grand Teton 和 Open Rack 等设计贡献给社区,共创未来。
  • 作为PyTorch的最大和主要贡献者,继续推动这一AI软件框架的开发和普及。
  • 继续致力于 AI 研究社区的开放创新。
    • 汇聚 AI 先锋,探索负责任的 AI 发展。我们倡导在开发大模型和大语言模型等技术时,坚持道德准则和社会影响考量。
    • 联手 AI Alliance,一个领先 AI 组织组成的联盟,加速负责任的 AI 创新,开启开放社区的无限可能。

AI 工作建立在开放科学和协力合作的哲学之上。

5 未来展望

Meta为其未来 AI 愿景打造了两个强大的 AI 训练集群。到 2024 年底,Meta 将拥有 35 万张 H100 GPU,总算力相当于 60 万张 H100,为其 AI 创新奠定了基础。

持续优化基础设施,从硬件到业务层面,确保灵活可靠。评估和改进流程以满足不断演变的需求,支持创新模型和研究,打造未来准备就绪的系统。

 

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/671165.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(数据分析方法)长期趋势分析

目录 一、定义 二、目的 三、方法 1、移动平均法 (1)、简单移动平均法 (2)、加权移动平均法 (3)、指数平滑法 2、最小二乘法 3、线性回归 1、数据预处理 2、观察数据分布建立假设模型 3、定义损失函数 4、批量梯度下降 5、优化 4、LSTM 时序分析 5、特征工程 一…

分布式事务了解吗?你们是如何解决分布式事务问题的?(文末有福利)

目录 一、面试官心理分析 二、面试题剖析 1.XA 方案(两阶段提交方案) 2.TCC 方案 3.Saga方案 4.本地消息表 5.可靠消息最终一致性方案 6.最大努力通知方案 7.你们公司是如何处理分布式事务的? 福利放送: 一、面试官心理分析 只要聊…

cmake进阶:文件操作之读文件

一. 简介 cmake 提供了 file() 命令可对文件进行一系列操作,譬如读写文件、删除文件、文件重命名、拷贝文件、创建目录等等。 接下来 学习这个功能强大的 file() 命令。 前一篇文章学习了 CMakeLists.txt语法中写文件操作。文章如下: cmake进阶&…

[极客大挑战 2019]PHP

1.通过目录扫描找到它的备份文件,这里的备份文件是它的源码。 2.源码当中涉及到的关键点就是魔术函数以及序列化与反序列化。 我们提交的select参数会被进行反序列化,我们要构造符合输出flag条件的序列化数据。 但是,这里要注意的就是我们提…

【数据结构与算法】之五道链表进阶面试题详解!

目录 1、链表的回文结构 2、相交链表 3、随机链表的复制 4、环形链表 5、环形链表(||) 6、完结散花 个人主页:秋风起,再归来~ 数据结构与算法 个人格言:悟已往之不谏,知…

本地运行AI大模型简单示例

一、引言 大模型LLM英文全称是Large Language Model,是指包含超大规模参数(通常在十亿个以上)的神经网络模型。2022年11月底,人工智能对话聊天机器人ChatGPT一经推出,人们利用ChatGPT这样的大模型帮助解决很多事情&am…

ubuntu中的docker记录(3)——如何安装nvidia-docker以更好地支持GPU加速计算应用程序的运行

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、nvidia-docker2的安装1. 安装docker2. 安装nvidia-docker2(1) 添加密钥(2) 更新软件列表(3) 安装nvidia-docker2(4) 测试nvidia-docker2 二、可能的报错及解…

springboot版本升级,及解决springsecurity漏洞问题

背景: 项目中要解决 Spring Security RegexRequestMatcher 认证绕过漏洞(CVE-2022-22978) 漏洞问题,并且需要将项目的版本整体升级到boot版本2.1.7,升级改造过程非常的痛苦,一方面对整个框架的代码不是很熟…

【云原生】Pod 的生命周期(一)

【云原生】Pod 的生命周期(一)【云原生】Pod 的生命周期(二) Pod 的生命周期(一) 1.Pod 生命期2.Pod 阶段3.容器状态3.1 Waiting (等待)3.2 Running(运行中)3…

《第一行代码》第二版学习笔记(8)——网络技术

文章目录 一、Http1、HttpURLConnection2、OKHttp 二、解析JSON格式数据1、使用JSONObject2、使用GSON解析JSON数据 一、Http 1、HttpURLConnection public void run() {HttpURLConnection connection null;BufferedReader reader null;try {URL url new URL("http://…

LangChain框架学习总结

目录 一、简介 二、概念 三、组件具体介绍 3.1 Models 3.1.1 LLMs 3.1.2 Chat Models 3.1.3 Text Embedding Modesl 3.1.4 总结 3.2 Prompts 3.2.1 LLM Prompt Template 3.2.1.1 自定义PromptTemplate 3.2.1.2 partial PromptTemplate 3.2.1.3 序列化PromptTemplat…

24.5.5(离散化+树状数组,线段树)

星期一: dp题单 背包 第四题 混可乐 cf传送门 思路:条件可演化为每种可乐值为 ai-n,选最少的可乐使总和为0(具体可看官方题解 到这会发现背包并不适合了,其实这是道bfs伪装的背包…