Llama-3公布基础训练设施,使用49000个H100

3月13日,社交、科技巨头Meta在官网公布了两个全新的24K H100 GPU集群(49,152个),专门用于训练大模型Llama-3。

此外,Llama-3使用了RoCEv2网络,基于Tectonic/Hammerspace的NFS/FUSE网络存储,继续使用了PyTorch机器学习库。

从训练进度来看,估计Llama-3最快将于4月末或5月中旬上线。受Sora影响,很可能是一个多模态模型,并且会继续开源。

Meta表示,预计到2024年底,将拥有600,000个H100的算力。

Meta首席科学家确认

Meta庞大的AI算力集群

Meta作为全球市值最高的科技公司之一,对AI的投入一直非常大,致力于构建造福全人类的AGI(通用人工智能)。

早在2022年1月24日,Meta首次公布了AI 研究超级集群(RSC)的详细信息,拥有16,000个英伟达A100 GPU。

该集群在开发全球最受欢迎的类ChatGPT模型Llama和Llama 2,以及计算机视觉、NLP 和语音识别、图像生成等发挥了重要作用。

本次新增的GPU集群建立在RSC成功经验之上,每个集群包含24,576 个H100 GPU,能够支持比以往更复杂、参数更高的大模型训练。

集群网络

Meta每天要处理数百万亿次AI模型的请求,所以,使用一个高效、灵活的网络才能保证数据中心安全、稳定的运行。

一个集群是基于Arista7800、Wedge400和Minipack2 OCP 机架交换机,构建了一个具有融合以太网远程直接内存访问(RoCE) 网络结构的解决方案;

另外一个使用了NVIDIA Quantum2 InfiniBand结构,这两种方案都能互连 400 Gbps端点。

在两个不同集群帮助下,Meta可以评估不同类型的互联对大规模训练的适用性和可扩展性,为以后设计和构建更大、更大规模的集群提供更多经验。

此外,Meta已经成功地将 RoCE 和InfiniBand 集群用于大型生成式AI工作负载(包括正在RoCE 集群上对 Llama 3 进行的训练),并且没有出现任何网络瓶颈。

硬件平台

新增的两个集群全部使用Grand Teton,这是Meta内部设计的开放性 GPU 硬件平台,于2022年10月18日首次发布。

Grand Teton 建立在多代人工智能系统的基础上,将电源、控制、计算和结构接口集成到一个机箱中,以获得更好的整体性能、信号完整性和散热性能。具有简化的设计、灵活性,可快速部署到数据中心机群中,并易于维护和扩展等优点。

数据存储

随着大模型的功能趋于多模特,需要消耗大量的图像、视频、音频和文本数据,所以,对数据存储的需求迅速增长。

Meta新集群的存储部署通过自创的用户空间 Linux 文件系统API来满足人工智能集群的数据和检查点需求,该应用程序接口由 Meta 针对闪存媒体进行了优化的 Tectonic 分布式存储解决方案版本提供支持。

该解决方案使数千个 GPU 能够以同步方式保存和加载检查点(这对任何存储解决方案来说都是一个挑战),同时还提供了数据加载所需的灵活、高吞吐量的外字节级存储。

Meta还与 Hammerspace 合作,共同开发、部署并行网络文件系统 (NFS),以满足开发人员对超级AI集群的存储要求。

此外,Hammerspace 还能让工程师使用数千个 GPU 对作业进行交互式调试,因为环境中的所有节点都能立即访问代码更改。

将Meta的 Tectonic 分布式存储解决方案和 Hammerspace 结合在一起,可以在不影响规模的情况下实现快速功能迭代。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/537037.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【vue在主页中点击主页面如何弹出一个指定某个页面的窗口】

【vue在主页中点击主页面跳转到某个页面的操作完整过程】 1.首先在主页面中加入一个卡槽用于展示弹出的窗口 代码如下&#xff1a; <el-dialog :visible.sync"dialogVisible1" :close-on-click-modal"false" :title"title" class"dial…

WordPress网站启用cloudflare的CDN加速后,网站出现多重定向无法访问

这是一个使用Hostease的Linux虚拟主机的客户反馈的问题&#xff0c;Hostease的虚拟主机使用的也是cPanel面板&#xff0c;客户使用的是cPanel的softaculous安装的WordPress&#xff0c;但是在安装完成后&#xff0c;并且解析了域名之后&#xff0c;发现网站无法访问&#xff0c…

激活函数Mish

paper&#xff1a;Mish: A Self Regularized Non-Monotonic Activation Function official implementation&#xff1a;https://github.com/digantamisra98/Mish 背景 在早期文献中&#xff0c;Sigmoid和TanH激活函数被广泛使用&#xff0c;随后在深度神经网络中失效。相比于…

C# 打开文件对话框(OpenFileDialog)

OpenFileDialog&#xff1a;可以打开指定后缀名的文件&#xff0c;既能单个打开文件也能批量打开文件 /// <summary>/// 批量打开文档/// 引用&#xff1a;System.Window.Fomrs.OpenFileDialog/// </summary>public void OpenFile(){OpenFileDialog dialog new Op…

Linux中文件和目录管理

目录 1——一次建立一个或多个目录&#xff1a;mkdir ​2——创建一个空文件&#xff1a;touch 3——移动和重命名&#xff1a;mv 4——复制文件和目录&#xff1a;cp 5—— 删除目录和文件&#xff1a;rmdir和rm 在学习文件与目录的管理的一些命令之前&#xff0c;我们先…

JMeter使用记录

文章目录 概述从0创建一个测试场景线程组配置元件CSV Data Set ConfigHTTP信息头管理器HTTP Cookie管理器HTTP请求默认值 逻辑控制器简单控制器IF控制器循环控制器while控制器 取样器HTTP取样 前置/后置处理器BeanShell处理器JSR223处理器 监听器查看结果树聚合报告汇总报告 概…

[java入门到精通] 20 反射精讲

复习 1.索引&#xff1a;主要是提高查询性能。 2.索引分类&#xff1a;主键索引 唯一索引 普通索引 组合索引 全文索引 hash索引 3.索引底层数据结构是btree.非叶子结点是由&#xff1a;索引指针域 叶子结点&#xff1a;索引数据(数据地址)&#xff0c;是双链表 4.jdbc:java…

备考2025年AMC8竞赛:吃透2000-2024年600道真题(免费赠送真题)

我们继续来随机看五道AMC8的真题和解析&#xff0c;根据实践经验&#xff0c;对于想了解或者加AMC8美国数学竞赛的孩子来说&#xff0c;吃透AMC8历年真题是备考最科学、最有效的方法之一。 即使不参加AMC8竞赛&#xff0c;吃透了历年真题600道和背后的知识体系&#xff0c;那么…

软考高级:系统工程方法(霍尔三维结构、切克兰德方法等)概念和例题

作者&#xff1a;明明如月学长&#xff0c; CSDN 博客专家&#xff0c;大厂高级 Java 工程师&#xff0c;《性能优化方法论》作者、《解锁大厂思维&#xff1a;剖析《阿里巴巴Java开发手册》》、《再学经典&#xff1a;《Effective Java》独家解析》专栏作者。 热门文章推荐&am…

网络学习:9个计算机的“网络层”知识点

目录 一、IP 地址 1.1 分类表示法&#xff1a; 1.1.1 分类表示地址的其他说明 1.2 无分类编址 CIDR 二、IP 数据报文格式 Q: IP 报文里有什么&#xff1f;可以不按顺序或者字节来讲一讲 三、 路由概念 3.1 路由表 3.2 路由网络匹配 3.3 ARP 解析 3.4 RARP 逆地址解析…

鸿蒙API9+axios封装一个通用工具类

使用方式&#xff1a; 打开Harmony第三方工具仓&#xff0c;找到axios&#xff0c;如图&#xff1a; 第三方工具仓网址&#xff1a;https://ohpm.openharmony.cn/#/cn/home 在你的项目执行命令&#xff1a;ohpm install ohos/axios 前提是你已经装好了ohpm &#xff0c;如果没…

ctf_show笔记篇(web入门---代码审计)

301&#xff1a;多种方式进入 从index.php页面来看 只需要访问index.php时session[login]不为空就能访问 那么就在访问index.php的时候上传login 随机一个东西就能进去从checklogin页面来看sql注入没有任何过滤 直接联合绕过 密码随意 还有多种方式可以自己去看代码分析 30…