大模型训练算力利用率达60%,蚂蚁开源分布式训练扩展库ATorch

近日,蚂蚁集团宣布开源大模型分布式训练加速扩展库ATorch。ATorch可针对不同模型和硬件资源,实现深度学习自动资源动态优化和分布式训练稳定性提升,帮助提升深度学习的智能性。据了解,在大模型训练中,ATorch千亿模型千卡级别训练的算力利用率可达60%,相当于为跑车装上了强劲的引擎。

(图:ATorch致力于让大模型训练更高效、可复现)

随着生成式大模型的爆发,模型训练的数据集和参数规模成指数级增长,要带动如此庞然大物,并且满足模型的快速迭代,分布式训练就成为了解题之道。在大模型开发工作中,很多开发者和研究人员采用PyTorch和TensorFlow深度学习框架,来构建和训练模型。业内已开展多项工作,为PyTorch等深度学习框架装上更加适用于大模型训练的“工具包”,本次蚂蚁开源的ATorch就是其中之一。

据了解,ATorch采用了分层的架构设计,功能清晰、设计全面,可为开发者提供极致精简的开发体验,以及领先的稳定性保障。主要包括统一分布式优化策略配置接口、自动分布式策略搜索、自动弹性容错、高效动态显存管理库、自研优化器加速收敛等核心功能。作为PyTorch框架的高性能扩展加速库,ATorch可实现最少化用户代码侵入,为千亿参数大模型千卡级训练提供易用的高性能方案。

近期在以开源模型为对象的大模型训练优化实践中,ATorch取得了优异的成绩。如,将清华大学开源的GLM-65b大模型千卡预训练算力利用率从28.8%提升至62%、Meta开发的LLama2-70b大模型预训练算力利用率从42%提升至60%、英国AI公司Stability AI 开发的多模态大模型Stable Diffusion训练算力利用率从21.8%提升至58.7%。此外,ATorch千卡训练稳定性表现优异,日均纯训练时长占比提升至95%,ckpt save耗时控制在1分钟,训练重启耗时最快5分钟,达到了行业领先水平。

目前,ATorch已集成到蚂蚁集团大模型训练开源产品DLRover中,这是蚂蚁集团基于云原生技术打造的智能分布式深度学习系统。ATorch的加入,将更大程度上帮助大模型开发能够专注于模型架构的设计,而无需处理工程方面的细节,让训练更高效、智能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/333716.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第7章 DOM(下)

学习目标 熟悉节点的概念,能够说出节点的属性和层级 掌握节点操作,能够完成节点的获取、创建、添加、移除和复制操作 掌握事件的进阶操作,能够实现事件的监听和移除 熟悉DOM事件流,能够说出事件捕获和事件冒泡两种方式的区别 …

JavaScript版数据结构与算法(一)栈、队列、链表、集合、树

一、前言 为什么要学习数据结构与算法?最重要的就是面试要考算法,另外就是如果在实际工作当中,能够使用算法优化代码,会提升代码质量和运行效率,作为一名前端人员可能在实际中用的并不是特别多。数据结构与算法是分不…

4.6 BOUNDARY CHECKS

我们现在扩展了tile矩阵乘法内核,以处理具有任意宽度的矩阵。扩展必须允许内核正确处理宽度不是tile宽度倍数的矩阵。通过更改图4.14中的示例至33 M、N和P矩阵,图4.18创建了矩阵的宽度为3,不是tile宽度(2)的倍数。图4.…

AI红娘开启约会新时代;网易云音乐Agent实践探索;微软生成式AI课程要点笔记;ComfyUI新手教程;图解RAG进阶技术 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 👀 Perplexity 官宣 7360 万美元B轮融资,打造世界上最快最准确的答案平台 https://blog.perplexity.ai/blog/perplexity-rais…

用js做点击切换携程旅游

样式&#xff1a; <style>.domestic {width: 1200px;margin: 50px auto;}.domestic span {padding: 2px 10px;margin: 10px 10px;border-radius: 12px;cursor: pointer;float: left;border: 1px solid transparent;}.domestic > div span:hover {border-color: #f66;b…

Gartner发布2024年SASE融合战略路线图

向云计算和远程工作的转变增加了 SASE 需求&#xff0c;以实现从任何设备的安全访问。安全和风险管理领导者必须将网络和安全融合到一两个明确合作的 SASE 供应商产品中&#xff0c;并淘汰遗留的边界系统。 主要发现 安全访问服务边缘 (SASE) 框架为混合劳动力以及设备、分支机…

QML —— 示例 - Component自定义组件及加载(附完整源码)

示例效果 介绍 Component 组件是可重用的、封装的QML类型&#xff0c;具有定义良好的接口。组件通常由组件文件定义&#xff0c;即.qml文件。组件类型本质上允许在QML文档中内联定义QML组件&#xff0c;而不是作为单独的QML文件。这可能有助于重用QML文件中的小组件&#xff0c…

Spring MVC(day1)

什么是MVC MVC是一种设计模式&#xff0c;将软件按照模型、视图、控制器来划分&#xff1a; M&#xff1a;Model&#xff0c;模型层&#xff0c;指工程中的JavaBean&#xff0c;作用是处理数据 JavaBean分为两类&#xff1a; 一类称为数据承载Bean&#xff1a;专门存储业务数据…

Vue-4、单向数据绑定与双向数据绑定

1、单向数据绑定 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>数据绑定</title><!--引入vue--><script type"text/javascript" src"https://cdn.jsdelivr.net/npm/…

Linux下安装JET2

0. 说明&#xff1a; JET2是一个基于Joint Evolutionary Trees的利用序列和结构信息预测蛋白质界面的软件&#xff0c;详情见: http://www.lcqb.upmc.fr/JET2/JET2.html&#xff0c;http://www.lgm.upmc.fr/JET/JET.html 和 https://doi.org/10.1371/journal.pcbi.1004580 本…

老鸟总结,性能测试-常用指标/指标评估及/通过标准(超级细)

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 1、性能压测–常用…

求求你,别再乱用@Transactional了

求求你&#xff0c;别再乱用Transactional了 文章目录 &#x1f50a;先看个问题&#x1f4d5;情况1情况1结果 &#x1f5a5;️情况2情况2结果 &#x1f4dc; 情况三情况3结果 &#x1f4d8;情况4情况4结果 &#x1f516;先说结论情况1结果情况2结果情况3结果情况4结果&#x1f…