Accelerate 1.0.0

news/2024/11/16 7:52:38/文章来源:https://www.cnblogs.com/huggingface/p/18428997

Accelerate 发展概况

在三年半以前、项目发起之初时,Accelerate 的目标还只是制作一个简单框架,通过一个低层的抽象来简化多 GPU 或 TPU 训练,以此替代原生的 PyTorch 训练流程:

Sylvain’s tweet announcing accelerate

自此,Accelerate 开始不断扩展,逐渐成为一个有多方面能力的代码库。当前,像 Llama 这样的模型已经达到了 405B 参数的量级,而 Accelerate 也致力于应对大模型和大规模训练所面临的诸多难题。这其中的贡献包括:

  • 灵活、低层的训练 API: 支持在六种不同硬件设备 (CPU、GPU、TPU、XPU、NPU、MLU) 上训练,同时在代码层面保持 99% 原有训练代码不必改动。
  • 简单易用的 命令行界面: 致力于在不同硬件上进行配置,以及运行训练脚本。
  • Big Model Inference 功能,或者说是 device_map="auto" : 这使得用户能够在多种不同硬件设备上进行大模型推理,同时现在可以通过诸如高效参数微调 (PEFT) 等技术以较小计算量来训练大模型。

这三方面的贡献,使得 Accelerate 成为了 几乎所有 Hugging Face 代码库 的基础依赖,其中包括 transformersdiffuserspefttrl

在 Accelerate 开发趋于稳定将近一年后的今天,我们正式发布了 Accelerate 1.0.0 —— Accelerate 的第一个发布候选版本。

本文将会详细说明以下内容:

  1. 为什么我们决定开发 1.0 版本?
  2. Accelerate 的未来发展,怎样结合 PyTorch 一同发展?
  3. 新版本有哪些重大改变?如何迁移代码到新版本?

为什么要开发 1.0

发行这一版本的计划已经进行了一年多。Acceelerate 的 API 集中于 Accelerator 一侧,配置简单,代码扩展性强。但是,我们仍然认识到 Accelerate 还存在诸多有待完成的功能,这包括:

  • 为 MS-AMP 和 TransformerEngine 集成 FP8 支持 (详见 这里 和 这里)
  • 支持在 DeepSpeed 中使用多个模型 (详见 这里)
  • 使 torch.compile 支持大模型推理 API (需要 torch>=2.5 )
  • 集成 torch.distributed.pipelining 作为 替代的分布式推理机制
  • 集成 torchdata.StatefulDataLoader 作为 替代的数据载入机制

通过在 1.0 版本中作出的改动,Accelerate 已经有能力在不改变用户 API 接口的情况下不断融入新的技术能力了。

Accelerate 的未来发展

在 1.0 版本推出以后,我们将重点关注技术社区里的新技术,并寻找方法去融合进 Accelerate 中。可以预见,一些重大的改动将会不久发生在 PyTorch 生态系统中:

  • 作为支持 DeepSpeed 多模型的一部分,我们发现虽然当前的 DeepSpeed 方案还能正常工作,但后续可能还是需要大幅度改动整体的 API。因为我们需要为任意多模型训练场景去制作封装类。
  • 由于 torchao 和 torchtitan 逐渐变得受欢迎,可以推测将来 PyTorch 可能会将这些集成进来成为一个整体。为了致力于更原生的 FP8 训练、新的分布式分片 API,以及支持新版 FSDP (FSDPv2),我们推测 Accelerate 内部和通用的很多 API 也将会更改 (希望改动不大)。
  • 借助 torchao /FP8,很多新框架也带来了不同的理念和实现方法,来使得 FP8 训练有效且稳定 (例如 transformer_enginetorchaoMS-AMPnanotron )。针对 Accelerate,我们的目标是把这些实现都集中到一个地方,使用简单的配置方法让用户探索和试用每一种方法,最终我们希望形成稳定灵活的代码架构。这个领域发展迅速,尤其是 NVidia 的 FP4 技术即将问世。我们希望不仅能够支持这些方法,同时也为不同方法提供可靠的基准测试,来和原生的 BF16 训练对比,以显示技术趋势。

我们也对 PyTorch 社区分布式训练的发展感到期待,希望 Accelerate 紧跟步伐,为最近技术提供一个低门槛的入口。也希望社区能够继续探索实验、共同学习,让我们寻找在复杂计算系统上训练、扩展大模型的最佳方案。

如何使用 1.0 版本

如想使用 1.0 版本,需要先使用如下方法获取 Accelerate:

  • pip:
pip install --pre accelerate
  • Docker:
docker pull huggingface/accelerate:gpu-release-1.0.0rc1

可用的版本标记有:

  • gpu-release-1.0.0rc1
  • cpu-release-1.0.0rc1
  • gpu-fp8-transformerengine-release-1.0.0rc1
  • gpu-deepspeed-release-1.0.0rc1

代码迁移指南

下面是关于弃用 API 的详细说明:

  • Accelerator() 传递 dispatch_batchessplit_batcheseven_batchesuse_seedable_sampler 参数的这种方式已经被弃用。新的方法是创建一个 accelerate.utils.DataLoaderConfiguration() 然后传给 Accelerator() (示例: Accelerator(dataloader_config=DataLoaderConfiguration(...)) )。
  • Accelerator().use_fp16AcceleratorState().use_fp16 已被移除。新的替代方式是检查 accelerator.mixed_precision == "fp16"
  • Accelerator().autocast() 不再接收 cache_enabled 参数。该参数被包含在 AutocastKwargs() 里 (示例: Accelerator(kwargs_handlers=[AutocastKwargs(cache_enabled=True)]) )。
  • accelerate.utils.is_tpu_availableaccelerate.utils.is_torch_xla_available 替代。
  • accelerate.utils.modeling.shard_checkpoint 应被 huggingface_hub 里的 split_torch_state_dict_into_shards 替代。
  • accelerate.tqdm.tqdm() 的第一个参数不再是 True /Falsemain_process_only 需要以命名参数的形式传参。
  • ACCELERATE_DISABLE_RICH 不再是一个有效的环境变量。用户需通过设置 ACCELERATE_ENABLE_RICH=1 手动启动详细的回溯 (traceback) 信息。
  • FSDP 中的 fsdp_backward_prefetch_policy 已被 fsdp_backward_prefetch 代替。

总结

首先感谢使用 Accelerate,看到一个小的想法转变成一个总下载量超过一亿、日均下载量接近三十万的项目还是很令人惊叹的。

通过本版发行,我们希望社区能够踊跃尝试,尽快在官方发行版出现前迁移到 1.0 版本。

请大家持续关注,及时追踪我们 GitHub 和 社交软件 上的最新信息。


英文原文: https://hf.co/blog/accelerate-v1

原文作者: Zachary Mueller, Marc Sun, Benjamin Bossan

译者: hugging-hoi2022

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/802812.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CloudFlare对接来此加密:实现域名自动验证 快速申请证书

使用ACME可以方便的申请证书,其中相对比较麻烦的是如何自动验证域名。 CloudFlare有两种接口凭证对接方式。 a)具有限制性的API Tokens。 b)具有所有权限的API Keys。 为了安全起见,来此加密只采用具有限制性的API Tokens,用户可以随时取消或修改,以保护CloudFlare的安全。…

后台管理前端设计器,个人商用1999!源码学习

WEB组态和大屏设计器,在IoT项目中十分常见,通常是这样:WEB组态 大屏设计器 但实际项目除了展示,通常还有后台管理。此前,这部分通常需要vue开发。有了UIOTOS,就能0基础,组态一样,搭建整个管理界面。 示例效果 这是一款前端零代码组态工具,无需学习js、html、css,能…

政企高校智能问答机器人系统-源码搭建部署

我们提供政企高校智能问答机器人系统,独立源码搭建部署 演示效果如图: 维♥:llike620十年开发经验程序员,离职全心创业中,历时三年开发出的产品《唯一客服系统》一款基于Golang+Vue开发的在线客服系统,软件著作权编号:2021SR1462600。一套可私有化部署的网站在线客服系统…

裸露土堆智能识别检测系统

裸露土堆智能识别检测系统基于yolo计算机视觉深度学习技术,裸露土堆智能识别检测系统实时识别城市周边施工建筑工的土堆裸露情况,若裸露土堆智能识别检测系统发现画面中的土堆有超过40%部分没被绿色防尘网覆盖,系统则判定为裸露土堆进行抓拍预警回传到后台大数据监控平台,减…

CodeMaid:一款基于.NET开发的Visual Studio代码简化和整理实用插件

前言 今天大姚给大家分享一款由.NET开源、免费、强大的Visual Studio代码简化、整理、格式化实用插件:CodeMaid。 工具介绍 CodeMaid是一款由.NET开源、免费、强大的Visual Studio实用插件,旨在帮助开发者简化、清理和格式化他们的C#、C++、VB.NET、F#、XAML、CSS、LESS、SCS…

煤矿皮带跑偏撕裂智能检测系统

煤矿皮带跑偏撕裂智能检测系统能够通过深度学习技术实时监测运输皮带的状况,当煤矿皮带跑偏撕裂智能检测系统监测到皮带出现撕裂跑偏时,立刻抓拍告警并中止皮带的运输,及时通知后台工作人员在第一时间到现场维修皮带。煤矿皮带跑偏撕裂智能检测系统可以提升后台监控人员对煤…

5号电池的相关科普

电池串联起来容量会增加吗? 当电池串联时,它们的电压会相加,但容量(即电池可以存储的电荷量)并不会改变。这意味着虽然电压提高了,但每个电池的存储能力并没有增强。因此,从容量角度看,串联电池并不会增加整体容量。对于问题中提到的“两组(2V100只串联300Ah)的电池组…

github pages使用cloudflare加速自定义域名概要

首先,整个操作涉及三个管理方githubpages cloudflare的DNS解析设置 自定义域名的解析设置其次,你需要知悉这些内容DNS及CNAME解析 github pages的基本部署 域名的基础管理 cloudflare的基本域名添加及解析管理概要步骤 github pages部分在github pages页面,先启用部署(Buil…

在 Xbox 主机上如何游戏录屏和游戏直播 All In One

在 Xbox 主机上如何游戏录屏和游戏直播 All In One在 Xbox 主机上如何游戏录屏和游戏直播 All In One errorsXbox 自带的游戏录屏分享只能录制 1分钟时长 💩solutions如何在 Xbox 上实时流式传输https://support.xbox.com/zh-SG/help/friends-social-activity/live-streaming…

visual studio 调试技巧

visual studio 调试技巧 概述 在使用visual studio 进行调试的时候,有几个调试方法很好用,这里做一些记录。 GTEST 单元测试 参考 VS2022创建C C++ GTEST工程 - Hello-FPGA - 博客园 (cnblogs.com) 内存查看 命令行测试动态库 附加到进程调试动态库 内存查看图 2‑1 内存查看…

python打包的exe文件为什么有时候运行很慢有时候很快?

大家好,我是Python进阶者。 一、前言 前几天在Python最强王者交流群【哎呦喂 是豆子~】问了一个Python打包处理的问题。问题如下: 大佬们 请问下 你们有没有遇到这种情况 python打包的exe文件为什么有时候运行很慢有时候很快? 同一个exe文件 有时候等个5秒就可以弹出输…