DeepSpeed4Science:利用先进的AI系统优化技术实现科学发现

本文转载自微软 DeepSpeed 团队官方知乎账号:zhihu.com/people/deepspeed,由微软 DeepSpeed 团队翻译自官方英文博客:Announcing the DeepSpeed4Science Initiative: Enabling large-scale scientific discovery through sophisticated AI system technologies,本文略作调整。

deepspeed4science-1

在接下来的十年中,深度学习可能会彻底改变自然科学,增强我们对自然现象进行建模和预测的能力。这可能预示着科学探索的新时代,为从药物开发到可再生能源的各个领域带来重大进展。为了响应这一机会以及微软“予力全球每一人、每一组织,成就不凡”的使命,微软 DeepSpeed 团队启动了一个名为 DeepSpeed4Science 的新计划,旨在通过 AI 系统技术创新帮助领域专家解锁当今最大的科学之谜。

DeepSpeed 系统是由微软开发的业界领先的开源 AI 系统框架,它为各种 AI 硬件上的深度学习训练和推理提供了前所未有的规模和速度。图1展示了我们对 DeepSpeed4Science 这一新计划的基本方法。通过利用 DeepSpeed 当前的技术方案(训练、推理和压缩)作为基础技术推动器,DeepSpeed4Science 将创建一套专为加速科学发现而量身定制的 AI 系统技术,以应对其独特的复杂性,超越用于加速通用大型语言模型(LLMs)的常见技术方法。我们与拥有科学 AI 模型的内部和外部团队紧密合作,以发现和解决领域特定 AI 系统的挑战。这包括气候科学、药物设计、生物学理解、分子动力学模拟、癌症诊断和监测、催化剂/材料发现、和其他领域。

图1:DeepSpeed4Science 方法概述:专为加速科学发现和应对其复杂性而量身定制的 AI 系统技术开发。

图1:DeepSpeed4Science 方法概述:专为加速科学发现和应对其复杂性而量身定制的 AI 系统技术开发。

我们的长期愿景是将 DeepSpeed4Science 发展成一个用于分享支持科学发现的先进 AI 技术的软件平台和统一代码仓库。DeepSpeed4Science 的设计旨在包容性,呼应微软的“AI for Good”承诺。这体现在该计划对一系列标志性科学模型的支持上,他们代表了一些最关键的 AI4Science 应用场景。在这篇博客中,我们展示了 DeepSpeed4Science 如何帮助解决结构生物学研究中的两个关键 AI 系统挑战:(1) 解决了以 Evoformer 为中心的蛋白质结构预测模型中的内存爆炸问题,以及(2)为更好地理解引发大流行的病毒的进化提供 AI 模型长序列支持。

我们的初期主要合作者

DeepSpeed4Science 的新系统技术可以用于很多推动科学边界的标志性模型,赋能 AI 驱动的科学发现。目前,DeepSpeed4Science 很荣幸地支持来自微软研究院 AI4Science(微软研究院科学智能中心)、微软 WebXT/Bing、美国能源部国家实验室和多所大学的几个关键科学模型。

微软内部合作伙伴

  • 科学基础模型(Scientific Foundation Model,SFM),微软研究院 AI4Science

deepspeed4science-3

图2:科学基础模型(Scientific Foundation Model,SFM)及其当前探索:Distributional Graphormer。

图2:科学基础模型(Scientific Foundation Model,SFM)及其当前探索:Distributional Graphormer。

科学基础模型(SFM)旨在创建一个大规模基础模型,以支持自然科学发现。其支持多种输入模态、多个科学领域(例如,药物、材料、生物学、健康等)的计算任务。DeepSpeed4Science 合作伙伴关系将为 SFM 团队提供新的训练和推理技术,以助力他们的新 AI 方法(例如Distributional Graphormer),为其带来更高的效率与更多的研究突破。

  • ClimaX,微软研究院 AI4Science

图3:ClimaX 是第一个设计用于执行各种天气和气候建模任务的基础模型

图3:ClimaX 是第一个设计用于执行各种天气和气候建模任务的基础模型

我们的气候正在发生变化,导致极端天气事件的频率增加。为了减轻负面影响,预测这些事件将发生的地方变得越来越重要。ClimaX 是第一个设计用于执行各种天气和气候建模任务的基础模型。它可以吸收许多具有不同变量和分辨率的数据集以提高天气预报的准确性。DeepSpeed4Science 正在为 ClimaX 创建新的系统支持和加速策略,以高效地预训练/微调更大的基础模型,同时处理非常大的高分辨率图像数据(例如,数十到数百PB)和长序列。

  • 分子动力学与机器学习力场 (Molecular Dynamics and Machine Learning Force Field),微软研究院 AI4Science

图4:一百万步的分子动力学模拟:RBD-蛋白(RBD-protein)与蛋白抑制剂(protein inhibitor)相互作用。

图4:一百万步的分子动力学模拟:RBD-蛋白(RBD-protein)与蛋白抑制剂(protein inhibitor)相互作用。

这个项目模拟了使用 AI 驱动的力场模型进行近似第一性原理计算精度的大型(百万原子)分子系统的动态模拟,同时保持了经典分子动力学的效率和可扩展性。这些模拟足够高效,可以生成足够长的轨迹来观察化学上有意义的事件。通常,这个过程需要数百万至数十亿的推理步骤。这对优化图神经网络(GNN)+ LLM 模型的推理速度提出了重大挑战,DeepSpeed4Science 将为此提供新的加速策略。

  • 微软天气,微软WebXT/Bing

图5:微软降水预报(每4分钟一次对接下来4小时进行预测)。

图5:微软降水预报(每4分钟一次对接下来4小时进行预测)。

微软天气提供精确的天气信息,帮助用户为他们的生活方式、健康、工作和活动做出更好的决策——包括每小时多次更新的准确的10天全球天气预报。此前,微软天气受益于 DeepSpeed 技术,加速了他们的多 GPU 训练环境。目前,DeepSpeed4Science 正在与微软 WebXT 天气预报团队合作,进一步增强微软天气预报服务的最新功能和改进。

外部合作者

DeepSpeed4Science 的旅程始于两个开创性的基于 LLM 的结构生物学研究 AI 模型:来自哥伦比亚大学的 OpenFold,一个开源的高保真蛋白质结构预测模型;以及来自阿贡国家实验室的 GenSLMs,一个获得 ACM 戈登贝尔奖的用于学习 SARS-CoV-2(COVID-19) 基因组的进化的语言模型。作为此次发布的特色展示,它们代表了当今 AI 驱动的结构生物学研究面临的两个常见 AI 系统挑战。我们将在下一节中讨论 DeepSpeed4Science 如何赋能这些科学研究。

此外,DeepSpeed4Science 最近扩大了其范围,以支持更多样的科学模型。例如,在我们与阿贡国家实验室合作训练 Aurora Exascale 系统上的万亿参数科学模型的工作中,DeepSpeed4Science 技术将帮助他们达到这一关键任务所需的性能要求和可扩展性。此外,通过与橡树岭国家实验室和国家癌症研究所(NCI)合作进行癌症监测,DeepSpeed4Science 将帮助从非结构化的临床文本中高保真地提取和分类信息,以供 MOSSAIC 项目使用。Brookhaven 国家实验室还将采用 DeepSpeed4Science 技术,支持使用 LLMs 开发大型数字双胞胎模型,以便为清洁能源研究产生更真实的模拟数据。您可以在 deepspeed4science.ai 上找到有关我们外部合作者及其科学任务的更多详细信息。

合作展示

展示(I):DeepSpeed4Science 通过 DS4Sci_EvoformerAttention 消除以 Evoformer 为中心的结构生物学模型的内存爆炸问题

deepspeed4science-8

图6:在训练过程中 OpenFold 对 PDB 链7B3A_A的预测。

图6:在训练过程中 OpenFold 对 PDB 链7B3A_A的预测。

OpenFold 是 DeepMind 的 AlphaFold2 的开源社区再现,使其可以在新数据集上训练或微调 AlphaFold2。研究人员已经使用它从头开始重新训练 AlphaFold2,生成新的模型参数集,研究 AlphaFold2 的早期训练阶段(图6),并开发新的蛋白质折叠系统。

图7:在 OpenFold 中,对多序列比对(MSA)Attention 内核(包含偏差)变体的训练峰值内存需求。DeepSpeed4Science 的一种新解决方案 DS4Sci_EvoformerAttention 在不影响模型品质的条件下显著地减少了 OpenFold 的训练峰值内存需求(最多13倍)。

图7:在 OpenFold 中,对多序列比对(MSA)Attention 内核(包含偏差)变体的训练峰值内存需求。DeepSpeed4Science 的一种新解决方案 DS4Sci_EvoformerAttention 在不影响模型品质的条件下显著地减少了 OpenFold 的训练峰值内存需求(最多13倍)。

尽管 OpenFold 有使用最先进的系统技术进行性能和内存优化,但从头开始训练 AlphaFold2 仍然在计算上很昂贵。目前阶段的模型参数很小,只有9300万个参数,但它包含了几个需要非常大的中间内存的特殊 Attention 变体。在标准 AlphaFold2 训练的“微调”阶段,只是这些变体中的其中一个在半精度下就生成了超过 12GB 的张量,使其峰值内存要求远远超过了相同大小的语言模型。即使使用像 activation checkpointing 和 DeepSpeed ZeRO 优化这样的技术,这种内存爆炸问题仍然严重限制了可训练模型的序列长度和 MSA 深度。此外,近似策略可能会显著影响模型的准确性和收敛性,同时仍然导致内存爆炸,如图7左侧(橙色)所示。

为了应对结构生物学研究(例如,蛋白质结构预测和平衡分布预测)中的这一常见系统挑战,DeepSpeed4Science 通过为这类科学模型中广泛出现的注意力变体(即 EvoformerAttention)设计定制的精确注意力内核来解决这一内存效率问题。具体来说,我们设计了一套由复杂的融合/矩阵分块策略和动态内存减少方法而组成的高内存效率 DS4Sci_EvoformerAttention 内核,作为高质量机器学习模块供更广泛的生物学研究社区使用。通过整合到 OpenFold 中,这些定制内核在训练期间提供了显著的加速,并显著减少了模型的训练和推理的峰值内存需求。这使得 OpenFold 可以用更大、更复杂的模型,使用更长的序列在更广泛的硬件上进行实验。关于这项技术的详细信息可以在这里找到:https://deepspeed4science.ai/2023/09/18/model-showcase-openfold/

展示(II):DeepSpeed4Science 通过系统和算法方法为基因组基础模型(例如,GenSLMs)提供长序列支持

图8:GenSLMs:获2022年 ACM 戈登贝尔奖的 COVID 基因组模型(基于 GPT-NeoX 的 25B/33B 模型)。它用于学习描述 SARS-CoV-2 基因组生物学意义的潜在空间。这个 GIF 展示了一个重要的蛋白质家族苹果酸脱氢酶(malate dehydrogenase)的根据重要特征着色的潜在空间的投影。

GenSLMs,一个来自阿贡国家实验室的2022年 ACM 戈登贝尔奖获奖的基因组模型,可以通过大型语言模型(LLMs)的基因组数据训练来学习 SARS-CoV-2(COVID-19)基因组的进化。它旨在改变如何识别和分类引发大流行的病毒(特别是 SARS-CoV-2)的新变种。GenSLMs 代表了第一批可以泛化到其他预测任务的基因组基础模型。对潜在空间的良好理解可以帮助 GenSLMs 处理超出仅仅是病毒序列的新领域,并扩展它们模拟细菌病原体甚至真核生物的能力(例如,理解功能、途径成员资格和进化关系等事物)。为了实现这一科学目标,GenSLMs 和类似的模型需要非常长的序列支持用于训练和推理,这超出了像 FlashAttention 这样的通用 LLM 的长序列策略。通过 DeepSpeed4Science 的新设计,科学家现在可以构建和训练具有显著更长的上下文窗口的模型,允许他们探索以前无法访问的关系。

图9:由不同框架在不同规模下支持的两个 GenSLMs 模型的最大序列长度。使用 NVIDIA DGX,每个节点有八个40G A100 GPU。

图9:由不同框架在不同规模下支持的两个 GenSLMs 模型的最大序列长度。使用 NVIDIA DGX,每个节点有八个40G A100 GPU。

具体在系统层面,我们发布了包括长序列支持和其他新优化的最新的 Megatron-DeepSpeed 框架。科学家现在可以通过我们新添加的内存优化技术(如注意力掩码异步处理和位置码分割)、张量并行、流水线并行、序列并行、基于 ZeRO 的数据并行和模型状态异步处理等技术的协同组合,用更长的序列训练他们的 GenSLMs 等大型科学模型。图9展示了我们的新版本使 GenSLMs 的25B和33B模型的最长序列长度分别比之前的 Megatron-DeepSpeed 版本增加了12倍和14倍。在支持的序列长度方面,这个新 Megatron-DeepSpeed 框架也显著地超过了 NVIDIA 的 Megatron-LM(对于25B和33B模型分别高达9.8倍和9.1倍)。例如,阿贡实验室团队的 GenSLMs 25B 模型在64个 GPU 上的原始序列长度为42K,而现在可以用512K的核苷酸序列进行训练。这在不损失准确性的条件下大大提高了模型质量和科学发现的范围。对于那些更喜欢相对位置编码技术这样的算法策略的领域科学家,这个新版本也进行了集成。

总结和路线图

我们非常自豪和兴奋地宣布 DeepSpeed4Science 计划以及几个研发亮点和成果。从今天开始,我们将在 deepspeed4science.ai 上介绍我们的新计划,包括关于我们的外部合作者的信息,以及当前和未来的 DeepSpeed4Science 技术发布。我们的一个高层次目标是推广广泛解决大规模科学发现的主要系统痛点的 AI 系统技术。我们希望全球的科学家们能够从 DeepSpeed4Science 通过开源软件解锁的新功能中受益。我们期待更好地了解阻碍您的科学发现的 AI 系统设计挑战。我们真诚地欢迎您的参与,帮助构建一个更有前途的 AI4Science 未来。请给我们发送电子邮件至 deepspeed-info@microsoft.com。我们鼓励您在我们的 DeepSpeed GitHub 上报告问题、贡献 PR、参与讨论。

致谢

Core DeepSpeed4Science Team:

Shuaiwen Leon Song (DeepSpeed4Science lead), Minjia Zhang, Conglong Li, Shiyang Chen, Chengming Zhang, Xiaoxia (Shirley) Wu, Masahiro Tanaka, Martin Cai, Adam Graham, Charlie Zhou, Yuxiong He (DeepSpeed team lead)

Our Founding Collaborators (in alphabetical order):

Argonne National Lab team: Rick Stevens, Cristina Negri, Rao Kotamarthi, Venkatram Vishwanath, Arvind Ramanathan, Sam Foreman, Kyle Hippe, Troy Arcomano, Romit Maulik, Maxim Zvyagin, Alexander Brace, Yuntian Deng, Bin Zhang, Cindy Orozco Bohorquez, Austin Clyde, Bharat Kale, Danilo Perez-Rivera, Heng Ma, Carla M. Mann, Michael Irvin, J. Gregory Pauloski, Logan Ward, Valerie Hayot, Murali Emani, Zhen Xie, Diangen Lin, Maulik Shukla, Weili Nie, Josh Romero, Christian Dallago, Arash Vahdat, Chaowei Xiao, Thomas Gibbs, Ian Foster, James J. Davis, Michael E. Papka, Thomas Brettin, Anima Anandkumar

AMD: Ivo Bolsen, Micheal Schulte, Bo Begole, Angela Dalton, Steve Reinhart, Ashwin Aji, Jalal Mahmud, Mahesh Balashibramanian

Brookhaven National Lab team: Adolfy Hoisie, Shinjae Yoo, Yihui Ren.

Columbia University OpenFold team: Mohammed AlQuraishi, Gustaf Ahdritz

Microsoft Research AI4Science team: Christopher Bishop, Bonnie Kruft, Tie-Yan Liu, Christian Bodnar, Wessel Bruinsma, Chan Cao, Yuan-Jyue Chen, Peggy Dai, Patrick Garvan, Liang He, Elizabeth Heider, PiPi Hu, Peiran Jin, Fusong Ju, Yatao Li, Chang Liu, Renqian Luo, Qi Meng, Frank Noé, Tao Qin, Janwei Zhu, Bin Shao, Yu Shi, Wenlei Shi, Gregor Simm, Megan Stanley, Lixin Sun, Yue Wang, Tong Wang, Zun Wang, Lijun Wu, Yingce Xia, Leo Xia, Shufang Xie, Shuxin Zheng, Jianwei Zhu

Oakridge National Lab team: Prassana Balaprakash, Georgia Tourass

Princeton University: William Tang, Kyle Felker, Alexey Svyatkovskiy (Microsoft liaison)

Rutgers University: Hang Liu

WebXT Weather team: Pete Luferenko, Divya Kumar, Jonathan Weyn, Ruixiong Zhang, Sylwester Klocek, Volodymyr Vragov

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/125042.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

京东商品详情数据接口用于上货,数据分析,

京东商品详情数据接口是开放平台提供的一种API接口,在电商平台中可以用于获取商品的详细信息,它是基于HTTP/HTTPS请求和JSON/ATP响应格式的RESTful API,通过调用API接口,开发者可以获取商品的标题、描述、图片等详细信息&#xff…

正向代理和反向代理

正向代理和反向代理 1.正向代理和反向代理,squid,Nginx2.正向代理主要作用:3.反向代理主要作用:4.透明代理 1.正向代理和反向代理,squid,Nginx 1.用途不同:正向代理的典型用途是为在防火墙内的…

苹果签名有多少种类之TF签名(TestFlight签名)是什么?优势是什么?什么场合需要应用到?

(一)TestFlight 能够让您:邀请内部和外部的测试人员为应用程序提供反馈。 跟踪应用程序在测试过程中发现的 bug 和用户体验问题。 收集 Crash 报告,了解应用程序在真实设备上的运行状况。 要使用 TestFlight,您可以按照…

XFTP上传文件状态出现错误的原因和解决方案

这几天有时候会出现XFTP会出现上传的时候状态出现错误的情况,我没那么在意,但是今天要传比较重要的东西,结果没办法传,我参考了这个方法,但是感觉修改用户组的权限是正确的可能解释的没那准确 之后我是直接把XFTP的登陆…

【C++】STL详解(十)—— 用红黑树封装map和set

​ ​📝个人主页:Sherry的成长之路 🏠学习社区:Sherry的成长之路(个人社区) 📖专栏链接:C学习 🎯长路漫漫浩浩,万事皆有期待 上一篇博客:【C】STL…

linux 笔记 安装 anaconda

1 找到anaconda 安装包 Free Download | Anaconda 2 在linux环境中安装对应安装包 3 安装完毕后查看是否安装好 发现不行,需要配置环境变量 4 配置环境变量 vim /etc/profile使用这个,发现对应的文件是只读文件 sudo vim /etc/profile在最下面加一…

Redis key基本使用

查看key的数据类型 string 、hash等 type key 查看key是否存在 exist key1 查看key的有效期 -1:永不过期 -2:已过期 设置key过期时间 expire key seconds expireat key 日期 key移动到其它库 move key index redis 默认是16个库 0,1,2,…15 切换数据库【…

线程的概述

#include <pthread.h> int pthread_create(pthread_t *thread, const pthread_attr_t *attr, void *(*start_routine) (void *), void *arg); 功能&#xff1a;创建一个子线程 参数&#xff1a; -thread:传出参数&#xff0c;线程创建成功后&#xff0c;子线程的ID被写到…

十天学完基础数据结构-第三天(数组(Array))

数组的基本概念 数组是一种线性数据结构&#xff0c;用于存储相同数据类型的元素。它具有以下基本概念&#xff1a; 元素&#xff1a;数组中的每个数据项称为元素&#xff0c;可以是整数、浮点数、字符等。 索引&#xff1a;每个元素在数组中都有一个唯一的位置&#xff0c;称…

【国漫逆袭】人气榜,小医仙首次上榜,霍雨浩排名飙升,不良人热度下降

Hello,小伙伴们&#xff0c;我是小郑继续为大家深度解析国漫资讯。 为了提升作品和角色的讨论度&#xff0c;增加平台的用户活跃度&#xff0c;小企鹅推出了动漫角色榜&#xff0c;该榜单以【年】【周】【日】为单位&#xff0c;通过角色的点赞量和互动量进行排名 上周的动漫角…

无状态自动配置 DHCPv6无状态配置 DHCPv6有状态配置

1、无状态自动配置 配置命令 AR1 ipv6 #开启路由器ipv6报文转发功能 interface GigabitEthernet0/0/0 ipv6 enable #开启路由器接口IPv6报文转发功能 ipv6 address FC01::1/64 …

智慧公厕如何实现?

随着城市化进程的加速&#xff0c;人们对公共设施的需求也日益增长。而公厕&#xff0c;作为城市基础设施的一部分&#xff0c;扮演着重要的角色。然而&#xff0c;传统的公厕存在着诸多问题&#xff0c;例如管理不善、环境脏乱等&#xff0c;给人们的生活带来了不便。为了改善…