GPU over IP/IB:趋动OrionX产品的创新之路

在数字化转型的浪潮中,GPU over IP/IB技术正成为数据中心和云计算领域的一股新兴力量。这种技术通过将物理GPU资源虚拟化,实现了跨网络的高效利用,为AI、机器学习、科学计算等高性能计算任务提供了前所未有的灵活性和扩展性。

本文将深入探讨这一技术的原理、优势以及趋动科技OrionX产品如何通过实现GPU over IP/IB技术,为企业的智算算力使用带来革命性的变革。

Part1

GPU over IP/IB技术

GPU over IP/IB技术是现代数据中心(智算中心)和云计算环境中的关键创新,它们允许GPU资源通过网络进行远程访问和高效利用。这种技术的核心在于,它能够将物理GPU的计算资源抽象为虚拟化的GPU(vGPU),使得这些资源可以在网络中的任何位置被调用,就像访问本地资源一样。这种能力极大地扩展了GPU的应用范围,使得原本局限于单个机器的GPU资源得以在更广阔的网络环境中共享和利用。

GPU over IP技术通过TCP/IP网络实现,而GPU over IB则依赖于InfiniBand网络,后者提供了更低的延迟和更高的带宽,适合于大规模并行计算,智算中心和数据中心环境。

Part2

GPU资源网络化的必要性

在当今这个数据驱动的时代,GPU作为并行处理的强有力工具,在AI、机器学习、科学计算等领域扮演着至关重要的角色。然而,随着计算需求的激增,传统的GPU部署模式面临着一系列挑战:

· 资源利用率低:在传统的部署模式下,每个GPU通常被绑定到特定的机器上,这导致在某些情况下,GPU可能处于空闲状态,而其他机器的GPU则可能过载。

· 成本高昂:为了满足不断增长的计算需求,企业不得不投入巨资购买更多的GPU硬件,这不仅增加了初期投资,还带来了维护和管理的复杂性。

· 灵活性不足:物理GPU的部署位置限制了AI应用的部署灵活性,使得资源的动态调整变得困难。

为了克服这些挑战,GPU over IP/IB技术应运而生。它通过将GPU资源虚拟化并通过网络进行管理,实现了资源的动态分配和优化利用。这样,企业可以根据实际需求,灵活地调整GPU资源,确保资源始终得到高效利用,同时降低了成本和运维复杂度。

此外,这种技术还支持跨地域的资源统一管理调度,使得企业能够构建更加灵活和可扩展的计算环境,以适应不断变化的业务需求。

Part3

OrionX-GPU over IP/IB技术实践者

趋动科技的OrionX(猎户座)AI算力资源池化解决方案是GPU over IP/IB技术的实践者和领导者。OrionX通过软件定义算力,颠覆了原有的AI应用直接调用物理GPU的架构,增加了软件层,将AI应用与物理GPU解耦合。AI应用调用逻辑的vGPU,再由OrionX将vGPU需求匹配到具体的物理GPU。这一架构实现了GPU资源池化,让用户高效、智能、灵活地使用GPU资源,达到了降本增效的目的。

图片

Figure 1:趋动产品OrionX逻辑架构图

OrionX的产品功能和特性包括:

· 资源池化:OrionX帮助客户构建数据中心级AI算力资源池,使用户应用无需修改就能透明地共享和使用数据中心内任何服务器之上的AI算力。

· 动态资源分配:OrionX支持将GPU切片为任意大小的vGPU,允许多AI负载并行运行,提高物理GPU利用率。

· 高性能:OrionX本地vGPU性能损耗几乎为零,远程vGPU性能损耗小于2%,确保了计算任务的高效执行。

· 弹性扩展:支持从单台到整个数据中心GPU服务器纳管,通过RDMA(IB/RoCE)或TCP/IP网络连接各个节点,实现资源池弹性扩展。

· 灵活调度:支持AI负载与GPU资源分离部署,CPU与GPU资源解耦合,有助于最大化数据中心基础设施价值。

· 全局管理:提供GPU资源管理调度策略,GPU全局资源池性能监控,为运维人员提供直观的资源利用率等信息。

· 对AI开发者友好:一键解决AI开发者面临的训练模型中GPU/CPU配比和多机多卡模型拆分问题,节省大量宝贵时间。

Part4

OrionX与其它GPU虚拟化技术对比

在整个技术领域,全球范围内真正提供GPU over IP/IB的厂商屈指可数。

之前有Bitfusion,2019年被VMware收购,2023年5月5日后已经不对外销售。再之前,有一个学校的研究项目是rCUDA,这是一个闭源的软件,提供的是二进制文件,可以申请下载试用,但不得用于商业用途,其支持的CUDA版本基本都是8.0,已经有很多年没有人维护了。趋动科技在这个领域深耕,从2019年成立以来,专注在软件定义AI算力领域,真正让基于GPU over IP/IB技术的产品在企业、智算中心部署和发挥巨大价值。

传统的GPU虚拟化技术,例如大家熟知的Nvidia的GRID(vGPU)软件,是2013年发布的主要面向Hypervisor用以支持虚拟机更好的使用GPU,在那个年代,人工智能尚未爆发,更多的使用场景是VDI,即大家熟悉的Citrix和VMware的虚拟桌面方案,用以在制造和设计领域,更好的利用GPU资源。这种方案是基于静态固定等比切分的理念给予虚拟机更小颗粒度的GPU以实现资源共享。

之后随着容器逐渐渗入企业,一些基于容器的GPU共享技术开始出现,例如开源的GPU Manager/cGPU等,这类方案也是遵循类似的思路,针对单张GPU卡,按照业务的需求,采用细颗粒度算力和显存的静态分配。在常见的K8S Yaml文件里你可以看到不同厂家的资源设置参数如下:

xxx.xxx.xxx/vcuda-core: n #申请的vGPU的数量,指的是一个容器内可以用几个vGPU

xxx.xxx.xxx/vcuda-memory: n #申请的vGPU所使用的显存大小

xxx.xxx.xxx/vcuda-ratio: n #申请的vGPU所使用的算力占整卡的百分比

此类方案只能采用静态分配,其vGPU的数量受到Pod所在节点的GPU数量的限制,无法跨越单机的范畴,无法在一个GPU的资源池里通过网络来获取GPU资源池的资源。该类方案实现了容器的GPU资源共享,但是相当于把多个鸡蛋放在一个篮子里,如果没有高可用的方案对于业务的高可用会带来较大的风险。在虚拟机领域,VMware早些年已经支持了带vGPU的VM的热迁移的能力,配合其HA/DRS给企业的业务带来更大的业务保障。

所以,本质上来讲,趋动的OrionX和此类VM或容器GPU共享方案不仅技术路线不一样,实现的功能不一样,而且,看到的愿景也完全不一样——一个看到的是网络联通的整个GPU资源池,一个仅仅是单服务器节点内的卡。

一个典型的GPU over IP/IB的部署架构如下:

图片

Figure2: CPU和GPU服务器混合部署

新型智算中心推荐的就是这种支持多芯异构、解耦部署的架构,GPU和CPU/内存灵活配比,随需调用。

趋动科技深度参与的《中国移动NICC新型智算中心技术体系白皮书》里也有智算资源池化平台相关的阐述,请在第6章节进行查看。基于GPU池化的业务逻辑架构图如下:

图片

Figure 3:AI业务与AI算力池化

Part5

OrionX在企业中的应用与收益

在OrionX数百个企业中的应用案例表明,该技术能够有效提升GPU资源的利用率,降低硬件成本。企业通过OrionX构建的AI算力资源池,可以根据业务需求灵活调整资源分配,实现了资源的弹性扩展。此外,OrionX还支持与容器云平台的集成,进一步简化了AI应用的部署和管理,降低了运维复杂度。了解详细的客户案例,请浏览趋动科技官网和关注官方公众号。

结语

OrionX基于GPU over IP/IB的技术创新,不仅提高了GPU资源的利用率,还通过简化部署和管理流程,为企业的AI创新提供了强有力的支持。随着AI技术的不断进步,OrionX有望在更多行业中发挥其独特的价值,促进企业降本增效、节能减排,加速AI发展和业务创新,推动企业数字化转型和智能化升级。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/491932.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

时序预测 | Matlab实现基于GRNN广义回归神经网络的光伏功率预测模型

文章目录 效果一览文章概述源码设计参考资料效果一览 文章概述 1.时序预测 | Matlab实现基于GRNN广义回归神经网络的光伏功率预测模型 2.单变量时间序列预测; 3.多指标评价,评价指标包括:R2、MAE、MBE等,代码质量极高; 4.excel数据,方便替换,运行环境2020及以上。 广义回…

Python in Excel的一些使用心得

获得Python in Excel的preview之后, 就在任意的Excel单元格里可以敲py(来写Python代码了。不过Python in Excel并没有什么专门的文档, 只有一些_Get Started_教程, 比如link 1, link 2, 剩下的就是pandas, matplotlib, seaborn等lib的文章,和Python in Excel并没有什…

YOLOv9来了,可编程梯度信息与广义高效层聚合网络 助力全新检测SOTA前沿

本文首发:AIWalker 欢迎关注AIWalker,近距离接触底层视觉与基础AI技术 摘要 当今的深度学习方法侧重于如何设计最合适的目标函数,以便模型的预测结果最接近真实情况;与此同时,必须设计一个适当的架构,以便…

990-11产品经理:Team Building in Project Management 项目管理中的团队建设

Introduction One of the most important developments in management during the 1970’s has been the widespread application广泛应用 of project teams to a variety of complex tasks. Project managers quickly learn the critical significance批判意义 of the effect…

TMGM外汇开户需要提供以下材料:

TMGM外汇开户需要提供以下材料: 身份证明:通常需要提供有效的身份证明文件,如身份证、护照或驾驶执照等。 居住证明:您需要提供能够证明您居住地址的文件,如水电费账单、房屋租赁合同、居住证明信等。 银行账户信息&a…

OPENSSL-PKCS7入门知识介绍

1 PKCS7数据结构说明 p7包括6种数据内容:数据(data),签名数据(sign),数字信封数据(enveloped),签名数字信封数据(signed_and_enveloped),摘要数据&#xff08…

Linux系统前后端分离项目

目录 一.jdk安装 二.tomcat安装 三.MySQL安装 四.nginx安装 五.Nginx负载均衡tomcat 六.前端部署 一.jdk安装 1. 上传jdk安装包 jdk-8u151-linux-x64.tar.gz 进入opt目录,将安装包拖进去 2. 解压安装包 这里需要解压到usr/local目录下,在这里新建一个…

Qt程序设计-钟表自定义控件实例

本文讲解Qt钟表自定义控件实例。 效果如下: 创建钟表类 #ifndef TIMEPIECE_H #define TIMEPIECE_H#include <QWidget> #include <QPropertyAnimation> #include <QDebug> #include <QPainter> #include <QtMath>#include <QTimer>#incl…

2024.2.21 模拟实现 RabbitMQ —— 实现转发规则

目录 需求分析 直接交换机&#xff08;Direct &#xff09; 主题交换机&#xff08;Topic &#xff09; 扇出交换机&#xff08;Fanout &#xff09; Topic 交换机转发规则 routingKey 组成 bindingKey 组成 匹配规则 情况一 情况二 情况三 实现 Router 类 校验 b…

POI WorkbookFactory.create(inputStream) IndexOutOfBoundsException

近期&#xff0c;运行稳定的excel导入功能突然异常&#xff0c;查看了日志&#xff0c;发现以下图示异常&#xff1a; 追踪代码发现是以下代码引起问题&#xff1a; 发现&#xff0c;WorkbookFactory.create(inputStream) 创建workbook对象时读取文件内容下标越界了 分析是因…

nginx(二)

nginx的验证模块 输入用户名和密码 第一步先下载httpd 这个安装包 第二步编辑子配置文件 然后去网页访问192.168.68.3/admin/ 连接之后&#xff0c;会出现404&#xff0c;404出现是因为没给网页写页面 如果要写页面&#xff0c;则在/opt/html&#xff0c;建立一个admin&#x…

ASCII编码的影响与作用:数字化时代的不可或缺之物

title: ASCII编码的影响与作用&#xff1a;数字化时代的不可或缺之物 date: 2024/2/25 16:03:37 updated: 2024/2/25 16:03:37 tags: ASCII起源标准化字符文本处理基础编程语言基石数据库存储标准跨平台兼容多语言编码基础 一、ASCII编码的起源 ASCII&#xff08;American St…