盘活存量GPU资源 破局高校算力不足窘境

“凭啥做大模型的优先分配算力?人家1个人4块A800,我们10个人用2块3090!这日子没法过了!”听着团队成员们的吐槽,某国内顶尖高校非大模型团队带队的博士老W也颇为无奈:“我们虽然不是做大模型的,但也不代表我们做数据科学的不需要算力啊?”如果不做大模型,就无法获得足够的算力。这就是ChatGPT爆火后中国高校AI实验室中的残酷现实。

老W亲身经历证实了这一现象,他所在的高校AI实验室中,他的团队只有2块3090显卡可用,而大模型小组则有4个人可以使用16块A800显卡。这是因为巨大规模算力以月为单位的租用成本对研究团队来说是一笔不小的开支,而大模型研究正当其道,因此学界研究大模型的实验室或团队拥有算力资源的优先分配权。

图片

这个想法刚一冒头,随即就被老W自己否决了。如今,在众人争先恐后扑向GPT等大模型的当下,非大模型团队已经很难获得外部企业算力支持了,校企合作也更倾向于大模型。自从ChatGPT发布后,与非大模型团队合作的企业急剧减少,最近前来找他们的企业也都问同一个问题:你们在做大模型吗?如果做,就能得到高校和企业的全力支持;如果不做,就只能眼睁睁看着算力被其他人占用。即使有高性能GPU对非大模型研究团队开放申请,也不见得能分配到一张卡给你。

此外,实验室需要运转和维护的经费也是一大问题。为了获得拨款,申请国家项目是一种形式,但必要步骤是提供论文成果。因此,为了获得更多的资源,一些非大模型实验室甚至额外成立研究大模型的团队。

拥抱主流趋势是一重原因,同时大模型研究相对容易出成果,因此不得不优先分配有限的算力资源给这些热门研究。然而,训练一个大模型需要大量的数据、算力和资金,这对学界来说都是一个挑战。

图片

本就稀缺的算力,在学界又有成为追逐热点砝码的倾向,“做大模型,意味着放弃现有研究成果,同时要面临同类团队无尽的内卷;不做?对不起,没算力给你,现在的研究一样进行困难!”

老W此刻叹了口气,“哎,太难了,咋办?

“老W,您还在为算力发愁呢?最少现在咱还有2块3090可用,这已经算不错了。”见老W一脸愁容,邻座的组员小A赶紧过来安慰。

其实大家都知道GPU的重要性,现在算力严重不足,又没有富裕的高性能GPU可用。是不是要几个人换班用?一想到这里,小A不禁想起了过去穷人家全家只有一身衣裳,谁出门办事谁就穿上,其他人,对不起只能在家光着。

GPU虚拟化

接下来的几天,实验室中总是有一种压抑的氛围,老W也变得越来越烦躁。他希望能给自己的团队找到更好的算力资源,甚至希望能够把一块卡劈成两半用,至少能解决目前GPU算力不足的问题。

直到小A问了一个直戳灵魂的问题:

图片

“怎么可能,你想多了?” 老W笑着。事实上,无论是人体还是机器,都不太可能24小时不间断运行。写程序、改BUG、调试等工作都需要大量的时间,而GPU最重要的是后期的数据处理。从这一点来说,GPU完成了最关键的、最具压力的部分,但并不代表它必须贯穿应用的始终。

趋动科技的GPU池化技术

GPU虚拟化技术已经快速迭代,通过池化技术实现CPU与GPU的协同应用,统一管理可以实现按需调度和动态伸缩。随着GPU从虚拟化到池化的转变,现在的技术已经可以实现AI应用与物理GPU服务器分离部署,实现GPU池化层面的软件定义。用户可以更轻松地远程调用和统一管理GPU资源,真正实现了云端的按需分配和弹性扩展。

图片

经过用户测试,使用OrionX进行资源池化后,可以将GPU卡节约60%以上,同时系统可以实现真正24小时不间断,整体的运行效率提升了4倍。

老W自言自语道:“看来咱们不足的算力能找回来了。”

除了性能提升之外,GPU池化的优势还在于资源管理。OrionX提供了清晰明了的GUI图形界面,让运维人员可以清楚地看到资源池的节点情况,包括哪些资源忙碌、哪些资源闲置都是一目了然。这些优势让组织管理者对于业务更专注,是趋动科技相比同类企业的核心竞争力。

图片

特别是对于老W所在的非大模型团队来说,2024年充满了挑战和未知,而灵活、高效的系统也让科研教学充满了活力和优势,更容易在竞争中抢占先机。

“好小子!有你的!趋动科技这套解决方案简直是为咱们量身定制的!快把这些资料发我邮箱,我这就去跟院长汇报。” 老W刚要转身。

先别着急去,小A拦下老W,您还漏看了一点:“如今低碳节能是大趋势,咱们实验室要是用了趋动科技OrionX解决方案,光采购费、电费就能省下大几十万,还能提升400%的GPU综合利用率,减少碳排放上万千克。”

“好嘞,有了这个事情指定办成!晚上叫上所有人,撸串!我请客!”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/341916.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

npm发布js函数库

直接上干货吧 首先进入npm官网注册账号下面会用到 1.新建文件夹例如 chengyu 2.cdm chengyu 3.npm init (填写一些基本信息一直y就可以 后面可以直接修改文件)结束之后多了一个package.json文件就是下面的样子 {"name": "brogramme…

审稿变慢?还疯狂拒稿?这本毕业神刊如今争议不断,还值得一投吗?

【SciencePub学术】 IEEE ACCESS 期刊评说 网友辣评 评说1:麻了,11月17收到外审,现在意见还没回来啊,神刊肿么了? 评说2:两个审稿人评审的,一个拒绝(最终意见大修)&…

cad的模型怎么打散导入3d---模大狮模型网

将CAD中的模型打散并导入3D建模软件,需要以下步骤: 将CAD中的模型进行分组或分层:在CAD中,将模型按照不同的组或层进行分组或分层。这样可以方便地控制每个部分的显示和隐藏,在导入3D建模软件后,也可以更方…

初识Hadoop-概述与关键技术

一.大数据概述 1.什么是大数据 高速发展的信息时代,新一轮科技革命和变革正在加速推进,技术创新日益成为重塑经济发展模式和促进经济增长的重要驱动力量,而“大数据”无疑是核心推动力。 那么,什么是“大数据”呢&#xff1…

MySQL篇—自带物理克隆数据工具Clone插件介绍(第一篇,总共三篇)

各位小伙伴,今天我为大家介绍一下MySQL Clone Plugin这个插件,简单来说,就是MySQL 8.0.17版本之后的一个物理克隆数据工具,它能够帮助我们快速、高效地克隆或复制数据库,极大地简化了数据库迁移、备份和恢复的过程&…

Open CASCADE学习|创建旋转体

旋转体是一个几何概念,指的是通过旋转一个平面图形得到的立体图形。具体来说,一个平面图形绕着它所在的平面内的一条定直线旋转一周所形成的曲面,这个曲面会围成一个几何体,这个几何体就叫做旋转体。这条定直线被称为旋转体的轴。…

一、Sharding-JDBC系列01:整合SpringBoot实现分库分表,读写分离

目录 一、概述 二、案例演示-水平分表 (1)、创建springboot工程 (2)、创建数据库和数据表 (3)、application.yaml配置分片规则 (4)、测试数据插入、查询操作 4.1、插入-控制台SQL日志 4.2、查询-控制台SQL日志 三、案例演示-水平分库 (1)、创建数据库和数据表 (2…

JS逆向实战案例1——某房地产url动态生成

说明:仅供学习使用,请勿用于非法用途,若有侵权,请联系博主删除 作者:zhu6201976 一、 反爬分析 url:aHR0cHM6Ly9uZXdob3VzZS4wNTU3ZmRjLmNvbQ 该站点项目url通过点击JS生成,project_id与生成后…

【uniapp】新课uniapp零基础入门到项目打包(微信小程序/H5/vue/安卓apk)全掌握

一、uniapp和HBuilderX介绍 uni-app官方网站:https://uniapp.dcloud.net.cn/ 为什么要学习uniapp? 1、一套代码可以打包到不同的应用平台;一套代码编到十几个平台,这不是梦想。眼见为实,扫描以下二维码,…

【JAVA】Java 中什么叫单例设计模式?请用 Java 写出线程安全的单例模式

🍎个人博客:个人主页 🏆个人专栏:JAVA ⛳️ 功不唐捐,玉汝于成 目录 前言 正文 懒汉式(Lazy Initialization): 双重检查锁定(Double-Checked Locking)…

antd时间选择器,设置显示中文

需求 在实现react,里面引入antd时间选择器,默认显示为英文 思路 入口处使用ConfigProvider全局化配置,设置 locale 属性为中文来实现。官方文档介绍全局化配置 ConfigProvider - Ant Design 代码 import React from react; import { Prov…

SpringBoot原理(@Conditional)—三种自动配置方法、步骤详解

简介:我们一直在说基于SpringBoot开发简单、快捷,但是总是不太清楚为什么会有这样的便利,对于开发人员来说我们不仅要知其然,还要知其所以然,这篇文章就是说明SpringBoot的底层原理,让读者对SpringBoot底层…