【AI基础设施】智算场景的资源管理系统与未来展望

高性能计算与智算场景

首先澄清两个概念,高性能计算与智算场景,高性能计算主要是面向天气预测、生物计算、材料计算等场景,而最近几年很火的智算主要是面向AI场景的计算,如语音识别、图像识别、自动驾驶等场景,我们可以看到他们有一个共同的基础组件能力,叫分布式资源管理与任务调度执行服务,在HPC场景用了最多的就是Slurm和LSF,在大数据场景用的比较多的就是Yarn和K8s,但未来,智算场景,甚至HPC、大数据场景(数据湖)也会统一到K8s

HPC、大数据、AI批量计算的发展历程和趋势

云原生批量计算面临的关键挑战

而K8s的原生调度不能解决作业管理缺失、调度策略局限、领域计算框架支持不足、资源规划复用、异构计算支持不足等问题,而Yarn本身可以解决部分问题,但在容器的支持上还需要完善,从未来来看,Yarn与K8s的功能会同质化越来越严重。

Volcano总体架构和优势

主要从资源利用率,智能混合调度,这个功能可以用在AI场景的训推一体上,来提升整体的资源使用效率,但需要结合GPU的虚拟化技术,除非像70B以上的大模型,都是在同一类似的A800卡上做训练和推理

未来展望

智算调度未来可能主要向几个方面发展

1. 多场景混合调度:包括在线、离线任务混合;CPU与GPU任务混合;GPU长任务(推理)与短任务混合等,提高整体资源的利用率,降低计算所带来的成本消耗

2. 智能任务调度和优化:针对线上任务的执行数据学习,通过机器学习算法来进行更加智能的调度和对任务资源利用效率的优化,以提升任务的调度效率和资源利用率

3. 跨中心的资源管理和调度:未来数据处理、推理和训练资源很有可能在不同地域的不同中心,我们需要实现跨中心的资源管理和调度,来满足资源利用率的最优化

....(待补充)

智算平台是一个系统性的工程,除了资源管理外,还需要高性能RDMA网络(IB或者ROCE),高性能分布式存储(Lustre或GPFS等),构成整个智算平台的三驾马车。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/284759.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

行为树保姆级教程(以机器人的任务规划为例

行为树 目录 什么是行为树(behavior tree)?行为树的相关术语 行为节点和控制节点不同类型的控制结点: 顺序节点选择节点并行节点装饰结点 机器人的例子:物体搜索 1:如果只存在一个地点A,那么行为树很简单&#xff0…

qt实现基本文件操作

先通过ui界面实现基本框架 接下来就要实现每个按键的功能了 我们先来实现新建的的功能,我们右键新建键,可以发现没有转到槽的功能,因此我们要自己写connect来建立关系。 private slots:void newActionSlot(); 在.h文件中加上槽函数。 conne…

AI技术对于IT数据安全的革新与挑战

随着ChatGPT的出现,人工智能 (AI) 技术进入了一个新的时代,各行各业的营运方式亦随之而产生了深远影响。AI技术的发展正在重塑安全行业,给企业带来了新的思考和挑战。同时,国际和国家对企业数据使用的管控也越发严格,使…

hypervisor display显卡节点card0生成过程

ditsi 配置 lagvm/LINUX/android/vendor/qcom/proprietary/devicetree/qcom direwolf-g9ph.dts #include "direwolf-vm-la.dtsi" direwolf-vm-la.dtsi #include "display/quin-vm-display-la.dtsi" quin-vm-display-la.dtsi //对应/sys/class/drm/card…

Linear Regression线性回归(一元、多元)

目录 介绍: 一、一元线性回归 1.1数据处理 1.2建模 二、多元线性回归 2.1数据处理 2.2数据分为训练集和测试集 2.3建模 介绍: 线性回归是一种用于预测数值输出的统计分析方法。它通过建立自变量(也称为特征变量)和因变…

选择正确的自动化测试工具:打造高效测试流程的必备利器!

摘要 自动化测试正在逐步取代部分手动测试,因为它可以节省时间并提高测试质量。特别是在进行回归测试的情况下,自动化可以通过多种方式提高效率。手动进行重复测试是浪费时间和资源。此外,由于重复测试可能会遗漏,因此存在一定的…

PCL点云处理之点云置平(拟合平面绕中心旋转到绝对水平)(二百二十七)

PCL点云处理之点云置平(绕中心旋转到绝对水平)(二百二十七) 一、什么是点云置平二、算法流程三、算法实现一、什么是点云置平 有时候,我们处理的点云平面并非位于水平面,而是位于某个任一三维平面上,而大多数算法又只能在水平面处理,或者水平面的点云处理是相对更简单…

滑动窗口(一)

滑动窗口 什么是滑动窗口算法?通俗的来讲就是 “同向双指针” ,当一组数据的规律含有单调性的时候,就可以使用下面这套逻辑来优化暴力解法。 当两个指针同向移动的时候,类似于一个窗口在滑动。使用于在连续序列里找特殊的子串、…

Java基础回顾——面向对象编程

文章目录 面向对象基础方法构造方法默认构造方法多构造方法 方法重载继承多态抽象类接口静态字段和静态方法包作用域内部类 写在最后 https://www.liaoxuefeng.com/wiki/1252599548343744/1255943520012800 面向对象编程Object-Oriented Programming,简称OOP&#…

Windows phpstudy vscode Xdebug调试无效,无法监听,没有什么效果

Windows phpstudy vscode Xdebug调试无效,无法监听,没有什么效果 vscode 正常,能启动,能标记,就是无法监听 打印phpinfo(); Xdebug版本3 打印的信息输入这里,找出对应PHPXdebug的dll文件 Xdebug: Sup…

汽车火花塞行业分析:全球市场需求量约为26.3亿个

在汽车日常保养里,更换火花塞算是比较常见的一种,爱车懂车的车主们都非常清楚火花塞对于汽车的重要性,可以说火花塞直接影响到发动机的运作,决定了汽车能否顺利启程。 火花塞(sparkplug),俗称火咀,它的作用是把高压导线(火嘴线)送来的脉冲高压电放电&…

运维实践|采集MySQL数据出现many connection errors

文章目录 问题出现问题分析当前环境问题分析 解决方案1 检查调度事件任务是否开启2 开启调度事件任务3 创建一张日志表4 创建函数存储过程5 创建事件定时器6 开启事件调度任务7 检查核实是否创建 总结 问题出现 最近在做OGG结构化数据采集工作,在数据采集过程中&am…