云原生演进中的AI算力高效使用

0 1 云原生技术的普及与发展

云原生技术是一种基于容器技术的轻量级、高可用的应用架构,具有弹性扩展、快速部署、统一管理等特点。随着企业对敏捷开发和快速迭代的需求不断增加,云原生技术的普及与发展已成为不可逆转的趋势。

图1. 云原生技术发展之路

云原生技术通过将应用与底层基础设施解耦,实现了应用的快速部署和动态扩展。它采用了容器化、微服务、CICD等技术手段,使得应用可以更加高效地运行在云环境中。同时,云原生技术还提供了强大的监控和日志功能,帮助企业更好地管理和维护应用。

图片

图2. 云原生三大特征

随着云原生理念的推广与技术的不断丰富,云原生已经进入成熟阶段,越来越多的企业开始采用云原生架构来构建和部署应用。当前云原生引领数字化转型升级已成为趋势,在人工智能、大数据、边缘计算、金融等领域崭露头角。云原生技术(例如:容器、微服务、DevOps等)提供的极致弹性能力和故障自愈能力已成为应用开发的最佳技术手段。原生理念及其技术以灵活性、敏捷性和便捷性已获得各行各业的广泛关注。云原生促使产业融合速度加快、网络业务迭代周期缩短。

0 2 人工智能通过容器实现最佳表现

2.1 容器非常适合人工智能应用的部署和管理

首先,容器可以帮助人工智能应用实现快速部署和动态扩展。由于容器具有轻量级、可移植性和快速部署的特性,人工智能应用可以轻松地在不同的云平台之间进行迁移和部署。同时,容器还可以根据需求动态地扩展或缩减应用,从而确保人工智能应用能够高效地应对突发流量或节省资源。

其次,容器可以帮助人工智能应用实现高可用性和容错性。容器可以在多个节点之间自动进行负载均衡和容错处理,从而确保人工智能应用的可用性和稳定性。当某个节点出现故障时,容器可以快速地将应用切换到其他节点上,从而保证应用的正常运行。

此外,容器还可以帮助人工智能应用实现数据安全和隐私保护。由于容器具有隔离性,可以限制对底层资源的访问权限,从而防止数据泄露和攻击。同时,容器还可以通过加密通信、访问控制和安全审计等手段来保护数据的安全性和隐私性。

最后,容器可以帮助人工智能应用实现高效的资源利用和管理。容器可以对CPU、内存和存储等资源进行精细化管理,从而确保人工智能应用能够高效地利用资源并降低成本。

综上所述,容器是一种非常适合人工智能应用的部署和管理方式。通过容器化人工智能应用,可以实现快速部署、动态扩展、高可用性、数据安全和资源高效利用等多种优势。

据统计,目前AI容器化场景是最常见的部署形态。这也佐证了云原生是AI应用开发、部署的最好形式。

2.2 AI应用转换为容器的好处

将整个 AI 应用程序开发到部署转换为容器的好处如下:

· 针对不同版本的框架、操作系统和边缘设备/平台,为每个 AI 模型提供单独的轻量容器。

· 每个 AI 模型可以都有一个容器,用于自定义部署。例如:一个容器对开发人员友好,而另一个容器对用户友好且无需编码即可使用。

· 每个 AI 模型的单独容器,用于 AI 项目中的不同版本或环境(开发团队、QA 团队、UAT(用户验收测试)等)。

· 容器应用程序真正更有效地加速了 AI 应用程序开发-部署,并有助于维护和管理用于多种用途的多个模型。

0 3 AI应用多种形态并存的现状

云原生技术发展之路并非一蹴而就,因为它不仅涉及到架构改变,也包括理念的变化,公司流程和人员配置的相应调整等。

此外,每个企业的IT基础设施水平是不一样的,甚至企业内部也可能存在多重基础设施形态。如KVM虚拟机,OpenStack虚拟机,VMWare虚拟机,裸服务器,虚拟化节点,docker,K8S等,不同应用在云原生进展中会存在进度不一致的现象。如果等所有云原生应用完成,则会无法尽快享受到软件定义AI算力的效益。

AI赋能千行百业,在AI浪潮席卷而来的背景下,所有人都希望尽快参与到AI的盛宴中,首先关注的是make it work,于是就不可避免的出现了多AI应用形态并存的局面。

目前主流使用AI算力的形态是最粗放的方式,即直通物理GPU或者简单切分后的vGPU直通。

图3. 常见的算力使用的方式

根据AI底层基础实施层的形态,也就有了如下的组合方式:

· 直通KVM/VMWare虚拟机。

· 直通Docker容器。

· 裸服务器直接使用。

· K8S通过device plugin挂载物理整卡使用。

· OpenStack 通过cyborg挂载物理或者虚拟GPU使用等。

0 4 OrionX赋能云原生

4.1 OrionX池化解决方案的部署灵活性

OrionX部署的灵活性可以通过3个关键字来概括:“一池多芯”、“一池多云”和“分离部署”:

“一池多芯”,即OrionX不仅支持Nvidia GPU卡,也支持国产加速卡。

“一池多云”,指软件可以部署在任何的云环境中,甚至是虚拟化节点,以及裸服务器中。

图片

图4. OrionX支持“一池多芯,一池多云”的部署

“分离部署”,即OrionX通过远程调用,可以基于高速无损网络,跨节点甚至跨集群调取智算资源,使 AI应用与物理GPU服务器分离部署,从而进一步降低碎片化率。

图片

图5. 阶段3的“远程调用”能力

所以总体上,有如下两条路线可以解决云原生中多形态并存的池化算力使用问题:

· 通过“一池多云”提供“多应用-算力集群”部署。

· 通过“分离部署”提供“多应用集群-单算力集群”部署。

4.2 异构多云场景下的算力集群统一纳管

该方案是指,每种形态的应用维持原有AI算力资源拓扑使用,通过各自部署一套OrionX软件,进行AI算力的纳管和灵活高效的调度,并通过oCenter作为管理界面,进行多资源池的统一运维和管理。

图片

图6. 异构多云算力集群统一纳管

这种方式不需要依赖于高速无损网络互联所有的服务器,部署和使用相对简单;缺点是由于每个应用环境独立维护,并由各自算力池化集群支持,所以维护成本较高、池化复用的效果没有发挥极致。

4.3 多应用集群下的算力底座

在该方案中,所有的AI算力通过部署了OrionX的智算容器云纳管,调度和分配,其它多个应用集群的应用都通过无损网络来使用这个算力集群的算力。随着时间推移,完成云原生改造的业务可以逐步向智算容器云中迁移。

图片

图7. 多应用场景下的算力底座
 

这种部署需要依赖于高速无损网络,但对运维管理和后续的逐步迁移中比较友好。

4.4 总结

这两种情况各有优缺点,建议企业在云原生演进进程中,根据各自环境情况进行选择。实际方案选择依赖于现有基础设施的几个关键因素,比如包括但不限于:集群内的互联网络技术(包括现有网路互联方式、是否有后续组网改造计划),以及多种形态集群的规模等。

归纳一下:

· 异构多云场景下的算力集群统一纳管适合于多种形态应用并存且数量较多,不同形态应用之间没有高速无损互联网络的企业。通过异构多云部署,用户可以在统一界面管理多个应用,并尽可能发挥每个集群内的AI算力效能。

· 多应用集群下的算力底座适合配置了高速无损网络的企业,通过算力池化技术,用户可远程调用智算容器云中的AI算力给多个应用,避免为了某些极少应用单独配置基础设施的采购及运维成本。

展望未来,在长距离无损网络成为现实情况下,企业将内部所有算力基础设施整合为一朵的智算容器云,会是最理想的状态。现有的方案作为中间的演进方案都具备了未来平滑演进到最终形态的企业智算基础设施。

参考文献

1. 《云原生架构:构建高可用、可伸缩的现代互联网应用》

https://www.51cto.com/article/764431.html 

2.《容器技术引领数字化转型:开启高效部署和可扩展的新时代》https://baijiahao.baidu.com/s?id=1769912365777860254&wfr=spider&for=pc 

3. 《通过AI 应用程序容器化实现高效的MLOpshttps://www.elecfans.com/d/1863258.html 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/414043.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

QtAV:基于Qt和FFmpeg的跨平台高性能音视频播放框架

目录 一.简介 1.特性 2.支持的平台 3.简单易用的接口 二.编译 1.下载依赖包 2.开始编译 2.1克隆 2.2修改配置文件 2.3编译 三.试用 一.简介 官网地址:http://www.qtav.org/ Github地址:https://github.com/wang-bin/QtAV 1.特性 ●支持大部分…

深入探究 JavaScript 中的 String:常用方法和属性全解析(中)

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

pyspark 笔记:窗口函数window

窗口函数相关的概念和基本规范可以见:pyspark笔记:over-CSDN博客 1 创建Pyspark dataFrame from pyspark.sql.window import Window import pyspark.sql.functions as F employee_salary [("Ali", "Sales", 8000),("Bob&qu…

springcloud Client端cloud-consumer-order80

文章目录 简介建立module修改pom修改yml主启动类把公共代码写在一个mudule 里面测试 简介 这个是和之前的8001相互配合端口测试 这里的80的用户测试端口。 代码在:GitHub 上:https://github.com/13thm/study_springcloud/tree/main/days2 建立module …

SpringBoot + 自定义注解 + AOP 打造通用开关

前言 最近在工作中迁移代码的时候发现了以前自己写的一个通用开关实现,发现挺不错,特地拿出来分享给大家。 为了有良好的演示效果,我特地重新建了一个项目,把核心代码提炼出来加上了更多注释说明,希望xdm喜欢。 案例 …

C#,字符串匹配(模式搜索)Sunday算法的源代码

Sunday算法是Daniel M.Sunday于1990年提出的一种字符串模式匹配算法。 核心思想:在匹配过程中,模式串并不被要求一定要按从左向右进行比较还是从右向左进行比较,它在发现不匹配时,算法能跳过尽可能多的字符以进行下一步的匹配&…

【BERT】详解

BERT 简介 BERT 是谷歌在 2018 年时提出的一种基于 Transformer 的双向编码器的表示学习模型,它在多个 NLP 任务上刷新了记录。它利用了大量的无标注文本进行预训练,预训练任务有掩码语言模型和下一句预测,掩码语言模型指的是随机地替换文本中…

Lucas求大组合数C(n,m)%p

将大组合数C&#xff08;n,m&#xff09;%p分解为小组合数C&#xff08;n,m&#xff09;%p乘积的模&#xff0c;n<10^18,m<10^18。 其中求解小组合数可以根据定义式计算&#xff08;质因子分解&#xff09;&#xff0c;也可以通过定义式的变形计算&#xff08;逆元&…

边缘计算AI智能分析网关V4客流统计算法的概述

客流量统计AI算法是一种基于人工智能技术的数据分析方法&#xff0c;通过机器学习、深度学习等算法&#xff0c;实现对客流量的实时监测和统计。该算法主要基于机器学习和计算机视觉技术&#xff0c;其基本流程包括图像采集、图像预处理、目标检测、目标跟踪和客流量统计等步骤…

Cinder组件作用

1、Cinder下发的流程 &#xff08;1&#xff09;Cinder-api接受上层发送的创建请求&#xff0c;然后把请求下发给Cinder-scheduler调度服务 &#xff08;2&#xff09;Cinder-scheduler调度服务&#xff0c;计算出哪个主机更适合创建&#xff0c;计算出来之后再把请求下发到Ci…

HarmonyOS 转场动画 ForEach控制

本文 我们继续说组件的专场特效 上文 HarmonyOS 转场动画 我们通过if控制了转场效果 本文 我们通过 ForEach 控制它的加载和删除 这时候就有人会好奇 ForEach 怎么控制删除呢&#xff1f; 很简单 循环次数不同 例如 第一次 10个 第二次 5个 那么后面的五个就相当于删除啦 我们…

C#winform上位机开发学习笔记2-串口助手的中文支持功能添加

分为两步&#xff1a; 1.串口接收支持中文显示 1.1.在软件初始化时写入此代码以支持汉字显示 //串口接收支持中文显示serialPort1.Encoding Encoding.GetEncoding("GB2312"); //串口1的解码支持GB2312汉字 2.串口发送支持中文输出 //支持中文输出Encoding Chine…