Serverless GPU:助力 AI 推理加速

本文整理自 2024 云栖大会,阿里云智能集团高级技术专家聂大鹏、NVIDIA 解决方案架构师金国强演讲议题《Serverless GPU:助力 AI 推理加速》

近年来,AI 技术发展迅猛,企业纷纷寻求将 AI 能力转化为商业价值,然而,在部署 AI 模型推理服务时,却遭遇成本高昂、弹性不足及运维复杂等挑战。本文将探讨云原生 Serverless GPU 如何从根本上解决这些问题,以实现 AI 技术的高效落地。

AI 落地的三大难题与趋势

  1. 成本高昂: GPU 资源利用率低下,因缺乏 GPU 虚拟化、业务潮汐效应及资源调度问题,导致昂贵的 GPU 显卡未能充分利用。
  2. 弹性受限: 自建 GPU 集群难以应对流量波动,尤其在实时推理和离线任务处理时,缺乏快速弹性扩展能力。
  3. 运维复杂: AI 团队不愿承担 GPU 集群的管理和维护,涉及硬件软件维护、故障处理及多业务混部问题。

趋势显示,用户自建 GPU 集群正向云平台 Serverless 形态转变,期望通过低成本、高弹性和免运维方式,专注于业务价值创造。

Serverless GPU 算力创新:助力 AI 落地降本

Serverless GPU 模式通过智能区分 GPU 实例的忙闲状态,提供差异化定价策略,实现了成本优化与性能保障的双重目标。这种模式下的算力供应具备三个显著优势:

  1. 弹性模式: 无需预留资源,按需快速弹出 GPU 容器,适合准实时或离线场景,大幅降低成本。
  2. 预留模式: 保证无冷启动,但成本较高,适用于 24/7 连续运行的需求。
  3. 闲置 GPU 模式: 结合弹性与预留模式的优点,通过区分 GPU 实例的忙闲状态,提供差异化定价,既保证低延迟,又显著降低成本。

实现这些优势的关键在于阿里云函数计算生态的 GPU 架构升级,即神龙多租 GPU 架构。该架构支持空间维度上的多租户 GPU 卡切分与时间维度上的超卖复用,从而实现秒级弹性 GPU 规格解耦,最终释放更经济高效的 GPU 技术红利。

闲置 GPU 模式的内部机制与优势

  • GPU checkpoint 至内存池,闲置成本远低于 GPU 显存,实现低延时与成本优化。
  • 解冻过程根据模型大小决定,冷启动时间控制在合理范围。
  • 通过工作负载分析,智能调整 GPU 冻结时机,确保热工作负载性能接近原生  GPU。

神龙多租 GPU 架构与技术创新

  • 实现空间维度上的多租户 GPU 切分混布,时间维度上的超卖复用,提高 GPU 资源利用率。
  • 提供秒级弹性、GPU 切分规格、CPU/ MEM/GPU 规格解耦、忙闲时分开定价等特性,释放 GPU 技术红利。

随着传统 Web 场景下的调度算法(比如:RR 调度策略、最小连接数调度策略)在 AI 场景有诸多弊端:如恶化后端 GPU 资源饿死胖死现象,造成业务请求 RT 急剧抖动。函数计算平台提供请求负载感知的调度策略,根据函数的请求并发度来最大化压榨后端集群的处理能力,提升用户 GPU 实例、用户自建 GPU 集群的资源利用率。

英伟达案例:NVIDA TensorRT 与 AI 推理加速

阿里云函数计算是一种无服务器(Serverless)计算服务,它允许用户在无需管理底层基础设施的情况下,直接运行代码。函数计算以其高灵活性和弹性扩展能力,让用户专注于业务逻辑的开发,自动处理计算资源的分配、扩展和维护。此外,函数计算支持 GPU 算力,使其成为 AI 任务的理想选择,如模型推理和图像生成,能够大幅提高效率并降低计算成本。

NVIDIA TensorRT 是英伟达为深度学习推理优化的高性能库,通过权重量化、层融合和内存优化等技术,极大地提升了模型的推理速度,同时减少了资源消耗。TensorRT 支持从多种框架(如 TensorFlow、PyTorch)导出的模型,包括大语言模型和多模态视觉语言模型,使开发者能够充分利用 GPU 的计算能力,快速部署 AI 应用。

针对当前热门的大模型推理,英伟达还推出了 NVIDIA TensorRT-LLM(LLM,Large Language Models),这是一个专为加速大语言模型推理设计的高性能深度学习推理库,不仅覆盖了主流大语言模型,还支持丰富的数据精度选项,通过系统内核和优化计算库,实现了模型推理性能的显著提升。

在 Serverless GPU 创新的基础上,英伟达的 NVIDIA TensorRT 成为加速 AI 推理的重要利器。TensorRT 作为高性能深度学习模型推理的 SDK,通过数据精度混合处理、模型融合、算子优化等技术手段,显著提升了模型推理效率。函数计算的无缝计算体验与 NVIDIA 的高性能推理库相结合,为开发者提供了一个强大的平台,让他们能够以更低的成本、更高的效率完成复杂的 AI 任务,加速技术落地和应用创新。

在实际应用中,这种合作模式的优势尤为明显。例如,在大规模模型推理场景下,使用 TensorRT 可以将平均推理耗时降低约 20%, 这在处理千万级参数的大模型时效果尤为显著。而 TensorRT-LLM 进一步针对大语言模型进行了优化,确保即使在处理极为复杂的模型时,也能保持高精度和低延迟。

结论

Serverless GPU 算力创新不仅解决了 AI 落地过程中的成本、弹性和运维难题,更为企业带来了全新的算力管理模式。通过与英伟达等技术巨头的合作,阿里云函数计算等平台正引领着 AI 算力服务的新时代,为企业提供更加高效、灵活且经济的 AI 解决方案。在未来,Serverless GPU 将成为推动 AI 技术普及和商业化的关键力量,助力各行各业实现智能化转型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/832868.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HyperWorks的shrink warp meshing

在HyperWorks中,针对某些具有复杂几何特征的零部件的网格剖分,Altair HyperMesh 向用户提供了一种名为 Shrink Warp Meshing 的技术,快捷高效地完成有限元模型前处理工作。例如在车辆碰撞分析研究中,用户可以使用 Shrink Warp Meshing 技术快速构建诸如传动系统等(具有复杂…

快速了解电源模块的使用方法 BDB10-12W系列电源模块

快速了解电源模块的使用方法 BDB10-12W系列电源模块电源是整个电路可靠工作的核心部分。然而,由于电源电路的电流和发热量较大,容易出现故障。今天我为大家介绍一下电源模块的使用方法。BOSHDIA电源模块是将电源电路集成到一个很小的PCB板上,从而实现输出稳定电压和大电流的…

GSDml结构

1. 如何方便的看到GSDml的结构在github上找到一个很好用的开源工具以及它的开源汉化,叫xml notepad,可以很好的看到设备树视图。 [2.9.0.8官方下载地址] [汉化插件]2. 文件结构总体就是header和Body两个部分ISO15745Profile | +--ProfileHeader +--ProfileBody|+--DeviceIdent…

什么是CRM系统?CRM系统在企业中扮演什么角色?

近年来,客户关系管理(CRM)系统逐渐显露头角,成为企业把握航向、驶向成功的关键。也有好多人来问关于这方面的问题,所以专门开一篇文章为大家深入了解CRM系统的含义、功能、价值以及它在现代企业中的实际应用,为的呀就是帮助大家全面把握这一概念。 一、CRM系统是什么? 客…

运行 MainApplication 时出错 运行 MainApplication 时出错。命令行过长。 通过 JAR 清单或通过类路径文件缩短命令行,然后重新运行

运行springboot的启动类时,报了这个错。 解决办法: 1、修改选项2、添加缩短命令行项3、选择JAR清单

python 垃圾回收

引用计数器#define PyObject_HEAD PyObject ob_base; #define PyObject_VAR_HEAD PyVarObject ob_base;// 宏定义,包含 上一个、下一个,用于构造双向链表用。(放到refchain链表中时,要用到) #define _PyObject_HEAD_EXTRA \struct _object *_ob_next;标记清除 分…

作业4

作业①: 要求: 熟练掌握 Selenium 查找HTML元素、爬取Ajax网页数据、等待HTML元素等内容。 使用Selenium框架+ MySQL数据库存储技术路线爬取“沪深A股”、“上证A股”、“深证A股”3个板块的股票数据信息。 候选网站:东方财富网:http://quote.eastmoney.com/center/gridlist…

采集opc da 转 profinet IO项目案例

VFBOX协议转换网关支持PLC,modbus,EthernetIP,Profinet,CCLink,EtherCAT,IEC61850,IEC104,bacnet,DLT645,HJ212,opc ua,opc da,DNP3。目录 1 案例说明 1 2 VFBOX网关工作原理 1 3 应用条件 2 4 查看OPC DA服务器的相关参数 2 5 配置网关采集opc da数据 4 6 用prof…

laravel PhpOffice 读取表格数据

/*** 更新安通船期* Description * Author Allen* Date 2024-11-11* @param Request $request [description]* @return [type] [description]*/public function updateAntongShipDate(Request $request){set_time_limit(0);$file = request()->file(file);if (em…

AI网关在企业系统应用中的角色和作用

在人工智能技术不断进步的今天,AI已成为推动全球经济增长的关键动力。预计到2027年,全球企业在AI技术上的支出将达到8000亿美元,年均增长率达到37.3%。这一趋势不仅改变了企业的业务模式,也对企业的安全策略提出了新的挑战,尤其是在构建、运行、扩展和保护AI应用程序及其底…

【python爬虫+情感分析】B站黑神话悟空热门弹幕情感分析及词云生成

黑神话悟空背景介绍 最近黑神话悟空这款游戏可谓红遍大江南北,不仅IGN给出了8分的高分,就连央视新闻都有报道。作为国内第一款单机大作:出圈的是游戏,输出的是中国文化,受到了广大游戏玩家的追捧和赞扬。 针对此热门事件,老王我用python爬虫和情感分析技术,针对B站的弹幕…

解决Windows远程桌面 “为安全考虑,已锁定该用户账户,原因是登录尝试或密码更改尝试过多。请稍后片刻再重试,或与系统管理员或技术支持联系“问题

当我们远程连接服务器连接不上并提示“为安全考虑,已锁定该用户账户,原因是登录尝试或密码更改尝试过多。请稍候片刻再重试,或与系统管理员或技术支持联系”时,根本原因是当前计算机远程连接时输入了过多的错误密码,触发系统策略自动锁定了。如果是你确定输入的密码没问题…