端侧AI体验再颠覆:70亿参数大模型推理提速70%以上!

随着大数据、云计算、人工智能等技术日新月异,大模型作为人工智能领域的重要成果,正逐步改变着我们的生产与生活。在算力成本、工作效率与安全性等需求的不断增长下,大模型的应用逐渐从云端延伸至边缘端,为各行各业带来前所未有的变革机遇。

2月29日,阿加犀CEO孙晓刚受邀做客广和通“智连接”线上研讨会,分享了阿加犀边缘端大模型部署技术最新进展,并聚焦智能边缘计算赋能AI,与来自高通与广和通的资深行业专家共同探讨相关技术的发展、应用场景以及未来趋势。

近半个月来,视频生成模型Sora全网刷屏,它能够通过文本提示生成逼真且富有想象力的视频,一时间成为业界具有颠覆性功能的现象级产品。

而在Sora出现并占据大众视野之前,国内外早已有不少公司在多模态大模型方面展开研究和布局。

去年上半年,阿加犀顺利攻破大模型边缘端部署推理技术难关,成为国内首批支持LLaMA-2、通义千问Qwen等主流开源大模型在边缘端推理的人工智能公司。

随后,阿加犀携手启朔科技、美格智能等合作伙伴,将多个参数达70亿的语言大模型流畅、高效运行在AI阵列服务器、高算力AI模组等边缘计算设备上。

阿加犀打造的大模型边缘端部署解决方案也先后在世界机器人大会、云栖大会、第五届中国工业互联网大赛以及CES 2024上惊艳亮相,为机器人、工业、消费电子等行业接入AI大模型提供了更优技术路径。

近日,阿加犀大模型边缘端部署技术再进化:通过模型转换优化、芯片性能调度等AI工具链能力,不仅让AI大模型边缘端运行速度进一步提升,而且突破性地支持了其在中低端芯片平台上的部署落地。

经过测试,开源多模态对话模型Vicuna在基于高通芯片的边缘端设备上运行速度提升高达72.6%,Llama2、通义千问以及百川大模型等主流开源大模型的边缘端运行速度提升均超过30%。

图片

此外,在阿加犀AI工具链的赋能下,百川大模型、RedPajama、通义千问等多个数十亿参数的大模型不仅可以在高通8系列等高端AI芯片平台上落地应用,发挥重要作用,还能够在基于高通7/6/4系列中低端芯片的边缘端设备上稳定运行。

Baichuan2-7B在7s Gen2手机上运行

↓ ↓ ↓

图片

Qwen-1.8B在QCS6490板卡上运行

↓ ↓ ↓

图片

Qwen-1.8B和RedPajama-3B在4gen2手机上运行

↓ ↓ ↓

图片

此次阿加犀的成功实践与验证,为大模型在更广泛、更丰富的边缘端场景高效应用创造了全新可能性。以往,大模型在边缘端的部署落地主要囿于运行效果与硬件设备,而现在,AI大模型在边缘端设备上的运行速度实现了有效提升,算力有限的低端芯片也能够支持较大参数模型的推理了,这将为大模型端侧落地的商业革新带来更多的创新与机遇。

运行速度大幅提升,端侧体验更高效

边缘AI大模型运行速度提升意味着其在单位时间内处理的数据量更大、速度更快、延迟更低,这对于需要实时或快速响应的边缘端应用场景而言尤为关键,例如智能机器人、智能家居、自动驾驶等。

通过阿加犀自研AI工具链对大模型进行优化后,多个主流开源大模型在边缘端计算设备上的推理运行速度显著提升。

这不仅意味着响应速度更快、服务质量更有保障,而且能在一定程度上减少计算资源的占用,降低能源消耗和成本。无论是语音识别、图像处理,还是自然语言处理等智能应用,都将受益于这一突破。

中低端芯片支持,让AI无处不在

很多嵌入式系统、物联网设备或移动端应用对于设备的计算能力和功耗都有特殊要求。相较于高端芯片而言,中低端芯片在性能和功耗之间取得了较好的平衡,且成本较低,设备价格亲民

例如在极端温度、湿度或者缺乏稳定电源等特定场景中,中低端芯片更加稳定、可靠、耐用,支持大模型的中低端芯片则能为这些场景中的各类AI应用提供智能、高效的边缘计算支持。搭上中低端芯片的场景“直通车”,大模型也将有望大规模应用于更丰富的边缘计算场景中。

因此阿加犀AI大模型部署技术支持以高通7/6/4系列芯片为代表的中低端芯片,对于端侧AI普及而言具有重要意义。

囿于云端方案在成本、延迟、安全性等方面的短板,能在本地进行数据处理与决策的边缘端AI发展逐渐成为大势所趋。阿加犀基于行业领先AI工具链打造的大模型边缘端部署解决方案,让推理以更高的效率和更好的效果集中在离数据产生距离更近的端侧进行,能够弥补云端方案的短板,且有效缓解AI算力不足的需求和缺口。

随着阿加犀边缘端大模型部署技术的不断提升与成熟,以及各行业智能化转型和升级的持续推进,AI大模型应用将加速落地于智能机器人、智能驾驶、智能家居、工业自动化等场景,成为人类智慧生活的重要支撑工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/501247.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

搬运5款小体积,无广告,超实用的软件

​ 大家好,我又来啦,今天给大家带来的5款软件,共同特点都是体积小、无广告、超实用,大家观看完可以自行搜索下载哦。 1.全局鼠标手势——MouseInc ​ MouseInc是一款全局鼠标手势软件,可以通过按住右键滑动鼠标执行各…

vscode连接服务器与FileZilla上传到服务器

https://www.cnblogs.com/qiuhlee/p/17729647.html(这个是vscode连接服务器) 主机:就是服务器的主机号 使用者名称:比如ALmax的用户名 密码:比如ALmax的密码

用于游戏开发的顶级 PYTHON 框架

一、说明 我们试图用python开发游戏,一旦产生这个念头,就伴随这样一个问题:当今用于构建游戏的领先 Python 框架有哪些?python下,支持游戏开发平台有哪些优势?我们在这篇博文中告诉你。 二、高级游戏平台简…

腾轩科技传媒探讨网络整合营销推广的策略和效果

在当今高度信息化的商业环境中,整合营销推广(IMC)已经成为了品牌营销策略的核心。它旨在通过多种渠道和平台,将一致、连贯的品牌信息传达给目标受众,从而增强品牌知名度和忠诚度。腾轩科技传媒将深入探讨整合营销推广的…

为什么你制作的画册没有吸引力呢

​在当今竞争激烈的市场环境中,画册作为企业形象和产品宣传的重要工具,其制作质量直接影响着企业的品牌形象和销售业绩。然而,许多企业在制作画册时却发现,自己的画册缺乏吸引力,无法吸引潜在客户的注意力 为什么你制作…

零基础如何快速入门伦敦金交易

伦敦金交易是金融市场中备受关注的一种投资方式。对于想要学习如何炒伦敦金并快速开始交易的人来说,本文将为您提供一份全面而详细的指南。无论您是初学者还是有经验的交易者,本文都将帮助您了解伦敦金交易的基本知识,并提供一些实用的技巧和…

PSO-CNN-LSTM多输入时序预测|粒子群算法优化的卷积-长短期神经网络时序预测(Matlab)——附代码+数据

目录 一、程序及算法内容介绍: 基本内容: 亮点与优势: 二、实际运行效果: 三、算法介绍: 四、完整程序数据分享下载: 一、程序及算法内容介绍: 基本内容: 本代码基于Matlab平台…

jmeter如何请求访问https接口

添加线程组http请求 新建线程组,添加http请求 填入协议,ip,端口,请求类型,路径,以及请求参数,查看结果树等。 然后最关键的一步来了。 导入证书 步骤:获取证书,重新生…

视觉AIGC识别——人脸伪造检测、误差特征 + 不可见水印

视觉AIGC识别——人脸伪造检测、误差特征 不可见水印 前言视觉AIGC识别【误差特征】DIRE for Diffusion-Generated Image Detection方法扩散模型的角色DIRE作为检测指标 实验结果泛化能力和抗扰动 人脸伪造监测(Face Forgery Detection)人脸伪造图生成 …

电视盒子什么品牌好?资深数码粉强推口碑电视盒子推荐

我对各类数码产品是非常熟悉的,尤其是电视盒子,用过超十五款了,涵盖了各个主流品牌,最近看到很多朋友在讨论不知道电视盒子什么品牌好,我这次要来分享的就是口碑最好的五款电视盒子推荐给各位不懂如何选电视盒子的新手…

vue3中的基本语法

目录 基础素材 vue3的优化 使用CompositionAPI理由 1. reactive() 函数 2. ref() 函数 2.1. ref的使用 2.2. 在 reactive 对象中访问 ref 创建的响应式数据 3. isRef() 函数 4. toRefs() 函数 5. computed() 5.1. 通过 set()、get()方法创建一个可读可写的计算属性 …

【Linux】Linux安装

Linux安装(保姆级教程) 准备工具下载链接 Linux镜像系统官网(Centos版本):https://www.centos.org/ 虚拟机下载官网:https://www.vmware.com 注:Linux是一种系统统称,就像Windows…