首个基于SSM-Transformer混合架构,开源商业大模型Jamba

3月29日,知名AI研究实验室AI21在官网开源了,首个基于SSM-Transformer混合架构的商业大模型——Jamba。

目前,ChatGPT、Stable Difusion 、Lyria等产品使用的皆是Transformer架构,虽然在捕捉序列内长距离依赖关系、泛化能力、特征提取等方面非常优秀,但在处理长序列、训练大参数模型时存在AI算力消耗大、过拟合、内存占用大等缺点。

Jamba则是在传统的Transformer架构之上,加入了结构化状态空间模型 (SSM) 技术,结合二者的优点来极大提升其性能。例如,Jamba的吞吐量是同类知名开源模型Mixtral 8x7B的3倍;也是同类模型中极少数能在单个GPU上容纳高达140K上下文的模型

图片

这也就是说,那些没有庞大GPU集群的小企业和个人开发者,通过Jamba也能开发出高性能、低消耗的生成式AI产品。

huggingface地址:https://huggingface.co/ai21labs/Jamba-v0.1

也可通过英伟达平台使用:https://developer.nvidia.com/blog/nvidia-nim-offers-optimized-inference-microservices-for-deploying-ai-models-at-scale/

图片

Jamba架构简单介绍

Jamba加入的SSM技术是借鉴了2023年12月1日,由卡内基梅隆大学Albert Gu和普林斯顿大学Tri Dao提出的论文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》。

论文地址:https://arxiv.org/abs/2312.00752

Mamba的核心技术是使用“选择性状态空间”来进行序列推理,我们可以把状态空间看作是一个库房。

在建模过程中,Mamba可以根据用户输入的具体情况,有选择性地去库房里拿东西或者忽略,这种灵活性使得它能够更好地处理离散型数据。

例如,Mamba可以根据当前的文本输入数据,有选择地过滤掉不相关的信息,并且能够长时间地记住与当前任务相关的信息。

图片

与传统的序列模型不同的是,Mamba不需要使用复杂的自注意力机制或者MLP块(多层感知器)。主要通过选择性状态空间和MLP块的协同工作,实现了高效的推理过程,并且在处理长序列数据时非常高效,可以轻松处理100万tokens数据。

但引入选择性机制后,状态空间模型不再满足时间不变性,所以,无法直接用高效的卷积来计算,Mamba设计了一种“硬件并行算法”。

图片

该扫描算法使用了GPU并行加速,充分利用了GPU内存层次结构,控制状态张量的具体化过程,只在更高带宽的内存层(如SMX寄存器)上暂存状态,避免了低效的全局内存访问。这使得模型可以更好地利用GPU效率,不会出现浪费的情况。

Jamba则在Mamba的基础之上进行了创新,采用了分块分层的方法成功融合了SSM和Transformer架构:每个Jamba 模块都包含一个注意力层或一个 Mamba 层,然后是一个多层感知器,总体比例为每八个层中有一个 Transformer 层。

图片

这样可以在保持模型推理性能的前提下,极大的降低了AI算力同时提升吞吐量。例如,与同类的开源模型Mixtral 8x7B相比,Jamba的吞吐量是其3倍。

图片

此外,Jamba还是一个专家混合模型(MoE),520亿参数中的120亿参数长期处于激活状态,并对所有MoE层的专家进行了大幅度优化,减轻了推理时内存占用大的问题。

AI21介绍

公开资料显示,AI21 Labs创立于2017年,总部位于特拉维夫和纽约。由Yoav Shoham、Ori Goshen和Amnon Shashua三人联合创立。其中Yoav是一位连续创业者,曾将两家企业出售给谷歌并担任斯坦福大学名誉教授;

Ori是希伯来大学的副教授,曾参与多个NLP项目并发表了几十篇学术论文;Amnon是希伯来大学的教授,同时是知名自动驾驶公司Mobileye的联合创始人兼CEO。

图片

仅2023年,AI21一共融资了2.08亿美元,目前总融资额度3.26亿美元。

产品方面,AI21 Labs在2023年3月推出了大语言模型Jurassic-2,包含Large、Grande和Jumbo三种模型。

图片

Jurassic-2除了在文本生成、API延迟、语言支持等全面增强之外,还开放了指令微调、数据微调,帮助企业、个人开发者打造量身定制的ChatGPT助手。

Jurassic-2特定微调的类型共包括语义搜索,了解查询的意图和上下文含义,并从文档中检索相关的文本片段;上下文问答,仅根据特定上下文提供答案,也可以从文档库中自动检索等。

目前,耐克、Zoom、沃尔玛、三星、阿迪达斯、airbnb等知名企业在使用AI21的大模型产品。

本文素材来源Jamba官网,如有侵权请联系删除

END

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/577952.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

A fatal error occurred: MD5 of file does not match data in flash!问题解决

采用的芯片是ESP32-S3-WROOM,16MB FLASH 开发环境是Arduino,烧录到100%后直接报错。 以为是Arduino的问题,用esp-idf开发的程序, 烧录的过程中,也是直接报错如下: esptool.py v4.7.0 Serial port /dev/…

6.2物联网RK3399项目开发实录-驱动开发之GPIO使用(wulianjishu666)

物联网嵌入式开发源码例程: 链接:https://pan.baidu.com/s/1B3oqq5QBhN-VmTFt9CI-7A?pwd2ihg ******************************************************************************************* GPIO 使用 简介 GPIO, 全称 General-Purpose Input/…

环境温度对测量平板有什么影响

环境温度可以对测量平板有影响。温度变化可以导致平板的尺寸发生变化。根据热膨胀原理,当环境温度升高时,平板的尺寸会扩大;当环境温度降低时,平板的尺寸会缩小。这种尺寸变化可能会导致测量结果的误差。因此,在测量平…

OSPF之单区域配置

文章目录 单区域配置项目背景项目分析拓扑图配置思路基础配置命令查看路由器接口IP地址信息OSPF配置 测试PC1与PC2互通查看OSPF邻居表修改OSPF路由器的router-id完美的OSPF配置命令写法常用查询命令 单区域配置 项目背景 企业内部存在多个部门,分别属于不同的网段…

关于Ansible的模块②

转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。感谢您喜爱本文,请文明转载,谢谢。 接《关于Ansible的模块 ①-CSDN博客》,继续学习和梳理Ansible的常用文件类模块 1. copy模块 从当前机器上复制文件到…

婚恋交友APP小程序H5源码交付-支持二开!实名制交友,可服务器审核,亦可后台自己审核!同城交友,多人语音!

一、需求分析 在征婚交友网站开发初期,需求分析是至关重要的环节。这需要深入了解目标用户的需求和期望,包括他们的年龄、职业、兴趣爱好、交友条件等方面。通过收集和分析这些信息,开发团队可以明确网站的目标用户,并为他们提供…

考研数学|高效刷透汤家凤《1800》经验分享

当然不需要换老师,如果你在基础阶段连汤老师的课都听不进去,那么换其他老师的话,很大可能也是白搭。 如果你现在对于1800还是一筹莫展的话,那么很明显,这反映出前期基础不扎实,没有真正理解和掌握这部分内…

STM32 软件I2C方式读取AS5600磁编码器获取角度例程

STM32 软件I2C方式读取AS5600磁编码器获取角度例程 🔖本例程使用正点原子例程作为工程模板创建。 📘 硬件电路部分 🌿原理图部分: 🌿PCB布线和电路 📙驱动代码部分 int main(void) {u16 i 0;u16 ra…

天空卫士SASE 2.0:赋能您的数智安全

在这个以数据为核心的时代,企业的安全防线正面临着空前的挑战。随着对网络安全和数字化协作的需求不断攀升,企业如何在确保数据安全的前提下,维持业务的高效运转,成为了一个亟待解决的问题。企业管理者亟需一种集网络安全、云服务…

国产桌面操作系统统一身份认证及2FA双因子认证安全升级方案

某金融运营服务公司,主要负责业务处理、客户服务、业务监控、报表统计等金融运营服务,为集团下设二级单位,坐落于一线城市,对政策风向有很高的敏锐度。 该公司已为公司业务人员、客户服务、监督员等配备了数百台国产桌面操作系统…

ios启动页与flutter启动页无缝衔接,无闪烁和黑屏解决

1、首先需要配置原生的 LaunchScreen 如下图: 注意:LaunchScreen中View的SafeArea 一定要有。如果这里没有SafeArea就会出现flutter渲染第一帧和native衔接时出现闪烁的现象。splash.png也尽量放在根目录中,不要放在Assets中。 2、flutter启…

基于哈希槽的docker三主三从redis集群配置

目录 一、三主三从redis集群配置 1、关闭防火墙启动docker后台服务 2、新建6个docker容器redis实例 3、进入容器redis-node-1为6台机器构建集群关系 3.1进入容器 3.2构建主从关系 4、查看集群状态 4.1链接进入6381作为切入点 二、主从容错切换迁移按例 1、数据读写存储…