Sora爆火,多模态大模型背后的存算思考

       近日,随着OpenAI推出Sora,人工智能从文本到文本、文本到图片的生成模式,进阶到文生视频。其文本到视频的模型能够生成长达一分钟的视频,在保持视觉质量的同时并严格遵循用户的提示,使得“扔进一本小说,生成一部电影”的想法成为现实。OpenAI将这一创新描述为构建“物理世界的通用模拟器”,这不仅是一项技术突破,也是人工智能领域探索的又一里程碑。

1、Sora展示

     本页所有视频均由Sora直接生成,未经修改

1、提示词:两艘海盗船在一杯咖啡中航行时相互争斗的逼真特写视频。

图片

2 提示词:一窝金毛猎犬小狗在雪地里玩耍。他们的头从雪中探出头来,身上覆盖着雪。

图片

3 提示词:一个时髦的女人走在东京的街道上,到处都是温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙、黑色靴子,拿着一个黑色钱包。她戴着太阳镜,涂着红色的口红。她走起路来自信而随意。街道是潮湿和反光的,创造了一个彩色灯光的镜子效果。许多行人走来走去。

图片

4、提示词:几只巨大的长毛猛犸象穿过一片白雪覆盖的草地,它们长长的毛茸茸的皮毛在风中轻拂,远处白雪覆盖的树木和戏剧性的雪山,午后的光线与缕缕的云和远处的太阳创造了温暖的光芒,低相机的视角是惊人的,捕捉到了美丽的摄影,景深的大型毛茸茸的哺乳动物。

图片

5、提示词:这是一部电影预告片,讲述了30岁的太空人戴着红色羊毛针织摩托车头盔的冒险经历,蓝天,盐沙漠,电影风格,用35毫米胶片拍摄,色彩鲜艳。

图片

官网链接:https://openai.com/sora

     为了展示自身实力,OpenAI还在官网上直接放出了48个Sora生成且未经修改的视频。这些视频时长不等,8-60秒,画面质量符合提示词,效果炸裂。感兴趣的朋友可以去官网查看。

2、多模态数据存储

     以Sora的数据采集阶段为例,训练文本到视频的生成系统需要大量带有对应文字说明的视频。Sora的技术报告中提到,他们采用了在DALL-E 3中引入的重新标注技术应用于对视频语言的理解,仅在数据标注阶段就需要采用约10亿级数据量来对单一模型进行多达50万余次的训练,在此过程中产生的图文对数据量轻松达到PB级。面对复杂的多模态数据存储与管理挑战,单一协议的存储解决方案显然已无法满足现阶段的需求。因此,能够高效处理AIGC数据采集阶段的结构化与非结构化数据的存储解决方案,是当前存储厂商共同寻求的解决之道。

2.1 多层次存储

     DRAM和Flash分属不同的存储器层次, 经常在下游应用中搭配使用。 处理器从内存中读取数据, 而内存从闪存中加载数据。 DRAM属于易失性存储器, 使用电容存储, 必须隔一段时间刷新, 一旦停止刷新存储的信息就会丢失。 而Flash属于非易失性的存储, 在断电后不会丢失数据, 是在ROM的基础上演进而来。 DRAM读写速度比Flash快、 成本高、 功耗较大、 寿命长、 结构简单集成度高, Flash的优势在于容量大、 成本低。

2.2 分布式融合存储方案

     在数据类型不一致、数据量巨大的情况下,为了保证多模态大模型更高效地训练,一套能够提供多种服务与协议的存储集群是极佳的选择。分布式融合存储设计恰好解决了生成式AI数据采集阶段的这一问题,即一个存储池内支持文本、图片、音频、视频等多类型数据存储,一套存储实现多模态场景应用;应用间无需数据迁移,实现真正的数据实时共享,空间节省75%以上,且集群支持最多扩展至10240个节点。融合存储设计解决了大语言模型在数据采集阶段数据维度多、小文件数量多的问题,实现了对多元数据的高效存储和科学管理。

摘自: “浪潮存储”公众号

2.3 高带宽内存HBM

目前,HBM产品以HBM(第一代)、HBM2(第二代)、HBM2E(第三代)、HBM3(第四代)、HBM3E(第五代)的顺序开发,最新的HBM3E是HBM3的扩展版本。

    HBM每一次更新迭代都会伴随着处理速度的提高。引脚(Pin)数据传输速率为1Gbps的第一代HBM,发展到其第五产品HBM3E,速率则提高到了8Gbps,即每秒可以处理1.225TB的数据。也就是说,下载一部长达163分钟的全高清(Full-HD)电影(1TB)只需不到1秒钟的时间。

当然,存储器的容量也在不断加大:HBM2E的最大容量为16GB,目前,三星正在利用其第四代基于EUV光刻机的10nm制程(14nm)节点来制造24GB容量的HBM3芯片,此外8层、12层堆叠可在HBM3E上实现36GB(业界最大)的容量,比HBM3高出50%。

    随着AI大模型、智能驾驶等新技术的崛起,人们对高带宽的内存的需求越来越多。

    首先,AI服务器的需求会在近两年爆增,如今在市场上已经出现了快速的增长。AI服务器可以在短时间内处理大量数据,GPU可以让数据处理量和传输速率的大幅提升,让AI服务器对带宽提出了更高的要求,而HBM基本是AI服务器的标配。

3、多模态下的算力

     根据财联社和OpenAI数据, ChatGPT浪潮下算力缺口巨大,根据OpenAI数据,模型计算量增长速度远超人工智能硬件算力增长速度, 存在万倍差距。尤其是多模态大模型的运算规模的增长,带动了对AI训练芯片单点算力提升的需求, 并对数据传输速度提出了更高的要求。根据智东西数据,过去五年,大模型发展呈现指数级别,部分大模型已达万亿级别, 因此对算力需求也随之攀升。

      对于多模态大模型来说,算力的重要性主要体现在以下几个方面:

  1. 训练速度:多模态大模型的训练通常需要大量的数据和计算资源。拥有更强的算力可以加快模型的训练速度,从而更快地得到满意的模型效果。

  2. 模型规模:随着模型规模的增大,其能够捕捉和表示的信息也越多,但同时所需的算力也呈指数级增长。因此,强大的算力是支撑更大规模模型训练和推理的关键。

  3. 复杂任务的处理:多模态大模型通常用于处理复杂的任务,如跨模态检索、视觉问答等。这些任务需要模型具备强大的特征提取和融合能力,而这离不开算力的支持。

  4. 实时性和效率:对于某些需要实时响应的应用场景,如自动驾驶、智能客服等,算力决定了模型能否在有限的时间内完成推理并给出结果。

    为了提升多模态大模型的算力,通常会采用以下方法:

  1. 使用高性能硬件:如GPU、TPU等专用加速器,这些硬件可以并行处理大量的计算任务,从而大幅提升算力。

  2. 分布式训练:通过将模型和数据分布到多个计算节点上进行训练,可以显著加快训练速度并减少单个节点的计算压力。

  3. 优化算法和模型结构:通过改进训练算法和模型结构,可以在不增加硬件投入的情况下提升算力利用率和模型性能。

    同时,数据质量、模型设计、任务复杂性等因素同样会影响模型的最终性能。因此,在实际应用中需要综合考虑各种因素来优化模型的训练和推理过程。

4、存储一体的趋势

    算力发展速度远超存储,存储带宽限制计算系统的速度,在过去二十年,处理器性能以每年大约55%的速度提升,内存性能的提升速度每年只有10%左右。因此,目前的存储速度严重滞后于处理器的计算速度。能耗方面, 从处理单元外的存储器提取所需的时间往往是运算时间的成百上千,因此能效非常低;“存储墙”成为加速学习时代下的一代挑战,原因是数据在计算单元和存储单元的频繁移动。

    存储墙、带宽墙和功耗墙成为首要限制关键,在传统计算机架构中,存储与计算分离,存储单元服务于计算单元,因此会考虑两者优先级;如今由于海量数据和AI加速时代来临,不得不考虑以最佳的配合方式为数据采集、传输、处理服务,然而存储墙、 带宽墙和功耗墙成为首要挑战,虽然多核并行加速技术也能提升算力,但在后摩尔时代,存储带宽制约了计算系统的有效带宽,芯片算力增长步履维艰。

    存算一体(Computing in Memory) 是在存储器中嵌入计算能力, 以新的运算架构进行二维和三维矩阵乘法/加法运算。 存算一体技术直接利用存储器进行数据处理或计算, 从而把数据存储与计算融合在同一个芯片的同一片区之中, 可以彻底消除冯诺依曼计算架构瓶颈。 存算一体的优势是打破存储墙,消除不必要的数据搬移延迟和功耗, 并使用存储单元提升算力, 成百上千倍的提高计算效率, 降低成本。

    存算一体有Flash、 SRAM、 DRAM等成熟存储介质, 同时ReRAM、 MRAM等新型存储介质也在快速发展。 根据存储介质的不同, 存内计算芯片可分为基于传统存储器和基于新型非易失性存储器两种。 传统存储器包括SRAM, DRAM和Flash等;新型非易失性存储器包括ReRAM, PCM, FeFET, MRAM等。 其中, 距离产业化较近的是基于NOR Flash和基于SRAM的存内计算芯片。

    存算一体需求旺盛,有望推动下一阶段的人工智能发展,原因是我们认为现在存算一体主要AI的算力需求、并行计算、神经网络计算等; 大模型兴起,存算一体适用于从云至端各类计算, 端测方面, 人工智能更在意及时响应,即“输入”即“输出”,目前存算一体已经可以完成高精度计算; 云端方面,随着大模型的横空出世,参数方面已经达到上亿级别,存算一体有望成为新一代算力因素; 存算一体适用于人工智能各个场景,如穿戴设备、移动终端、智能驾驶、数据中心等。 我们认为存算一体为下一代技术趋势并有望广泛应用于人工智能神经网络相关应用、感存算一体,多模态的人工智能计算、类脑计算等场景。
 

参考资料

1. 电子与信息学报《存内计算芯片研究进展及应用》

2. https://zhuanlan.zhihu.com/p/671539540

3.中航证券《存储专题系列一:新应用发轫,存力升级大势所趋》

4.华金证券《“走进芯时代:HBM迭代,3D混合键合成设备材料发力点”》

5. "浪潮存储"公众号https://mp.weixin.qq.com/s/tKljh39m_EpGRY9iZPROKA

6. 华西证券《ChatGPT:存算一体,算力的下一极》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/535692.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RocketMQ为什么这么快?我从源码中扒出了10大原因!

RocketMQ作为阿里开源的消息中间件,深受广大开发者的喜爱 而这其中一个很重要原因就是,它处理消息和拉取消息的速度非常快 那么,问题来了,RocketMQ为什么这么快呢? 接下来,我将从以下10个方面来探讨一下…

ESD静电测试闸机-筑成电子厂防静电管理的第一道防线

ESD静电测试闸机是一种用于防止静电对电子产品和设备造成损害的重要设备。在电子厂等对静电敏感的场所,ESD静电测试闸机扮演着防静电管理的第一道防线的角色,确保生产环境的安全和产品质量的稳定。本文将从静电监测和消除、刷卡/身份证认证、指纹/人脸识…

大数据基础设施搭建 - Doris

文章目录 一、Linux系统要求1.1 设置系统最大打开文件句柄数1.2 设置最大虚拟块的大小1.3 集群中其他安装doris的机器同上调整1.4 重启服务器生效 二、确认需要下载哪个Doris版本三、上传并解压压缩包3.1 创建目录3.2 解压fe3.3 解压be3.4 解压java udf函数3.4.1 解压3.4.2 复制…

力扣:数组篇

1、数组理论基础 数组是存放在连续内存空间上的相同类型数据的集合。 需要两点注意的是 数组下标都是从0开始的。数组内存空间的地址是连续的 因为数组的在内存空间的地址是连续的,所以我们在删除或者增添元素的时候,就难免要移动其他元素的地址。 …

风控系统指标计算/特征提取分析与实现01,Redis、Zset、模版方法

个人博客:无奈何杨(wnhyang) 个人语雀:wnhyang 共享语雀:在线知识共享 Github:wnhyang - Overview 引用AI对于风控系统的介绍 风控系统是一种用于在线业务的安全管理系统,它帮助企业和平台防…

3.2 Beautiful Soup 的使用

目录 一、Beautiful Soup 的简介 二、解析器 三、基本使用 四、节点选择器 1 选择元素 2 获取名称、属性、文本内容 五、方法选择器 1 find_all 传入 name 节点名 传入 attrs 属性 传入 text 2 find 六、CSS 选择器 1 实例 2 获取属性 3 获取文本 七、结语 一…

HSCCTF-2024-Crypto 复现

文章目录 EZ_MATHSTAR_CHASING_DIARYRSATESTYOUQU 复现参考来源: lazzzaro佬写的题解 EZ_MATH 题目描述: from Crypto.Util.number import *flag HSCCTF{*****************************************} x bytes_to_long(flag.encode()) y getPrime(2…

蓝桥杯第三期模拟赛(java版)

📑前言 本文主要是【蓝桥杯第三期练习题】的文章,如果有什么需要改进的地方还请大佬指出⛺️ 🎬作者简介:大家好,我是听风与他🥇 ☁️博客首页:CSDN主页听风与他 🌄每日一句&#x…

Java17 --- SpringCloud之Consul

目录 一、consul的使用 1.1、主要功能 1.2、安装及运行 1.3、添加微服务到consul 1.3.1、8001微服务添加相关pom、配置文件、注解 1.3.2、80微服务添加相关pom、配置文件、注解 1.4、三个注册中心异同 1.5、consul进行分布式配置 1.5.1、修改8001的yml配置文件 1.5.2…

map、set模拟(底层封装红黑树)

个人主页:Lei宝啊 愿所有美好如期而遇 前言 前面我们对红黑树进行了模拟实现: 现在我们将使用我们模拟的map和set对我们模拟的红黑树进行封装。 并且,本篇将增加红黑树的迭代器,模拟迭代器(这里理解原理即可&…

重建大师模型构建精细网格失败是什么原因导致的呢?(如下图)

出现图中的报错一般是显存溢出、瓦块过大造成的。 重建大师是一款专为超大规模实景三维数据生产而设计的集群并行处理软件,输入倾斜照片,激光点云,POS信息及像控点,输出高精度彩色网格模型,可一键完成空三、自动建模和…

flex弹性盒子实现左中右居中布局

1、效果展示 2、布局与样式 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>测试弹性盒子</title> </head> <body> <div class"out-parent"><div class"…