腾讯云存储面向AIGC全面升级,搭载全面自研存储引擎

 云厂商继续为大模型加速落地铺路架桥。

4月8日,腾讯云宣布云存储解决方案面向AIGC场景全面升级,能够针对AI大模型数据采集清洗、训练、推理、数据治理全流程提供全面、高效的云存储支持。数据显示,采用腾讯云AIGC云存储解决方案,可将大模型的数据清洗和训练效率均提升一倍,需要的时间缩短一半。

据介绍,腾讯云AIGC云存储解决方案主要由对象存储COS、高性能并行文件存储CFS Turbo、数据加速器GooseFS和数据万象CI等产品组成,是国内首个实现存储引擎全面自研的云存储解决方案。目前,已经有80%的头部大模型企业选择了腾讯云AIGC云存储解决方案,包括百川智能、智谱、元象等明星大模型企业。

此前,腾讯云已经面向AIGC场景推出了基于星脉网络的大模型训练集群HCC、向量数据库、以及行业大模型服务MaaS等大模型全链路云服务。

腾讯集团副总裁、腾讯云与智慧产业事业群COO兼腾讯云总裁邱跃鹏曾经表示,大模型将开创下一代云服务,腾讯云致力于打造“最适合大模型的云”。

解决大模型全链路数据处理难题

AI大模型的研发生产流程,分成数据采集与清洗、模型训练、推理三大环节,各环节都涉及海量的数据处理。

在数据采集与清洗环节,由于原始训练数据规模海量,且来源多样,对存储技术提出了多协议支持、高性能、大带宽的需求。

腾讯云对象存储COS支持单集群管理百 EB 级别存储规模,提供便捷、高效的数据公网接入能力,并支持多种协议,充分支持大模型PB级别的海量数据采集。在数据清洗环节,大数据引擎需要快速地读取并过滤出有效数据,COS通过自研数据加速器GooseFS提升数据访问性能,可实现高达数TBps的读取带宽,支撑计算高速运行,大大提升数据清洗效率。

在模型训练环节,通常需要每2-4小时保存一次训练成果,以便能在GPU故障时时能回滚,因此快速地读写checkpoint(检查点)文件也成了能否高效利用算力资源、提高训练效率的关键。

腾讯云自主研发并行文件存储CFS Turbo ,面向AIGC训练场景的进行了专门优化,每秒总读写吞吐达到TiB/s级别,每秒元数据性能高达百万OPS,均为业界第一。3TB checkpoint 写入时间从10分钟,缩短至10秒内,使大模型训练效率大幅提升。

大模型推理场景对数据安全与可追溯性提出更高要求。腾讯云数据万象CI为此提供图片隐式水印、AIGC内容审核、智能数据检索MetaInsight等能力,为数据生产从“用户输入——预处理——内容审核——版权保护——安全分发——信息检索“业务全流程提供有力支撑,优化AIGC内容生产与管理模式,顺应监管导向,拓宽存储边界。

同时,随着训练数据和推理数据的增长,需要提供低成本的存储能力,减少存储开销。对象存储服务提供了高达 12 个 9 的数据持久性和 99.995% 的数据可用性,能够为业务提供持续可用的存储服务。

业内唯一全自研存储引擎

卓越的性能表现,源自腾讯云自主研发的存储引擎与自研技术。这也是国内目前唯一实现存储引擎全面自研的云存储解决方案。

腾讯云自研的分布式对象存储引擎YottaStore,支持任意多副本及纠删码冗余模式并存,在大幅提升可用性、可靠性及性能的同时大幅降低成本。基于YottaStore,腾讯云对象存储服务COS作为统一的数据存储池,支持单集群1万台服务器,单集群百EB级的存储。

在数据清洗环节中,数据加速器GooseFS可根据数据的使用频率,将数据智能存储至内存、计算集群的本地盘、或可用区的全闪存储集群等不同级别的缓存中,低成本缩短IO路径,提升数据访问性能。相比起从对象存储COS中直接读取,GooseFS可以提供亚毫秒级的数据访问延迟、百万级的IOPS和Tbps级别的吞吐能力,有效提升数据清洗效率。

面向模型训练场景的CFS Turbo,则是目前业内唯一自研的并行文件存储系统。

基于自研分布式高性能存储引擎Histor,CFS Turbo底层通过自研用户态协议栈和RDMA等技术,减少数据的多次拷贝与虚拟化消耗,大幅降低了存储时延、提升吞吐性能;在应用侧,CFS Turbo自研并行文件传输协议,实现了多链路并行访问,大大提升了吞吐效率。原来的文件存储受限于传统NFS协议,单客户端只能单链路访问,也导致吞吐存在性能瓶颈。

此外,针对AIGC的checkpoint记录、大视频文件读写、小图片读写等场景,腾讯云CFS Turbo还自研了分级缓存、自适应条带化、分布式元数据的技术,大幅提升了AIGC场景下的读写性能。除了大模型企业以外,CFS Turbo也被广泛应用于自动驾驶与工业仿真场景,包括博世汽车、蔚来等自动驾驶厂商,上海电气、深势等仿真场景,墨镜天合、追光等影视特效场景。

今年1月,在沙利文联合头豹研究院发布的《2023年中国云存储解决方案市场报告》中,腾讯云存储入选“领导者”阵营,位列第一。随着AIGC时代来临,腾讯云也在不断迭代优化自身产品,服务最新场景需求,帮助企业把握时代红利。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/601273.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

键值数据库Redis——Windows环境下载安装+命令行基本操作+Java操纵Redis

文章目录 前言一、下载与安装(Windows环境)** 检查数据库连接状态 **** 查看Redis数据库信息 ** 二、Redis五种数据结构与基本操作获取所有的key——keys *清空所有的key——flushall2.1 字符串操作2.2 散列操作2.3 列表操作2.4 集合操作2.5 位图操作 三…

2_7.Linux中的无人值守安装脚本kickstart

## 一.kickstart自动安装脚本的作用 ## #在企业中安装多台操作系统时面临的问题# 当安装Linux操作系统时,安装过程会需要回答很多关于设定的问题 这些问题必须手动选择,否则无法进行安装 当只安装1台Linux系统,手动选择设定工作量比较轻松 当…

JAVA毕业设计135—基于Java+Springboot+Vue的服装商城(源代码+数据库+万字论文)

毕设所有选题: https://blog.csdn.net/2303_76227485/article/details/131104075 基于JavaSpringbootVue的服装商城(源代码数据库万字论文)135 一、系统介绍 本项目前后端分离,分为管理员、用户两种角色 1、用户: 注册、登录、服装购买、…

Axios 使用教程

Axios 是什么? Axios 是一个基于 promise 网络请求库,作用于node.js 和浏览器中。 它是 isomorphic 的(即同一套代码可以运行在浏览器和node.js中)。在服务端它使用原生 node.js http 模块, 而在客户端 (浏览端) 则使用 XMLHttpRequests。 特性 从浏览器创建 XM…

day02php环境和编译器—我耀学IT

一、环境介绍 1、web 环境 使用 PHP 需要先安装环境,安装环境比较麻烦,需要安装Web服务、PHP应用服务器、MySQL管理系统。 Web服务:apache 和 nginx PHP:多版本 MySQL:多版本 2、环境集成包 因为多环境、多版本、多系…

“鲜花换冥币,文明寄哀思“张家口慈善义工联合会清明节活动

又是一年春草绿,梨花风起正清明。扫墓祭祖、缅怀先人是清明节的重要民俗活动,为摒弃传统陋习,树文明祭祀新风,2024年4月4日,张家口慈善义工联合会携手市人民公墓西祥园组织志愿者们开展以“鲜花换冥币,文明…

-bash: cd: /etc/hadoop: 没有那个文件或目录

解决办法:source /etc/profile 运行 source /etc/profile 命令会重新加载 /etc/profile 文件中的配置,这样做的目的是使任何更改立即生效,而不需要注销并重新登录用户。通常,/etc/profile 文件包含系统范围的全局 Shell 配置&…

Linux上下载部署zentao v15.5及具体的使用

1.先查询一下Linux的操作系统的位数,确保下载的文件位数与os的一致 [rootlocalhost xiaoming]# uname -m x86_64 [rootlocalhost xiaoming]# getconf LONG_BIT 64 2.下载zentao的Linux压缩包 wget https://www.zentao.net/dl/zentao/15.5/ZenTaoPMS.15.5.zbox…

Python 魔术方法(Magic Methods)的触发时机

文章目录 魔术方法的简介魔术方法的作用魔术方法汇总特殊属性__init__初始化__new__ 构造方法__str__ 对象描述__repr__ 对象描述__call__ 模糊对象和函数__del__析构方法__len__ 长度计算__boor__ 布尔转换__enter__ 进入__exit__ 退出上下文管理器成员属性相关__getattribute…

面试字节被挂了

分享一个面试字节的经历。 1、面试过程 一面:上来就直接"做个题吧",做完之后,对着简历上一个项目聊,一直聊到最后,还算比较正常。 二面:做自我介绍,花几分钟聊了一个项目&#xff…

ES入门十二:相关性评分

对于一个搜索引擎来说,对检索出来的数据进行排序是非常重要的功能。全文本数据的检索通常无法用是否相等来的出结果,而是用相关性来决定最后的返回结果 相关性是值搜索内容和结果的相关性,是用来描述文档和查询语句的匹配程度的。通过计算相…

C++ 学习笔记

文章目录 【 字符串相关 】C 输入输出流strcpy_s() 字符串复制输出乱码 【 STL 】各个 STL 支持的常见方法 ? : 运算符switch case 运算符 switch(expression) {case constant-expression :statement(s);break; // 可选的case constant-expression :statement(s);break; //…