云原生文件存储 CFS 线性扩展到千亿级文件数,百度沧海·存储论文被 EuroSys 2023 录用

恭喜百度沧海云存储和中科大合作的论文《CFS: Scaling Metadata Service for Distributed File System via Pruned Scope of Critical Sections》(以下简称论文)被 EuroSys 2023 录用。

EuroSys 全称欧洲计算机系统会议(The European Conference on Computer Systems),是计算机系统领域的顶级会议,和 VLDB、FAST、NSDI 等同属中国计算机学会 CCF 推荐的 A 类会议。

本次 EuroSys 会议于 2023 年 5 月 8 日 - 12 日在罗马举办,会议从投稿的 335 篇论文中录用了 54 篇,录用率仅为 16.1%。

论文介绍了百度智能云 CFS 文件存储元数据系统的核心设计,对长期困扰文件系统元数据领域的 POSIX 兼容性和高扩展性(特别是写扩展性)难以兼顾的问题,进行了解答。

这是一个大规模分布式文件系统能否扩展到百亿甚至千亿级别文件数,同时保持高性能稳定性的一个关键问题。

论文的核心思路是通过修剪关键冲突域的范围来减少锁的开销,从而消除元数据管理的瓶颈,具体包括:

  • 采用层次化、模块化的元数据组织结构,系统不再有专门的元数据模块,而是将整个元数据的存储和处理拆解到负责目录和索引的 TafDB、负责文件的 FileStore、负责 slow path rename 的 Renamer,和客户端,每一部分根据各自的特点独立扩展。

  • 通过分析和拆解 POSIX 操作的实质要求,TafDB 引入单分片原子原语,提升单个分片处理性能的同时,缩短了元数据请求的处理耗时,消除了虚假的跨分片冲突。

  • 在上述设计的基础上,CFS 放弃了传统实现存在的元数据代理层,直接由客户端提供完整的 POSIX 语义兼容性,客户端数量可以自由扩展。

论文的测试结果显示,在 50 节点规模的测试中,与 HopsFS 和 InfiniFS 相比,CFS 各操作的吞吐量提高至 1.76 - 75.82 倍和 1.22 - 4.10 倍,并将它们的平均延迟分别最高降低了 91.71% 和 54.54%。在竞争较高和目录较大的情况下,CFS 的吞吐量优势则会进一步扩大一个数量级。

CFS 的这套设计已经在生产环境中稳定运行了超过 3 年时间,为云上蓬勃发展的的大数据、AI、容器、生命科学等场景的业务提供了有力支撑。

关于百度沧海·存储

百度沧海·存储构建的统一存储技术底座,为各类分布式存储产品提供统一的技术能力支撑,加速智能计算,释放数据价值。

1683281469580.jpg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/292906.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PIC单片机项目(7)——基于PIC16F877A的智能灯光设计

1.功能设计 使用PIC16F877A单片机,检测环境关照,当光照比阈值低的时候,开灯。光照阈值可以通过按键进行设置,同时阈值可以保存在EEPROM中,断电不丢失。使用LCD1602进行显示,第一行显示测到的实时光照强度&a…

移动SEO:如何针对任何设备优化您的网站

您快速进行 Google 搜索并阅读一堆结果。然后,您会发现一些网站具有您正在寻找的答案。 但是你从SERP中选择的第一个,也是最有前途的网站,在你最喜欢的移动设备上无法正常工作。 所以,你关闭它,看看下一个网站是否有…

0x52 背包

0x52 背包 背包是线性DP中一类重要而特殊的模型。 1. 0/1背包 0/1背包问题的模型如下: 给定 N N N个物品,其中第 i i i个物品的体积为 V i V_i Vi​,价值为 W i W_i Wi​。有一个容积为 M M M的背包,要求选择一些物品放入背包&…

乐理基础-节拍器与使用

在 乐理基础-情绪与速度、具体的速度、BPM-CSDN博客 与 乐理基础-抽象的速度-CSDN博客里写了音乐中的速度是怎样去确定的,接下来要写的内容必须要知道怎样去确定音乐的速度才可以。 首先音乐的速度之前用秒来说,是为了方便理解,比如138bpm它…

DC-9靶机

目录 DC-9靶场链接: 首先进行主机发现: sqlmap注入: 文件包含: 端口敲门规则: hydra爆破: root提权: 方法一/etc/passwd: ​编辑 方法二定时任务crontab: DC-9靶…

罗德与施瓦茨FSV40-N手持式频谱分析仪

描述 R&S FSV是速度最快、功能最全面的信号和频谱分析仪,适用于从事RF系统开发、生产、安装和服务的注重性能、注重成本的用户。 频率范围高达3.6 GHz/7 GHz/13.6 GHz/30 GHz 40 MHz分析带宽 0.4 dB级测量不确定度,最高7 GHz 针对GSM/EDGE、WCDMA/…

模块与包、反序列化校验源码分析、断言、drf之请求、drf之响应

模块与包 什么是模块? 一个py文件,被别的py文件导入使用,它就是模块 如果py文件,直接右键运行,它叫脚本文件 什么是包? 一个文件夹,下有 __init__.py ,和很多py文件,这个…

MySQL 分表真的能提高查询效率?

背景 首先我们以InnoDB引擎,BTree 3层为例。我们需要先了解几个知识点:页的概念、InnoDB数据的读取方式、什么是树搜索?、一次查询花费的I/O次数,跨页查询。 页的概念 索引树的页(page)是指存储索引数据…

第十二章 异常-Exception

一、异常的概念(P444) Java 语言中,将程序执行中发生的不正常情况称为“异常”。(开发过程中的语法错误和逻辑错误不是异常) 执行过程中所发生的异常事件可分为两大类 (1)Error(错误…

链接未来:深入理解链表数据结构(二.c语言实现带头双向循环链表)

上篇文章简述讲解了链表的基本概念并且实现了无头单向不循环链表:链接未来:深入理解链表数据结构(一.c语言实现无头单向非循环链表)-CSDN博客 那今天接着给大家带来带头双向循环链表的实现: 文章目录 一.项目文件规划…

找不到msvcp120dll,无法继续执行代码的解决方法大全

当你尝试启动一个应用程序或游戏,并且遭遇到一个错误信息,告诉你“找不到msvcp120dll,无法继续执行代码”或者收到类似的提示,这说明你的操作系统中缺失了一个关键的动态链接库文件,即 msvcp120.dll。这种情况其实并不罕见&#x…

Android Studio 显示前进后退按钮

在写代码的过程中我们经常需要快速定位到先前或者往后的代码位置,可以使用Alt左右箭头 但是新安装的Android Studio工具栏上是没有显示左右箭头的工具按钮的,需要我们设置将Toolbar显示出来 View-Appearance-Toolbar 勾选即可 显示后