【Flink架构】关于FLink BLOB的组织架构:FLIP-19: Improved BLOB storage architecture:官网解读

文章目录

  • 一. BlobServer架构
    • 1.BlobClient
    • 2. BlobServer
    • 3. BlobCache
    • 4. LibraryCacheManager
  • 二、BLOB的生命周期
    • 1. 分阶段清理
    • 2. BlobCache的生命周期
    • 3. BlobServer
  • 三、文件上下载流程
    • 1. BlobCache 下载
    • 2. BlobServer 上传
    • 3. BlobServer 下载
  • 四. Flink中支持的BLOB文件类型
    • 1. BLOB文件类型
    • 2. 按存储特性又分为两类
  • 五. Use Cases Details
    • 1. Jar 文件
    • 2. RPC 消息
    • 3. 日志
  • 六、相关参数

一. BlobServer架构

BlobServer是jobmanager的组件, 是一个用来管理二进制大文件的服务,比如保存用户上传的jar文件,该服务会将其写到磁盘上。还有一些相关的类,如BlobCache,用于TaskManager向JobManager下载用户的jar文件。

如下blob-store-architecture:
在这里插入图片描述

 

1.BlobClient

  1. 提供上传和下载的接口
  2. 与BlobServer进行通讯

 

2. BlobServer

  1. 提供了基于jobId和BlobKey进行文件上传和下载的方法;
  2. 本地、HA 分布式文件系统的读写:基于<path>/<jobId>/<BlobKey>目录结构,进行HA恢复中,下载分布式系统中的文件到本地文件系统中;
  3. 负责本地和HA系统的清理工作
  4. 先存到本地,然后(如有需要)上传到HA(可能并行进行,确认之前等待两者完成)
  5. 文件下载只能通过本地文件系统中
  6. 恢复时,从HA下载所需文件到本地,并负责清理此路径下所有问题。

 

3. BlobCache

  1. 提供BlobServer文件(基于jobId和BlobKey)的缓存
  2. 提供(基于<path>/<jobId>/<BlobKey>目录结构 )本地文件的读写权限
  3. HA store的读权限
  4. 能够从HA store or BlobServer下载文件
  5. 负责清除本地文件

 

4. LibraryCacheManager

桥接task的classloader和BlobCache中缓存的库BLOB(即 jar 文件),其registerJob,registerTask会构建并缓存job,task运行需要的classloader。

 

二、BLOB的生命周期

BlobCache 对其所有 BLOB 进行引用计数,并在 “blob.retention.interval” 秒后开始删除未被引用的文件。每个子目录与其各自的 BLOB 一起进行引用计数,并将以类似的方式进行删除。请注意,BlobCache 目前没有关于作业进入最终状态的信息,因此只能依靠引用计数来删除作业的 BLOB。

在 TaskManager 关闭时,我们可以清理子目录 <jobId>中的任何剩余文件。

BlobServer 将使用相同的引用计数技术,并适当地从本地和 HA 存储中删除文件。此外,它将通过了解作业何时进入最终状态来增加安全保障。在这种情况下,将删除作业的 BLOB 存储目录(本地和 HA),即 “/”,包括其所有的 BLOB 文件。

 

1. 分阶段清理

场景描述

直到 Flink 1.3,在 LibraryCacheManager 中,我们每小时运行一次定期清理任务(参见library-cache-manager.cleanup.interval参数),删除任何未被引用的 jar 文件。如果作业的任务在清理开始之前失败,后续的恢复可能无法再访问缓存的文件。我们希望通过 “分阶段清理” 来改变这一点。

分阶段清理逻辑

  • 在分阶段清理中,只有当(周期性的)清理任务第二次遇到此 BLOB 时,才会删除 BLOB 文件,例如通过拥有两个清理列表:一个用于实际清理,即 “立即删除”,一个用于分阶段文件,即 “下次删除”。
  • 每次清理任务运行时,将删除实际清理列表(和文件),并将分阶段列表变为实际列表。这比为每个未被引用的 jar 设置存活时间的花销要小,并且对于当前的清理任务来说足够了。因此,(目前)未被引用的 BLOB 将至少保留 “blob.retention.interval” 秒,最多两倍于此数量。

 

2. BlobCache的生命周期

  1. 所有的 BLOB 都是引用计数的,从第一次检索/传递 BLOB 开始计数。
  2. 特定于作业的 BLOB子目录也会随着每个与作业相关的文件一起进行引用计数。
  3. 如果引用计数为 0,则该 BLOB 将进入分阶段清理(见上文)。
  4. 如果任务成功、失败或被取消,其所有 BLOB 的引用计数将适当地递减(如果可能)。 当 BlobCache 关闭时,即 TaskManager 退出时,应删除所有的 BLOB。

请注意,运行在同一 TaskManager 上的多个任务可能使用同一作业的BLOB 文件!

 

3. BlobServer

BlobServer 中存储的所有未使用的 BLOB 文件也应定期清理,而不仅仅是在 BlobServer 关闭时(自 Flink 1.3 起)。

  1. 所有的 BLOB 都是引用计数的,从初始上传开始计数。
  2. 特定于作业的 BLOB 子目录 (<path>/<jobId>)不进行引用计数。
  3. 两种类型的 BLOB 生命周期保证:HA(用于恢复保留)和非-HA(可重新创建文件,不用于恢复)。
  4. 如果作业失败,则所有非-HA 文件的引用计数将重置为 0;所有 HA 文件的引用计数保持不变,并且在恢复时不会再次增加。
  5. 如果作业进入最终状态,即完成或取消,作业特定的 BLOB 子目录 (<path>/<jobId>) 及其所有的 BLOB 将立即被删除,并从引用计数中移除(尽管实际的引用计数可能不为 0)。
  6. 如果引用计数为 0,则该 BLOB 将进入分阶段清理(见上文)。
  7. 当BlobServer 退出时,应删除所有的 BLOB。

注意,与特定于作业的 BLOB 目录一起,jar 文件通常会被删除,而短期存在的BLOB,如 RPC 消息或日志,主要基于引用计数进行删除。作业目录删除充当了它们的安全保障,以防引用计数出错。

 

三、文件上下载流程

1. BlobCache 下载

BlobCache的下载流程

当请求特定于作业 ID 和 BlobKey 的文件时,

  1. BlobCache 首先会尝试从其本地存储中提供该文件(在成功的校验和验证后)。
  2. 如果在本地存储中找不到文件或者校验和不匹配,文件将从 HA 存储复制到本地存储(如果可用)。
  3. 如果这种方法不起作用或者不可用,将使用通过 BlobClient 建立和管理的连接,从 BlobServer 直接下载到本地存储中。

在传输过程中,这些文件将被放入临时目录,并且只有在完全传输和校验和验证后才会提交到特定于作业的路径。

HOW:这可能会为同一文件触发多个(并发)下载,但确保在提供 BLOB 时不会使用不完整的文件。我们可以通过 BlobCache 阻止这样的多次下载作为优化。

 

2. BlobServer 上传

注意:

在上传用户 jar 文件时,相应的作业尚未提交,因此我们无法将 jar 文件绑定到不存在的作业生命周期。
 
这里可以提供思路:为什么flink本地临时jar不会被删除。

 

确保在上传和作业提交之间的客户端中止/崩溃期间的正确清理。

我们不能一次性上传每个文件并使用引用计数器为 0,因为在启动作业时,某些文件可能已经被删除。相反,我们将一起上传所有 jar 文件,并仅在收到最后一个文件后,将它们全部放入分阶段清理的分阶段列表中。然后作业需要在 “blob.retention.interval” 秒内提交,否则我们无法保证 jar 文件仍然存在。

 

3. BlobServer 下载

与 BlobCache 类似,我们首先尝试从本地存储中提供文件(经过校验和验证),如果文件不存在,则从 HA 存储中创建本地副本(如果可用) 。

 

四. Flink中支持的BLOB文件类型

1. BLOB文件类型

  • jar包: 被user classloader使用的jar包
  • 高负荷RPC消息
    1. RPC消息长度超出了akka.framesize的大小
    2. 在HA摸式中,利用底层分布式文件系统分发单个高负荷RPC消息,比如:TaskDeploymentDescriptor。
    3. 失败导致重新部署过程中复用RPC消息
  • TaskManager的日志文件: 为了在web ui上展示taskmanager的日志

2. 按存储特性又分为两类

  • PERMANENT_BLOB: 生命周期和job的生命周期一致,并且是可恢复的。会上传到BlobStore分布式文件系统中。
  • TRANSIENT_BLOB:生命周期由用户自行管理,并且是不可恢复的。不会上传到BlobStore分布式文件系统中。

 

五. Use Cases Details

1. Jar 文件

在作业提交客户端提交作业之前,用户代码的 jar 文件会被上传。成功上传所有 jar 文件后,作业将被提交,JobManager/Dispatcher 将 BlobServer 上的引用计数增加 1。当作业进入最终状态时,引用计数将减少,此时将删除 目录。BlobCache 只需要在其本地存储中引用计数 jar 文件,不需要进一步交互。

 

2. RPC 消息

ing

3. 日志

目前日志文件仅由 Web 用户界面(Web-UI)用于显示 TaskManager 日志。它们在请求后下载并提供服务。每次下载应该将先前日志的引用计数减少 1,并将新日志的引用计数增加 1。日志具有非 HA 生命周期保证,甚至可以立即删除,而不是将它们放入分阶段清理中。
作为优化,我们可以支持将日志文件分区(即字节 xxxx-yyyy)作为 BLOB 上传,并在 WebUI 中使用它们,而不是一遍又一遍地传输相同的日志部分。然而,这与 BLOB 存储无关,并且受到上述体系结构的支持。

 

六、相关参数

参数默认值描述
high-availability.storageDirHA BlobStore根目录
blob.storage.directory<java.io.tmpdir>BlobServer 本地文件根目录
blob.fetch.num-concurrent50BlobServer fetch文件的最大并行度
blob.fetch.backlog1000允许最大的排队等待链接数
blob.service.cleanup.interval3600BlobServer cleanup 线程运行的间隔
blob.fetch.retries5从BlobServer下载文件错误重试次数
blob.server.port0BlobServer端口范围
blob.offload.minsize1024 * 1024运行通过BlobServer传递的最小消息大小
classloader.resolve-orderchild-firstclassloader类加载顺序

 

参考:
https://cwiki.apache.org/confluence/display/FLINK/FLIP-19:+Improved+BLOB+storage+architecture

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/572996.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

electron打包桌面版.exe之vue项目踩坑(vue3+electron 解决打包后首页打开空白,打包后路由不跳转及请求不到后端数据等问题)

vue项目https://www.qingplus.cn/components-web/index打包桌面版问题集合 一、静态资源加载问题 npm run electron_dev桌面版运行后页面空白&#xff0c;内容未加载。 填坑&#xff1a; 打包配置要用相对路径 vite.config.ts文件中的base要改成./&#xff0c;之前加了项目…

AWS基础网络产品及协同架构-Networking

简介 一个完整的AWS网络架构图&#xff0c;包含了如下能力&#xff1a; Users (用户): 表示使用AWS服务的用户或系统。 SaaS (软件即服务): 表示在AWS上运行的软件服务&#xff0c;如企业微信可能作为SaaS提供。 example.com?: 这可能是一个示例域名&#xff0c;用于展示如何…

ES面试题

1、如何同步索引库 同步调用 在完成数据库操作后&#xff0c;直接调用搜索服务提供的接口 异步通知 在完成数据库操作后&#xff0c;发送MQ消息 搜索服务监听MQ&#xff0c;接收到消息后完成数据修改 监听binlog 2、分词器 ik分词器 ik_smart ik_max_word 自定义分词器 以拼…

Zookeeper的系统架构

先看一张图&#xff1a; ZooKeeper 的架构图中我们需要了解和掌握的主要有&#xff1a; 1&#xff1a; ZooKeeper分为服务器端&#xff08;Server&#xff09; 和客户端&#xff08;Client&#xff09;&#xff0c;客户端可以连接到整个ZooKeeper服务的任意服务器上&#xff…

ADC+DMA

接线图 这个部分的数据转运是在STM32内部进行的&#xff0c;无需其他外加模块&#xff0c;首先印证一下定义的数据是否储存在相应的地址区间里。

华为CLI实验-配置旁路检测时的安全策略

CLI举例&#xff1a;配置旁路检测时的安全策略 举例说明当FW作为旁路检测设备时&#xff0c;如何配置安全策略。 组网需求 如图1所示&#xff0c;企业内网通过路由器Router连接到Internet。FW作为旁路检测设备&#xff0c;对通过Router的流量进行内容安全检测。 图1 旁路检测…

UniRepLKNet:一种用于音频、视频、点云、时间序列和图像识别的通用感知大核卷积神经网络

论文: https://arxiv.org/abs/2311.15599 模型: https://huggingface.co/DingXiaoH/UniRepLKNet/tree/main 主页&#xff1a;https://invictus717.github.io/UniRepLKNet/ contribution 提出了四条guide line用于设计大核CNN架构模型&#xff0c;用于图像识别&#xff0c;语…

视图的作用

目录 视图的作用 创建视图 为 scott 分配创建视图的权限 查询视图 复杂视图的创建 视图更新的限制问题 更新视图中数据的部门编号&#xff08;视图的存在条件&#xff09; 限制通过视图修改数据表内容 创建只读的视图 复杂视图创建 oracle从入门到总裁:​​​​​​h…

数据结构——线性表(一)

线性表&#xff0c;顾名思义&#xff0c;是具有像线一样的性质的表。如同学生们在操场上排队&#xff0c;一个跟着一个排队&#xff0c;有一个打头&#xff0c;有一个收尾&#xff0c;在其中的学生都知道前一个是谁&#xff0c;后一个是谁&#xff0c;这样就像一根线将他们都串…

协程库-锁类-实现线程互斥同步

mutex.h&#xff1a;信号量&#xff0c;互斥锁&#xff0c;读写锁&#xff0c;范围锁模板&#xff0c;自旋锁&#xff0c;原子锁 锁 **锁不能进行拷贝操作&#xff1a;**锁是用于管理多线程并发访问共享资源的同步原语。这些锁包括互斥锁&#xff08;mutex&#xff09;、读写锁…

【论文阅读】Faster Neural Networks Straight from JPEG

Faster Neural Networks Straight from JPEG 论文链接&#xff1a;Faster Neural Networks Straight from JPEG (neurips.cc) 作者&#xff1a;Lionel Gueguen&#xff0c;Alex Sergeev&#xff0c;Ben Kadlec&#xff0c;Rosanne Liu&#xff0c;Jason Yosinski 机构&#…

阿里云实时计算Flink的产品化思考与实践【上】

摘要&#xff1a;本文整理自阿里云高级产品专家黄鹏程和阿里云技术专家陈婧敏在 FFA 2023 平台建设专场中的分享。内容主要为以下五部分&#xff1a; 阿里云实时计算 Flink 简介产品化思考产品化实践SQL 产品化思考及实践展望 该主题由黄鹏程和陈婧敏共同完成&#xff0c;前半程…