Flink入门之核心概念(三)

任务槽

  • TaskSlots: 任务槽,是TaskManager提供的用于执行Task的资源(CPU + 内存)

  • TaskManager提供的TaskSlots的个数:主要由Taskmanager所在机器的CPU核心数来决定,不能超过CPU的最大核心数

    • 1.可以在flink/conf/flink-conf.yaml文件中的numberOfTaskSlot配置
    • 2.在yarn集群中运行flink时,任务槽的个数受到yarn中container的最大CPU数 vcores
  • 一个作业的Task数量如何确定?

    • 1.主要由算子数、算子链数、并行度共同来决定的
    • 2.如果禁用算子链合并,task的数量 = 算子数 * 并行度(并行度相同)
    • 3.如果存在算子链合并,task的数量 = 合并后的算子链数(包含不合并的算子)* 并行度(并行度相同)
  • Slot共享:flink允许将上下游的task共享给同一个slot。但是注意,同一个Task的并行子任务不允许共享

  • 为什么要Slot共享?

    • 1.当我们将资源密集型和非密集型的任务同时放到一个slot中,他们就可以自行分配对资源占用的比例,保证最重的活平均分配给所有的Taskmanager
    • 2.Slot共享另一个好处就是在一个Slot中可以保存完整的作业管道
  • 能不能不共享?

    • 通过设置共享组(算子.slotSharingGroup(“共享组名”))来实现共享或者不共享,默认的共享组为default,从source端往后传递,如果下游的算子没有具体设置共享组
  • 一个作业的并行度如何确定?

    • 作业的并行度由当前作业中并行度最大的算子的并行度决定
    • 一个作业需要多少个TaskSlot如何确定?
    • 作业需要多少个taskSlot由作业的并行度决定(前提是slot共享)

Yarn应用模式作业提交流程

在这里插入图片描述

  1. 客户端提交任务,Yarn的ResourceManager启动AM
  2. AM中的Actor通信系统
    • 启动资源管理器
    • 启动分发器
      • 分发器启动JobMaster
  3. JobMaster
    • 生成逻辑流图
    • 生成作业流图
    • 生成执行流图
    • 向资源管理器 注册请求Slot
  4. 资源管理器向Yarn的Resource manager申请资源
  5. Resource Manager启动TaskManager
  6. TaskManager向AM中的资源管理器注册需要的Slot
  7. AM的资源管理器分配slot给TaskManager
  8. JobMaster获取目前TaskManager现有的Slot个数
  9. JobMaster分配任务给各个TaskManager,各个TaskManager生成相应的物理流图并执行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/259139.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python configparser 模块:优雅处理配置文件的得力工具

更多资料获取 📚 个人网站:ipengtao.com 配置文件在软件开发中扮演着重要的角色,而Python中的 configparser 模块提供了一种优雅而灵活的方式来处理各种配置需求。本文将深入介绍 configparser 模块的各个方面,通过丰富的示例代码…

Power BI - 5分钟学习透视列

每天5分钟,今天介绍Power BI透视列功能 什么是透视列? 透视列就是把行数据转换成列数据,也就是大家在工作中常说的行转列。 如何进行逆透视操作: 1,导入的【Sales】表,样例内容如下: 2, 【Ho…

20 套监控平台统一成 1 套 Flashcat,国泰君安监控选型提效之路

author:宋庆羽-国泰君安期货 运维工作最重要的就是维护系统的稳定性,其中监控是保证系统稳定性很重要的一环。通过监控可以了解系统的运行状态,及时发现问题和系统隐患,有助于一线人员快速解决问题,提高业务系统的可用时长。 作为…

Javaweb之 IDEA集成Maven的详细解析

03. IDEA集成Maven 我们要想在IDEA中使用Maven进行项目构建,就需要在IDEA中集成Maven 3.1 配置Maven环境 3.1.1 当前工程设置 1、选择 IDEA中 File > Settings > Build,Execution,Deployment > Build Tools > Maven 2、设置IDEA使用本地安装的Maven…

多线程(初阶九:线程池)

目录 一、线程池的由来 二、线程池的简单介绍 1、ThreadPoolExecutor类 (1)核心线程数和最大线程数: (2)保持存活时间和存活时间的单位 (3)放任务的队列 (4)线程工…

矩阵起源入选IDC《中国大数据管理解决方案技术评估,2023》

近日,矩阵起源作为典型代表厂商入选国际数据公司IDC发布的《中国大数据管理解决方案技术评估,2023》。 在该评估中,IDC认为,矩阵起源超融合异构数据库 MatrixOne 具备如下优势: 将存储、计算、事务三层结解耦,以极致灵…

Python 日志指南

目录 日志指南 日志基础教程 什么时候使用日志 一个简单的例子 记录日志到文件 从多个模块记录日志 记录变量数据 更改显示消息的格式 在消息中显示日期/时间 后续步骤 进阶日志教程 记录流程 记录器 处理器 格式器 配置日志记录 如果没有提供配置会发生什么 …

Ubuntu22.04安装和卸载软件的命令行

一、安装 sudo apt install xxx 二、卸载 sudo apt remove xxx 三、卸载依赖包(可选) 第二步软件卸载之后,有一些依赖包没有被卸载。可以使用sudo apt autoremove xxx来卸载。如果不卸载应该也没什么影响

Tabbar切换效果(vant)

route 是否开启路由模式 <template><div class"layout-page"><!-- 二级路由出口 --><router-view></router-view><van-tabbar route><van-tabbar-item to"/home">首页<!-- 图标切换为active是高亮 -->&…

从零到一学习RocketMQ

RocketMQ 是一款功能强大的分布式消息系统&#xff0c;广泛应用于多个领域&#xff0c;包括异步通信解耦、企业解决方案、金融支付、电信、电子商务、快递物流、广告营销、社交、即时通信、移动应用、手游、视频、物联网、车联网等。 RocketMQ 源码地址&#xff1a;https://gi…

个人信息展示网站需求分析报告

目录 一. 概述1.1 设计目的1.2 术语定义 二. 需求分析三. 系统功能需求3.1 功能总览3.2 业务流程图1.系统用例图2.系统流程 四.开发技术4.1 技术组成 五.界面及运行环境1.用户界面2.运行环境 一. 概述 1.1 设计目的 兴趣使然。将知识点综合运用。CSDN有功能限制&#xff0c;因…

小程序开发要多少钱

随着智能手机的普及和人们对移动应用的需求不断增长&#xff0c;小程序作为一种轻量级应用形式&#xff0c;在商业领域中备受关注。众多企业都渴望抓住这一机遇&#xff0c;但他们最关心的问题之一是&#xff1a;小程序开发需要多少钱&#xff1f; 一、开发方式选择 在开始小…