大数据基础设施搭建 - Flink

文章目录

  • 一、上传并解压压缩包
  • 二、修改集群配置
    • 2.1 修改flink-conf.yaml文件
    • 2.2 修改workers文件
    • 2.3 修改masters文件
    • 2.4 分发配置文件
    • 2.5 修改其他两台机器的配置文件flink-conf.yaml
  • 三、启动关闭集群(Standalone模式)
  • 四、访问WEB-UI
  • 五、向集群提交作业(会话模式部署)
    • 5.1 WEB-UI方式提交
    • 5.2 命令行方式提交
  • 六、Flink集群运行模式
    • 6.1 Standalone模式
    • 6.2 Flink on Yarn模式
      • 6.2.1 相关准备和配置(配置环境变量并分发)
      • 6.2.2 以会话模式在Flink on Yarn集群上部署Flink应用程序
        • (1)启动关闭Flink集群
        • (2)提交作业(WEB-UI方式)
        • (3)提交作业(命令行方式)
      • 6.2.3 以单作业模式在Flink on Yarn集群上部署Flink应用程序
      • 6.2.4 以应用模式在Flink on Yarn集群上部署Flink应用程序
        • (1)启动
        • (2)上传Flink的lib和plugins到HDFS上
        • (3)上传Flink应用程序jar到HDFS上
        • (4)提交作业
        • 6.2.5 应用模式与单作业模式的区别
    • 6.3 配置Flink历史服务器
      • 6.3.1 创建存储目录
      • 6.3.2 修改配置文件flink-config.yaml
      • 6.3.3 启动停止历史服务器
      • 6.3.4 重启Yarn(跳过)
      • 6.3.5 访问Flink历史服务器地址
  • 七、Flink Standalone会话模式的系统架构
    • 7.1 基础架构图
    • 7.2 并行度
      • 7.2.1 指定并行度的三种方式
        • (1)代码中
        • (2)配置文件
        • (3)提交作业时命令行指定
        • 优先级
    • 7.3 算子链

一、上传并解压压缩包

[hadoop@hadoop102 software]$ tar -zxvf flink-1.17.0-bin-scala_2.12.tgz -C /opt/module/

二、修改集群配置

2.1 修改flink-conf.yaml文件

[hadoop@hadoop102 module]$ cd flink-1.17.0/conf/
[hadoop@hadoop102 conf]$ vim flink-conf.yaml

修改内容:

# JobManager节点地址.
jobmanager.rpc.address: hadoop102
jobmanager.bind-host: 0.0.0.0
rest.address: hadoop102
rest.bind-address: 0.0.0.0
# TaskManager节点地址.需要配置为当前机器名
taskmanager.bind-host: 0.0.0.0
taskmanager.host: hadoop102

2.2 修改workers文件

[hadoop@hadoop102 conf]$ vim workers

修改内容:

hadoop102
hadoop103
hadoop104

2.3 修改masters文件

[hadoop@hadoop102 conf]$ vim masters

修改内容:

hadoop102:8081

2.4 分发配置文件

[hadoop@hadoop102 module]$ mytools_rsync flink-1.17.0/

2.5 修改其他两台机器的配置文件flink-conf.yaml

执行命令:

[hadoop@hadoop103 conf]$ vim flink-conf.yaml

修改内容:

# TaskManager节点地址.需要配置为当前机器名
taskmanager.host: hadoop103

执行命令:

[hadoop@hadoop104 conf]$ vim flink-conf.yaml

修改内容:

# TaskManager节点地址.需要配置为当前机器名
taskmanager.host: hadoop104

三、启动关闭集群(Standalone模式)

在hadoop102节点服务器上执行start-cluster.sh启动Flink集群

# 启动
[hadoop@hadoop102 flink-1.17.0]$ bin/start-cluster.sh
# 关闭
[hadoop@hadoop102 flink-1.17.0]$ bin/stop-cluster.sh

四、访问WEB-UI

启动成功后,同样可以访问http://hadoop102:8081对flink集群和任务进行监控管理。

五、向集群提交作业(会话模式部署)

5.1 WEB-UI方式提交

5.2 命令行方式提交

bin/flink run -m hadoop102:8081 -c com.atguigu.flink01.Flink03_WC_Unbound_Socket ./flink-0918-1.0-SNAPSHOT.jar

六、Flink集群运行模式

Flink集群的运行模式

6.1 Standalone模式

默认

6.2 Flink on Yarn模式

6.2.1 相关准备和配置(配置环境变量并分发)

[hadoop@hadoop102 ~]$ sudo vim /etc/profile.d/my_env.sh

新增内容:

#Flink on Yarn
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export HADOOP_CLASSPATH=`hadoop classpath`

其他两台机器同样新增该环境变量

使环境变量生效:

[hadoop@hadoop102 ~]$ mytools_call source /etc/profile

6.2.2 以会话模式在Flink on Yarn集群上部署Flink应用程序

YARN的会话模式与独立集群略有不同,需要首先申请一个YARN会话(YARN Session)来启动Flink集群
-nm(–name):配置在YARN UI界面上显示的任务名。

(1)启动关闭Flink集群
# 启动
[hadoop@hadoop102 flink-1.17.0]$ bin/yarn-session.sh -nm flink-session-cluster01
# 关闭
[hadoop@hadoop102 ~]$ yarn application -kill application_1700281106461_0453
(2)提交作业(WEB-UI方式)

部署到阿里云的这里IP有点问题,跳转到Flink WEB-UI时是内网IP

(3)提交作业(命令行方式)
[hadoop@hadoop102 flink-1.17.0]$ bin/flink run -c com.atguigu.flink01.Flink03_WC_Unbound_Socket ./flink-0918-1.0-SNAPSHOT.jar

6.2.3 以单作业模式在Flink on Yarn集群上部署Flink应用程序

启动一个Flink集群并提交作业

-d:后台运行
-t:指定部署模式(单作业模式)

# 启动
[hadoop@hadoop102 flink-1.17.0]$ bin/flink run -d -t yarn-per-job -c com.atguigu.flink01.Flink03_WC_Unbound_Socket ./flink-0918-1.0-SNAPSHOT.jar
# 关闭(通过WEB UI页面cancel作业)

6.2.4 以应用模式在Flink on Yarn集群上部署Flink应用程序

(1)启动

应用模式同样非常简单,与单作业模式类似,直接执行flink run-application命令即可

-d:后台运行
-t:指定部署模式(应用模式)

[hadoop@hadoop102 flink-1.17.0]$ bin/flink run-application -d -t yarn-application -c com.atguigu.flink01.Flink03_WC_Unbound_Socket ./flink-0918-1.0-SNAPSHOT.jar
(2)上传Flink的lib和plugins到HDFS上

将Flink应用程序用到Flink集群中的lib上传到Hadoop集群上。

[hadoop@hadoop102 flink-1.17.0]$ hadoop fs -mkdir /flink-dist
[hadoop@hadoop102 flink-1.17.0]$ hadoop fs -put lib/ /flink-dist
[hadoop@hadoop102 flink-1.17.0]$ hadoop fs -put plugins/ /flink-dist
(3)上传Flink应用程序jar到HDFS上
[hadoop@hadoop102 flink-1.17.0]$ hadoop fs -mkdir /flink-jars
[hadoop@hadoop102 flink-1.17.0]$ hadoop fs -put ./flink-0918-1.0-SNAPSHOT.jar /flink-jars
(4)提交作业
[hadoop@hadoop102 flink-1.17.0]$ bin/flink run-application -d -t yarn-application -Dyarn.provided.lib.dirs="hdfs://hadoop102:9820/flink-dist" -c com.atguigu.flink01.Flink03_WC_Unbound_Socket hdfs://hadoop102:9820/flink-jars/flink-0918-1.0-SNAPSHOT.jar
6.2.5 应用模式与单作业模式的区别

单作业模式:客户端需要执行main方法,将JobGraph提交给YARN上的JobManager。
应用模式:应用程序jar的main()方法将在YARN中的JobManager上执行。客户端仅仅是执行命令。

6.3 配置Flink历史服务器

6.3.1 创建存储目录

[hadoop@hadoop102 flink-1.17.0]$ hadoop fs -mkdir -p /logs/flink-job

6.3.2 修改配置文件flink-config.yaml

[hadoop@hadoop102 conf]$ vim flink-conf.yaml

新增内容:

找到historyserver部分(在最后),添加到该位置即可。

jobmanager.archive.fs.dir: hdfs://hadoop102:9820/logs/flink-job
historyserver.web.address: hadoop102
historyserver.web.port: 8082
historyserver.archive.fs.dir: hdfs://hadoop102:9820/logs/flink-job
historyserver.archive.fs.refresh-interval: 5000

6.3.3 启动停止历史服务器

# 启动
[hadoop@hadoop102 flink-1.17.0]$ bin/historyserver.sh start
# 停止
bin/historyserver.sh stop

6.3.4 重启Yarn(跳过)

如果历史服务器不生效则需要重启,正常情况不需要。

stop-yarn.sh
start-yarn.sh

6.3.5 访问Flink历史服务器地址

在yarn的WEB-UI界面,点击任务的History位置,如果Flink历史服务器生效就会跳转到Flink历史服务器UI界面,否则会跳转到Yarn的UI界面。
地址:http://hadoop102:8082

七、Flink Standalone会话模式的系统架构

7.1 基础架构图

核心组件:客户端、JobManager、TaskManager

在这里插入图片描述

客户端执行命令,提交应用给Flink集群的JobManager。一个应用中可能有多个作业,分发器Dispatcher将每一个作业封装成一个JobMaster对象,JobMaster将每一个作业的代码执行逻辑生成一个执行图,资源管理器ResourceManager向TaskManager申请资源来执行该作业的执行操作,最终将作业交给TaskManager中的任务槽Slot来执行,作业执行完成后返回给客户端响应。

在这里插入图片描述

7.2 并行度

算子的子任务个数
默认并行度:由flink-conf.yaml配置文件中的parallelism.default指定。
根据资源确定如何设置算子的并行度:TaskManager数量(由Flink集群决定),每个TaskManager的Slot数量(由Flink配置文件flink-conf.yaml决定),相乘,就是在该资源下能够处理的最大并行度。
根据流程序的算子并行度计算需要多少Slot:最大算子并行度
验证流程序需要多少个slot:会话模式部署程序进行验证

7.2.1 指定并行度的三种方式

(1)代码中

算子后跟着调用setParallelism()方法

(2)配置文件

flink-conf.yaml配置文件中的parallelism.default

(3)提交作业时命令行指定

-p

优先级

代码算子单独指定并行度 > 代码全局指定并行度 > 命令参数指定 > 配置文件指定

7.3 算子链

并行度相同的一对一算子操作,可以直接链接在一起形成一个大的任务Task。每个Task会被Slot中的一个线程执行。
全局禁用算子链合并是为了定位哪个算子出现了反压,用于调试程序。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/513753.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

常用日期和时间标准对比:HTML, ISO 8601, RFC 3339, RFC 5322

1. HTML, ISO 8601, RFC 3339, RFC 5322 对比 日期和时间,对于不同系统和平台之间的数据交换和互操作至关重要。本文将对比 HTML 标准、ISO 8601、RFC 3339 和 RFC 5322,为读者提供参考。 表格文字版见文末-附 1.1. 标准链接 HTML 标准: https://html…

【机器学习300问】27、高偏差与高方差是什么?他们对评估机器学习模型起何作用?

〇、回归模型举例 (1)第一种情况 你选择了一个简单的模型,比如一个直线,却想拟合类似抛物线分布的数据。 图1 (2)第二种情况 你选择了一个复杂的模型,比如一个四次多项式,想拟合类…

android高级面试题及答案,已拿offer

一、java相关 java基础 1、java 中和 equals 和 hashCode 的区别 2、int、char、long 各占多少字节数 3、int 与 integer 的区别 4、谈谈对 java 多态的理解 5、String、StringBuffer、StringBuilder 区别 6、什么是内部类?内部类的作用 7、抽象类和接口区别 java高…

2.模拟问题——6.活着的树

输入 500 3 100 200 150 300 470 471 输出 298 【提交地址】 简单思路 初始化一个全false的bool数组&#xff0c;表示树未被移走&#xff0c;然后根据输入值将数组内的对应序号值设为true表示已经移走。 最后统计false的数目即为剩下的树数。 #include <cstdio> #incl…

步进电机驱动器接法

实物 参数 共阳极&#xff1a; 使能给高电平有效 共阴极&#xff1a; 使能给低电平有效 整体接线 参考内容 B站UP范辉

20240305-2-海量数据处理常用技术概述

海量数据处理常用技术概述 如今互联网产生的数据量已经达到PB级别&#xff0c;如何在数据量不断增大的情况下&#xff0c;依然保证快速的检索或者更新数据&#xff0c;是我们面临的问题。 所谓海量数据处理&#xff0c;是指基于海量数据的存储、处理和操作等。因为数据量太大无…

字节跳动热门的前端开源项目

字节跳动开源官网 Arco Dsign Arco Design 是一套设计系统&#xff0c;主要服务于字节跳动旗下中后台产品的体验设计和技术实现。它的目标在于帮助设计师与开发者解放双手、提升工作效率&#xff0c;并高质量地打造符合业务规范的中后台应用。它拥有系统的设计规范和资源&…

(学习日记)2024.03.05:UCOSIII第七节:SysTick+任务时间片

写在前面&#xff1a; 由于时间的不足与学习的碎片化&#xff0c;写博客变得有些奢侈。 但是对于记录学习&#xff08;忘了以后能快速复习&#xff09;的渴望一天天变得强烈。 既然如此 不如以天为单位&#xff0c;以时间为顺序&#xff0c;仅仅将博客当做一个知识学习的目录&a…

计算机网络 网络原理之Http

目录 1 前言2 什么是http的一次交互&#xff1f;3 理解“协议”二字4 认识URL4.1 简介4.2 URL的编码和解码(urlencode和urldecode) 5 抓包工具 fiddler6 http和https的区别7 http 头8 HTTP 状态码9 常见的 Http 服务器 1 前言 为什么要了解Http原理呢&#xff1f;因为http原理…

gitlab的安装

1、下载rpm 安装包 (1)直接命令下载 wget https://mirrors.tuna.tsinghua.edu.cn/gitlab-ce/yum/el7/gitlab-ce-11.6.10-ce.0.el7.x86_64.rpm&#xff08;2&#xff09;直接去服务器上下载包 Index of /gitlab-ce/yum/el7/ | 清华大学开源软件镜像站 | Tsinghua Open Source…

安卓SDK dx工具生成dex文件命令

目录 前言一、添加到环境变量二、命令示例 前言 在Android SDK 工具中&#xff0c;dx命令用于将Java字节码文件转换为Dalvik Executable&#xff08;dex&#xff09;文件&#xff0c;以便在Android设备上运行。 一、添加到环境变量 找到想要使用的SDK版本&#xff0c;将dx.b…

基于“xxx” Androidx平台的驱动及系统开发 之 触摸板篇

目录 一、基于全志 A133 Android10平台&#xff0c;适配1366x768 - ilitek2511触摸1、原理图分析2、驱动移植与适配3、补丁和资源文件 二、基于瑞芯微 RK3566 Android11平台&#xff0c;适配GT9XX触摸1、原理图分析2、补丁及资源文件 三、遇到的问题与解决1、基于amlogic Andro…