2024.2.19 阿里云Flink

一 、Flink基本介绍

Spark底层是微批处理 , Flink底层则是实时流计算

流式计算特点:

        数据是源源不断产生,两大问题,乱序和延迟

Stateful:有状态

Flink的三个部分

Source:Transactions , logs ,iot ,clicks

Transformation: 事件驱动 , ETL , 批处理
Sink : 输出 HDFS ,Kafka 

Flink的特性

支持高吞吐, 低延迟,高性能的流处理
支持带有事件时间的窗口操作。
支持有状态计算的exactly-once语义
支持Checkpoint实现容错
支持具有Backpressure背压功能的持续流模型
支持流处理和批处理
在JVM内部实现了内存管理

四大基石:

time,window,checkpoint,容错

二、 Flink基础架构

Flink作业运行流程

课上记录:

JobManger:管理众多TaskManager。

TaskManger:执行具体的任务,定时向JobManager汇报心跳,任务执行状态。

Slot槽位:物理资源,任务运行的具体场所

      

用户提交Flink程序得到jobclient,经过jobclient处理,解析,优化提交到jobManager,最后由TaskManager运行task.

JobClient是Flink程序与JobManager交互的桥梁,主要负责接收程序,解析程序的执行计划,优化程序的执行计划,然后提交计划到JobManager,在Flink中主要有三类计划Operator.

        Source  : 数据源操作,比如文件,socket,Kafka等.

        Transformation: 数据转换操作,比如map, flatmap, reduce等算子.

        Sink : 数据存储操作, 数据存储到HDFS,Mysql,Kafka等.

Flink模块

核心:DataStream API

FlinkSQL:  SQL

图计算:Gelly

机器学习:FlinkML

Flink可以运行在多种集群下:

  • Local(本地)

一个进程模拟主节点和从节点。

  • Standalone(独立)

主节点和从节点是两个进程,他们是独立的。

  • Flink on Yarn(生产使用)

Flink专注于任务的分配和任务的管理,Yarn专注于资源的分配

Spark:cluster、client,Driver进程运行的地方不一样。

Flink On Yarn有三种模式,分别是:

session模式:session,会话,因此也称之为会话模式(Spark中没有的模式)。开发测试使用,生产不能用

per-job模式:Job分离模式(类似于Spark中的Client模式)。

application模式:application,应用,也称之为应用模式(类似于Spark中的Cluster模式)。

会话模式,就是在Yarn会动态初始化一个Flink集群(Flink Yarn-session),这个集群会随着会话的存在而存在,会随着会话的停止而消失。

也就是说,如果我们要启动一个session的话,要分为2步

也称Job分离模式,和Spark的client类似。

在提交任务的时候,Yarn会创建一个Flink集群,这个集群是这个任务专属的。待任务运行完之后,集群就会销毁。

所有任务提交都一样。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/485312.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

排序第三篇 直接插入排序

插入排序的基本思想是: 每次将一个待排序的记录按其关键字的大小插入到前面已排好序的文件中的适当位置, 直到全部记录插入完为止。 一 简介 插入排序可分为2类 本文介绍 直接插入排序 它的基本操作是: 假设待排充序的记录存储在数组 R[1……

vscode【报错】yarn : 无法将“yarn”项识别为 cmdlet

问题 CMD下载完yarn可以查看到yarn版本,但是进入到vscode控制台报错无法识别,报错内容如下: vscode【报错】yarn : 无法将“yarn”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写,如果包括路径&#xff…

ElementUI组件的安装和使用

Element UI 是一款基于 Vue 2.0 的桌面端组件库,主要用于快速构建网站的前端部分。它提供了丰富的组件,如按钮、输入框、表格、标签页等,以及一些布局元素,如布局容器、分割线等。Element UI 的设计风格简洁,易于上手&…

YOLOv9这么快就来了,赶紧学起来~

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推…

Stable Diffusion 模型的概念、类型、下载、安装、使用

本文收录于《AI绘画从入门到精通》专栏,专栏总目录:点这里。 大家好,我是水滴~~ 我们在《Stable Diffusion WebUI 界面介绍》 时,第一个就讲到了 Stable Diffusion 模型,那么这个模型是什么?该从哪儿下载&…

python + selenium/appnium

Selenium 的自动化原理: selenium 自动化流程: 自动化程序调用Selenium 客户端库函数(比如点击按钮元素)客户端库会发送Selenium 命令 给浏览器的驱动程序浏览器驱动程序接收到命令后 ,驱动浏览器去执行命令浏览器执行命令浏览器驱动程序获取命令执行的…

#LLM入门|Prompt#1.7_文本拓展_Expanding

输入简短文本,生成更加丰富的长文。 “温度”(temperature):控制文本生成的多样性。 一、定制客户邮件 根据客户的评价和其中的情感倾向,使用大语言模型针对性地生成回复邮件。将大大提升客户满意度。 # 我们可以在…

【算法与数据结构】417、LeetCode太平洋大西洋水流问题

文章目录 一、题目二、解法三、完整代码 所有的LeetCode题解索引,可以看这篇文章——【算法和数据结构】LeetCode题解。 一、题目 二、解法 思路分析:题目要求雨水既能流向太平洋也能流向大西洋的网格。雨水流向取决于网格的高度。一个比较直接的方式是对…

c++实现栈和队列类

c实现栈和队列类 栈(Stack)Stack示意图Stack.cpp 队列(queue)queue 示意图queue.cpp 栈(Stack) Stack示意图 Stack.cpp #pragma once #include "ListStu.cpp"template<typename T> class Stack { public: /* * void push(T& tDate)* 参数一 &#xff1a;…

SQL库操作

1、创建数据库 概念 创建数据库&#xff1a;根据项目需求创建一个存储数据的仓库 使用create database 数据库名字创建 数据库层面可以指定字符集:charset/character set 数据库层面可以指定校对集:collate 创建数据库会在磁盘指定存放处产生一个文件夹 创建语法 create …

mysql优化指南之优化篇

二、优化 现在的理解数据库优化有四个维度&#xff0c;分别是&#xff1a; 硬件升级、系统配置、表结构设计、SQL语句及索引。 那优化的成本和效果分别如下&#xff1a; 优化成本&#xff1a;硬件升级>系统配置>表结构设计>SQL语句及索引。 优化效果&#xff1a;…

【MATLAB GUI】 5. 图像处理菜单(菜单编辑器)

看B站up主freexyn的freexyn编程实例视频教程系列36Matlab GUI的学习笔记 任务要求设计一个图像处理菜单&#xff0c;实现图像的打开导入、灰度处理、存储等功能 修改过文件名&#xff0c;所以运行的时候会有一点点报错&#xff0c;但是不影响运行 打开工具栏下边的菜单编辑器…