2023大数据面试总结

news/2024/11/16 0:29:51/文章来源:https://blog.csdn.net/qq_24095055/article/details/132747353

文章目录

Flink（SQL相关后面专题补充）
- 1. 把状态后端从FileSystem改为RocksDB后，Flink任务状态存储会发生哪些变化？
- 2. Flink SQL API State TTL 的过期机制是 onCreateAndUpdate 还是 onReadAndWrite？
- 3. watermark 到底是干啥的？应用场景？
- 4. 一个flink任务中可以既有事件时间窗口，又有处理时间窗口吗？
- 5. Flink为什么强调function实现时，实例化的变量要实现 serializable接口?
- 6. Flink 提交作业的流程？以及与yarn的互动？
- 7. Operator Chains了解吗?
- 8. 10个int以数组的形式保存，保存在什么状态好?VlaueState还是 ListState?存在哪个的性能比较好?
- 9. 一个窗口，现在只取第一帧和最后一帧，如何实现？
- 10. 背压的原理？解决办法？
- 11. 遇到状态放不下的场景怎么办？
- 12. 使用flink统计订单表的GMV（商品交易总额），如果mysql中的数据出现错误，之后在mysql中做数据的修改操作，那么flink程序如何保证GMV的正确性，你们是如何解决?
- 13. 开窗函数有哪些？
- 14. 没有数据流的时候，窗口存在吗
- 15. 1小时的滚动窗口,一小时处理一次的压力比较大想让他5分钟处理一次.怎么办?（问石林）
- 16. 两个流先后顺序不确定，到达的间隔也不确定，如何拼接成宽表？（问石林）
- 17. 为什么使用维表？什么情况下使用？
- 18. Flink维表关联怎么做的?（问石林）
- 19.
- 20.

Flink（SQL相关后面专题补充）

1. 把状态后端从FileSystem改为RocksDB后，Flink任务状态存储会发生哪些变化？

Flink任务中的operator-state。无论用户配置哪种状态后端(无论是memory， filesystem，rocksdb)，都是使用DefaultOperatorStateBackend 来管理的，状态数据都存储在内存中，做Checkpoint时同步到远程文件存储中(比如HDFS)。
Flink任务中的keyed-state。用户在配置rocksdb时，会使用 RocksdbKeyedStateBackend 去管理状态;用户在配置memory，filesystem时，会使用HeapKeyedStateBackend去管理状态。因此就有了这个问题的结论，配置 rocksdb只会影响keyed-state存储的方式和地方，operator-state不会受到影响。

2. Flink SQL API State TTL 的过期机制是 onCreateAndUpdate 还是 onReadAndWrite？

结论：Flink SQL API State TTL 的过期机制目前只支持 onCreateAndUpdate，DataStream API 两个都支持。
剖析:
- onCreateAndUpdate：是在创建State和更新State时【更新StateTTL】
- onReadAndWrite：是在访问State和写入State时【更新StateTTL】
实际踩坑场景：Flink SQL Deduplicate 写法，row_number partition by user_id
order by proctimeasc，此SQL最后生成的算子只会在第一条数据来的时候更新
state，后续访问不会更新stateTTL，因此state会在用户设置的stateTTL时间之后过期。

3. watermark 到底是干啥的？应用场景？

标识flink任务的事件时间进度，从而能够推动事件时间窗口的触发、计算
解决事件时间窗口的乱序问题

4. 一个flink任务中可以既有事件时间窗口，又有处理时间窗口吗？

结论：一个 Flink 任务可以同时有事件时间窗口，又有处理时间窗口。

两个角度说明:

我们其实没有必要把一个Flink任务和某种特定的时间语义进行绑定。对于事件时间窗口来说，我们只要给它watermark，能让watermark一直往前推进，让事件时间窗口能够持续触发计算就行。对于处理时间来说更简单，只要窗口算子按照本地时间按照固定的时间间隔进行触发就行。无论哪种时间窗口，主要满足时间窗口的触发条件就行。
Flink的实现上来说也是支持的。Flink是使用一个叫做TimerService的组件来管理
timer的，我们可以同时注册事件时间和处理时间的timer，Flink会自行判断timer是否满足触发条件，如果是，则回调窗口处理函数进行计算。

5. Flink为什么强调function实现时，实例化的变量要实现 serializable接口?

其实这个问题可以延伸成3个问题:

为什么Flink要用到Java序列化机制。和Flink类型系统的数据序列化机制的用途有啥区别?
非实例化的变量没有实现Serializable为啥就不报错，实例化就报错?
为啥加transient就不报错?

上面3个问题的答案如下:

Flink写的函数式编程代码或者说闭包，需要Java序列化从JobManager分发到 TaskManager，而Flink类型系统的数据序列化机制是为了分发数据，不是分发代码，可以用非Java的序列化机制，比如Kyro。
编译期不做序列化，所以不实现Serializable不会报错，但是运行期会执行序列化动
作，没实现Serializable接口的就报错了
Flink DataStreamAPI的Function作为闭包在网络传输，必须采用Java序列化，所以要通过Serializable接口标记，根据Java序列化的规定，内部成员变量要么都可序列化，要么通过transient关键字跳过序列化，否则Java序列化的时候会报错。静态变量不参与序列化，所以不用加transient。

6. Flink 提交作业的流程？以及与yarn的互动？

略

7. Operator Chains了解吗?

为了更高效地分布式执行，Flink 会尽可能地将operator的subtask链接(chain)在一起形成task。每个task在一个线程中执行。

将operators链接成task是非常有效的优化：它能减少线程之间的切换，减少消息的序列化/反序列化，减少数据在缓冲区的交换，减少了延迟的同时提高整体的吞吐量。这就是Operator Chains(算子链)。

8. 10个int以数组的形式保存，保存在什么状态好?VlaueState还是 ListState?存在哪个的性能比较好?

ValueState[Array[Int]] update形式。

ListState[Int]:add形式添加。

对于操控来说ListState方便取值与更改。

按键分区状态(Keyed State)选择ValueState ListState。
算子状态(Operator State)选择ListState。

9. 一个窗口，现在只取第一帧和最后一帧，如何实现？

略

10. 背压的原理？解决办法？

略

11. 遇到状态放不下的场景怎么办？

有时候需要求uv，内存或者状态中存过多数据，导致压力巨大，这个时候可以结合 Redis或者布隆过滤器来去重。

注意:布隆过滤器存在非常小的误判几率，不能判断某个元素一定百分之百存在，所以只能用在允许有少量误判的场景，不能用在需要100%精确判断存在的场景。

12. 使用flink统计订单表的GMV（商品交易总额），如果mysql中的数据出现错误，之后在mysql中做数据的修改操作，那么flink程序如何保证GMV的正确性，你们是如何解决?

CDC 动态捕捉MySQL数据变化，实时处理后数据入湖-Hudi，MOR 机制快速对下游可见。

另：一般也会有离线Job来恢复和完善实时数据。

13. 开窗函数有哪些？

Flink SQL：
- 待补充
Flink Stream：
- ReduceFunction、AggregateFunction：窗口不维护原始数据，只维护中间结果。每次基于中间结果和增量数据进行聚合
- ProcessWindowFunction：维护全部原始数据，窗口触发时进行全量聚合

14. 没有数据流的时候，窗口存在吗

不存在，没有数据，窗口不产生

15. 1小时的滚动窗口,一小时处理一次的压力比较大想让他5分钟处理一次.怎么办?（问石林）

自定义触发器，4个方法，一个Close三个用于控制计算和输出

16. 两个流先后顺序不确定，到达的间隔也不确定，如何拼接成宽表？（问石林）

因为无法确定先到的是哪个流，所以没法用 internal join？因为这个需要指定拼接的驱动主流？
在这里插入图片描述

17. 为什么使用维表？什么情况下使用？

在一些数据量较小，且变化不大的场景下使用维表（如省份信息关联查询拼接）

18. Flink维表关联怎么做的?（问石林）

1、async io
2、broadcast
3、async io + cache
4、open方法中读取，然后定时线程刷新，缓存更新是先删除，之后再来一条之后再负责写入缓存

19.

20.

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/107343.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

《Graph of Thoughts: Solving Elaborate Problems with Large Language Models》中文翻译

《Graph of Thoughts: Solving Elaborate Problems with Large Language Models》中文翻译

《Graph of Thoughts: Solving Elaborate Problems with Large Language Models》- 思维图：用大型语言模型解决复杂的问题论文信息摘要1. 介绍2. 背景及符号2.1 语言模型和情境学习 3. GoT 框架3.1 推理过程3.2 思想转变3.3 评分和排名思路 4. 系统架构及扩展性4.1…

阅读更多...

驱动开发--自动创建节点udev机制的实现过程分析

驱动开发--自动创建节点udev机制的实现过程分析

一，创建设备文件的机制 1，mknod：手动创建设备节点 2，devfs：创建设备节点的逻辑在内核空间，2.5版本后淘汰 3，udev：自动创建设备节点的机制，逻辑在用户空间，…

阅读更多...

vue2中使用富文本编辑器tinyMCE全过程

vue2中使用富文本编辑器tinyMCE全过程

第一步：安装TinyMCE $npm install tinymce5.10.0 -S $npm install tinymce/tinymce-vue3.0.1 -S 第二步：在node_modules中找到tinymce文件夹将内部文件移入pubilc/tinymce文件夹中在index.html文件中引入tinymce.min.js 注意：不把js文件放…

阅读更多...

数据结构和算法（5）：二叉树

数据结构和算法（5）：二叉树

树向量允许通过下标或秩，在常数的时间内找到目标对象；然而，一旦需要对这类结构进行修改，那么无论是插入还是删除，都需要耗费线性的时间。列表允许借助引用或位置对象，在常数的时间内插入或删除元素&…

阅读更多...

linux 系统资源命令

linux 系统资源命令

系统资源命令当前系统负载 w查看的是整体的负载，可以来观察当前系统有没有压力 w 系统当前负载第一行显示的内容依次为：时间、系统运行时间、登录用户数、平均负载(1分钟、5分钟、15分钟) 第二行后展示的信息为：当前登录的都有哪些用户、在…

阅读更多...

Falcon 180B 目前最强大的开源模型

Falcon 180B 目前最强大的开源模型

Technology Innovation Institute最近发布了Falcon 180B大型语言模型(LLM)，它击败了Llama-2 70b，与谷歌Bard的基础模型PaLM-2 Large不相上下。 180B是是Falcon 40B模型一个最新版本。以下是该模型的快速概述: 180B参数模型，两个版本(base和…

阅读更多...

【Java基础篇 | 类和对象】--- 聊聊什么是内部类

【Java基础篇 | 类和对象】--- 聊聊什么是内部类

个人主页：兜里有颗棉花糖欢迎点赞👍 收藏✨ 留言✉ 加关注💓本文由兜里有颗棉花糖原创收录于专栏【JavaSE_primary】本专栏旨在分享学习Java的一点学习心得，欢迎大家在评论区讨论💌 前言当一个事物的内部&…

阅读更多...

TCP服务器使用多路复用

TCP服务器使用多路复用

启用复用的作用？ 解决linux系统中的io阻塞问题，让多个阻塞io接口可以一起执行。无需开启线程，节省系统资源。 linux系统中的阻塞io有哪些？ scanf、read管道、eadTcp套接字、acppet接收连接请求有以下两种方式实现多路复用&am…

阅读更多...

3D视觉测量：3D空间圆拟合优化

3D视觉测量：3D空间圆拟合优化

文章目录 0. 测试效果1. 测量思路2. 部分调用代码文章目录：形位公差测量关键内容：通过视觉方法实现GD&T中的圆孔位置定位0. 测试效果 1. 测量思路空间圆拟合是指在三维空间中找到最佳拟合圆的过程。这通常用于从一组三维点数据中找到一个圆，以最小化数据点到圆的距离之…

阅读更多...

MySQL——读写分离

MySQL——读写分离

简介读写分离，基本的原理是让主数据库处理事务性增、改、删操作（INSERT、UPDATE、DELETE），而从数据库处理SELECT查询操作。数据库复制被用来把事务性操作导致的变更同步到集群中的从数据库。一般来说都是通过主从复制&#xff…

阅读更多...

自动打包机如何精准捆扎

自动打包机如何精准捆扎

打包机按照自动化程度大致可以分为半自动、自动和全自动三种，全自动大家都很熟悉，可以自动检测、自动输送、自动捆扎，而且捆扎位置先对比较精准，但半自动和自动打包机没有配置光电检测，因此捆扎位置总是不够固定&#…

阅读更多...

RHCA之路---EX280(8)

RHCA之路---EX280(8)

RHCA之路—EX280(8) 1. 题目 On master.lab.example.com using the template file in http://materials.example.com/exam280/gogs as a basis, install an application in the ditto project according to the following requirements: All of the registry entries must poi…

阅读更多...

推荐文章

最新文章