2.Spark的工作与架构原理-编程知识

2.Spark的工作与架构原理

news/2025/3/11 6:25:26/文章来源:https://blog.csdn.net/2301_79691134/article/details/134147397

概述

目标：

spark的工作原理
spark数据处理通用流程
rdd
- 什么是rdd
- rdd 的特点
spark架构
- spark架构相关进程
- spark架构原理

spark的工作原理

spark 的工作原理，如下图
在这里插入图片描述

图中中间部分是spark集群，也可以是基于 yarn 的，图上可以理解为spark的 standalone 集群，集群中有 6 个节点
左边是spark的客户端节点，这个节点主要的任务是向spark集群提交任务，
左边的 hdfs 是提交的任务所需要的数据源，当spark读取hdfs中的数据后，会将数据转化为rdd ，rdd是弹性分布式数据集，是一个逻辑概念，在此，可以先理解为一个数据集合就可，这个rdd是具有分区特性的，如节点1，节点2，节点3，这样可以轻易的提高数据的并发处理能力
接下来就可以对这rdd数据进行处理了，图中使用了，flatMap 函数，计算之后的结果还是一个带有分区的rdd，就是在节点4 ，节点5，节点6
当处理到最后一步的时候是需要将数据存起来的，实际工作中，针对离线计算的，大部分的结果数据都是存储在hdfs上的，也可以存储在其它的存储介质中。

针对上面几条，可以总结出，spark处理数据的基本构成，如下图
在这里插入图片描述

后面 spark 代码中基本都是这三板斧 ，可以参考单词统计编程的代码

rdd

rdd 是 spark 中一个很重要的概念

什么是`rdd`

在实际工作中，rdd 通常通过 hadoop 上的文件，即 hdfs 文件进行创建，也可以通过程序中的集合来创建，rdd是 spark 提供的核心抽象，全称为 Resillient Distributed Dataset ，即弹性分布式数据集

`rdd` 的特点

弹性：rdd 数据默认情况下是存储在内存中，但是在内存资源不足时，spark 也会自动将 rdd 数据写入磁盘
分布式： rdd 在抽象上来说是一种元素集合，它是被分区的，每个分区分布在集群中的不同节点上，从而让 rdd 中的数据可以被并行操作
容错性： rdd 最重要的特性就是提供了容错性，可以自动从节点失败中恢复过来，如果某个节点上的 rdd 分区，因为节点故障了，导致数据丢了，那么 rdd 会自动通过自己的数据来源重新计算该分区的数据

spark架构

下面熟悉一下 spark 架构相关的进程信息
注意： 在此是以 spark 的 standalone 集群为例进行分析，其实在 spark standalone环境安装中，成功后有查询对应的 进程 是否成功启动了

spark架构相关进程

driver：编写的 spark 程序就在driver(进程)上，由 driver 进程负责执行，driver 进程所在的节点可以是spark 集群的某一个节点，或者就是提交任务的客户端节点，具体driver进程在哪个节点上启动，是由提交任务时指定的参数决定的
master：集群的主节点中启动的进程，主要负责集群资源管理和分配，还有集群的监控等。
worker：集群的从节点中启动的进程，主要负责启动其它进程来执行具体的数据处理和计算任务
executor：此进程由worker 负责启动，主要为了执行数据处理和计算
taks：是一个线程，由executor 负责启动，是真正干活的

spark架构原理

如下图来看一spark的架构原理
在这里插入图片描述

在spark的客户端机器上通过driver进程执行的spark代码，通过spark-submit脚本提交spark任务的时候driver进程就启动了。
driver 启动之后，会做一些初始化操作，并找到集群的master 进程，对spark 程序进行注册
当master 收到 spark 程序注册成功之后，会向 worker 节点发送请求，进行资源调试和分配
worker 收到 master 请求后，为任务启动 executor 进程，启动多少个，会根据配置来启动
executor 启动之后会向 driver 进行注册，这样 driver 就能知道哪些 executor 在为它服务了
driver 会根据对 rdd 定义的操作，提交一堆的 task(map,flatMap等) 去 executor 上执行

结束

spark 的工作与架构原理就介绍至此，如有问题，欢迎评论区留言。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/160302.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

coalesce函数(SQL )

coalesce函数(SQL )

用途： 将控制替换成其他值；返回第一个非空值表达式 COALESCE是一个函数， (expression_1, expression_2, …,expression_n)依次参考各参数表达式，遇到非null值即停止并返回该值。如果所有的表达式都是空值，最终将返…

阅读更多...

Java数据类型

Java数据类型

Java数据类型文章目录 Java数据类型一、基本类型（1）整数类型（2）小数类型（3）真假类型（4）字符类型二、数组类型三、逻辑运算1. 三元运算符2.if语句3.Switch语句4. Switch语句case穿透…

阅读更多...

4 个最常见的自动化测试挑战及应对措施

4 个最常见的自动化测试挑战及应对措施

有人说：“杂乱无章的自动化只会带来更快的混乱。”不仅更快，而且是更严重、更大的混乱。如果使用得当，自动化可以成为测试团队中令人惊叹的生产力助推器和系统的质量增强器。自动化测试的关键是要正确运用，这是初始最困难的部分。…

阅读更多...

大数据毕业设计选题推荐-热门旅游景点数据分析-Hadoop-Spark-Hive

大数据毕业设计选题推荐-热门旅游景点数据分析-Hadoop-Spark-Hive

✨作者主页：IT研究室✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…

阅读更多...

【马蹄集】—— 百度之星 2023

【马蹄集】—— 百度之星 2023

百度之星 2023 目录 BD202301 公园⭐BD202302 蛋糕划分⭐⭐⭐BD202303 第五维度⭐⭐ BD202301 公园⭐ 难度：钻石时间限制：1秒占用内存：64M 题目描述今天是六一节，小度去公园玩，公园一共 N N N 个景点&am…

阅读更多...

【C++】内联函数一看就懂？

【C++】内联函数一看就懂？

💐 🌸 🌷 🍀 🌹 🌻 🌺 🍁 🍃 🍂 🌿 🍄🍝 🍛 🍤 📃个人主页 ：阿然成长日记 …

阅读更多...

JavaEE平台技术——预备知识（Web、Sevlet、Tomcat）

JavaEE平台技术——预备知识（Web、Sevlet、Tomcat）

JavaEE平台技术——预备知识（Web、Sevlet、Tomcat） 1. Web基础知识2. Servlet3. Tomcat并发原理 1. Web基础知识 🆒🆒上个CSDN我们讲的是JavaEE的这个渊源，实际上讲了两个小时的历史课，给大家梳理了一下&a…

阅读更多...

【Linux】：重定向和用户缓冲区

【Linux】：重定向和用户缓冲区

重定向和用户缓冲区一.输出重定向1.现象2.系统调用接口二.缓冲区1.引子2.刷新三.回答引例文件描述符对应匹配规则：从0下标开始，寻找最小的没有被使用的数组位置，它就是新的文件描述符(fd)。一.输出重定向 1.现象在这里我们向1号文件内…

阅读更多...

【蓝桥杯省赛真题42】Scratch舞台特效蓝桥杯少儿编程scratch图形化编程蓝桥杯省赛真题讲解

【蓝桥杯省赛真题42】Scratch舞台特效蓝桥杯少儿编程scratch图形化编程蓝桥杯省赛真题讲解

目录 scratch舞台特效一、题目要求编程实现二、案例分析 1、角色分析

阅读更多...

LVGL_多界面切换

LVGL_多界面切换

LVGL_多界面切换 1、创建多个界面（create_page1();） 2、加载一个界面显示（lv_scr_load(page1);） 3、切换不同界面显示（lv_scr_load_anim(page2, LV_SCR_LOAD_ANIM_OVER_LEFT, 300, 0, false);） static lv_…

阅读更多...

基于LDA主题+协同过滤+矩阵分解算法的智能电影推荐系统——机器学习算法应用(含python、JavaScript工程源码)+MovieLens数据集（一）

基于LDA主题+协同过滤+矩阵分解算法的智能电影推荐系统——机器学习算法应用(含python、JavaScript工程源码)+MovieLens数据集（一）

目录前言总体设计系统整体结构图系统流程图运行环境Python环境Pycharm 环境数据库相关其它博客工程源代码下载其它资料下载前言前段时间，博主分享过关于一篇使用协同过滤算法进行智能电影推荐系统的博文《基于TensorFlowCNN协同过滤算法的智能电影推荐系统——…

阅读更多...

map set

目录一、关联式容器二、键值对三、树形结构的关联式容器 3.1 set 3.1.1 set的介绍 3.1.2 set的使用 3.2 multiset 3.2.1 multiset的介绍 3.2.2 multiset的使用 3.3 map 3.3.1 map的介绍 3.3.2 map的使用 …

阅读更多...

推荐文章

最新文章