Spark SQL— Catalyst 优化器

Spark SQL— Catalyst 优化器

1. 目的

本文的目标是描述Spark SQL 优化框架以及它如何允许开发人员用很少的代码行表达复杂的查询转换。我们还将描述Spark SQL如何通过大幅提高其查询优化能力来提高查询的执行时间。在本教程中,我们还将介绍什么是优化、为什么使用 Catalyst 优化器、其基本工作单元是什么以及 Spark 执行流程的各个阶段。

Spark SQL 优化 - 了解 Catalyst 优化器

2. Apache Spark SQL优化简介

“优化一词是指修改系统以使其工作更高效或使用更少资源的过程。”
Spark SQL是 Apache Spark 中技术含量最高的组件。Spark SQL 处理 SQL 查询和 DataFrame API。Spark SQL 的深处有一个催化剂优化器。Catalyst 优化允许一些高级编程语言功能,使您可以构建可扩展的查询优化器。
一种名为 Catalyst 的新型可扩展优化器出现了,用于实现 Spark SQL。该优化器基于**Scala中的函数式编程构造。
Catalyst Optimizer 支持
基于规则基于成本的**优化。在基于规则的优化中,基于规则的优化器使用一组规则来确定如何执行查询。而基于成本的优化则找到最合适的方式来执行SQL语句。在基于成本的优化中,使用规则生成多个计划,然后计算它们的成本。

3. Catalyst Optimizer 的需求是什么?

Catalyst 的可扩展设计背后有两个目的:

  • 我们希望添加简单的解决方案来解决**大数据**的各种问题,例如半结构化数据和高级数据分析的问题。
  • 我们想要一种简单的方法,以便外部开发人员可以扩展优化器。

4. Catalyst Optimizer 的基础知识

Catalyst 优化器利用Scala 编程的标准功能,例如模式匹配。在深度上,Catalyst 包含和操作树的规则集。有特定的库来处理关系查询。有各种规则集可以处理查询执行的不同阶段,例如分析查询优化、物理规划代码生成,以将部分查询编译为 Java 字节码。让我们详细讨论树和规则 -

4.1. 树木

树是催化剂中的主要数据类型。树包含节点对象。对于每个节点,都有一个节点。一个节点可以有一个或多个子节点。新节点被定义为 TreeNode 类的子类。这些对象本质上是不可变的。可以使用函数变换来操纵对象。
例如,如果我们有三个节点类:worthattributesub,其中 -

  • value(value: Int): 常量值
  • 属性(名称:字符串)
  • sub(左:TreeNode,右:TreeNode):两个表达式相减。

Spark-SQL-Catalyst-optimizer-tree-示例

4.2. 规则

我们可以使用规则来操纵树。我们可以将规则定义为从一棵树到另一棵树的函数。通过规则,我们可以在输入树上运行任意代码,这是使用模式匹配函数并用特定结构替换子树的常见方法。在树中,借助变换函数,我们可以在树的所有节点上递归地应用模式匹配。我们得到将每个模式与结果相匹配的模式。
例如-
tree.transform {case Sub(worth(c1),worth(c2)) =>worth(c1+c2) }
在模式匹配期间传递给transform的表达式是一个偏函数。通过部分函数,​​这意味着它只需要匹配所有可能的输入树的子集。Catalyst 将查看给定规则适用于树的哪个部分,并自动跳过不匹配的树。使用相同的转换调用,规则可以匹配多个模式。
例如 -

*tree.transform {*
*case Sub(worth(c1),worth(c2)) =>worth(c1-c2)*
*case Sub(left ,worth(0)) => left*
*case Sub(worth(0), right ) => right*
*}*

为了完全转换一棵树,规则可能需要执行多次。
催化剂通过将规则分组为批次来工作,并且执行这些批次直到达到固定点。固定点是指即使在应用规则之后树也停止变化的点。

5.Spark SQL执行计划

在详细介绍了 Apache Spark SQL 催化剂优化器之后,现在我们将讨论 Spark SQL 查询执行阶段。我们分四个阶段使用 Catalyst 的通用树转换框架:

  • 分析
  • 逻辑优化
  • 物理规划
  • 代码生成

Spark-SQL-执行-查询-计划

5.1. 分析

Spark SQL优化从要计算的关系开始。它是根据SQL 解析器返回的**抽象语法树 (AST)**或使用 API 创建的DataFrame对象计算的。两者都可能包含未解析的属性引用或关系。未解析的属性意味着我们不知道其类型或未将其与输入表匹配。Spark SQL 利用 Catalyst 规则和一个 Catalog 对象来跟踪所有数据源中的数据来解析这些属性。首先创建一个未解决的逻辑计划,然后应用以下步骤:

  • 按目录中的名称搜索关系。
  • 将名称属性(例如 col)映射到给定运算符子级提供的输入。
  • 确定哪些属性与相同的值匹配,从而为它们提供唯一的 ID。
  • 通过表达式传播和推送类型。

5.2. 逻辑优化

在 Spark SQL 优化的此阶段,标准的基于规则的优化应用于逻辑计划。它包括常量折叠谓词下推投影剪枝等规则。为各种情况添加规则变得非常容易。

5.3. 物理规划

物理规划规则大约有500行代码。在这一阶段,使用物理运算符匹配Spark执行引擎,从逻辑计划形成一个或多个物理计划。它使用成本模型选择计划。它仅使用基于成本的优化来选择连接算法。对于使用广播连接的小关系 SQL,该框架支持更广泛地使用基于成本的优化。它可以使用该规则递归地估计整个树的成本。
基于规则的物理优化,例如将投影或过滤器管道化到一个 Spark地图中操作也由物理规划器执行。除此之外,它还可以将逻辑计划中的操作推送到支持谓词或投影下推的数据源中。

5.4. 代码生成

Spark SQL 优化的最后阶段是代码生成。它涉及生成在每台机器上运行的 Java 字节码。Catalyst 使用 Scala 语言的特殊功能“ Quasiquotes ”来使代码生成变得更容易,因为构建代码生成引擎非常困难。Quasiquotes 允许以 Scala 语言以编程方式构造抽象语法树 (AST),然后可以在运行时将其提供给 Scala 编译器以生成字节码。在催化剂的帮助下,我们可以将表示 SQL 表达式的树转换为 Scala 代码的 AST,以计算该表达式,然后编译并运行生成的代码。

6. 总结

因此,Spark SQL 优化提高了开发人员的工作效率以及他们编写的查询的性能。一个好的查询优化器会自动重写关系查询以更有效地执行,使用早期过滤数据、利用可用索引等技术,甚至确保不同的数据源以最有效的顺序连接。
通过执行这些转换,优化器可以缩短关系查询的执行时间,并使开发人员不再关注应用程序的语义而不是性能。
Catalyst 利用 Scala 的强大功能(例如模式匹配和运行时元编程)来允许开发人员简洁地指定复杂的关系优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/570558.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

以太网PHY,MAC及其通信接口介绍

本文主要介绍以太网的 MAC 和 PHY,以及之间的 MII(Media Independent Interface ,媒体独立接口)和 MII 的各种衍生版本——GMII、SGMII、RMII、RGMII等。 一:简介 从硬件的角度看,以太网接口电路主要由MA…

AXI-Stream——草稿版

参考自哔站:FPGA IP之AXI4-Lite AXI4-Stream_哔哩哔哩_bilibili 信号 传输层级从小到大 TKEEP和TSTRB共同决定了是哪种数据流

【idea快捷键】idea开发java过程中常用的快捷键

含义win快捷键mac快捷键复制当前行或选定的代码块Ctrl DCommand D通过类名快速查找类Ctrl NCommand N通过文件名快速查找文件Ctrl Shift NCommand Shift N通过符号名称快速查找符号(类、方法等)Ctrl Alt Shift NCommand Shift O跳转到声明C…

阳光倒灌高准直汽车抬头显示器HUD太阳光模拟器

阳光倒灌高准直汽车抬头显示器HUD太阳光模拟器是一种高级别的模拟设备,用于模拟太阳光的光谱、强度及照射角度,应用于太阳能电池板、光伏系统等领域的研究和测试。其参数包括光谱范围、光强度、光源、照射角度、均匀性和稳定性,可根据需求调整…

2014年认证杯SPSSPRO杯数学建模A题(第一阶段)轮胎的花纹全过程文档及程序

2014年认证杯SPSSPRO杯数学建模 A题 轮胎的花纹 原题再现: 轮胎被广泛使用在多种陆地交通工具上。根据性能的需要,轮胎表面常会加工出不同形状的花纹。在设计轮胎时,往往要针对其使用环境,设计出相应的花纹形状。   第一阶段问…

时序预测 | Matlab实现GWO-BP灰狼算法优化BP神经网络时间序列预测

时序预测 | Matlab实现GWO-BP灰狼算法优化BP神经网络时间序列预测 目录 时序预测 | Matlab实现GWO-BP灰狼算法优化BP神经网络时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.Matlab实现GWO-BP灰狼算法优化BP神经网络时间序列预测(完整源码和数据…

浏览器https受信任证书生成——openssl颁发受信任证书

站点常常由于没有受信任的第三方CA机构颁发证书,使用https访问时,浏览器常常会弹出不安全的提示,为解决该问题,可以使用openssl颁发个人证书来解决该问题。 1openssl安装及使用方式参考:32.9 x509_OpenSSL 中文手册https://www.openssl.net.cn/docs/230.html2.本文章所有生…

09-LearnTheArchitecture-MemoryManagement

快速链接: 【精选】ARMv8/ARMv9架构入门到精通-[目录] 👈👈👈 1 Overview 本文介绍了 Armv8-A 中的内存转换,这是内存管理的关键。 它解释了虚拟地址如何转换为物理地址、转换表格式以及软件如何管理Translation Lookaside Buffe…

论文篇05-论文范文-论数据访问层设计技术及其应用(2024年软考高级系统架构设计师冲刺知识点总结系列文章)

试题:论数据访问层设计技术及其应用 在信息系统的开发与建设中,分层设计是一种常见的架构设计方法,区分层次的目的是为了实现“高内聚低耦合”的思想。分层设计能有效简化系统复杂性,使设计结构清晰,便于提高复用能力和产品维护能力。一种常见的层次划分模型是将信息系统分…

ROS机器人入门第四课:话题通信

文章目录 ROS机器人入门第四课:话题通信一、话题通信概述(一)概念(二)作用 二、话题通信基本操作需求:分析:流程:(一)发布方解释一些关键的ROS函数和概念: (二&#xff0…

推荐多样性 - 华为OD统一考试(C卷)

OD统一考试(C卷) 分值: 200分 题解: Java / Python / C 题目描述 推荐多样性需要从多个列表中选择元素,一次性要返回N屏数据(窗口数量),每屏展示K个元素(窗口大小&#…

VOC(客户之声)赋能智能家居:打造个性化、交互式的未来生活体验

随着科技的飞速发展,智能家居已成为现代家庭不可或缺的一部分。然而,如何让智能家居更好地满足用户需求,提供更贴心、更智能的服务,一直是行业关注的焦点。在这个背景下,VOC(客户之声)作为一种用…