海豚调度系列之:任务类型——SPARK节点

海豚调度系列之:任务类型——SPARK节点

  • 一、SPARK节点
  • 二、创建任务
  • 三、任务参数
  • 四、任务样例
    • 1.spark submit
    • 2.spark sql
  • 五、注意事项:

一、SPARK节点

Spark 任务类型用于执行 Spark 应用。对于 Spark 节点,worker 支持两个不同类型的 spark 命令提交任务:

  • (1) spark submit 方式提交任务。
  • (2) spark sql 方式提交任务。

二、创建任务

  • 点击项目管理 -> 项目名称 -> 工作流定义,点击”创建工作流”按钮,进入 DAG 编辑页面:
  • 拖动工具栏的 任务节点到画板中。

三、任务参数

  • 程序类型:支持 Java、Scala、Python 和 SQL 四种语言。
  • 主函数的 Class:Spark 程序的入口 Main class 的全路径。
  • 主程序包:执行 Spark 程序的 jar 包(通过资源中心上传)。
  • SQL脚本:Spark sql 运行的 .sql 文件中的 SQL 语句。
  • 部署方式:(1) spark submit 支持 cluster、client 和 local 三种模式。 (2) spark sql 支持 client 和 local 两种模式。
  • 命名空间(集群):若选择命名空间(集群),则以原生的方式提交至所选择 K8S 集群执行,未选择则提交至 Yarn 集群执行(默认)。
  • 任务名称(可选):Spark 程序的名称。
  • Driver 核心数:用于设置 Driver 内核数,可根据实际生产环境设置对应的核心数。
  • Driver 内存数:用于设置 Driver 内存数,可根据实际生产环境设置对应的内存数。
  • Executor 数量:用于设置 Executor 的数量,可根据实际生产环境设置对应的内存数。
  • Executor 内存数:用于设置 Executor 内存数,可根据实际生产环境设置对应的内存数。
  • Yarn 队列:用于设置 Yarn 队列,默认使用 default 队列。
  • 主程序参数:设置 Spark 程序的输入参数,支持自定义参数变量的替换。
  • 选项参数:设置Spark命令的选项参数,例如–jars、–files、–archives、–conf。
  • 资源:如果其他参数中引用了资源文件,需要在资源中选择指定。
  • 自定义参数:是 Spark 局部的用户自定义参数,会替换脚本中以 ${变量} 的内容。

四、任务样例

1.spark submit

执行 WordCount 程序

本案例为大数据生态中常见的入门案例,常应用于 MapReduce、Flink、Spark 等计算框架。主要为统计输入的文本中,相同的单词的数量有多少。

在 DolphinScheduler 中配置 Spark 环境
若生产环境中要是使用到 Spark 任务类型,则需要先配置好所需的环境。配置文件如下:bin/env/dolphinscheduler_env.sh。

在这里插入图片描述
上传主程序包
在使用 Spark 任务节点时,需要利用资源中心上传执行程序的 jar 包。

当配置完成资源中心之后,直接使用拖拽的方式,即可上传所需目标文件。

在这里插入图片描述
配置 Spark 节点

根据上述参数说明,配置所需的内容即可。

在这里插入图片描述

2.spark sql

执行 DDL 和 DML 语句

本案例为创建一个视图表 terms 并写入三行数据和一个格式为 parquet 的表 wc 并判断该表是否存在。程序类型为 SQL。将视图表 terms 的数据插入到格式为 parquet 的表 wc。

在这里插入图片描述

五、注意事项:

注意:

  • JAVA 和 Scala 只用于标识,使用 Spark 任务时没有区别。如果应用程序是由 Python 开发的,那么可以忽略表单中的参数Main Class。参数SQL脚本仅适用于 SQL 类型,在 JAVA、Scala 和 Python 中可以忽略。
  • SQL 目前不支持 cluster 模式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/535382.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大数据时代,如何挖掘企业的‘真面目‘?

在职场中,获取企业大数据已成为投资者、分析师和市场研究人士不可或缺的一环。这些数据不仅包括司法涉诉、工商变更等基础信息,更涉及经营动态、舆情动态、无形资产和监管风险等多个维度。那么,如何有效地查询并利用这些数据呢?接…

EasyRecovery恢复电脑丢失数据怎么样?

电脑是我们大家熟悉并且常用的数据存储设备,也是综合性非常强的数据处理设备。对于电脑设备来讲,最主要的数据存储介质是硬盘,电脑硬盘被划分成多个分区,在电脑上表现为C盘,E盘等,用来保存系统文件以及其他…

【Vue3】深入理解Vue3路由器的工作原理to的两种写法

💗💗💗欢迎来到我的博客,你将找到有关如何使用技术解决问题的文章,也会找到某个技术的学习路线。无论你是何种职业,我都希望我的博客对你有所帮助。最后不要忘记订阅我的博客以获取最新文章,也欢…

10分钟学会使用Jmeter工具做接口自动化测试

在软件开发领域,接口自动化测试变得越来越重要。 你可能听说过JMeter这个工具,在进行接口自动化测试方面,它是一个功能强大、易于使用的免费测试工具。如果你想学习如何使用JMeter进行接口自动化测试,那么你来对地方了&#xff0…

Redis-自动过期

1 EXPIRE、PEXPIRE:设置生存时间 用户可以通过执行EXPIRE命令或者PEXPIRE命令为键设置一个生存时间(Time To Live, TTL):键的生存时间在设置之后就会随着时间的流逝而不断地减少,当一个键的生存时间被消耗殆尽时&#…

echarts line绘制机组开关状态折线图

2024.3.12今天我学习了如何用echarts line实现设备开关状态的效果。 代码如下: option {xAxis: {type: time,},yAxis: {type: value,splitNumber:2,// axisLine: {// show: true,// lineStyle: {// color:#808080// }// },axisLabel:{formatt…

二、vue-cli项目搭建

系列文章: vue实战(商城后台管理系统):http://t.csdnimg.cn/f6Fqa vue.js :http://t.csdnimg.cn/mljxv 目录 系列文章: vue实战(商城后台管理系统):http://t.csdnimg.cn/f6Fqa vue…

鸿蒙Harmony应用开发—ArkTS声明式开发(基础手势:TextTimer)

通过文本显示计时信息并控制其计时器状态的组件。 说明: 该组件从API Version 8开始支持。后续版本如有新增内容,则采用上角标单独标记该内容的起始版本。 子组件 无 接口 TextTimer(options?: TextTimerOptions) 参数: 参数名参数类型…

Consul 配置持久化

当我们在consul的key-value中配置了几个字段 访问后的结果: 但是当我们在控制台输入命令重启consul服务后: consul agent -dev 刚刚设置的key-value值便消失不见了 此时就要进行 consul 持久化配置. 第一步:在consul文件夹下创建 1.空文件夹mydata 2.新建文件consul_star…

“批量记录,轻松修改:让收支明细管理更高效!“

在繁忙的现代生活中,管理个人收支明细成为了我们理财的重要一环。晨曦记账本,作为一款功能强大的记账工具,致力于帮助用户轻松记录和管理每一笔收支,让财务更加清晰、有序。 第一步,首先我们要记进入晨曦记账本主页面…

electron + vtkjs加载模型异常,界面显示类似于图片加载失败的图标

electron vtkjs加载模型显示异常,类似于图片加载失败的效果,如上图。 electron开发版本:13。 解决方法:升级electron版本号。 注意:win7最高兼容electron 22版本。

云端渲染中如何确保数据安全?

随着数字内容创作领域的蓬勃发展,人们对于高效且优质的渲染技术的需求日益迫切。云渲染技术作为一种新兴的渲染技术,获得了业界的广泛关注。它利用云计算的优势,将渲染任务分配到云端服务器上进行处理,从而大大提高了渲染效率和质…