一百六十八、Kettle——用海豚调度器定时调度从Kafka到HDFS的任务脚本（持续更新追踪、持续完善）

news/2025/3/12 19:57:35/文章来源:https://blog.csdn.net/tiantang2renjian/article/details/132590270

一、目的

在实际项目中，从Kafka到HDFS的数据是每天自动生成一个文件，按日期区分。而且Kafka在不断生产数据，因此看看kettle是不是需要时刻运行？能不能按照每日自动生成数据文件？

为了测试实际项目中的海豚定时调度从Kafka到HDFS的kettle任务情况，特地提前跑一下海豚定时调度这个任务，看看到底什么情况。

二、海豚调度任务配置

（一）SHELL脚本配置

#!/bin/bash
source /etc/profile

/opt/install/kettle9.2/data-integration/pan.sh -rep=hurys_linux_kettle_repository -user=admin -pass=admin -dir=/kafka_to_hdfs/ -trans=04_Kafka_to_HDFS_turnratio level=Basic >>/home/log/kettle/04_Kafka_to_HDFS_turnratio_`date +%Y%m%d`.log

（二）定时任务设置

定时任务设置为每天的零点，零点一到开始执行任务

（三）最后工作流情况

三、启动工作流

工作流启动，成功！工作流一直在跑

相应的任务实例也在跑！

四、启动工作流每天HDFS情况

（一）第一天为2023/8/30日

由于第一天开始执行任务，因此自动生成2023/08/30的HDFS文件

（二）第二天为2023/8/31日

1、2023/08/31早上更新

（1）04_Kafka_to_HDFS_turnratio任务

第二天的海豚任务自动调度，自动生成2023/08/31的HDFS文件

但问题是，除了再跑31日的任务外，30日的任务还在跑，可能是定时配置有问题，需要优化

而且这样搞容易把kettle搞出问题！

2、2023/08/31晚上更新

（1）04_Kafka_to_HDFS_turnratio任务

不设置定时任务，kettle任务一直运行，已经生成8月31日的文件，观察明天会不会自动生成9月1日的数据文件

已生成的8月31日文件

（2）01_Kafka_to_HDFS_queue任务

不设置定时任务，kettle任务一直运行，已经生成8月31日的文件，观察明天会不会自动生成9月1日的数据文件

已生成的8月31日文件

如果明早不能自动生成9月1日的文件，那就要设置海豚定时为每天的执行时间为0时0分0秒到23时59分59秒或者在脚本里设置时间或者在kettle里设置时间？？？？

（三）第三天为2023/9/1日

1、2023/09/01早上更新

昨晚海豚调度的两个kettle任务以失败告终，没有自动生成9月1日的数据文件

今日再尝试其他的方式

2、2023/09/01下午更新

下午尝试用Crontab定时任务调度Kettle脚本

[root@hurys22 kettle_job_sh]# crontab -l
SHELL=/bin/bash

# */1 * * * * /bin/sh /opt/install/kettle9.2/kettle_job_sh/test2.sh

06-07 17 * * * /bin/sh /opt/install/kettle9.2/kettle_job_sh/01_Kafka_to_HDFS_queue.sh
设置每天的17点的6分到7分中执行

但是日志文件显示kettle任务却一直再跑

当然，HDFS中确实生成了9月1日今日的文件，而且任务运行时间是我设置的17点7分

这个方法不行，后面再试试其他方法？怎么就不会设置任务停止呢

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/94283.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

JVM调优指令参数

JVM调优指令参数

常用命令查找文档站点：https://docs.oracle.com/javase/8/docs/technotes/tools/unix/index.html -XX:PrintFlagsInitial 输出所有参数的名称和默认值，默认不包括Diagnostic和Experimental的参数。可以配合 -XX:UnlockDiagnosticVMOptions和-XX:UnlockEx…

阅读更多...

Vulnhub: Ragnar Lothbrok: 1靶机

Vulnhub: Ragnar Lothbrok: 1靶机

kali：192.168.111.111 靶机：192.168.111.226 信息收集端口扫描 nmap -A -sC -v -sV -T5 -p- --scripthttp-enum 192.168.111.226 作者提示修改hosts文件目录爆破 gobuster dir -u http://armbjorn -w /usr/share/wordlists/dirbuster/directory-l…

阅读更多...

中东 Shopify 如何使用 Bytebase 构建一站式数据库开发工作流

中东 Shopify 如何使用 Bytebase 构建一站式数据库开发工作流

公司简介 Salla 是一家 2016 年成立，位于沙特麦加的自建站电商平台。作为中东 Shopify，其最大的特点是支持阿拉伯语建站，并且提供更多适应中东地区特点的本地化服务。截止目前，已有 47,000 家店铺入驻 Salla，商品销售…

阅读更多...

C++算法 —— 分治（2）归并

C++算法 —— 分治（2）归并

文章目录 1、排序数组2、数组中的逆序对3、计算右侧小于当前元素的个数4、翻转对 1、排序数组排序数组排序数组也可以用归并排序来做。 vector<int> tmp;//写成全局是因为如果在每一次小的排序中都创建一次，更消耗时间和空间，设置成全局的就更高…

阅读更多...

设计模式-原型模式详解

设计模式-原型模式详解

文章目录前言理论基础1. 原型模式定义2. 原型模式角色3. 原型模式工作过程4. 原型模式的优缺点实战应用1. 原型模式适用场景2. 原型模式实现步骤3. 原型模式与单例模式的区别原型模式的变体1. 带有原型管理器的原型模式2. 懒汉式单例模式的原型模式实现3. 细粒度原型模式总…

阅读更多...

网络渗透day6-面试01

网络渗透day6-面试01

😉 和渗透测试相关的面试问题。介绍如果您想自学网络渗透，有许多在线平台和资源可以帮助您获得相关的知识和技能。以下是一些受欢迎的自学网络渗透的平台和资源： Hack The Box: Hack The Box（HTB）是一个受欢迎的平…

阅读更多...

深入探讨梯度下降：优化机器学习的关键步骤（一）

深入探讨梯度下降：优化机器学习的关键步骤（一）

文章目录 🍀引言🍀什么是梯度下降？🍀损失函数🍀梯度(gradient)🍀梯度下降的工作原理🍀梯度下降的变种🍀随机梯度下降（SGD）🍀批量梯度下降&#xf…

阅读更多...

C++--动态规划其他问题

C++--动态规划其他问题

1.一和零力扣（LeetCode）官网 - 全球极客挚爱的技术成长平台给你一个二进制字符串数组 strs 和两个整数 m 和 n 。请你找出并返回 strs 的最大子集的长度，该子集中最多有 m 个 0 和 n 个 1 。如果 x 的所有元素也是 y 的元素&#xff0…

阅读更多...

PlumeLog查不到日志

PlumeLog查不到日志

一问题： PlumeLog查不到日志，记录遇到的情况二场景 1. 输入不全

阅读更多...

AI人员打闹监测识别算法

AI人员打闹监测识别算法

AI人员打闹监测识别算法通过yolopython网络模型框架算法， AI人员打闹监测识别算法能够准确判断出是否有人员进行打闹行为，算法会立即发出预警信号。Yolo算法，其全称是You Only Look Once: Unified, Real-Time Object Detection，其…

阅读更多...

【LeetCode】《LeetCode 101》第十二章：字符串

【LeetCode】《LeetCode 101》第十二章：字符串

文章目录 12.1 字符串比较242 . 有效的字母异位词（简单）205. 同构字符串（简单）647. 回文子串（中等）696 . 计数二进制子串（简单） 12.2 字符串理解224. 基本计算器（困难&am…

阅读更多...

Axure RP软件安装包分享（附安装教程）

Axure RP软件安装包分享（附安装教程）

目录一、软件简介二、软件下载一、软件简介 Axure RP是一款专业的原型设计工具，它能够帮助用户创建高保真度的交互式原型。 Axure RP具有以下特点： 强大的交互设计功能：Axure RP提供了丰富的交互设计工具，用户可以通过拖拽和…

阅读更多...

推荐文章

最新文章