Kettle 中文名称叫水壶

news/2024/11/17 17:41:01/文章来源:https://www.cnblogs.com/cinemaparadiso/p/18294081

Kettle 是一款国外开源的 ETL 工具,纯 Java 编写,绿色无需安装,数据抽取高效稳定 (数据迁移工具)。Kettle 中有两种脚本文件,transformation 和 job,transformation 完成针对数据的基础转换,job 则完成整个工作流的控制。

Kettle 中文名称叫水壶,该项目的主程序员 MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

Kettle 这个 ETL 工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

Kettle 家族目前包括 4 个产品:Spoon、Pan、CHEF、Kitchen。 

SPOON 允许你通过图形界面来设计 ETL 转换过程(Transformation)。 

PAN 允许你批量运行由 Spoon 设计的 ETL 转换 (例如使用一个时间调度器)。Pan 是一个后台执行的程序,没有图形界面。 

CHEF 允许你创建任务(Job)。 任务通过允许每个转换,任务,脚本等等,更有利于自动化更新数据仓库的复杂工作。任务通过允许每个转换,任务,脚本等等。任务将会被检查,看看是否正确地运行了。 

KITCHEN 允许你批量使用由 Chef 设计的任务 (例如使用一个时间调度器)。KITCHEN 也是一个后台运行的程序。

Kettle 中文名称叫水壶,该项目的主程序员 MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle 这个 ETL 工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

Kettle 中有两种脚本文件,transformation 和 job,transformation 完成针对数据的基础转换,job 则完成整个工作流的控制

目录

  • Kettle 组件类型基本说明 tans/job
  • Kettle 大数据组件的应用说明
  • 基于表对表的同步
  • 基于表到 hdfs 的同步
  • 基于文件到 hdfs 的同步
  • 基于表到 hive 的同步
  • 基于表到 hbase 的同步
  • 基于文件到 hbase 的同步
  • 基于表到 phoenix 的同步
  • Kettle 中 sqoop 的调用
  • Kettle 中 JavaScript 的基本应用
  • 作业调用作业及转换
  1. 如需运用大数据组件 需要将如下:
  • core-site.xml
  • hbase-site.xml
  • hdfs-site.xml
  • hive-site.xml
  • mapred-site.xml
  • yarn-site.xml

配置文件放入 $KETTLE_HOME/plugins/pentaho-big-data-plugin/hadoop configurations/hdp24

并在 $KETTLE_HOME/plugins/pentaho-big-data-plugin/plugin.properties 文件中添加 active.hadoop.configuration=hdp24

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/741730.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ubuntu 2204 中 mariadb 的安装

1. 我想要安装 11.4 版本,直接 apt update , 然后 apt list ,发现其就已经是 11.4:但是这个靠人品: 其实也就是,我还是没有解决如何强制更新apt的源的问题。。 2. 默认新安装的话,进入管理控制台是不需要密码的: 3.

java 01

我跟着B站韩顺平老师的课学习并认识了java的一些基础。 首先,听了老师讲了些与Java有关的内容,如就业方向应用领域等等; 然后,根据老师的推荐去官网下载了sublime并根据网上教程完成汉化和插件安装; 接着安装jdk,我去Oracle官网下载了jdk11并完成了安装; 随后配置path环…

讲师招募 | Apache SeaTunnel Meetup等你来秀!

2024年第三季度已经悄然开启,猛回头才发现今年的时日竟然已经过半!这半年又是在忙忙碌碌中度过,好在看着社区发展年中汇总的一串串数字,似乎都在预示着社区将在一条正确的轨道上,朝着好的方向继续发展。但又隐隐约约觉得还缺点什么。 想了半天,幡然醒悟,原来社区还缺一个…

网站统计分析工具

统计方法: 1. 使用日志进行统计分析 2. 使用开源软件 matomo(前身Pwiki) 3. 使用三方工具 腾讯分析、百度统计、谷歌分析、Adobe Analytics, 首选Adobe Analytics,官方有完善的技术支持,响应快,基本是世界五百或行业头部企业首选 最后就是国内产品,如国双、神策,有这量…

git 学习

git 学习 git学习推荐课程和笔记 02-深入 Git (yuque.com) 尚硅谷Git教程全套完整版(12h深入掌握git)_哔哩哔哩_bilibili git工作区 git 工作区流程图参考博客; 【Git】(1)---工作区、暂存区、版本库、远程仓库 - 雨点的名字 - 博客园 (cnblogs.com) 【Git】---工作区、暂存区…

观《深入理解C#》---委托和事件的区别

委托委托封装了包含返回类型和一组参数的行为 委托实例是不易变的(类似string) 每个委托都包含了一个调用列表事件事件是对委托的封装,是一种特殊的委托,主要用于发布-订阅模式。事件提供了一种机制,使对象可以向其他对象通知发生了某种动作 事件通常在类内部声明,并通过…

利用 ECharts 地图:实现纹理和图像的效果(上海json)

注:shanghaiGeoJSON 换为你需要的区域json <template><div ref="mapContainer" style="width: 100%; height: 500px"></div> </template>import * as echarts from echarts; import shanghaiGeoJSON from @/assets/json/shanghai.…

Nuxt框架中内置组件详解及使用指南(五)

摘要:本文详细介绍了Nuxt框架中title: Nuxt框架中内置组件详解及使用指南(五) date: 2024/7/10 updated: 2024/7/10 author: cmdragon excerpt: 摘要:本文详细介绍了Nuxt框架中和组件的使用方法与配置,包括安装、基本用法、属性详解、示例代码以及高级功能如事件处理、自…

【libevent】bufferevent的并发访问问题

一、问题 在使用libevent实现websocket服务器时,发生了并发访问的问题。 服务器程序功能主要包括实时响应Websocket客户端的控制请求,同时发送温度到客户端。 现象: 不加上温度发送功能时,程序正常运行加上温度发送功能后,就会出现段错误,而且检查后发现bufferevent并不为…

manim边学边做--MarkupText

manim中主要有3个用于显示文本内容的对象,前两篇已经介绍过Text和Paragraph。本篇介绍最后一个MarkupText,与前两个不同的是,MarkupText的文本中支持实用一些HTML的语法,因此,它的表现力更胜前两个。MarkupText在manim各个模块中的位置大致如上图中所示。 1. 主要参数 Mar…

opc ua设备数据 转MQTT项目案例

目录 1 案例说明 1 2 VFBOX网关工作原理 1 3 准备工作 2 4 配置VFBOX网关采集OPC UA的数据 2 5 用MQTT协议转发数据 4 6 配置参数说明 4 7 上报内容配置 5 8 其他说明 8 9 案例总结 8 1 案例说明设置网关采集OPC UA设备数据 把采集的数据转成MQTT协议转发给其他系统。2 VFBOX网…

讲师招募 | Apache DolphinScheduler Meetup诚邀您共建开源!

随着Apache DolphinScheduler在全球范围内的快速发展,我们的用户群体和社区活动也在不断扩大。 为了进一步丰富我们的社区内容,分享更多有价值的知识和经验,我们诚挚地邀请您加入我们,成为Apache DolphinScheduler社区的分享嘉宾。 Meetup是什么? Apache DolphinScheduler…