Apache SeaTunne简介

Apache SeaTunne简介

文章目录

  • 1.Apache SeaTunne是什么?
    • 1.1[官网](https://seatunnel.apache.org/)
    • 1.2 项目地址
  • 2.架构
  • 3.特性
    • 3.1 丰富且可扩展的连接器和插件机制
    • 3.2 支持分布式快照算法以确保数据一致性
    • 3.3 支持流、批数据处理,支持全量、增量和实时数据集成处理
    • 3.4 多引擎支持
    • 3.5 JDBC多路复用
    • 3.5 高吞吐量和低延迟
    • 3.6 完善的实时监控
    • 3.7 支持两种作业开发方法:编码和画布设计
  • 4.支持引擎对比
  • 5.数据集成工具对比
  • 6.官方好文分享
  • 7.总结

1.Apache SeaTunne是什么?

  Apache SeaTunne(前身 Waterdrop,2021 年 10 月更名为 SeaTunnel 并申请加入 Apache孵化器) 是一个分布式、高性能、易扩展、用于海量数据(离线 & 实时)同步和转化的数据集成平台。

1.1官网

https://seatunnel.apache.org/

1.2 项目地址

https://github.com/apache/seatunnel
https://github.com/apache/seatunnel#apache-seaTunnel-web-project

2.架构

图片

架构的核心思想就是:

input—>transform—>output

输入 -> 转换 -> 输出

3.特性

3.1 丰富且可扩展的连接器和插件机制

  SeaTunnel提供了一个不依赖于特定执行引擎的连接器API。基于此API开发的连接器(Source, Transform, Sink)可以在许多不同的引擎上运行,例如当前支持的SeaTunnel Engine, Flink和Spark,插件设计允许用户轻松开发自己的连接器并将其集成到SeaTunnel项目中。目前,SeaTunnel支持100多个连接器,而且这个数字还在飙升。

3.2 支持分布式快照算法以确保数据一致性

3.3 支持流、批数据处理,支持全量、增量和实时数据集成处理

  基于SeaTunnel Connector API开发的连接器完美兼容离线同步、实时同步、全同步、增量同步等场景。它们大大降低了管理数据集成任务的难度

3.4 多引擎支持

  SeaTunnel默认使用SeaTunnel引擎进行数据同步。SeaTunnel还支持使用Flink或Spark作为连接器的执行引擎,以适应企业现有的技术组件。SeaTunnel支持多个版本的Spark和Flink

3.5 JDBC多路复用

  数据库日志多表解析:SeaTunnel支持多表或整个数据库同步,解决了JDBC过度连接的问题;支持多表或全数据库的日志读取和解析,解决了CDC多表同步场景需要处理日志重复读取和解析的问题

3.5 高吞吐量和低延迟

  SeaTunnel支持并行读写,提供稳定可靠的高吞吐量和低延迟的数据同步能力

3.6 完善的实时监控

  SeaTunnel支持对数据同步过程中每一步的详细监控信息,让用户轻松了解同步任务读写的数据数量、数据大小、QPS等信息。

3.7 支持两种作业开发方法:编码和画布设计

  可视化界面操作集成作业管理:SeaTunnel web项目seatunnel-web提供了作业、调度、运行和监控功能的可视化管理

  以上是我总结的关于Apache SeaTunne的主要特性,官方还有详细的说明,可以参看官方文档

4.支持引擎对比

  Apache SeaTunne默认使用的是自研的SeaTunne Zeta引擎,还支持Spark、Flink计算引擎

图片

5.数据集成工具对比

图片

  Apache SeaTunne和Apache StreamPark可以说是平台,而DataX和Chunjun只能说是工具。

6.官方好文分享

基于 SeaTunnel 构建 CDC 流式应用

https://mp.weixin.qq.com/s/3G_8JhePUexvuX1acV7dvg

Apache SeaTunnel Web部署指南

https://mp.weixin.qq.com/s/eNWGP_09Oh4pHdoQkmGPzg

基于Apache SeaTunnel 的数据精确一致性技术实践

https://mp.weixin.qq.com/s/cn9QCS-o8fYkilPHUoT_9g

SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比

https://mp.weixin.qq.com/s/ayQIz7ImOI_IhaOmMB5pnA

从 0 到 1 快速入门 Apache SeaTunnel ,新一代数据集成平台的原理和实践

https://mp.weixin.qq.com/s/i631_RTIuTBAvsOeow0F7Q

7.总结

  本文使用简短精炼的文字向大家介绍了Apache SeaTunne,相信通过本文对Apache SeaTunne有了跟多的认识,后面的文章会向大家分享在CentOs7.x上部署遇到的坑和windows10电脑上本地构建Apache SeaTunne运行mysql-jdb to mysql-jdbc的单表同步的demo以及断点调试欣赏Apache SeaTunne的源码和牛皮的设计思想,希望我的分享对你有所帮助,请一键三连,么么么哒!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/282579.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

破译模式:模式识别在计算机视觉中的作用

一、介绍 在当代数字领域,计算机视觉中的模式识别是关键的基石,推动着众多技术进步和应用。本文探讨了计算机视觉中模式识别的本质、方法、应用、挑战和未来趋势。通过使机器能够识别和解释视觉数据中的模式,模式识别不仅推动了计算机视觉领域…

[Verilog] Verilog 数值表示

主页: 元存储博客 文章目录 前言1. 整数表示1.1 整数数据类型1.2 整数转换函数 2. 负数表示3. 实数表示4. 逻辑电平表示5. 逻辑值表示6. 字符表示法7. 字符串表示 前言 Verilog中,可以使用多种方式表示数值。 1. 整数表示 1.1 整数数据类型 基数格式…

【深度学习目标检测】四、基于深度学习的抽烟识别(python,yolov8)

YOLOv8是一种物体检测算法,是YOLO系列算法的最新版本。 YOLO(You Only Look Once)是一种实时物体检测算法,其优势在于快速且准确的检测结果。YOLOv8在之前的版本基础上进行了一系列改进和优化,提高了检测速度和准确性。…

信号量机制理论详解专题

一文学懂信号量机制的各种大题,详细操作见下文~ 1965年,荷兰学者Dijkstra提出的信号量(Semaphores)机制是一种卓有成效的进程同步工具。在长期且广泛的应用中,信号量机制又得到了很大的发展,它从整型信号量…

网络基础(十一):VRRP原理与配置

目录 前言: 1、VRRP的基本概述 2、VRRP的基本原理 2.1VRRP的基本结构 2.2设备类型 2.3状态机 2.4VRRP路由器的抢占功能 2.5VRRP路由器的优先级 2.6VRRP工作原理 2.7主备路由器的工作内容 3、VRRP的基本配置 3.1配置主路由器和备用路由器 3.2配置PC1与P…

CMA、CNAS软件检测公司分享:压力测试应关注的指标和面临的问题

软件压力测试是容易被传统企业忽视的测试点,用户人数一旦超过预期,极易造成软件产品卡顿、崩溃的情况,不利于用户正常使用,严重影响企业公信力和盈利水平。今天卓码软件测评小编来聊聊压力测试过程中应该关注的指标和会面临的问题…

关联规则 FP-Growth算法

FP-Growth算法 FP-growth 算法思想 FP-growth算法是韩家炜老师在2000年提出的关联分析算法,它采取如下分治策略: 将提供频繁项集的数据库压缩到一棵频繁模式树 (FP-Tree)但仍保留项集关联信息。FP-growth算法是对Apriori方法的改进。生成一个频繁模式而不需要生成…

菜鸟学习日记(python)——匿名函数

Python 使用 lambda 来创建匿名函数。 lambda 函数是一种小型、匿名的内联函数,它可以具有任意数量的参数,但只能有一个表达式。 匿名函数的一般格式如下: lambda 参数列表:表达式 表达式用于计算并返回函数结果 lambda 函数通常用于编写…

version `GLIBC_2.29‘ not found 的原因和怎么解决问题

程序上经常有在这台Linux上编译,然后放到另一个Linux上运行的情况。 如果Linux版本差别不大或都是ubuntu或centos系列还好。 如果不是一个系列很容易出现GLIBC 找不到的情况。 尤其是ubuntu上编译,然后放到centos系列。因为centos为了追求所谓的稳定&…

Java小案例-RocketMQ的11种消息类型,你知道几种?(请求应答消息)

前言 Rocket的请求应答消息是指在使用Rocket(这里可能是RocketMQ或者Rocket框架)进行通信时,客户端发送一个请求到服务端,然后服务端处理该请求并返回一个响应的过程中的数据交换。 在RocketMQ中: 请求应答消息通常…

用Kotlin抓取微博数据并进行热度预测

闲来无事,逛逛微博,看着每条热度很高的博文趣事,心想能否通过爬虫抓取微博热度并进行趋势分析,说干就干,这里需要注意的问题我会一一标注。 爬虫ip信息的设置是在爬虫程序中进行的。爬虫ip信息可以帮助爬虫程序在访问…

python排序算法 直接插入排序法和折半插入排序法

最近需要使用到一些排序算法,今天主要使针对直接插入排序和折半插入排序进行讲解。 首先是直接插入排序,其排序过程主要是,针对A[a1,a2,a3,a4,a5....an],从排序的序列头部起始位置开始,将其也就是a1视为只有一个元素的…