WhaleStudio 2.6正式发布,WhaleTunnel同步性能与连接器数量再创新高!

news/2024/7/5 23:14:48/文章来源:https://www.cnblogs.com/seatunnel/p/18277952

file

在这个数据驱动的大模型时代,数据集成的作用和意义愈发重要。数据不仅仅是信息的载体,更是推动企业决策和创新的关键因素。作为全球最流行的批流一体数据集成工具,WhaleTunnel随着WhaleStudio 2.6版本正式发布,带来了多项功能增强和新特性,性能大幅提升,连接器和功能方面也有大量更新。

上周,关于数据调度平台WhaleScheduler的更新状况在《WhaleStudio 2.6重磅发布!调度模块WhaleScheduler更新78项核心功能》中已有介绍,点击链接了解详情。

WhaleTunnel

WhaleTunnel是基于白鲸开源主导的Apache SeaTunnel之上精心打磨的商业级的数据集成工具,拥有数据传输速度快、准确率高、稳定性强等技术特点,帮助企业完成内部EtLT中数据集成EtL部分,支持百余种连接器类型,满足用户离线全量同步、离线增量同步、实时增量同步、变化数据捕捉(即CDC)、数据库同步备份等需求。快速产品以代码形式面向数据开发工程师以及任何需要数据集成服务的用户,同时也提供可视化拖拽界面给数据科学家、数据分析师、产品经理等业务用户,支持全流程可视化的任务定义、调用、监控和管理。

数据源更新(部分)

2.6版本新增了多种数据源,数据源支持数量已经达到了188个,部分增加的数据源如下:

file

信创ARM CPU优化

在WhaleTunnel 2.6版本当中,Zeta Engine针对以ARM内核的CPU进行了引擎层面的深度优化,性能提升数倍(相关性能POC报告后续发布)。

  1. 内存映射文件和零拷贝技术: 为了最大限度地减少I/O开销,Zeta Engine采用了内存映射(mmap)技术和零拷贝(zero-copy)技术,直接在内存中操作文件数据。这样不仅加快了数据处理速度,还降低了系统资源的消耗。
  2. 内存对齐:Zeta Engine确保数据结构在内存中的对齐性,有效减少了内存访问的开销。内存对齐优化不仅提高了内存访问的效率,还提升了数据处理的整体性能。
  3. 高效算法: Zeta Engine使用了适合ARM架构的高效算法,减少不必要的计算和数据移动。通过高效的排序和过滤算法,显著提升数据转换和处理的效率。Zeta Engine算法优化确保了在数据密集型任务中,系统能够保持卓越的性能。
  4. 多核架构利用: Zeta Engine充分利用ARM CPU的多核架构,将ETL任务分解为更小的任务,进行多线程或多进程并行执行。通过并行化处理,显著缩短了数据处理的时间,提升了系统的吞吐量。

数据模型及自动建表能力加强

  1. 自动建表、已有数据处理: 除了文件类型的数据源外,所有数据源现支持自动建表。无论是已有表结构还是已有数据处理,WhaleTunnel都能轻松应对。同时,目标端支持自定义表名策略。无需手动处理复杂的表结构,极大地减少了数据集成的时间和人工成本。

file

  1. 数据模型推演: 在任务保存时自动触发,自动检查source、transform、sink中的配置是否合法;在任务重同步表发生表结构变化时,检查其变化可能导致的配置项非法问题。确保数据流的稳定性和一致性,减少因配置错误导致的数据同步失败。在运行数据集成任务之前,就可以自动识别潜在的问题并提前修复。
    图片

  2. 数据类型自动映射: 数据源到目标端的数据类型自动映射。自动适配不同的数据类型,减少手动调整的麻烦。从不同数据库迁移数据时,无需担心类型不匹配的问题。

file

与WhaleScheduler全面集成

  1. 增量同步和参数传递: WhaleTunnel与WhaleScheduler紧密集成,根据调度中的日历、业务日期(牌)以及上下游参数进行增量同步或者参数传递来进行数据内容控制,进一步提高数据同步的灵活性和准确性。例如,在券商监管报表生成时,能够自动获取符合上报规则交易日期的数据,确保数据的准确性。

file

  1. 独立同步调度任务组件: WhaleTunnel拥有独立的CDC实时调度组件和批量调度组件,可以在WhaleScheduler成为独立任务组件被上下游进行触发等工作,实现更灵活的任务调度和管理。在数据集成之后,进行相关数据加工,或者自定义微批任务,实现微批任务的串行等待等。

file

  1. 增量数据参数传递: 离线全量Source支持根据自定义where条件读取,可以使用调度传递的参数变量实现增量数据参数传递,精准控制数据同步范围,实现增量/批量/微批的多场景控制,提升整体数据批量和CDC实时处理能力。

加强可观测性与监控告警

  1. 离线同步新增支持失败、超时告警, 提前预警潜在问题,减少数据同步失败带来的影响。举例来说,在夜间批处理任务中,能够及时发现并处理异常,确保数据同步的顺利进行。
    file

  2. 实时同步新增失败告警、实时同步新增DDL变更事件告警:实时监控数据同步状态,快速响应和处理异常情况。例如,电商平台可以及时发现和修正订单数据同步中的问题,确保业务的连续性,可以让用户快速收到DDL变更情况,从而更早的手工干预。

file

通过虚拟表支持非结构化数据可视化转化

  1. 文件数据源: 新增支持 CSV文件类型以压缩格式读写,支持读取时跳过表头和写入时写入表头设置,支持新的文件格式:DBF, Debezium-Json, 更灵活地处理不同格式的文件数据,提高数据导入导出的效率。

  2. No-SQL数据源支持: 创建虚拟表时支持配置主键,且sink自动建表时使用该主键建表,提高数据一致性和查询效率。例如,在处理NoSQL数据时,可以更好地管理和索引数据。

file
3. 虚拟表支持设置索引

file
4. HTTP数据源虚拟表优化: 优化数据源和虚拟表配置,token、路径、请求参数等支持填写参数变量,更灵活地集成和管理HTTP数据源,提高数据获取的灵活性和效率。

CDC同步增强功能

  1. 唯一索引表同步: CDC同步源表现支持拥有唯一索引的表同步,确保数据的唯一性和完整性。例如,在用户信息同步时,可以确保用户ID的唯一性,避免数据重复和冲突。

  2. 无主键表同步: CDC同步源表支持无主键表的同步,提供更广泛的数据同步支持,适应更多样化的数据库设计。例如,在某些历史数据表中,可能没有主键的设计,但仍然可以实现高效的数据同步。

小结

WhaleTunnel 2.6版本功能非常强大,涵盖了从数据模型设计、自动化建表,到高效的数据同步和监控告警,以及多样化的数据源支持。无论您的数据集成需求是简单的数据传输还是复杂的实时分析,WhaleTunnel都能为您提供定制化的解决方案,帮助您实现数据驱动的业务成功。

我们期待与您一同迎接数据集成的新时代!如果您对WhaleTunnel 2.6版本有任何疑问或想了解更多信息,请随时联系我们的客户服务团队。感谢您对WhaleTunnel的信任和支持!

白鲸开源

白鲸开源是一家开源原生的DataOps商业公司,是国家高新技术企业,由多个Apache Foundation Member成立,80%员工都是 Apache Committer,运营2个全球Apache开源项目(DolphinScheduler, SeaTunnel)。白鲸开源已根据全球最佳实践发布商业版产品WhaleStudio(含白鲸数据调度平台WhaleScheduler和白鲸数据集成平台WhaleTunnel)。我们致力于打造下一代开源原生的DataOps 平台,助力企业在大数据和云时代,智能化地完成多数据源、多云及信创环境的数据集成、调度开发和治理,以提高企业解决数据问题的效率,提升企业分析洞察能力和决策能力。

联系方式

  • 公司网站: www.whaleops.com
  • 联系邮箱: service@whaleops.com

如果您希望深入了解我们的其他功能,或者讨论如何将 WhaleStudio 与你的业务流程相结合,我们非常愿意为你提供帮助。欢迎您首先试用白鲸调度系统(WhaleScheduler),开始您的大数据之旅。

本文由 白鲸开源 提供发布支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/735784.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

代码随想录算法训练营第四十二天 | 1049最后一块石头的重量II 494.目标和 474.一和零

1049.最后一块石头的重量 题目链接 文章讲解 视频讲解解题思路:将石头尽量分为相等的两堆,两堆最差即为所求结果石头的重量就是石头的价值动规五部曲:dp[j]:表示背包容量为j时可以装的石头的总价值 递推公式:dp[j] = max(dp[j], dp[j-stones[i]] + stones[i] 初始化:均初…

Apache DolphinScheduler社区又一PMC获推选通过!

PROFILE姓名:程鑫 公司:阿里云 职位:开发工程师 Github ID: rickchengx 从事领域:大数据调度系统开发 兴趣爱好:健身推举理由 他于2022年8月2日开始了他的DolphinScheduler之旅,在社区工作了将近两年,并于2023年5月12日成为Committer。成为Committer后的一年里,他继续保…

BOSHIDA 探讨DC/AC电源模块为绿色能源应用提供可靠的转换解决方案

BOSHIDA 探讨DC/AC电源模块为绿色能源应用提供可靠的转换解决方案 DC/AC电源模块是一种能够将直流电源转换为交流电源的装置。随着绿色能源的不断发展和应用,DC/AC电源模块在可再生能源、电动车辆、太阳能发电等领域中扮演着重要的角色。本文将着重探讨DC/AC电源模块为绿色能源…

Centos7 安装Rabbitmq3.9.11

安装erlang 安装依赖包yum -y install gcc glibc-devel make ncurses-devel openssl-devel xmlto perl wget gtk2-devel binutils-devel下载wget https://github.com/erlang/otp/releases/download/OTP-24.1.7/otp_src_24.1.7.tar.gz解压tar -zxvf otp_src_24.1.7.tar.gz转移到…

mysql数据库简介

一、数据库介绍 1.数据库基本概念 数据(Data) 描述事物的符号记录 包括数字,文字、图形、图像、声音、档案记录等 以“记录”形式按统一的格式进行存储 表 将不同的记录组织在一起 用来存储具体数据 数据库 表的集合,是存储数据的仓库 以一定的组织方式存储的相互有关的数据…

mac 电脑查看已安装的谷歌插件

1、打开谷歌浏览器 地址栏上面输入  chrome://version/ 2、找到 个人资料路径: /Users/admin/Library/Application Support/Google/Chrome/Default3、打开个新窗口 地址了上输入:个人资料路径 ,并找到 Extensions/ 文件夹 4、里面都是已安装的谷歌插件, 想要哪个插件…

Nordic nRF Connect SDK(NCS) VS Code 安装记录

1.Nordic SDK Nordic有2套并存的SDK:老的nRF5 SDK和新的nRF Connect SDK(NCS),两套SDK相互独立,大家选择其中一套进行开发即可。 一般而言,如果你选择的芯片是nRF51或者nRF52系列,那么推荐使用nRF5 SDK。 如果你选择的是Nordic最新产品系列,比如nRF53或者nRF9160,那么…

浅谈 K8s Service 网络机制

浅谈 K8s Service 网络机制 云原生运维圈 2024-07-01 12:03 上海 1人听过以下文章来源于腾讯云原生 ,作者王成腾讯云原生. 云原生技术交流阵地,汇聚云原生最新技术资讯、文章、活动,以及云原生产品及用户最佳实践内容。王成,腾讯云研发工程师,Kubernetes member,从事数据…

全新升级!中央集中式架构功能测试为新车型保驾护航

目前,文中所述功能测试新方案均已应用于国内多款新架构车型的研发,得到了广泛认可。 “软件定义汽车”新时代下,整车电气电气架构向中央-区域集中式发展已成为行业共识,车型架构的变革带来更复杂的整车功能定义、更多的新技术的应用(如SOA服务化、智能配电等)和更…

江门MES制造执行系统:助力工厂实现智能化管理

江门MES制造执行系统(MES)在工厂实现智能化管理方面发挥着重要作用,以下是它的一些助力方面: 实时监控与控制:江门MES系统可以实时监控生产过程中的各个环节,包括设备状态、生产进度、质量指标等,帮助工厂管理人员及时了解生产情况并做出相应的调整和控制。生产计划与排程…

搭建微信小程序

在开发小程序之前,您需要先注册微信小程序。进入小程序页面,单击前往注册,根据指引填写信息和提交相应的资料,点击注册,完成账号申请。使用申请的微信公众平台账号登录小程序后台,单击开发管理> 开发设置,可以看到小程序的AppID,请记录AppID,后续操作中需要使用。 …

《从零开始学Python》(第二版) PDF读书分享

Python 是一种面向对象、解释型计算机程序设计语言,由 Guido van Rossum 于 1989 年底发明,第一个公开发行版发行于 1991 年。Python 语法简洁而清晰,具有丰富和强大的类库。它常被昵称为胶水语言,能够把用其他语言制作的各种模块(尤其是 C/C++)很轻松地联结在一起。 Pyt…

记一次 .NET某网络边缘计算系统 卡死分析

一:背景 1. 讲故事 早就听说过有什么 网络边缘计算,这次还真给遇到了,有点意思,问了下 chatgpt 这是干嘛的 ?网络边缘计算是一种计算模型,它将计算能力和数据存储位置从传统的集中式数据中心向网络边缘的用户设备、传感器和其他物联网设备移动。这种模型的目的是在接近数…

Cannot load from short array because sun.awt.FontConfiguration.head is null

新服务器,部署项目,使用easyExcel功能导出文件时,报错提示:Cannot load from short array because "sun.awt.FontConfiguration.head" is null,可以看到是字体文件配置引发的空指针异常; 解决方法:登录服务器,执行命令 yum install fontconfigfc-cache --for…

heap

堆块: chunk 堆是以一个个的堆块构成的,这些堆块就叫chunk chunk的大小是8字节对齐,但是一个堆块的具体大小是16字节对齐的,比如一个堆块只能是 0x40,0x50,0x60 不会是0x48这样的数据 其中一个堆块的header头部字节占16字节大小,也就是0x10字节 64位程序下的最小长度是3…

固件的提取

固件提取的三类方法:直接从官网上找到目标型号的设备固件下载 使用Telnet或者ssh从目标设备中获取固件 从开发板中的flash芯片中或者通过uart和jtag调试接口将固件提取下来JTAG(Joint Test Action Group),是一种用于测试和调试电子设备的技术标准。它使用4线或5线接口,其中…

转:在Linux上运行WinForm

C#winform软件实现一次编译,跨平台windows和linux、mac兼容运行,兼容Visual Studio原生界面Form表单开发 - 亲善美 - 博客园 (cnblogs.com)一、背景: 微软的.net core开发工具,目前来看,winform界面软件还没有打算要支持linux系统下运行的意思,要想让c#桌面软件在linux系…

固件的烧录以及部分PCB基础

固件 固件的基础定义: 固件(firmware)一般存储于设备中的电可擦除只读存储器(允许用户通过特定的电子方式复写存储内容,在【工作情况下是只读的,并且关闭电源仍存储数据)EEPROM(Electrically Erasable Programmable ROM)或FLASH芯片中,一般可由用户通过特定的刷新程序进…

Golang:go-querystring将struct编码为URL查询参数的库

Golang:go-querystring将struct编码为URL查询参数的库 原创 吃个大西瓜 Coding Big Tree 2024-05-09 08:30 北京go-querystring is a Go library for encoding structs into URL query parameters.译文:go-querystring 将struct编码为URL查询参数的Golang库文档https://pkg.g…

C#之缓存

原文链接:https://zhuanlan.zhihu.com/p/657458522 缓存指在中间层中存储数据的行为,该行为可使后续数据检索更快。 从概念上讲,缓存是一种性能优化策略和设计考虑因素。 缓存可以显著提高应用性能,方法是提高不常更改(或检索成本高)的数据的就绪性 既然缓存是是一种性能…