从独立开发者到成为SeaTunnel社区的贡献者,我做对了哪些事儿?

个人介绍

大家好,我是闫成雨,目前是一名独立开发者。专注于数据开发、机器学习、资源调度算法和分布式系统。

file

GitHub ID: CheneyYin

个人主页:https://cheneyyin.github.io/

为社区做了哪些贡献

  • 加强了Spark引擎和Flink引擎对SeaTunnel数据类型的支持。
  • 修复了一些Spark引擎转换层的BUG。
  • 完善了Assert连接器支持的数据类型。
  • 修复了一些CI相关的BUG。
  • 完善了一些文档。

贡献记录:https://github.com/apache/seatunnel/pulls?q=is%3Apr+author%3ACheneyYin+is%3Aclosed

初识

在2022年到2023年期间,我一直在尝试开发一款类似于StreamSet和NiFi的可视化数据集成软件。

直到2023年3月左右,我完成了一个简陋的可视化数据集成软件Metal,并将其迁移到了我的GitHub仓库。尽管Metal功能简单,但它成功验证了设计思路和技术栈的可行性。

直到我阅读了发布在devops.dev社区的文章《The Evolution of Architecture from ETL to EtLT》,我才了解到许多关于数据集成的新观点,如小t的概念、使用通用计算引擎的局限性以及数据集成执行引擎的价值等等。

同时,这也是我首次接触到Apache SeaTunnel,它是建立在这些新理念之上的。在第一次尝试Apache SeaTunnel后,我毅然放弃了之前的方向,转而选择了活跃在SeaTunnel社区。

提交第一个PR

跟大家分享一下我第一次提PR的故事,早期的时候,在使用SeaTunnel的一次压测中,我注意到Spark引擎抛出了OOM(Out Of Memory)异常。

首先复现了这个问题,然后进行了调试并定位了原因。发现是Spark转换层的TransformerProcessor在内存中临时存储了输出结果,导致处理大数据量时堆内存不足。

在对问题进行深入分析并找到解决方案后,我向Apache SeaTunnel社区提交了我的第一个Issue(#4502),感兴趣的朋友可以去看看,在这个Issue中,我解释了问题的现象和原因,并提出了解决方案。随后,我提交了我的第一个PR(#4503)。

我的第一个PR从提交到合并仅用了4天,这显示了社区高效的反馈速度。但对我个人来说,这个过程充满了期待和漫长,特别是在CI环境出现异常导致测试无法通过时。

不过,社区的资深成员及时提供了帮助,最终成功合并了PR,所以你在初期参与贡献的时候,向资深的贡献者寻求帮助是至关重要的,而且大家都会乐于助人!但是也请注意不用太浪费别人的时间。

持续参与

在过去的一年里,我一直积极参与社区活动,阅读技术大咖们的分享内容,关注并回复社区的Issue,同时持续跟踪Pull Request列表。

另外,我也为社区做出了一些代码贡献。

例如:

  • 为Spark引擎添加了对SeaTunnel的Time类型的支持(#5188)
  • 为Flink引擎增加了可配置precision和scale的Decimal类型支持(#5419)
  • 增强了Hocon风格的泛型声明(#6187)
  • 完善了Assert连接器覆盖全部数据类型(#6275)

这些Pull Request大多旨在改善用户的使用体验。

社区留给我的印象

我对Apache SeaTunnel社区的第一印象是热情而活跃。社区对Issue和Pull Request的反馈速度很快,同时也对新的贡献者非常友好和耐心,使得新贡献者能够轻松快速地参与进来。

未来的期望

希望社区能够进一步壮大,吸引更多开发者共推SeaTunnel发展。愿SeaTunnel用户群持续扩大,让更多人享受其便捷的数据集成解决方案。期望用户体验不断提升,SeaTunnel在稳定性上取得新突破。

同时,希望SeaTunnel的文档更详尽完善,提供全面且清晰的使用指南和技术文档,以便用户快速上手和解决问题。

本文由 白鲸开源科技 提供发布支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/703349.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

突发!超60篇被标记!Elsevier旗下顶刊,“On Hold”长达10个月!再次沦陷“新”风波!

【欧亚科睿学术】 近日,中科院老牌TOP期刊Chemosphere对超过60篇论文发布了关注声明,原因是正在调查可能存在的编辑利益冲突、作者身份异常以及同行评审和引用操纵问题。 图片来源:期刊官网 2024年4月11日,该期刊在线发布的一份…

wireshark_概念

ARP (Address Resolution Protocol)协议,即地址解析协议。该协议的功能就是将IP地址解析成MAC地址。 混杂模式 抓取经过网卡的所有数据包,包括发往本网卡和非发往本网卡的。 非混杂模式 只抓取目标地址是本网卡的数据包,对于发往…

秋招算法——AcWing101——拦截导弹

文章目录 题目描述思路分析实现源码分析总结 题目描述 思路分析 目前是有一个笨办法,就是创建链表记录每一个最长下降子序列所对应的节点的链接,然后逐个记录所有结点的访问情况,直接所有节点都被访问过。这个方法不是很好,因为需…

国际生物多样性科普暨母亲节亲子活动在天河公园举行

引言:"人类是命运共同体,不论是战胜新冠疫情,还是加强生物多样性保护,实现全球可持续发展,唯有团结合作,才能有效应对全球性挑战。生态兴则文明兴。我们应该携手努力,共同推进人与自然和谐…

【计算机网络】HTTP协议详解实战抓包分析教程

文章目录 1.HTTP简介2.HTTP报文的结构3.HTTP协议中空行的作用4.uri和url的区别5.HTTP请求5.1 HTTP请求方法5.2 HTTP请求报头 6.HTTP响应6.1 状态码 7.HTTP位于应用层(基于TCP)8.非持久和持久连接8.1 非持久连接8.2 持久连接 1.HTTP简介 HTTP(Hypertext Transfer Pr…

联软安渡 UniNXG 安全数据交换系统 任意文件读取漏洞复现

0x01 产品简介 联软安渡UniNXG安全数据交换系统,是联软科技自研的业内融合网闸、网盘和DLP的一体机产品,它同时支持多网交换,查杀毒、审计审批、敏感内容识别等功能,是解决用户网络隔离、网间及网内数据传输、交换、共享/分享、存储的理想安全设备,具有开创性意义。 UniN…

爆火!!!中文版 Llama3 开源了!!

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。 针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。 总结链接…

Pytharm2020安装详细教程

Pytharm2020版提取链接链接: https://pan.baidu.com/s/1eDvwYmUJ4l7kIBXewtN4EA?pwd1111 提取码:1111 演示版本为2019版,链接包为2020版pytharm。 1.双击exe文件页面会提示更改选项,点击“是”。 2.点击下一步next 自…

视频号小店是个风口吗?今年去做是明智的选择吗?一篇详解!

大家好,我是电商小V 视频号才刚刚推出一年半的时间,可以说自从推出之后这个项目的知名度一直是处于飙升的状态,一直处于爆火的状态,也是吸引了很多想做电商,想去创业的小伙伴,最主要的就是视频号小店背靠的…

Minecraft 我的世界服务器Java版开服联机教程

本教程使用Paper核心开服 1、进入控制面板 1.2、第一次购买服务器会安装游戏端,大约5分钟左右,如果长时间处于安装状态请联系客服 2、开启服务器 2.1、等待出现同意Minecraft EULA 协议时,点击“我接受” 2.2、等待running出现服务器就打开了…

“安”网守护,“乐享”服务——革新教育行业运维与安全体验,锐捷发布两大创新方案

5月11日,锐捷网络举办以“’安‘网联动, ’乐享‘运维”为主题的线上发布会,正式发布了锐捷乐享教育订阅服务方案,以及以新一代智能安全网关为核心的安全防护解决方案。 锐捷网络教育系统部总经理马雪峰为发布会致开场辞,他指出,在数字化浪潮席卷全球的今天,教育行业正进来前所…

企智汇项目管理软件有哪些优势?

一款非常好用、高效的软件——企智汇软件有哪些优势呢? 首先,我们来看看它的界面设计。企智汇软件界面简洁直观,用户可以轻松地使用各种功能,不需要学习复杂的操作流程。而且,软件还提供了多种配色方案和主题&#xf…