高效处理日均5000亿+数据：58集团基于Apache SeaTunnel的数据集成平台架构优化-编程知识

高效处理日均5000亿+数据：58集团基于Apache SeaTunnel的数据集成平台架构优化

news/2025/1/4 5:34:46/文章来源:https://www.cnblogs.com/seatunnel/p/18552539

视频链接：58集团大数据平台基于Apache SeaTunnel的架构演进
https://www.bilibili.com/video/BV19GUPYcEgB/?vd_source=e139ecc995ab936267a7991b9de55f6c

引言

在数字化时代，数据已成为企业最宝贵的资产之一。58集团作为中国领先的生活服务平台，其大数据部在数据集成平台的建设上不断探索与创新。本文将详细介绍58集团基于Apache SeaTunnel的数据集成平台的架构演进、优化策略以及未来规划。

数据集成平台的背景与挑战

业务背景

58集团业务广泛，随着业务的快速发展，来自招聘、房产、二手房、二手市场、本地服务和信息安全等业务领域的数据规模大幅上涨，58集团需要打通不同数据源之间的数据流动和汇聚，实现数据的统一管理、流转和共享。这不仅涉及到数据的收集、分发和存储，还包括离线计算、跨集群同步和用户画像等应用场景。

file

目前，58集团日均处理消息数量达到5000亿+，峰值处理消息数达2000万+，任务数达1600+。处理如此大规模的数据量，58集团面临着巨大的挑战。

file

挑战

在打通不同数据源之间的数据流动和汇聚，实现数据的统一管理、流转和共享的过程中，58集团面临的挑战包括：

高可靠性：确保在各种故障情况下数据不丢失，保障数据一致性和任务的稳定运行。
高吞吐量：处理大规模数据流，实现高并发和大批量数据传输。
低延迟：满足实时数据处理和快速响应的业务需求。
易维护性：简化配置和自动化监控，减轻维护负担，便于快速发现和解决故障，确保系统的长期可用性。

架构演进之路

58集团数据集成平台的架构经历了多次演进，以适应不断变化的业务需求和技术发展。

file

早期架构一览

2017年：使用Flume进行平台集成管理。
2018年：引入Kafka Connect 1.0。
2020年：使用Kafka Connect 2.4版本，实现增量负载均衡和CDC（Change Data Capture）。
2023年：引入Apache SeaTunnel，集成到实时计算平台，扩展各种Source/Sink。

2017年-2018年，58集团数据集成平台采用了Kafka Connect架构，基于Kafka的数据集成，扩展性和分布式处理以横向扩展的方式进行，支持在多节点上运行Worker和Task；Worker故障时自动将任务重新分配到其他Worker，可实现高可用；同时可进行自动化的偏移量管理，以及Rest API的任务和配置管理。

file

然而，随着业务量的扩展和场景多样化，这套架构陷入了瓶颈：

1. 架构限制

做不到端到端的数据集成
2. 协调者的瓶颈问题
心跳超时：worker与协调者之间的心跳超时，会触发任务重新平衡，导致任务暂时中断。
心跳压力： worker与协调者进行心跳同步，协调者跟踪worker状态，管理大量任务的状态元数据。
协调者失败：协调者宕机会影响任务的分配和重新分配，造成任务失败和处理效率下降。
3. 任务重分配 (Rebalance) 的影响
任务暂停和恢复：每次重新分配任务时，会暂停任务，然后重新分配，导致短暂的任务中断。
Rebalance 风暴：如果多个worker节点频繁加入或退出集群，或者因为网络抖动导致心跳超时，
可能会引发频繁的 Rebalance，从而大幅影响任务处理效率，导致延迟。

鉴于这样的缺陷，58集团在2013年引入了Apache SeaTunnel，集成到实时计算平台，实现了自由扩展各种Source/Sink。

当前架构

当前，58集团基于Apache SeaTunnel引擎，将Source数据源（Kafka、Pulsar、WMB、Hive等），经过SeaTunnel自带的Transform功能，Sink到目的数据库（Hive、HDFS、Kafka、pulsar、wmb、MySQL、SR、Redis、HBASE、Wtable、MongoDB等），实现了高效的任务管理、状态管理、任务监控、智能诊断等功能。

平滑迁移和性能调优

平滑迁移

引入Apache SeaTunnel时，58集团需要对数据集成平台进行平滑迁移，以减少对用户或业务的影响，并保证数据的一致性，做到格式一致、路径一致和数据不丢失。

这个目标让58集团面临着挑战，需要应对迁移的成本和风险
，如了解和确认每个任务数据源格式，以及迁移涉及多个步骤，复杂且耗时长。

为此，58集团采取了以下措施：

对于源，增加RawDeserializationSchema，兼容非结构化数据
对于目的地，例如hive使用hdfs sink，兼容分区加载和路径
开发自动迁移工具
- 自动生成任务配置，根据kafka connect配置生成对应的seatunnel任务配置
- 下掉原任务，重置offset，启动新任务
- 验证和检查