在数字化转型的浪潮中,同程旅行作为旅游行业的佼佼者,积极探索大数据技术的应用,以提升数据处理能力和效率。近期,同程旅行在大数据湖仓方面取得了显著进展,特别是在近实时湖仓的场景实践上。本文将基于同程旅行吴祥平的分享,深入分析其湖仓发展历程、架构优化及面临的挑战。
一、湖仓背景介绍
同程旅行的湖仓背景基于大数据处理的需求,主要涉及数据源(Binlog & App Log)、存储(Hdfs)、表格式(Hive)、调度(T + 1)等。在传统的离线数据处理中,Hdfs存储和Spark/MR计算框架占据主导地位。然而,随着业务对实时性要求的提升,基于Kafka\RocketMq的实时链路和OLAP(Greenplum\Clickhouse\Trino)分析逐渐成为主流。
二、湖仓发展历程
同程旅行的湖仓发展经历了从传统离线到近实时的转变。在这个过程中,Apache Hudi和Apache Paimon等技术的引入起到了关键作用。Hudi支持实时更新(Merge on Read)和增量读,极大提升了数据处理的时效性。Paimon则提供了统一元数据管理,简化了数据湖的构建和维护过程。
三、架构优化与挑战
在架构优化方面,同程旅行通过引入Flink流处理框架,实现了分钟级别的数据处理时效。同时,StarRocks的加速查询功能显著提升了OLAP分析的效率。然而,这一过程中也面临诸多挑战,如状态维护、数据膨胀、写入性能等。同程旅行通过优化Flink状态管理、增加并行度、独立Compaction等策略,有效应对了这些挑战。
四、未来规划
展望未来,同程旅行计划在湖仓方面进行更多探索。包括拓宽应用场景至搜索、广告等;进一步抽象计算差异,实现湖仓无缝升级;以及通过Delete Vector等技术加速湖仓查询。
结论
同程旅行的近实时湖仓实践,不仅展示了大数据技术在旅游行业的应用潜力,也为其他行业提供了宝贵的参考。通过不断的技术创新和优化,同程旅行在提升数据处理时效性和效率方面取得了显著成果。未来,随着技术的进一步发展,期待同程旅行在湖仓领域取得更多突破。